Was ist Robots.txt?
Die robots.txt verwendet einfache Direktiven: User-agent (welcher Bot), Disallow (welche Pfade nicht crawlen), Allow (Ausnahmen) und Sitemap. Sie ist ein Crawling-Hinweis — keine Sicherheits- oder Indexierungs-Kontrolle. Wenn andere Seiten auf eine geblockte URL verlinken, kann sie trotzdem indexiert werden (ohne Snippet). Für echte Indexierungs-Kontrolle nutzt man <meta name="robots" content="noindex">. Ein einziger Fehler in der robots.txt kann eine ganze Website von Google sperren — also vorsichtig testen.
Disallow: /admin/ verhindert das Crawlen des Admin-Bereichs. Disallow: /?s= blockiert interne Suchergebnis-Seiten, die sonst Duplicate Content erzeugen würden.
Typische Fehler im Umgang mit Robots.txt
- Disallow: / — sperrt die ganze Site (häufiger Fehler bei Staging-Upload)
- JavaScript- oder CSS-Dateien geblockt (verhindert korrektes Rendering durch Googlebot)
- Sensible Daten via Disallow „schützen" wollen (URLs bleiben öffentlich sichtbar)
- Keine Sitemap-Referenz