Robots.txt

Ausführliche Erklärung

Was ist Robots.txt?

Die robots.txt verwendet einfache Direktiven: User-agent (welcher Bot), Disallow (welche Pfade nicht crawlen), Allow (Ausnahmen) und Sitemap. Sie ist ein Crawling-Hinweis — keine Sicherheits- oder Indexierungs-Kontrolle. Wenn andere Seiten auf eine geblockte URL verlinken, kann sie trotzdem indexiert werden (ohne Snippet). Für echte Indexierungs-Kontrolle nutzt man <meta name="robots" content="noindex">. Ein einziger Fehler in der robots.txt kann eine ganze Website von Google sperren — also vorsichtig testen.

Beispiel aus der Praxis

Disallow: /admin/ verhindert das Crawlen des Admin-Bereichs. Disallow: /?s= blockiert interne Suchergebnis-Seiten, die sonst Duplicate Content erzeugen würden.

Typische Fehler im Umgang mit Robots.txt

Disallow: / — sperrt die ganze Site (häufiger Fehler bei Staging-Upload)
JavaScript- oder CSS-Dateien geblockt (verhindert korrektes Rendering durch Googlebot)
Sensible Daten via Disallow „schützen" wollen (URLs bleiben öffentlich sichtbar)
Keine Sitemap-Referenz

Häufige Fragen zu Robots.txt

Verhindert robots.txt zuverlässig die Indexierung?

Nein. robots.txt steuert das Crawling, nicht die Indexierung. Eine via Disallow gesperrte URL kann trotzdem in den Index gelangen, wenn andere Seiten darauf verlinken. Für sichere Ausschlüsse: noindex-Meta-Tag.

Wo gehört die robots.txt hin?

Immer im Root der Domain: https://example.com/robots.txt. In Unterverzeichnissen wird sie ignoriert.

Was ist Crawl-Delay und nutzt das Google?

Crawl-Delay ist eine Direktive für die Zeit zwischen Crawl-Requests in Sekunden. Google ignoriert sie — Bing und Yandex respektieren sie.

Was ist Robots.txt?

Typische Fehler im Umgang mit Robots.txt

Passende SEO-Tools von Munich SEO

Häufige Fragen zu Robots.txt

SEO ist Strategie, kein Glücksspiel