Die robots.txt ist eine kleine Textdatei mit großer Wirkung. Sie liegt im Wurzelverzeichnis einer Website und gibt Suchmaschinen-Crawlern Anweisungen: welche Bereiche sie besuchen dürfen, welche nicht. Hier erklärt, was das in der Praxis bedeutet: Falsch konfiguriert, kann sie wichtige Seiten aus dem Google-Index aussperren – ein Fehler der oft erst Wochen oder Monate später auffällt.
Was die robots.txt ist
Die robots.txt ist eine öffentlich zugängliche Textdatei unter ihredomain.de/robots.txt. Jeder kann sie aufrufen. Sie enthält Regeln nach dem Robots Exclusion Protocol – einem informellen Standard dem alle großen Suchmaschinen folgen.
Wichtig: Die robots.txt ist eine Empfehlung, keine Sperre. Seriöse Suchmaschinen halten sich daran – aber sie verhindert nicht, dass eine Seite in den Index aufgenommen wird wenn externe Links darauf zeigen. Dafür ist noindex zuständig.
Die robots.txt verhindert das Crawlen – nicht das Indexieren. Eine Seite die in der robots.txt gesperrt ist, aber von einer anderen Seite verlinkt wird, kann trotzdem im Google-Index erscheinen.
Aufbau einer robots.txt
Eine einfache robots.txt sieht so aus:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://ihredomain.de/sitemap_index.xml
User-agent: Für welchen Crawler gilt die Regel? * gilt für alle. Googlebot gilt nur für Google.
Disallow: Welche Pfade darf der Crawler nicht besuchen? /wp-admin/ sperrt den WordPress-Admin-Bereich.
Allow: Ausnahmen von einer Disallow-Regel. admin-ajax.php muss erreichbar sein da sonst manche WordPress-Funktionen für Google nicht sichtbar sind.
Sitemap: Der Pfad zur XML-Sitemap – Google findet sie dann ohne separaten Eintrag in der Search Console.
Was in die robots.txt gesperrt werden sollte
WordPress-spezifische Bereiche:
/wp-admin/– Admin-Bereich (außer admin-ajax.php)/wp-login.php– Login-Seite
Testseiten und Staging-Umgebungen: Wenn Sie eine Testversion Ihrer Website unter einer Subdomain haben, sollte diese komplett gesperrt sein um Duplicate Content zu vermeiden.
Suchergebnisseiten: Manche Websites haben interne Suchfunktionen. Suchergebnisseiten (/search?q=...) sollten gesperrt werden – sie sind dünner Inhalt und können den Crawl-Aufwand unnötig erhöhen.
Öffnen Sie Ihre robots.txt im Browser: `ihredomain.de/robots.txt`. Ist die Datei vorhanden? Enthält sie nur Regeln die Sie bewusst gesetzt haben? Manchmal fügen Plugins oder Themes automatisch Regeln hinzu die Sie nicht kennen – und die wichtige Seiten sperren.
Häufige Fehler in der robots.txt
Zu viel gesperrt. Manche WordPress-Sicherheitsplugins sperren aus Übervorsicht Bereiche die Google eigentlich sehen muss. Wenn CSS- oder JavaScript-Dateien gesperrt sind, kann Google Ihre Seite nicht korrekt rendern.
Startseite versehentlich gesperrt. Ein Disallow: / sperrt die gesamte Website. Das klingt nach einem offensichtlichen Fehler – aber er passiert, besonders in Entwicklungsphasen.
Staging-Domain nicht gesperrt. Wenn eine Test-Domain nicht per robots.txt gesperrt ist, indexiert Google beide Versionen – Original und Testseite – als Duplicate Content.
Widersprüchliche Regeln. Disallow: / und Allow: /wichtige-seite/ führt zu unklarem Verhalten – die Reihenfolge der Regeln und die Spezifität entscheiden was gilt.
robots.txt und noindex: Der Unterschied
| robots.txt | noindex | |
|---|---|---|
| Was es tut | Verhindert Crawling | Verhindert Indexierung |
| Wo es eingestellt wird | robots.txt Datei | Meta-Tag auf der Seite |
| Verhindert Indexierung? | Nein | Ja |
| Macht Seite für Google unsichtbar? | Crawl ja, Index nein | Index ja |
Wenn Sie eine Seite aus dem Index ausschließen wollen, brauchen Sie noindex – nicht robots.txt. Beides gleichzeitig zu setzen verhindert dass Google das noindex-Tag überhaupt lesen kann.
robots.txt in der Search Console testen
Google stellt in der Search Console einen robots.txt Tester zur Verfügung. Damit können Sie prüfen ob bestimmte URLs korrekt gecrawlt werden dürfen. Nutzen Sie dieses Tool nach jeder Änderung an der robots.txt.