Die robots.txt ist eine der ältesten und einfachsten Methoden, das WordPress-Crawling zu steuern – und gleichzeitig eine der häufigsten Fehlerquellen. In WordPress gibt es die Kombination aus automatisch generierter Datei, Plugin-Überschreibungen und manuellen Anpassungen, die leicht zu Konflikten führt. Dieser Artikel erklärt alles, was Sie über die robots.txt in WordPress wissen müssen.
Wie WordPress die robots.txt generiert
WordPress erstellt die robots.txt nicht als physische Datei auf dem Server (außer wenn Sie eine manuell erstellen). Stattdessen wird sie dynamisch über eine virtuelle URL generiert:
- URL:
https://ihre-domain.de/robots.txt - Wordpress generiert diese Datei über den
do_robotsAction-Hook
Die Standard-robots.txt von WordPress sieht so aus:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://ihre-domain.de/wp-sitemap.xml
Das ist eine sehr minimalistische Datei. Sie schützt nur den Admin-Bereich – alles andere ist crawlbar. Für die meisten Websites ist das eine sinnvolle Grundlage, die aber gezielt erweitert werden sollte.
Physische vs. virtuelle robots.txt
Wenn Sie eine physische Datei robots.txt im Webroot erstellen, überschreibt diese die WordPress-Standarddatei vollständig. WordPress ignoriert dann seinen eigenen do_robots-Hook.
Wann physische Datei sinnvoll ist:
- Wenn Sie volle Kontrolle ohne Plugin-Abhängigkeit wollen
- Wenn die Datei selten geändert wird
- Auf Nginx-Servern (dort keine .htaccess-Alternative)
Wann virtuelle Datei (WordPress-Standard) besser ist:
- Wenn SEO-Plugins wie Yoast oder Rank Math die robots.txt verwalten
- Wenn Multisite verwendet wird (verschiedene robots.txt pro Domain)
Über 60 % aller WordPress-Installationen haben eine suboptimale robots.txt – entweder zu restriktiv (blockiert crawlbare Inhalte) oder zu offen (erlaubt Crawl von Thin Content).
robots.txt per Plugin verwalten
Yoast SEO und Rank Math bieten eigene robots.txt-Editoren:
Yoast SEO: SEO → Werkzeuge → Datei-Editor → robots.txt bearbeiten
Rank Math: Rank Math → Allgemeine Einstellungen → Editoren → robots.txt
Diese Plugins überschreiben die WordPress-Standarddatei über den robots_txt-Filter und fügen ihre Sitemap-URL automatisch ein.
Praxistipp: Wenn Sie sowohl eine physische robots.txt als auch Yoast/Rank Math installiert haben, gewinnt immer die physische Datei. Das ist eine häufige Ursache dafür, dass Plugin-Änderungen in der robots.txt keine Wirkung zeigen. Prüfen Sie zuerst, ob eine physische Datei existiert.
Empfohlene robots.txt für WordPress
Eine optimierte robots.txt für eine typische WordPress-Website:
User-agent: *
# Admin-Bereich schützen
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Technische Dateien
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
# Suchergebnisse – dünner Content
Disallow: /?s=
Disallow: /search/
# Feed-Duplikate reduzieren (optional)
Disallow: /feed/
Disallow: /comments/feed/
# Tracking und interne Weiterleitungen
Disallow: /trackback/
Disallow: /xmlrpc.php
# Sitemap
Sitemap: https://ihre-domain.de/sitemap_index.xml
Wichtig: Allow: /wp-admin/admin-ajax.php ist notwendig, damit AJAX-Anfragen von Frontend-Plugins (z.B. Formulare, Warenkorb) korrekt funktionieren.
WooCommerce: Zusätzliche Regeln
WooCommerce-Installationen brauchen erweiterte robots.txt-Regeln um Thin Content und Duplicate Content zu vermeiden:
# WooCommerce – keine nutzerabhängigen Seiten
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /wishlist/
# WooCommerce – gefilterte Produktseiten (URL-Parameter)
Disallow: /*?orderby=
Disallow: /*?min_price=
Disallow: /*?max_price=
Disallow: /*?filter_
# Paginierung für gefilterte Ansichten
Disallow: /page/
Die Disallow-Regeln für Filter-Parameter verhindern, dass Googlebot unzählige Varianten gefilterter Produktkategorien crawlt und indexiert.
Häufige robots.txt-Fehler in WordPress
Fehler 1: wp-content komplett blocken
# FALSCH – blockiert auch Bilder und Assets
Disallow: /wp-content/
Das verhindert, dass Googlebot Bilder in /wp-content/uploads/ crawlt. Bilder sind für Image-Search und allgemeine Rankings relevant. Korrektur: nur /wp-content/plugins/ und /wp-content/themes/ blockieren, nicht den gesamten Ordner.
Fehler 2: Crawling aktiviert, aber Indexierung deaktiviert (Widerspruch)
Manche Websites erlauben den Crawl in der robots.txt, sagen aber gleichzeitig noindex im HTML. Das ist technisch kein Fehler – Google crawlt die Seite, ignoriert dann aber das Noindex-Signal. Besser: Konsistenz zwischen robots.txt und Noindex-Direktiven.
Fehler 3: Sitemap-URL falsch oder nicht angegeben
Die robots.txt sollte immer auf die korrekte Sitemap-URL verweisen. Bei Yoast SEO ist das oft /sitemap_index.xml, bei Rank Math /sitemap.xml, bei der nativen WordPress-Sitemap /wp-sitemap.xml.
Fehler 4: User-agent Wildcards falsch
# FALSCH – kein Leerzeichen nach User-agent
User-agent:*
Das korrekte Format hat ein Leerzeichen: User-agent: *
Websites mit korrekt konfigurierter robots.txt haben im Schnitt 15 % niedrigere Crawl-Kosten und 12 % kürzere Re-Crawl-Zyklen für wichtige Seiten.
robots.txt manuell via functions.php anpassen
Falls Sie die robots.txt ohne Plugin anpassen wollen:
// In functions.php
add_filter('robots_txt', function($output, $public) {
$output .= "\n# Suchergebnisse\n";
$output .= "Disallow: /?s=\n";
$output .= "\n# WooCommerce\n";
$output .= "Disallow: /cart/\n";
$output .= "Disallow: /checkout/\n";
return $output;
}, 10, 2);
Dieser Filter hängt zusätzliche Zeilen an die WordPress-Standard-robots.txt an, ohne die Grundstruktur zu überschreiben.
Testing: robots.txt auf Fehler prüfen
Google Search Console: Einstellungen → robots.txt (zeigt die zuletzt gecrawlte Version und Warnungen)
URL-Inspection-Tool: Einzelne URLs in der Google Search Console auf Crawl-Blockaden prüfen.
Direkte Prüfung:
https://ihre-domain.de/robots.txt im Browser aufrufen – was Sie sehen, sieht auch Googlebot.
Online-Tools:
- Technical SEO robots.txt Tester
- Screaming Frog (robots.txt Analyse im Crawl)
robots.txt blockiert nicht das Indexieren: Eine in der robots.txt geblockte URL kann trotzdem in den Suchergebnissen erscheinen – zum Beispiel wenn andere Seiten darauf verlinken. robots.txt verhindert das Crawlen, nicht das Indexieren. Für echtes Noindex benötigen Sie den noindex-Meta-Tag oder den X-Robots-Tag-Header – und Google muss die Seite dafür crawlen können.