Die robots.txt ist eine der ältesten und einfachsten Methoden, das WordPress-Crawling zu steuern – und gleichzeitig eine der häufigsten Fehlerquellen. In WordPress gibt es die Kombination aus automatisch generierter Datei, Plugin-Überschreibungen und manuellen Anpassungen, die leicht zu Konflikten führt. Dieser Artikel erklärt alles, was Sie über die robots.txt in WordPress wissen müssen.

Wie WordPress die robots.txt generiert

WordPress erstellt die robots.txt nicht als physische Datei auf dem Server (außer wenn Sie eine manuell erstellen). Stattdessen wird sie dynamisch über eine virtuelle URL generiert:

URL: https://ihre-domain.de/robots.txt
Wordpress generiert diese Datei über den do_robots Action-Hook

Die Standard-robots.txt von WordPress sieht so aus:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://ihre-domain.de/wp-sitemap.xml

Das ist eine sehr minimalistische Datei. Sie schützt nur den Admin-Bereich – alles andere ist crawlbar. Für die meisten Websites ist das eine sinnvolle Grundlage, die aber gezielt erweitert werden sollte.

Physische vs. virtuelle robots.txt

Wenn Sie eine physische Datei robots.txt im Webroot erstellen, überschreibt diese die WordPress-Standarddatei vollständig. WordPress ignoriert dann seinen eigenen do_robots-Hook.

Wann physische Datei sinnvoll ist:

Wenn Sie volle Kontrolle ohne Plugin-Abhängigkeit wollen
Wenn die Datei selten geändert wird
Auf Nginx-Servern (dort keine .htaccess-Alternative)

Wann virtuelle Datei (WordPress-Standard) besser ist:

Wenn SEO-Plugins wie Yoast oder Rank Math die robots.txt verwalten
Wenn Multisite verwendet wird (verschiedene robots.txt pro Domain)

Über 60 % aller WordPress-Installationen haben eine suboptimale robots.txt – entweder zu restriktiv (blockiert crawlbare Inhalte) oder zu offen (erlaubt Crawl von Thin Content).

robots.txt per Plugin verwalten

Yoast SEO und Rank Math bieten eigene robots.txt-Editoren:

Yoast SEO: SEO → Werkzeuge → Datei-Editor → robots.txt bearbeiten

Rank Math: Rank Math → Allgemeine Einstellungen → Editoren → robots.txt

Diese Plugins überschreiben die WordPress-Standarddatei über den robots_txt-Filter und fügen ihre Sitemap-URL automatisch ein.

Praxistipp: Wenn Sie sowohl eine physische robots.txt als auch Yoast/Rank Math installiert haben, gewinnt immer die physische Datei. Das ist eine häufige Ursache dafür, dass Plugin-Änderungen in der robots.txt keine Wirkung zeigen. Prüfen Sie zuerst, ob eine physische Datei existiert.

Empfohlene robots.txt für WordPress

Eine optimierte robots.txt für eine typische WordPress-Website:

User-agent: *

# Admin-Bereich schützen
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

# Technische Dateien
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/

# Suchergebnisse – dünner Content
Disallow: /?s=
Disallow: /search/

# Feed-Duplikate reduzieren (optional)
Disallow: /feed/
Disallow: /comments/feed/

# Tracking und interne Weiterleitungen
Disallow: /trackback/
Disallow: /xmlrpc.php

# Sitemap
Sitemap: https://ihre-domain.de/sitemap_index.xml

Wichtig: Allow: /wp-admin/admin-ajax.php ist notwendig, damit AJAX-Anfragen von Frontend-Plugins (z.B. Formulare, Warenkorb) korrekt funktionieren.

WooCommerce: Zusätzliche Regeln

WooCommerce-Installationen brauchen erweiterte robots.txt-Regeln um Thin Content und Duplicate Content zu vermeiden:

# WooCommerce – keine nutzerabhängigen Seiten
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /wishlist/

# WooCommerce – gefilterte Produktseiten (URL-Parameter)
Disallow: /*?orderby=
Disallow: /*?min_price=
Disallow: /*?max_price=
Disallow: /*?filter_

# Paginierung für gefilterte Ansichten
Disallow: /page/

Die Disallow-Regeln für Filter-Parameter verhindern, dass Googlebot unzählige Varianten gefilterter Produktkategorien crawlt und indexiert.

Häufige robots.txt-Fehler in WordPress

Fehler 1: wp-content komplett blocken

# FALSCH – blockiert auch Bilder und Assets
Disallow: /wp-content/

Das verhindert, dass Googlebot Bilder in /wp-content/uploads/ crawlt. Bilder sind für Image-Search und allgemeine Rankings relevant. Korrektur: nur /wp-content/plugins/ und /wp-content/themes/ blockieren, nicht den gesamten Ordner.

Fehler 2: Crawling aktiviert, aber Indexierung deaktiviert (Widerspruch)

Manche Websites erlauben den Crawl in der robots.txt, sagen aber gleichzeitig noindex im HTML. Das ist technisch kein Fehler – Google crawlt die Seite, ignoriert dann aber das Noindex-Signal. Besser: Konsistenz zwischen robots.txt und Noindex-Direktiven.

Fehler 3: Sitemap-URL falsch oder nicht angegeben

Die robots.txt sollte immer auf die korrekte Sitemap-URL verweisen. Bei Yoast SEO ist das oft /sitemap_index.xml, bei Rank Math /sitemap.xml, bei der nativen WordPress-Sitemap /wp-sitemap.xml.

Fehler 4: User-agent Wildcards falsch

# FALSCH – kein Leerzeichen nach User-agent
User-agent:*

Das korrekte Format hat ein Leerzeichen: User-agent: *

Websites mit korrekt konfigurierter robots.txt haben im Schnitt 15 % niedrigere Crawl-Kosten und 12 % kürzere Re-Crawl-Zyklen für wichtige Seiten.

robots.txt manuell via functions.php anpassen

Falls Sie die robots.txt ohne Plugin anpassen wollen:

// In functions.php
add_filter('robots_txt', function($output, $public) {
    $output .= "\n# Suchergebnisse\n";
    $output .= "Disallow: /?s=\n";
    $output .= "\n# WooCommerce\n";
    $output .= "Disallow: /cart/\n";
    $output .= "Disallow: /checkout/\n";
    return $output;
}, 10, 2);

Dieser Filter hängt zusätzliche Zeilen an die WordPress-Standard-robots.txt an, ohne die Grundstruktur zu überschreiben.

Testing: robots.txt auf Fehler prüfen

Google Search Console: Einstellungen → robots.txt (zeigt die zuletzt gecrawlte Version und Warnungen)

URL-Inspection-Tool: Einzelne URLs in der Google Search Console auf Crawl-Blockaden prüfen.

Direkte Prüfung: https://ihre-domain.de/robots.txt im Browser aufrufen – was Sie sehen, sieht auch Googlebot.

Online-Tools:

Technical SEO robots.txt Tester
Screaming Frog (robots.txt Analyse im Crawl)

robots.txt blockiert nicht das Indexieren: Eine in der robots.txt geblockte URL kann trotzdem in den Suchergebnissen erscheinen – zum Beispiel wenn andere Seiten darauf verlinken. robots.txt verhindert das Crawlen, nicht das Indexieren. Für echtes Noindex benötigen Sie den noindex-Meta-Tag oder den X-Robots-Tag-Header – und Google muss die Seite dafür crawlen können.

WordPress Crawling steuern: robots.txt & noindex

Wie WordPress die robots.txt generiert

Physische vs. virtuelle robots.txt

robots.txt per Plugin verwalten

Empfohlene robots.txt für WordPress

WooCommerce: Zusätzliche Regeln

Häufige robots.txt-Fehler in WordPress

robots.txt manuell via functions.php anpassen

Testing: robots.txt auf Fehler prüfen

Weitere Artikel zu WordPress SEO

Duplicate Content in WordPress vermeiden

WordPress Bilder für SEO optimieren

WordPress Sitemap erstellen und bei Google einreichen