Server-Log-Dateien sind das direkteste Fenster in das Crawling-Verhalten von Suchmaschinen. Während die Google Search Console nur eine gefilterte Sicht bietet, zeigt die Log-File-Analyse exakt, was Crawler wirklich tun: welche URLs Googlebot besucht, wie oft, wann – und welche URLs komplett ignoriert werden. Für fortgeschrittenes technisches SEO ist diese Analyse unverzichtbar.
Was Logdateien zeigen
Jede Anfrage an Ihren Webserver wird in der Access-Log-Datei aufgezeichnet. Eine typische Log-Zeile sieht so aus:
66.249.68.1 - - [15/Jan/2025:10:23:41 +0100] "GET /blog/seo-grundlagen/ HTTP/1.1" 200 45231 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Diese Zeile enthält:
- IP-Adresse:
66.249.68.1(Googlebot-IP-Bereich) - Timestamp:
15/Jan/2025:10:23:41 - Angefragte URL:
/blog/seo-grundlagen/ - HTTP-Methode:
GET - HTTP-Statuscode:
200(erfolgreich) - Response-Größe:
45231Bytes - User Agent: Googlebot-Identifikation
Aus diesen Daten lassen sich tiefgehende Analysen ableiten.
Warum Log-Analyse für SEO wichtig ist
Crawl-Budget-Probleme erkennen: Wenn Googlebot Zeit damit verbringt, unwichtige URLs zu crawlen (Filterkombinationen, Session-IDs, Parameter-Varianten), bleibt weniger Budget für wichtige Seiten. Logdateien zeigen exakt, welche URLs gecrawlt werden.
Indexierungsprobleme diagnostizieren: Wenn wichtige Seiten nicht ranken, obwohl sie technisch korrekt sind, kann die Ursache im Crawling liegen. Werden sie überhaupt von Googlebot besucht?
Redirect-Verhalten verifizieren: Werden 301-Weiterleitungen korrekt befolgt? Gibt es Redirect-Ketten, die Crawl-Budget verschwenden?
Crawling-Frequenz einschätzen: Wie oft crawlt Googlebot Ihre wichtigsten Seiten? Täglich, wöchentlich, monatlich? Das gibt Hinweise auf die wahrgenommene Relevanz.
Websites, die auf Basis einer Log-Datei-Analyse ihr Crawl-Budget optimieren (nicht-indexierbare URLs blockieren, Redirect-Ketten eliminieren), sehen Googlebot-Besuche auf wichtigen Seiten im Schnitt 40 % häufiger danach.
Logdateien finden und exportieren
Wo liegen die Logs:
- Apache:
/var/log/apache2/access.logoder/var/log/httpd/access.log - Nginx:
/var/log/nginx/access.log - Hosting-Panel: In cPanel unter „Logs” → „Access Logs”, in Plesk unter „Statistiken” → „Protokolldateien”
Managed Hosting: Bei Anbietern wie Raidboxes, Kinsta oder WP Engine über das Dashboard oder SSH zugänglich.
Export-Format: Die rohen Log-Dateien sind oft komprimiert (.log.gz). Entpacken mit gunzip logfile.log.gz. Für längere Analyse-Zeiträume mehrere Log-Dateien zusammenführen.
Logdateien analysieren: Tools
Screaming Frog Log Analyser
Das benutzerfreundlichste Tool für Log-Analysen. Importiert Logdateien und visualisiert:
- Crawling-Häufigkeit pro URL
- Statuscode-Verteilung für gecrawlte URLs
- Crawling-Aktivität über Zeit
- Top gecrawlte URLs vs. ignorierte URLs
Kostenlos bis 1.000 Log-Zeilen, bezahlte Version für größere Logs.
ELK-Stack (Elasticsearch, Logstash, Kibana)
Für große Websites mit Millionen von Log-Einträgen. Professionelle Lösung mit voller Flexibilität, aber aufwendige Einrichtung.
Manuell mit Unix-Tools
Für Entwickler, die auf einem Server arbeiten:
# Alle Googlebot-Anfragen filtern
grep "Googlebot" access.log > googlebot.log
# Häufigsten gecrawlten URLs
grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head 20
# Statuscodes für Googlebot
grep "Googlebot" access.log | awk '{print $9}' | sort | uniq -c | sort -rn
# Gecrawlte URLs mit 404-Status
grep "Googlebot" access.log | awk '$9 == "404" {print $7}' | sort | uniq -c | sort -rn
Praxistipp: Für die meisten SEOs ist der Screaming Frog Log Analyser die beste Balance aus Benutzerfreundlichkeit und Tiefe. Bei einer kostenlosen Testperiode können Sie schnell sehen, ob Log-Analyse für Ihre Website relevante Probleme aufdeckt.
Was Sie in der Analyse suchen
1. Crawl-Budget-Verschwender: URLs die häufig gecrawlt werden, aber nicht indexiert werden sollten:
- Parameter-URLs (
?page=2,?filter=rot,?session=abc123) - Pagination-Seiten jenseits Seite 2–3
- Duplicate URLs (mit und ohne Trailing Slash, mit und ohne www)
- Adminbereiche, Login-Seiten
Lösung: Diese URLs in robots.txt disallowen oder mit noindex versehen.
-
Wichtige Seiten die zu selten gecrawlt werden: Wenn Ihre wichtigsten Seiten (Kategorie-Seiten, Pillar-Content) nur monatlich gecrawlt werden, während Filterkombinationen täglich gecrawlt werden – dann stimmt die Crawl-Budget-Verteilung nicht.
-
404-Fehler für Googlebot: Welche URLs versucht Googlebot zu besuchen, die aber 404 zurückgeben? Das sind oft gelöschte Seiten mit externen Backlinks oder fehlerhafte interne Links.
-
5xx-Fehler: Server-Fehler (500, 503) die Googlebot sieht, können kurzfristig zum Ranking-Verlust führen. Log-Analyse zeigt, ob und wann solche Fehler auftreten.
-
Redirect-Ketten: Wenn URL A auf URL B weiterleitet, die auf URL C weiterleitet – das ist eine Redirect-Kette. Jede Weiterleitung kostet Crawl-Budget und Link-Juice. Logdateien zeigen, ob Googlebot solche Ketten folgt.
Crawl-Budget optimieren auf Basis der Analyse
Nach der Analyse sind typische Maßnahmen:
robots.txt erweitern:
User-agent: Googlebot
Disallow: /wp-admin/
Disallow: /*?* # alle Parameter-URLs
Disallow: /search/ # Suchergebnisseiten
Disallow: /cart/ # WooCommerce-Warenkorb
Canonical-Tags ergänzen: Für Seiten mit Parameter-Varianten, die gecrawlt werden sollten (wegen Ajax oder ähnlichem), aber auf die kanonische URL verweisen.
Interne Verlinkung verbessern: Wichtige Seiten, die selten gecrawlt werden, prominenter intern verlinken.
Redirect-Ketten auflösen: Direkte 301-Weiterleitungen von Quelle zu finaler Ziel-URL einrichten, alle Zwischenstationen eliminieren.
Googlebot vs. andere Crawler: In den Logdateien finden Sie nicht nur Googlebot, sondern auch Bingbot, DuckDuckBot, verschiedene SEO-Tools (Ahrefs, Semrush haben eigene Crawler) und illegitime Bots. Für SEO-Analyse filtern Sie auf Googlebot (User-Agent enthält „Googlebot”). IP-Verifizierung ist möglich: Googles offizielle IPs unter developers.google.com/search/docs/crawling-indexing/verifying-googlebot.