SEOFX – SEO Agentur Nürnberg
Technisches SEO

Log-File-Analyse für SEO: Was Crawler wirklich tun

5 Min. Lesezeit

Server-Log-Dateien sind das direkteste Fenster in das Crawling-Verhalten von Suchmaschinen. Während die Google Search Console nur eine gefilterte Sicht bietet, zeigt die Log-File-Analyse exakt, was Crawler wirklich tun: welche URLs Googlebot besucht, wie oft, wann – und welche URLs komplett ignoriert werden. Für fortgeschrittenes technisches SEO ist diese Analyse unverzichtbar.

Was Logdateien zeigen

Jede Anfrage an Ihren Webserver wird in der Access-Log-Datei aufgezeichnet. Eine typische Log-Zeile sieht so aus:

66.249.68.1 - - [15/Jan/2025:10:23:41 +0100] "GET /blog/seo-grundlagen/ HTTP/1.1" 200 45231 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Diese Zeile enthält:

  • IP-Adresse: 66.249.68.1 (Googlebot-IP-Bereich)
  • Timestamp: 15/Jan/2025:10:23:41
  • Angefragte URL: /blog/seo-grundlagen/
  • HTTP-Methode: GET
  • HTTP-Statuscode: 200 (erfolgreich)
  • Response-Größe: 45231 Bytes
  • User Agent: Googlebot-Identifikation

Aus diesen Daten lassen sich tiefgehende Analysen ableiten.

Warum Log-Analyse für SEO wichtig ist

Crawl-Budget-Probleme erkennen: Wenn Googlebot Zeit damit verbringt, unwichtige URLs zu crawlen (Filterkombinationen, Session-IDs, Parameter-Varianten), bleibt weniger Budget für wichtige Seiten. Logdateien zeigen exakt, welche URLs gecrawlt werden.

Indexierungsprobleme diagnostizieren: Wenn wichtige Seiten nicht ranken, obwohl sie technisch korrekt sind, kann die Ursache im Crawling liegen. Werden sie überhaupt von Googlebot besucht?

Redirect-Verhalten verifizieren: Werden 301-Weiterleitungen korrekt befolgt? Gibt es Redirect-Ketten, die Crawl-Budget verschwenden?

Crawling-Frequenz einschätzen: Wie oft crawlt Googlebot Ihre wichtigsten Seiten? Täglich, wöchentlich, monatlich? Das gibt Hinweise auf die wahrgenommene Relevanz.

Websites, die auf Basis einer Log-Datei-Analyse ihr Crawl-Budget optimieren (nicht-indexierbare URLs blockieren, Redirect-Ketten eliminieren), sehen Googlebot-Besuche auf wichtigen Seiten im Schnitt 40 % häufiger danach.

Logdateien finden und exportieren

Wo liegen die Logs:

  • Apache: /var/log/apache2/access.log oder /var/log/httpd/access.log
  • Nginx: /var/log/nginx/access.log
  • Hosting-Panel: In cPanel unter „Logs” → „Access Logs”, in Plesk unter „Statistiken” → „Protokolldateien”

Managed Hosting: Bei Anbietern wie Raidboxes, Kinsta oder WP Engine über das Dashboard oder SSH zugänglich.

Export-Format: Die rohen Log-Dateien sind oft komprimiert (.log.gz). Entpacken mit gunzip logfile.log.gz. Für längere Analyse-Zeiträume mehrere Log-Dateien zusammenführen.

Logdateien analysieren: Tools

Screaming Frog Log Analyser

Das benutzerfreundlichste Tool für Log-Analysen. Importiert Logdateien und visualisiert:

  • Crawling-Häufigkeit pro URL
  • Statuscode-Verteilung für gecrawlte URLs
  • Crawling-Aktivität über Zeit
  • Top gecrawlte URLs vs. ignorierte URLs

Kostenlos bis 1.000 Log-Zeilen, bezahlte Version für größere Logs.

ELK-Stack (Elasticsearch, Logstash, Kibana)

Für große Websites mit Millionen von Log-Einträgen. Professionelle Lösung mit voller Flexibilität, aber aufwendige Einrichtung.

Manuell mit Unix-Tools

Für Entwickler, die auf einem Server arbeiten:

# Alle Googlebot-Anfragen filtern
grep "Googlebot" access.log > googlebot.log

# Häufigsten gecrawlten URLs
grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head 20

# Statuscodes für Googlebot
grep "Googlebot" access.log | awk '{print $9}' | sort | uniq -c | sort -rn

# Gecrawlte URLs mit 404-Status
grep "Googlebot" access.log | awk '$9 == "404" {print $7}' | sort | uniq -c | sort -rn

Praxistipp: Für die meisten SEOs ist der Screaming Frog Log Analyser die beste Balance aus Benutzerfreundlichkeit und Tiefe. Bei einer kostenlosen Testperiode können Sie schnell sehen, ob Log-Analyse für Ihre Website relevante Probleme aufdeckt.

Was Sie in der Analyse suchen

1. Crawl-Budget-Verschwender: URLs die häufig gecrawlt werden, aber nicht indexiert werden sollten:

  • Parameter-URLs (?page=2, ?filter=rot, ?session=abc123)
  • Pagination-Seiten jenseits Seite 2–3
  • Duplicate URLs (mit und ohne Trailing Slash, mit und ohne www)
  • Adminbereiche, Login-Seiten

Lösung: Diese URLs in robots.txt disallowen oder mit noindex versehen.

  1. Wichtige Seiten die zu selten gecrawlt werden: Wenn Ihre wichtigsten Seiten (Kategorie-Seiten, Pillar-Content) nur monatlich gecrawlt werden, während Filterkombinationen täglich gecrawlt werden – dann stimmt die Crawl-Budget-Verteilung nicht.

  2. 404-Fehler für Googlebot: Welche URLs versucht Googlebot zu besuchen, die aber 404 zurückgeben? Das sind oft gelöschte Seiten mit externen Backlinks oder fehlerhafte interne Links.

  3. 5xx-Fehler: Server-Fehler (500, 503) die Googlebot sieht, können kurzfristig zum Ranking-Verlust führen. Log-Analyse zeigt, ob und wann solche Fehler auftreten.

  4. Redirect-Ketten: Wenn URL A auf URL B weiterleitet, die auf URL C weiterleitet – das ist eine Redirect-Kette. Jede Weiterleitung kostet Crawl-Budget und Link-Juice. Logdateien zeigen, ob Googlebot solche Ketten folgt.

Crawl-Budget optimieren auf Basis der Analyse

Nach der Analyse sind typische Maßnahmen:

robots.txt erweitern:

User-agent: Googlebot
Disallow: /wp-admin/
Disallow: /*?*              # alle Parameter-URLs
Disallow: /search/          # Suchergebnisseiten
Disallow: /cart/            # WooCommerce-Warenkorb

Canonical-Tags ergänzen: Für Seiten mit Parameter-Varianten, die gecrawlt werden sollten (wegen Ajax oder ähnlichem), aber auf die kanonische URL verweisen.

Interne Verlinkung verbessern: Wichtige Seiten, die selten gecrawlt werden, prominenter intern verlinken.

Redirect-Ketten auflösen: Direkte 301-Weiterleitungen von Quelle zu finaler Ziel-URL einrichten, alle Zwischenstationen eliminieren.

Googlebot vs. andere Crawler: In den Logdateien finden Sie nicht nur Googlebot, sondern auch Bingbot, DuckDuckBot, verschiedene SEO-Tools (Ahrefs, Semrush haben eigene Crawler) und illegitime Bots. Für SEO-Analyse filtern Sie auf Googlebot (User-Agent enthält „Googlebot”). IP-Verifizierung ist möglich: Googles offizielle IPs unter developers.google.com/search/docs/crawling-indexing/verifying-googlebot.

Crawl-Budget Ihrer Website analysieren?

Wir analysieren Server-Logdateien, identifizieren Crawl-Budget-Probleme und optimieren, wie Googlebot Ihre Website crawlt – für bessere Indexierung wichtiger Seiten.

Technisches SEO anfragen

Weitere Artikel zu Technisches SEO