Zum Hauptinhalt springen
Technisches SEO

Logfile-Analyse fuer SEO: Was Crawler wirklich tun

01. Juni 2026 · 10 Min. Lesezeit

Eine Logfile-Analyse zeigt Ihnen schwarz auf weiß, welche Seiten Googlebot tatsächlich besucht, wie oft und in welcher Reihenfolge. Anders als jedes SEO-Tool, das Crawler-Verhalten nur schätzt, lesen Sie hier die echten Zugriffe aus den Server-Protokollen Ihrer Website. Genau das macht Logfiles zum verlässlichsten Datensatz, den Sie über das Verhalten von Suchmaschinen besitzen.

Wer wissen will, ob Google die wichtigen Seiten crawlt oder das Budget an Filter-URLs und 404-Fehlern verschwendet, kommt an einer Logfile-Analyse nicht vorbei. Dieser Artikel zeigt Ihnen Schritt fuer Schritt, was in einem Logfile steht, wo Sie es finden, wie Sie die Googlebot-Verteilung lesen und welche konkreten Erkenntnisse Sie fuer Ihr Crawl-Budget gewinnen.

Warum Logfiles der unterschaetzte SEO-Datenschatz sind

Die meisten SEO-Verantwortlichen arbeiten mit der Google Search Console, mit Screaming Frog oder mit Ahrefs. Das sind gute Werkzeuge, aber sie alle haben eine Schwaeche: Sie zeigen, was crawlbar waere oder was Google laut Search Console gemeldet hat. Sie zeigen nicht, was der Bot in den letzten 30 Tagen wirklich getan hat.

Genau diese Luecke schliesst das Logfile. Jeder einzelne Zugriff auf Ihren Server - egal ob durch einen Besucher, Googlebot oder einen anderen Crawler - wird mit Zeitstempel, URL, Statuscode und User-Agent protokolliert. Das ist die einzige Quelle, die nicht schaetzt, sondern dokumentiert.

In der Praxis zeigt sich der Wert sofort. Bei einem Kunden im E-Commerce-Bereich haben wir gesehen, dass 62 % des Crawl-Budgets auf parametrisierte Filter-URLs entfiel, die gar nicht indexiert werden sollten. Die wichtigen Kategorieseiten wurden dagegen nur alle paar Wochen besucht. Ohne Logfile-Analyse waere dieses Leck nie aufgefallen - in der Search Console sah alles unauffaellig aus.

Die Search Console liefert zwar einen Crawling-Statistik-Bericht, aber dieser ist aggregiert und auf 90 Tage begrenzt. Welche einzelne URL wann besucht wurde, erfahren Sie dort nicht. Das rohe Logfile dagegen kennt jede Anfrage.

Hinzu kommt: Googlebot ist nicht der einzige Crawler, der Sie besucht. Bingbot, der GPTBot von OpenAI, ClaudeBot, PerplexityBot und Dutzende weniger bekannte Bots klopfen taeglich an. Im Logfile sehen Sie genau, wer wie oft vorbeischaut. Gerade fuer die wachsende KI-Sichtbarkeit ist das ein wertvolles Fruehwarnsystem - lange bevor irgendein Standard-Tool diese Zugriffe abbildet.

Was in einem Server-Logfile steht

Ein Logfile ist eine simple Textdatei, in der der Webserver jede Anfrage in einer Zeile festhaelt. Das Standardformat (Combined Log Format bei Apache, aehnlich bei Nginx) sieht in etwa so aus:

66.249.66.1 - - [01/Jun/2026:08:14:22 +0000] "GET /seo-audit-nuernberg/ HTTP/1.1" 200 18342 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Diese eine Zeile enthaelt alles, was Sie fuer SEO brauchen:

  • IP-Adresse. Hier 66.249.66.1 - ein Bereich, der zu Google gehoert. Wichtig, um echte Bots von gefaelschten User-Agents zu unterscheiden.
  • Zeitstempel. Datum und Uhrzeit des Zugriffs, inklusive Zeitzone. So sehen Sie die Crawl-Frequenz pro Tag.
  • Methode und URL. GET /seo-audit-nuernberg/ - welche Seite wurde wie abgerufen.
  • Statuscode. Hier 200 (erfolgreich). 301, 404 oder 500 verraten Weiterleitungen, Fehler und Serverprobleme.
  • Antwortgroesse. 18342 Bytes - hilft, ungewoehnlich grosse oder leere Antworten zu erkennen.
  • User-Agent. Der Identifikationsstring, hier Googlebot. Daran erkennen Sie, welcher Crawler unterwegs war.

Sie brauchen kein Programmierwissen, um das zu verstehen. Wer den Aufbau einer Zeile einmal verinnerlicht hat, kann ein Logfile lesen wie eine Tabelle. Die Kunst liegt nicht im Entziffern einzelner Zeilen, sondern im Aggregieren von Millionen davon.

Wo Sie Ihre Logfiles finden

Bevor Sie analysieren koennen, brauchen Sie die Rohdaten. Wo diese liegen, haengt von Ihrem Hosting ab. Hier die haeufigsten Faelle:

  • Apache (klassisches Webhosting). Die Logs liegen meist unter /var/log/apache2/access.log oder im Verzeichnis logs/ Ihres Webspace. Bei Shared Hosting finden Sie sie oft im Kundenmenue unter "Logfiles" oder "Statistiken".
  • Nginx. Standardpfad ist /var/log/nginx/access.log. Auf vielen vServern und Cloud-Setups ist Nginx der Standard.
  • Cloudways. Im Plattform-Dashboard unter "Application Management" finden Sie pro Anwendung Zugriff auf die Access-Logs, teilweise auch per SSH oder SFTP.
  • all-inkl. Im KAS (Kunden-Administrations-System) lassen sich Logfiles aktivieren und herunterladen. Sie liegen dann komprimiert pro Tag bereit.

Ein wichtiger Punkt vorweg: Aktivieren Sie die Logspeicherung rechtzeitig. Viele Hoster loeschen Logs nach wenigen Tagen oder schreiben sie gar nicht erst auf die Platte. Fuer eine aussagekraeftige Analyse brauchen Sie mindestens 30, besser 90 Tage am Stueck.

Praxis-Tipp: Pruefen Sie heute, ob Ihr Hoster die Access-Logs ueberhaupt aufbewahrt - und wie lange. Wenn Sie erst bei Bedarf danach suchen, sind die spannenden Crawl-Daten oft schon geloescht.

Steht hinter Ihrer Seite ein CDN wie Cloudflare, gibt es eine Tuecke: Ein Teil der Anfragen wird vom CDN beantwortet und erreicht den Ursprungsserver nie. Fuer eine vollstaendige Sicht brauchen Sie dann die CDN-Logs zusaetzlich zu den Server-Logs.

Echte Googlebot-Zugriffe von Faelschungen trennen

Ein User-Agent laesst sich faelschen. Jeder kann sich als Googlebot ausgeben - Spam-Bots tun das staendig, um Schutzmechanismen zu umgehen. Bevor Sie also Crawl-Verteilungen interpretieren, muessen Sie sicherstellen, dass es wirklich Google war.

Die zuverlaessige Methode ist die Reverse-DNS-Pruefung. Sie loesen die IP-Adresse zurueck in einen Hostnamen auf. Echter Googlebot stammt immer aus Domains wie googlebot.com oder google.com. Eine IP, die sich als Googlebot ausgibt, aber zu einem Hosting-Anbieter in einem anderen Land aufloest, ist eine Faelschung und gehoert herausgefiltert.

Google veroeffentlicht ausserdem die offiziellen IP-Bereiche seiner Crawler als JSON-Datei. Gute Log-Analyse-Tools nehmen diese Verifizierung automatisch vor, sodass Sie sich auf saubere Daten verlassen koennen.

Warum das so wichtig ist: Rechnen Sie gefaelschte Bots in Ihre Crawl-Statistik mit ein, ziehen Sie falsche Schluesse. Sie glauben dann, Google besuche eine Seite haeufig, obwohl in Wahrheit ein Scraper am Werk war.

Praktisch heisst das: Filtern Sie zuerst nach dem User-Agent, der "Googlebot" enthaelt, und verifizieren Sie anschliessend die zugehoerigen IP-Adressen. Erst die Schnittmenge aus beidem ergibt saubere Daten. Bei einem Kunden im Handwerksbereich stellte sich heraus, dass fast ein Drittel der vermeintlichen Googlebot-Hits von einem Scraper aus einem Rechenzentrum kam - die echte Crawl-Aktivitaet war also deutlich geringer als gedacht.

Die Googlebot-Crawl-Verteilung lesen

Jetzt wird es spannend. Sobald Sie die verifizierten Googlebot-Zugriffe isoliert haben, koennen Sie Muster erkennen, die Ihnen kein anderes Tool liefert. Diese Fragen sollten Sie stellen:

  • Welche Seiten werden am haeufigsten gecrawlt? Idealerweise sind das Ihre wichtigsten Geld- und Kategorieseiten. Stehen stattdessen Impressum, Tag-Archive oder Filter-URLs oben, verschwenden Sie Budget.
  • Welche wichtigen Seiten werden selten oder nie besucht? Eine Seite, die Googlebot in 90 Tagen nicht angefasst hat, kann nicht aktuell indexiert sein. Das ist ein klares Warnsignal.
  • Wie verteilen sich die Statuscodes? Ein hoher Anteil an 404- oder 301-Antworten bedeutet, dass der Bot in Sackgassen und Ketten landet, statt echte Inhalte zu crawlen.
  • Wie tief crawlt der Bot? Erreicht Googlebot nur die obersten zwei Ebenen oder auch tiefere Unterseiten? Das verraet viel ueber Ihre interne Verlinkung.

Bei einer typischen Unternehmensseite sollten Bilder, CSS und JavaScript zusammen nur einen kleinen Teil der Crawl-Hits ausmachen. Wenn statische Ressourcen ploetzlich über 40 % der Anfragen verschlingen, lohnt ein Blick auf das Caching - hier laesst sich Budget zurueckgewinnen.

Wie eng diese Auswertung mit dem Thema Steuerung zusammenhaengt, zeigen wir im Detail in unserem Leitfaden zur Crawl-Budget-Optimierung. Logfiles sind die Datengrundlage, das Crawl-Budget ist der Hebel.

Tools fuer die Logfile-Analyse

Logfiles von Hand zu lesen, ist bei mehr als ein paar tausend Zeilen unmoeglich. Sie brauchen ein Werkzeug, das aggregiert, filtert und visualisiert. Diese drei haben sich bewaehrt:

  • Screaming Frog Log File Analyser. Der Klassiker fuer SEO. Sie ziehen Ihre Logdateien hinein, das Tool verifiziert Googlebot automatisch und zeigt Crawl-Frequenz, Statuscodes und ungenutzte URLs uebersichtlich an. Ideal fuer kleine bis mittlere Websites und die guenstigste Einstiegsloesung.
  • GoAccess. Ein kostenloses Open-Source-Tool fuers Terminal, das Logs in Echtzeit auswertet und einen HTML-Report erzeugt. Schnell, ressourcenschonend und perfekt fuer alle, die SSH-Zugriff haben und keine Lizenzkosten wollen.
  • Splunk. Die Enterprise-Loesung fuer sehr grosse Datenmengen. Wenn Sie taeglich Millionen von Logzeilen verarbeiten und Dashboards fuer mehrere Teams brauchen, ist Splunk maechtig - aber auch teuer und komplex.

Fuer die meisten mittelstaendischen Websites ist der Screaming Frog Log File Analyser die richtige Wahl. Erst bei sehr grossen Shops oder Portalen mit zig Millionen URLs lohnt der Sprung zu einer Enterprise-Plattform.

Wenn Sie tiefer in die methodische Auswertung einsteigen moechten, etwa in das Verknuepfen von Logdaten mit Crawl-Exports, haben wir das in unserem Beitrag zur Crawl-Log-Analyse ausfuehrlich beschrieben.

Konkrete Erkenntnisse fuer Ihr Crawl-Budget

Die Analyse ist kein Selbstzweck. Aus den Mustern leiten Sie Massnahmen ab, die direkt auf Ihre Sichtbarkeit einzahlen. Diese fuenf Erkenntnisse holen Sie regelmaessig aus Logfiles:

Budget-Lecks. URLs, die haeufig gecrawlt werden, aber keinen SEO-Wert haben - etwa Filter, Sortierungen, interne Suchergebnisse oder Session-IDs. Diese sperren Sie gezielt in der robots.txt oder per Canonical, damit Google sich auf das Wesentliche konzentriert.

Verwaiste Seiten. URLs, die Googlebot crawlt, aber die in Ihrer XML-Sitemap und internen Verlinkung gar nicht vorkommen. Oft sind das alte Seiten, die laengst geloescht gehoeren oder Weiterleitungen brauchen.

Nie gecrawlte Seiten. Der umgekehrte Fall - wichtige Seiten, die im Logfile fehlen. Hier hapert es meist an der internen Verlinkung oder der Sitemap. Wie Sie das systematisch loesen, lesen Sie in unserem Guide zu Indexierung, Sitemap und robots.txt.

Fehler-Cluster. Haeufungen von 404- oder 5xx-Codes zeigen kaputte Links oder Serverprobleme. Jeder dieser Hits ist verschwendetes Budget und ein negatives Qualitaetssignal.

Crawl-Frequenz nach Seitentyp. Wenn neue Produkte oder Artikel tagelang ungecrawlt bleiben, dauert auch ihre Indexierung laenger. Mit besserer interner Verlinkung und aktuellen Sitemaps beschleunigen Sie das messbar.

In einem Projekt mit rund 12.000 URLs haben wir nach dem Sperren der Filter-Parameter beobachtet, dass Googlebot die wichtigen Kategorieseiten innerhalb von zwei Wochen dreimal so haeufig besuchte wie zuvor. Das Budget war vorher schlicht am falschen Ort gebunden.

Praxis-Checkliste fuer Ihre erste Logfile-Analyse

Damit Sie sofort loslegen koennen, hier der konkrete Ablauf in der richtigen Reihenfolge:

  • Logs beschaffen. Mindestens 30 Tage Access-Logs von Ihrem Hoster herunterladen, idealerweise 90 Tage am Stueck.
  • Googlebot verifizieren. Per Reverse-DNS oder mit einem Tool, das die offiziellen Google-IP-Bereiche kennt. Faelschungen herausfiltern.
  • Crawl-Verteilung pruefen. Top-gecrawlte URLs mit Ihren wichtigsten Seiten abgleichen. Stimmt die Prioritaet?
  • Statuscodes auswerten. Anteil von 200 gegen 301, 404 und 5xx. Fehlerquellen identifizieren und beheben.
  • Budget-Lecks schliessen. Wertlose URLs per robots.txt oder Canonical aussortieren.
  • Verwaiste und ungecrawlte Seiten finden. Logdaten mit Sitemap und Crawl-Export verknuepfen.
  • Massnahmen umsetzen und nachmessen. Nach vier bis sechs Wochen erneut analysieren und die Verschiebung dokumentieren.

Eine Logfile-Analyse ist keine einmalige Aktion. Sie ist ein laufender Prozess, der Ihnen bei jedem groesseren Website-Umbau, Relaunch oder Wachstumsschub verraet, wie Suchmaschinen mit Ihren Aenderungen umgehen.

Wer technisches SEO ernst nimmt, kommt an den Server-Logs nicht vorbei. Sie sind die einzige Quelle, die nicht interpretiert, sondern protokolliert - und damit der ehrlichste Spiegel dessen, was Crawler auf Ihrer Website wirklich tun.

Technischer SEO-Audit fuer Ihre Website

Wir analysieren Ihre Server-Logs, decken Crawl-Budget-Lecks auf und zeigen Ihnen konkret, welche Seiten Google wirklich sieht.

SEO-Audit anfragen
09 · Kontakt

Reden wir über
Platz 1 für Ihre Firma.

Wählen Sie kurz aus, was Sie brauchen. Wir melden uns mit einer ehrlichen Einschätzung in 24 Stunden. Kein Verkaufs­gespräch, keine Werbung.

09129 1439894
20+ Jahre Nürnberg Keine Vertragsbindung Mo-Fr 9-18 · kein Call-Center