SEOFX – SEO Agentur Nürnberg
Technisches SEO

Crawl Budget: Googles Ressourcen optimal nutzen

6 Min. Lesezeit

Jede Website hat bei Google ein begrenztes Crawl Budget – eine Anzahl von Seiten, die Googlebot pro Zeitraum besucht. Das Ziel ist es, Googles Ressourcen optimal einzusetzen: das Budget auf die wirklich wichtigen Seiten zu lenken. Kleine Websites mit 50 Seiten müssen sich darüber kaum Gedanken machen. Für Websites mit tausenden Seiten – Online-Shops, Portale, große Unternehmensseiten – ist das Crawl Budget ein echter SEO-Faktor. Wenn Google seinen Crawl-Aufwand mit unwichtigen Seiten verschwendet, werden wichtige Seiten seltener oder gar nicht gecrawlt.

Was ist das Crawl Budget?

Das Crawl Budget setzt sich aus zwei Faktoren zusammen:

Crawl Rate Limit: Google reguliert die Crawl-Intensität um den Server nicht zu überlasten. Je schneller und stabiler Ihr Server, desto mehr Seiten kann Googlebot crawlen ohne Schaden anzurichten. Ein langsamer Server zwingt Google, langsamer zu crawlen.

Crawl Demand: Google priorisiert das Crawlen von Seiten, die beliebt sind (Backlinks, Traffic) und sich häufig ändern. Eine statische Produktseite ohne Backlinks und ohne Änderungen in drei Jahren wird seltener gecrawlt als ein aktiver News-Blog.

Laut Google ist Crawl Budget für die meisten Websites kein Problem – es wird relevant wenn eine Website tausende URLs hat, viele nicht-indexierbare Seiten existieren oder neue Inhalte langsam entdeckt werden.

Das kombinierte Budget bestimmt, wie viele Seiten Googlebot täglich besucht. Bei 10.000 Seiten und 500 Crawls pro Tag dauert es 20 Tage, bis Google theoretisch alle Seiten gesehen hat – längst nicht alle werden aber indexiert.

Crawl-Budget-Verschwendung: Häufige Quellen

Parametrisierte URLs

Filter, Sortierungen und Suchanfragen auf einer Website erzeugen oft tausende URL-Varianten einer Seite:

  • /produkte/?farbe=blau
  • /produkte/?farbe=blau&groesse=xl
  • /produkte/?sortierung=preis-asc&farbe=blau

Jede dieser URLs ist für Google eine eigenständige Seite – obwohl der Inhalt nahezu identisch ist. Das verbraucht Crawl Budget ohne Nutzen.

Lösung: Parameter in der Google Search Console als „Parameter ignorieren” konfigurieren oder via robots.txt blockieren.

Facettierte Navigation (E-Commerce)

Ähnlich wie Parameter-URLs: Filter-Kombinationen in Online-Shops können Millionen von URLs erzeugen. Ein Shop mit 10 Farboptionen, 5 Größen und 3 Sortierungen hat theoretisch 150 Kombinationen pro Produktkategorie.

Lösung: Canonical Tags auf alle gefilterten URLs setzen, die auf die ungefilterte Kategorie-URL zeigen. Oder Filterseiten per robots.txt blockieren.

Session-IDs in URLs

Wenn Ihre Website Besucher mit Session-IDs in der URL trackt (/seite?sessionid=abc123), erzeugt jeder Besucher eine neue URL. Für Google sind das unendlich viele verschiedene Seiten.

Lösung: Session-Tracking in Cookies verlagern, nicht in URLs.

Gelöschte Seiten ohne Redirect

Seiten die gelöscht wurden und einen 404-Fehler zurückgeben, werden von Google weiter gecrawlt – bis Google aufgibt. Jeder dieser Crawls ist Verschwendung.

Lösung: 301-Weiterleitungen auf relevante Folgeseiten einrichten oder sicherstellen, dass 404-Seiten im robots.txt nicht explizit gecrawlt werden.

404-Seiten an sich schaden dem Crawl Budget nur wenig – Google hört nach einer Weile auf, sie zu besuchen. Problematischer sind Seiten die intern verlinkt sind und 404 zurückgeben. Interne Links auf 404-Seiten signalisieren Google, dass diese Seiten wichtig sind, und es bleibt dabei, sie regelmäßig zu crawlen.

Thin Content Seiten

Seiten mit sehr wenig inhaltlichem Mehrwert – leere Kategorie-Seiten, duplizierte Filtervarianten, reine Pagination-Seiten – verbrauchen Crawl Budget ohne zum Ranking beizutragen.

Lösung: Seiten entweder mit Inhalt anreichern oder per noindex aus dem Index halten und per Canonical auf die relevante Hauptseite zeigen.

Wie Sie das Crawl Budget schonen

robots.txt gezielt einsetzen

Die robots.txt blockiert Googlebot für bestimmte URL-Muster. Das ist die direkteste Methode um Crawl-Budget-Verschwendung zu verhindern.

User-agent: Googlebot
Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /suche/
Disallow: /*?sessionid=

Wichtig: robots.txt-Disallow verhindert das Crawlen, aber nicht das Indexieren. Wenn andere Seiten auf eine blockierte Seite verlinken, kann Google sie trotzdem in den Index aufnehmen – nur ohne Inhalt gecrawlt zu haben. Für das Verhindern der Indexierung brauchen Sie noindex.

Noindex für unwichtige Seiten

Tags, Archiv-Seiten, Author-Pages oder interne Such-Ergebnisseiten in WordPress tragen selten zu Rankings bei, verbrauchen aber Crawl Budget. Mit dem Yoast SEO oder Rank Math Plugin können Sie diese Seiten-Typen pauschal auf noindex setzen.

Setzen Sie in WordPress unter Yoast SEO → Suchdarstellung → Archivseiten alle nicht-relevanten Archivtypen (Tag-Archiv, Author-Archiv, Datumsarchiv) auf noindex. Das reduziert in den meisten WordPress-Installationen die Anzahl indexierter Seiten um 20–40 % – ohne wertvolle Seiten zu verlieren.

XML-Sitemap sauber halten

Ihre Sitemap sollte nur Seiten enthalten, die Sie wirklich indexiert haben wollen. Keine 404-Seiten, keine noindex-Seiten, keine Seiten mit Canonical auf eine andere URL. Google priorisiert Sitemap-URLs beim Crawlen – eine saubere Sitemap lenkt das Budget auf Ihre wertvollen Seiten.

Mehr über XML-Sitemaps und ihre SEO-Rolle erklärt unser separater Artikel.

Interne Verlinkung optimieren

Seiten, die intern stark verlinkt sind, werden häufiger gecrawlt. Wichtige Seiten sollten gut im internen Linking-Netz eingebunden sein. Seiten die nur über sehr tiefe Navigationsstrukturen erreichbar sind, werden seltener entdeckt.

Verwaiste Seiten – Seiten ohne eingehende interne Links – werden von Google möglicherweise gar nicht entdeckt, wenn sie nicht in der Sitemap stehen.

Crawl-Aktivität in der Search Console analysieren

Die Google Search Console zeigt unter „Einstellungen → Crawling-Statistiken” wie viel Googlebot gecrawlt hat. Sie sehen:

  • Gesamtanzahl gecrawlter Seiten pro Tag
  • Gesamtdaten (KB) pro Tag
  • Antwortzeiten des Servers
  • Fehlertypen (404, 500, etc.)

Websites mit gutem Crawl-Budget-Management werden 2–3x häufiger gecrawlt als Websites mit vielen Crawl-Fallen – was bedeutet, dass neue Inhalte deutlich schneller indexiert werden.

Wenn die Crawl-Statistiken einen starken Anstieg zeigen, prüfen Sie ob neue URL-Muster entstanden sind (z.B. durch neue Filter oder ein Update des Shop-Systems).

Fazit: Crawl Budget als technisches SEO-Thema

Für kleine Websites unter 1.000 Seiten ist Crawl Budget selten ein Problem. Ab 5.000 Seiten lohnt eine Analyse. Ab 50.000 Seiten ist Crawl Budget ein kritischer technischer SEO-Faktor.

Wenn neue Inhalte bei Ihnen regelmäßig Wochen bis Monate brauchen, um in Google zu erscheinen, ist das oft ein Zeichen für Crawl-Budget-Probleme – kombiniert mit einem technischen SEO-Audit lässt sich der Flaschenhals identifizieren.

Technisches SEO-Audit für Ihre Website.

Wir analysieren Crawling, Indexierung und Crawl Budget Ihrer Website und zeigen, wo Google Zeit verschwendet – und wo wichtige Seiten nicht gecrawlt werden.

SEO-Audit anfragen

Weitere Artikel zu Technisches SEO