SEOFX – SEO Agentur Nürnberg
Technisches SEO

SEO für PDFs: Wie Google PDF-Dokumente indexiert

4 Min. Lesezeit

Google indexiert PDF-Dokumente und zeigt sie direkt in den Suchergebnissen an – teilweise sogar mit Rich Snippets. Für viele Branchen sind PDFs ein wichtiger Content-Kanal: Whitepapers, Produktkataloge, Anleitungen, Studien. Richtig optimiert können PDFs ranken. Falsch behandelt vergeuden sie Crawl-Budget und konkurrieren mit Ihren eigenen Seiten.

Wie Google PDFs verarbeitet

Google kann den Text in den meisten PDFs extrahieren – vorausgesetzt das PDF ist textbasiert (nicht nur ein Scan ohne OCR). Google liest:

  • Text-Inhalte (Headlines, Fließtext, Tabellen)
  • Metadaten (Titel, Autor, Beschreibung in PDF-Eigenschaften)
  • Eingebettete Links (als interne und externe Links gewertet)
  • Dateiname (wird als URL-Signal behandelt)

Nicht lesbar: Bilder im PDF, Tabellen als Bild gescannt, verschlüsselte PDFs.

Scan-PDFs ohne OCR-Textschicht sind für Google unsichtbar. Reine Bild-PDFs können in den Suchergebnissen erscheinen, aber ohne indexierbaren Text ranken sie für keine Suchanfragen. OCR-Software (Adobe Acrobat, ABBYY) kann nachträglich Textschichten hinzufügen.

PDF-Optimierung: Die wichtigsten Faktoren

Dateiname

Der Dateiname ist das URL-Äquivalent für PDFs. Er sollte keywords-reich und verständlich sein:

schlecht: dokument_2024_v3_final.pdf
gut: seo-leitfaden-kleine-unternehmen.pdf

PDF-Metadaten

In den PDF-Eigenschaften (Adobe Acrobat: Datei → Eigenschaften → Beschreibung):

  • Titel: Entspricht dem <title> einer HTML-Seite – wichtigstes Metadaten-Feld
  • Beschreibung: Entspricht der Meta Description – wird teilweise als SERP-Snippet genutzt
  • Autor: Name des Unternehmens oder Autors
  • Stichwörter: Weniger relevant, aber schadet nicht

Überschriften-Struktur

PDFs mit klar strukturierten Überschriften (H1, H2, H3 in der PDF-Struktur) werden von Google besser interpretiert. In Adobe Acrobat als „Tags” bezeichnet – wichtig auch für Barrierefreiheit.

Links im PDF zu Ihrer Website werden als Backlinks und als interne Signale gewertet. Am Ende jedes PDFs: Link zur relevanten Seite auf Ihrer Website.

Fügen Sie am Anfang jedes PDFs eine Landing-Page-URL ein: „Dieses Dokument wurde bereitgestellt von [URL]". Das gibt Google Kontext und erzeugt einen internen Link. Nutzer die das PDF herunterladen und später zur Website gehen wollen, finden so direkt den Weg zurück.

Wann PDF, wann HTML?

Das ist die wichtigste strategische Entscheidung:

PDF ist sinnvoll wenn:

  • Dokument zum Drucken oder Weiterleiten gedacht ist (Produktblatt, Bestellung)
  • Format-Integrität wichtig ist (Vertrag, Formular mit festem Layout)
  • Als Lead-Magnet genutzt wird (kostenloser Download gegen E-Mail-Adresse)
  • Branchenübliche Form (Whitepaper, Studien)

HTML ist besser wenn:

  • Content regelmäßig aktualisiert wird
  • Mobile Nutzung wahrscheinlich ist (PDFs sind auf Mobilgeräten unbequem)
  • Interaktion erwünscht ist (Formulare, Videos, Links)
  • Core Web Vitals relevant sind (PDFs haben keine CWV-Werte)
  • Maximale SEO-Flexibilität gewünscht ist

Faustregel: Wenn Ihr Ziel ist dass Google den Inhalt indexiert und Nutzer ihn lesen, ist HTML fast immer die bessere Wahl. Wenn das Ziel ist dass Nutzer ein Dokument herunterladen und verwenden, ist PDF richtig.

HTML-Seiten ranken für identische Inhalte in 80 % der Fälle besser als PDFs – weil Google HTML vollständig verarbeiten kann (JavaScript, CSS, strukturierte Daten, Core Web Vitals). PDFs sind ergänzend sinnvoll, aber keine primäre SEO-Strategie.

PDFs crawlen und indexieren steuern

Indexierung erlauben oder sperren

In robots.txt oder über X-Robots-Tag im HTTP-Header:

# robots.txt: Alle PDFs erlauben (Standard)
User-agent: *
Allow: /*.pdf

# Bestimmten Ordner sperren
User-agent: *
Disallow: /downloads/intern/
# HTTP-Header für PDFs die nicht indexiert werden sollen
X-Robots-Tag: noindex

Canonical für PDFs

Wenn eine HTML-Seite und ein PDF denselben Inhalt haben, Canonical vom PDF auf die HTML-Seite setzen (über HTTP-Header):

Link: <https://beispiel.de/leitfaden/>; rel="canonical"

Das verhindert Duplicate Content zwischen HTML und PDF.

PDFs in der Sitemap

PDFs können und sollten in die Sitemap aufgenommen werden wenn Sie indexiert werden sollen:

<url>
  <loc>https://beispiel.de/downloads/seo-leitfaden.pdf</loc>
  <lastmod>2025-01-15</lastmod>
  <changefreq>yearly</changefreq>
  <priority>0.5</priority>
</url>

PDF-Accessibility und SEO

Barrierefreie PDFs (Tagged PDFs mit korrekter Lesereihenfolge, Alt-Texten für Bilder, Struktur-Tags) werden von Google besser verarbeitet. Die Anforderungen für Barrierefreiheit und SEO sind hier deckungsgleich:

  • Text-Tags für alle Textinhalte
  • Alt-Texte für alle Bilder
  • Lesereihenfolge (Reading Order) definiert
  • Sprache im Dokument angegeben

Tools wie Adobe Acrobat Accessibility-Checker oder PDF Accessibility Checker (PAC) prüfen diese Eigenschaften.

Mehr zu technischem SEO finden Sie in unserem Artikel über robots.txt erklärt.

Technisches SEO vollständig durchleuchten.

Wir prüfen Ihren gesamten technischen SEO-Setup – von PDF-Indexierung über Crawl-Budget bis zu Duplicate Content – und beheben alle gefundenen Probleme.

SEO-Audit anfragen

Weitere Artikel zu Technisches SEO