Google indexiert PDF-Dokumente und zeigt sie direkt in den Suchergebnissen an – teilweise sogar mit Rich Snippets. Für viele Branchen sind PDFs ein wichtiger Content-Kanal: Whitepapers, Produktkataloge, Anleitungen, Studien. Richtig optimiert können PDFs ranken. Falsch behandelt vergeuden sie Crawl-Budget und konkurrieren mit Ihren eigenen Seiten.
Wie Google PDFs verarbeitet
Google kann den Text in den meisten PDFs extrahieren – vorausgesetzt das PDF ist textbasiert (nicht nur ein Scan ohne OCR). Google liest:
- Text-Inhalte (Headlines, Fließtext, Tabellen)
- Metadaten (Titel, Autor, Beschreibung in PDF-Eigenschaften)
- Eingebettete Links (als interne und externe Links gewertet)
- Dateiname (wird als URL-Signal behandelt)
Nicht lesbar: Bilder im PDF, Tabellen als Bild gescannt, verschlüsselte PDFs.
Scan-PDFs ohne OCR-Textschicht sind für Google unsichtbar. Reine Bild-PDFs können in den Suchergebnissen erscheinen, aber ohne indexierbaren Text ranken sie für keine Suchanfragen. OCR-Software (Adobe Acrobat, ABBYY) kann nachträglich Textschichten hinzufügen.
PDF-Optimierung: Die wichtigsten Faktoren
Dateiname
Der Dateiname ist das URL-Äquivalent für PDFs. Er sollte keywords-reich und verständlich sein:
schlecht: dokument_2024_v3_final.pdf
gut: seo-leitfaden-kleine-unternehmen.pdf
PDF-Metadaten
In den PDF-Eigenschaften (Adobe Acrobat: Datei → Eigenschaften → Beschreibung):
- Titel: Entspricht dem
<title>einer HTML-Seite – wichtigstes Metadaten-Feld - Beschreibung: Entspricht der Meta Description – wird teilweise als SERP-Snippet genutzt
- Autor: Name des Unternehmens oder Autors
- Stichwörter: Weniger relevant, aber schadet nicht
Überschriften-Struktur
PDFs mit klar strukturierten Überschriften (H1, H2, H3 in der PDF-Struktur) werden von Google besser interpretiert. In Adobe Acrobat als „Tags” bezeichnet – wichtig auch für Barrierefreiheit.
Interne Links im PDF
Links im PDF zu Ihrer Website werden als Backlinks und als interne Signale gewertet. Am Ende jedes PDFs: Link zur relevanten Seite auf Ihrer Website.
Fügen Sie am Anfang jedes PDFs eine Landing-Page-URL ein: „Dieses Dokument wurde bereitgestellt von [URL]". Das gibt Google Kontext und erzeugt einen internen Link. Nutzer die das PDF herunterladen und später zur Website gehen wollen, finden so direkt den Weg zurück.
Wann PDF, wann HTML?
Das ist die wichtigste strategische Entscheidung:
PDF ist sinnvoll wenn:
- Dokument zum Drucken oder Weiterleiten gedacht ist (Produktblatt, Bestellung)
- Format-Integrität wichtig ist (Vertrag, Formular mit festem Layout)
- Als Lead-Magnet genutzt wird (kostenloser Download gegen E-Mail-Adresse)
- Branchenübliche Form (Whitepaper, Studien)
HTML ist besser wenn:
- Content regelmäßig aktualisiert wird
- Mobile Nutzung wahrscheinlich ist (PDFs sind auf Mobilgeräten unbequem)
- Interaktion erwünscht ist (Formulare, Videos, Links)
- Core Web Vitals relevant sind (PDFs haben keine CWV-Werte)
- Maximale SEO-Flexibilität gewünscht ist
Faustregel: Wenn Ihr Ziel ist dass Google den Inhalt indexiert und Nutzer ihn lesen, ist HTML fast immer die bessere Wahl. Wenn das Ziel ist dass Nutzer ein Dokument herunterladen und verwenden, ist PDF richtig.
HTML-Seiten ranken für identische Inhalte in 80 % der Fälle besser als PDFs – weil Google HTML vollständig verarbeiten kann (JavaScript, CSS, strukturierte Daten, Core Web Vitals). PDFs sind ergänzend sinnvoll, aber keine primäre SEO-Strategie.
PDFs crawlen und indexieren steuern
Indexierung erlauben oder sperren
In robots.txt oder über X-Robots-Tag im HTTP-Header:
# robots.txt: Alle PDFs erlauben (Standard)
User-agent: *
Allow: /*.pdf
# Bestimmten Ordner sperren
User-agent: *
Disallow: /downloads/intern/
# HTTP-Header für PDFs die nicht indexiert werden sollen
X-Robots-Tag: noindex
Canonical für PDFs
Wenn eine HTML-Seite und ein PDF denselben Inhalt haben, Canonical vom PDF auf die HTML-Seite setzen (über HTTP-Header):
Link: <https://beispiel.de/leitfaden/>; rel="canonical"
Das verhindert Duplicate Content zwischen HTML und PDF.
PDFs in der Sitemap
PDFs können und sollten in die Sitemap aufgenommen werden wenn Sie indexiert werden sollen:
<url>
<loc>https://beispiel.de/downloads/seo-leitfaden.pdf</loc>
<lastmod>2025-01-15</lastmod>
<changefreq>yearly</changefreq>
<priority>0.5</priority>
</url>
PDF-Accessibility und SEO
Barrierefreie PDFs (Tagged PDFs mit korrekter Lesereihenfolge, Alt-Texten für Bilder, Struktur-Tags) werden von Google besser verarbeitet. Die Anforderungen für Barrierefreiheit und SEO sind hier deckungsgleich:
- Text-Tags für alle Textinhalte
- Alt-Texte für alle Bilder
- Lesereihenfolge (Reading Order) definiert
- Sprache im Dokument angegeben
Tools wie Adobe Acrobat Accessibility-Checker oder PDF Accessibility Checker (PAC) prüfen diese Eigenschaften.
Mehr zu technischem SEO finden Sie in unserem Artikel über robots.txt erklärt.