Programmatic SEO lebt von Daten. Ohne eine saubere, strukturierte Datenquelle entstehen keine hunderten Seiten, die sich voneinander unterscheiden - sondern hunderte Dubletten, die Google ignoriert. Die wichtigste Entscheidung treffen Sie deshalb ganz am Anfang: Woher kommen Ihre Daten, und sind sie gut genug?
Dieser Artikel zeigt Ihnen, welche Datenquellen sich für Programmatic SEO eignen, wie Sie Qualität und Aktualität prüfen, welche rechtlichen Grenzen gelten und wie Sie genug Eindeutigkeit pro Seite sicherstellen.
Welche Datenquellen sich für pSEO eignen
Grundsätzlich gibt es drei Kategorien, aus denen sich brauchbare Datensätze speisen.
Öffentliche APIs liefern strukturierte, oft aktuelle Daten direkt per Schnittstelle. Beispiele: die Deutsche Bahn API für Verbindungen, OpenWeather für Wetterdaten, das Statistische Bundesamt (Destatis) für regionale Kennzahlen oder Wikidata für Entitäten und Fakten. Der Vorteil: maschinenlesbar, dokumentiert und meist mit klaren Nutzungsbedingungen.
Eigene Daten sind die wertvollste Quelle, weil niemand sonst sie hat. Ein Online-Shop kennt Verfügbarkeiten, Preise und Bewertungen. Ein SaaS-Anbieter hat anonymisierte Nutzungsdaten. Eine Buchungsplattform kennt Auslastungen pro Stadt. Genau diese proprietären Daten machen Ihre Seiten einzigartig - und schwer kopierbar. Prüfen Sie deshalb zuerst, welche Daten in Ihren eigenen Systemen ohnehin schon liegen, bevor Sie extern suchen.
Verzeichnisse und offene Datenbanken wie OpenStreetMap, GeoNames oder offene Behördendaten (GovData) liefern geografische und thematische Grundgerüste. Ideal für Standortseiten, Branchenlisten oder Vergleiche.
Praxis-Tipp: Kombinieren Sie immer mindestens zwei Quellen. Eine Standortliste aus OpenStreetMap plus eigene Preisdaten ergibt Seiten, die Wettbewerber nicht eins zu eins nachbauen können.
Qualität und Aktualität prüfen
Eine Datenquelle ist nur so gut wie ihre Pflege. Bevor Sie hunderte Seiten daraus generieren, prüfen Sie systematisch drei Dinge.
- Vollständigkeit. Fehlen Felder, entstehen halbleere Seiten. Wenn bei 30 % der Datensätze die Beschreibung fehlt, haben Sie ein Problem - solche Seiten ranken kaum.
- Aktualität. Wie oft wird die Quelle aktualisiert? Eine Wetter-API im Sekundentakt ist top, eine Behördentabelle von 2019 ist riskant. Veraltete Daten kosten Vertrauen bei Nutzern und Google.
- Konsistenz. Sind Schreibweisen einheitlich? "München", "Muenchen" und "MUC" für dieselbe Stadt führen zu doppelten oder kollidierenden Seiten.
Ziehen Sie eine Stichprobe von 20 bis 50 Datensätzen und prüfen Sie diese manuell. Stimmen die Werte mit der Realität überein? Fällt Ihnen schon hier ein Muster an Lücken auf, skaliert dieses Problem mit jeder generierten Seite. Planen Sie außerdem ein, wie Sie die Quelle laufend aktuell halten: Eine API können Sie bei jedem Build neu abrufen, einen einmaligen CSV-Export müssen Sie manuell pflegen. Quellen, die sich automatisiert aktualisieren lassen, sparen langfristig viel Aufwand und verhindern, dass Ihre Seiten still und leise veralten.
Rechtliche Aspekte: Lizenzen und Scraping-Grenzen
Daten sind nicht automatisch frei nutzbar, nur weil sie im Netz stehen. Drei Punkte sind entscheidend.
Lizenzen. Offene Daten tragen oft eine Lizenz wie Creative Commons, ODbL (OpenStreetMap) oder die Datenlizenz Deutschland. Manche verlangen eine Namensnennung, andere verbieten die kommerzielle Nutzung komplett. Lesen Sie die Lizenz, bevor Sie veröffentlichen - eine nachträgliche Korrektur über hunderte Seiten ist aufwendig.
API-Bedingungen. Auch erlaubte APIs haben Limits: Rate-Limits, Caching-Vorgaben oder ein Verbot, die Daten dauerhaft zu speichern. Wer hier verstößt, riskiert die Sperre der gesamten Datengrundlage - und damit den Ausfall aller darauf aufbauenden Seiten.
Scraping-Grenzen. Das Auslesen fremder Websites ist heikel. Die robots.txt und die Nutzungsbedingungen der Quelle setzen klare Grenzen. Datenbanken genießen in der EU einen eigenen rechtlichen Schutz (Datenbankherstellerrecht). Im Zweifel gilt: lieber eine offizielle API nutzen oder eigene Daten aufbauen, als rechtliche Risiken einzugehen.
Daten aufbereiten und normalisieren
Rohdaten sind selten direkt einsetzbar. Vor der Seitengenerierung steht die Aufbereitung - der unspektakulärste, aber wichtigste Schritt.
- Normalisieren. Einheitliche Schreibweisen, Einheiten und Formate. Alle Preise in Euro, alle Datumsangaben im gleichen Format, alle Ortsnamen nach einem Schema.
- Anreichern. Verknüpfen Sie Quellen miteinander. Eine Stadt aus OpenStreetMap bekommt die Einwohnerzahl aus Destatis und Ihre eigenen Angebotsdaten dazu.
- Validieren. Filtern Sie Ausreißer und unsinnige Werte heraus. Ein Preis von 0 Euro oder eine Postleitzahl mit vier Stellen darf keine Seite erzeugen.
- Strukturieren. Bringen Sie alles in ein sauberes Format wie JSON oder CSV, das Ihr Generator direkt einlesen kann.
Diese aufbereiteten Daten speisen am Ende Ihren Static Site Generator. Wie das technisch zusammenspielt, zeigen wir im Detail im Artikel zu Astro als SEO-Static-Site-Generator.
Genug Eindeutigkeit pro Seite sicherstellen
Hier scheitern die meisten pSEO-Projekte. Google erkennt Seiten, die sich nur in einem ausgetauschten Wort unterscheiden, als Thin Content oder Near-Duplicate - und indexiert sie gar nicht erst.
Die Faustregel: Jede Seite braucht echten, eigenständigen Mehrwert. Ein guter Indikator ist der Anteil einzigartiger Inhalte. Liegt der unter 40 % pro Seite, wird es kritisch.
So schaffen Sie Eindeutigkeit:
- Mehrere Datenpunkte kombinieren. Nicht nur "Zahnarzt in Stadt X", sondern Anzahl Praxen, Durchschnittspreise, Wartezeiten und Bewertungen.
- Dynamische Textbausteine. Variieren Sie Formulierungen je nach Datenlage, statt eine Schablone stumpf zu füllen.
- Visuelle Daten. Tabellen, Diagramme oder Karten pro Seite erhöhen den wahrgenommenen Mehrwert.
- Eigene Insights. Ein Satz, der die Daten interpretiert, hebt Sie von reinen Datenschleudern ab.
Wenn Sie nicht für jede potenzielle Seite genug eindeutige Daten zusammenbekommen, generieren Sie sie schlicht nicht. Lieber 200 starke Seiten als 2000 dünne, die Ihr gesamtes Crawl-Budget verbrennen. Welche Generatoren sich für saubere, schnelle pSEO-Seiten eignen, lesen Sie im Überblick zu Static Site Generatoren für SEO.
Praxisbeispiel: Standortseiten für einen Dienstleister
Ein regionaler Handwerksbetrieb wollte für 120 Städte im Umkreis gefunden werden. Die Datenbasis bauten wir aus drei Quellen: Städte und Geodaten aus OpenStreetMap, Einwohnerzahlen und Pendlerdaten aus offiziellen Behördendaten sowie die eigenen Einsatzgebiete, Anfahrtszeiten und realisierten Projekte des Betriebs.
Nach der Normalisierung blieben statt der ursprünglich geplanten 120 nur 68 Städte übrig - für die übrigen fehlten belastbare eigene Daten. Genau diese Reduktion war der Erfolgsfaktor. Jede der 68 Seiten zeigte echte Anfahrtszeiten, lokale Referenzprojekte und stadtspezifische Hinweise. Das Ergebnis nach drei Monaten: 54 von 68 Seiten rankten in den Top 20, weil jede einen klaren eigenständigen Nutzen bot.
Die Lehre daraus: Die Qualität und Eindeutigkeit Ihrer Datenquelle entscheidet über Erfolg oder Misserfolg - nicht die schiere Menge an Seiten. Wer hier sauber arbeitet, baut sich eine Sichtbarkeit auf, die Wettbewerber ohne dieselbe Datentiefe nicht kopieren können.
Praxis-Tipp: Starten Sie mit einem Testlauf von 10 Seiten aus Ihrer aufbereiteten Datenquelle. Prüfen Sie deren Indexierung nach zwei Wochen, bevor Sie auf hunderte Seiten skalieren.
Datenquellen sind das Fundament jedes Programmatic-SEO-Projekts. Wer sie sorgfältig auswählt, prüft und aufbereitet, legt den Grundstein für nachhaltige Sichtbarkeit. Wer sie überspringt, produziert Seiten, die niemand findet.