Abstract
Ein ansehnlicher und gehaltvoller Webauftritt allein reicht nicht, um im Internet auf sich aufmerksam zu machen. Zwar sorgen korrekte Schlüsselwörter am richtigen Ort für eine bessere Auffindbarkeit, sind jedoch im Fachgebiet der Suchmaschinenoptimierung und dem Semantic Web für sich nicht ausreichend. Damit das Internet zu einem aussagekräftigen Wissensnetz geformt und mit deren Implementierung eine höhere Suchergebnisplatzierung erzielt werden kann, müssen strukturierte Daten eingesetzt werden. Da sich die Realisierung solcher Daten für wenig Erfahrene schwierig gestalten kann, wird ein Leitfaden erarbeitet, welcher auf aktuelle Konventionen zur Umsetzung von maschinenlesbaren Daten in HTML-Dokumenten eingeht. Es wird auf aktuelle Technologien und weitläufig eingesetzte Methoden eingegangen, welche dafür verwendet werden die Meta-Daten einer Webseite zu beschreiben. Bevor dieser Leitfaden erstellt wird, werden strukturierte Daten aus relevanten Webseiten extrahiert und analysiert. Für diesen Zweck wird eine Analyse- beziehungsweise Scrapingsoftware entwickelt, welche die Datengewinnung unterstützen soll. Anschließend werden die gesammelten Datensätzen statistisch sowie stichprobenartig ausgewertet.
Ausgangslage und Forschungsfrage
Suchmaschinen erfassen Webseiten nicht wie Menschen, sondern als Dokumente, die algorithmisch analysiert, indexiert und gerankt werden. Neben Textsignalen (Keywords, interne Verlinkung, technische Performance) werden deshalb zunehmend semantische Signale wichtig: strukturierte Daten, die Inhalte in einem standardisierten Format beschreiben und damit maschinell auswertbar machen [1].
Die Arbeit untersucht, wie verbreitet strukturierte Daten in der Praxis sind und welche Formate dominieren. Daraus wird ein Leitfaden abgeleitet, der Einsteiger:innen bei der Implementierung in HTML unterstützt.
Behandelt werden strukturierte Daten zur besseren Verarbeitung durch globale Suchmaschinen und die typischen Formate rund um Schema.org. Ausgeklammert bleiben tiefe Ranking-Modelle der Suchanbieter oder eine kausale Messung von Ranking-Effekten einzelner Markup-Änderungen; im Mittelpunkt stehen beobachtete Konventionen, Verbreitung und robuste Umsetzung.
Methodisches Vorgehen
Als Grundlage wird eine Scraping- und Analyse-Software entwickelt, die strukturierte Daten automatisiert aus Webseiten extrahiert. Technisch basiert das Tool auf einem .NET/C#-Programm, nutzt Selenium WebDriver für den Seitenabruf und überführt erkannte Markups in ein RDF-orientiertes Datenmodell zur Speicherung und Auswertung.
Für die Erkennung werden die von großen Suchmaschinen typischerweise unterstützten bzw. empfohlenen Formate berücksichtigt: JSON-LD, Microdata und RDFa. JSON-LD wird über script-Tags mit dem MIME-Type application/ld+json gefunden, Microdata und RDFa werden über charakteristische HTML-Attribute per DOM-Abfrage detektiert. Ergänzend werden in Meta-Tags vorkommende Präfixe ausgewertet, um weitere häufige Vokabulare (z.B. für Social-Preview-Metadaten) sichtbar zu machen.
Das Experiment scannt mehrere tausend URLs aus einer kuratierten Linkliste, die aus typischen Suchergebnissen zu lokalen Branchen-/Stadt-Kombinationen stammt. Neben einer Gesamtstatistik zur Verbreitung werden Stichproben qualitativ geprüft (z.B. ob Markups für Rich Results geeignet sind) und typische Muster in den Daten herausgearbeitet.
Die gewonnenen Erkenntnisse
In den betrachteten Samples besitzt nur ein Teil der Webseiten überhaupt strukturierte Daten: rund 39% der gescannten Seiten enthalten mindestens ein unterstütztes Markup-Format. Innerhalb dieser Menge dominiert JSON-LD deutlich, gefolgt von Microdata; RDFa tritt nur selten auf.
Auf 1.000 Webseiten kommen im Mittel ungefähr 300 JSON-LD-Vorkommen, rund 170 Microdata-Vorkommen und etwa 5 RDFa-Vorkommen vor. Über beide Experiment-Setups hinweg stabilisieren sich die Anteile bei ungefähr 30% JSON-LD, 17% Microdata und 0,5% RDFa (bezogen auf 1.000 Seiten), was JSON-LD als praktischen De-facto-Standard für Suchmaschinen-Markups unterstreicht.
Bei den verwendeten Vokabularen ist Schema.org klar prägend [2]. Neben Schema.org tauchen in Meta-Tags regelmäßig Vokabulare auf, die weniger der klassischen Suchmaschine, sondern der Darstellung in Social Graphs dienen, insbesondere Open Graph Protocol und Twitter Cards. Geo-bezogene Ontologien kommen ebenfalls vor, spielen jedoch in der beobachteten Praxis eine kleinere Rolle.
Aus den Stichproben lassen sich wiederkehrende Muster ableiten: Seiten beschreiben häufig grundlegende Seitendaten (z.B. als WebPage/WebSite) und ergänzen Navigations- und Interaktionshinweise wie Breadcrumbs oder interne Suche (z.B. SearchAction). Für spezielle Suchdarstellungen (Rich Results) sind passend gewählte Typen wie FAQ- oder Artikel-Markups entscheidend; zu grobe Typenwahl oder unvollständige Felder führt schneller zu ungenutztem Potenzial.
Was die Ergebnisse bedeuten
Die Dominanz von JSON-LD ist plausibel: Das Format lässt sich ohne Eingriff in die sichtbare HTML-Struktur ergänzen, ist in CMS/Plugins gut automatisierbar und wird in Suchmaschinen-Dokumentationen prominent empfohlen. Microdata bleibt relevant, vor allem in älteren Templates oder dort, wo Inhalte ohnehin stark semantisch im Markup strukturiert sind.
Der geringe RDFa-Anteil passt zur Entwicklung der Webstandards: Microdata wurde als vereinfachte Alternative zu RDFa positioniert, während JSON-LD durch seine Trennung von Inhalt und Metadaten die niedrigste Einstiegshürde bietet. In der Praxis bedeutet das: Wer heute strukturiert auszeichnen möchte, erreicht mit JSON-LD meist den besten Aufwand-Nutzen-Kompromiss.
Wichtig ist jedoch, dass „mehr Markup” nicht automatisch „besser” bedeutet. Entscheidend sind valide Strukturen, die zu den jeweiligen Suchfeatures passen (z.B. FAQ-, Artikel-, Produkt- oder lokale Unternehmensdaten) sowie sauber gepflegte Kernobjekte (Seite/Website, zentrale Entität, Navigationspfad). Validierungstools (z.B. Schema.org-Validator und Rich-Result-Tester) sind daher Teil einer verlässlichen Umsetzung.
Die Beobachtungen passen zur Linked-Data-Idee eines Webs, in dem Entitäten über eindeutige Identifier und maschinenlesbare Relationen verknüpft werden können [3]. Strukturierte Daten sind dafür im Alltag oft der kleinste gemeinsame Nenner zwischen Webentwicklung, SEO und Semantic-Web-Prinzipien.
Limitationen ergeben sich aus der Stichprobe (fokussiert auf bestimmte Suchergebnis-Quellen und Branchenanfragen) sowie aus der technischen Extraktion: Unterschiede in Implementierungsvarianten, dynamisch nachgeladenes Markup und die Interpretation komplexer JSON-LD-Graphen können die Erkennung beeinflussen. Zudem wird kein direkter Zusammenhang zwischen Markup-Qualität und Ranking-Effekt experimentell gemessen.
Kernaussagen und Ausblick
Strukturierte Daten sind in der Praxis verbreitet, aber längst nicht flächendeckend: In den untersuchten Samples enthält nur etwa jede dritte bis vierte Webseite entsprechende Markups. JSON-LD setzt sich dabei deutlich als bevorzugtes Format durch und bildet die pragmatische Grundlage für SEO-relevante Auszeichnungen.
Für eine robuste Implementierung empfiehlt sich ein klarer Fokus auf Schema.org in JSON-LD, ergänzt um saubere Kernobjekte (Website/WebPage), Breadcrumbs und passende Rich-Result-Typen, wo sie inhaltlich sinnvoll sind. Für Social Sharing sollten Open-Graph- und Twitter-Metadaten vollständig gepflegt werden, da sie die Darstellung in sozialen Netzwerken unmittelbar beeinflussen.
Die Arbeit entstand im Rahmen einer von Stack1 GmbH begleiteten Bachelorarbeit und leitet aus Praxisdaten konkrete, validierbare Umsetzungsmuster für strukturierte Daten in HTML ab.