Abstract
Die vorliegende Arbeit entwickelt einen systematischen Workflow zur Aufbereitung heterogener Datenquellen über olympische Austragungsorte von 1896 bis 2018. Während offizielle Berichte des IOC detaillierte Informationen zu Veranstaltungsstätten enthalten, existiert kein zentralisierter, maschinenlesbarer Datensatz. Diese Forschungslücke wird durch einen interdisziplinären Ansatz adressiert, der Geoinformatik, Datenanalyse und Geschichtswissenschaften verbindet.
Die Datengrundlage bilden drei komplementäre Quellen: das Venues PDF des Olympic Studies Centre (1896-2018), die Community-Plattform Olympedia mit geografischen Koordinaten (1896-2022) sowie der Harvard-Finanzdatensatz (1964-2018). Mittels LLM-gestützter Extraktion, Web-Scraping und Fuzzy-Matching-Algorithmen werden unstrukturierte Daten in ein kohärentes GeoJSON-Format überführt. Der entwickelte Workflow und die Webanwendung zur interaktiven Exploration mittels Kartendarstellungen und statistischer Auswertungen werden als Open-Source-Projekt auf GitHub bereitgestellt.
Die Visualisierungen zeigen das stetige Wachstum olympischer Infrastruktur über 120 Jahre, signifikante Skalendifferenzen zwischen Sommer- und Winterspielen sowie eine ausgeprägte geografische Konzentration auf westliche Industrienationen bei gleichzeitigem Ausschluss des afrikanischen Kontinents. Durchgehend wurden vorwiegend bestehende Gebäude genutzt, mit einem signifikanten Anstieg an Neubauten während der Kommerzialisierungsphase (1960er-2000er).
Deutliche Skalendifferenzen zwischen Sommer- und Winterspielen manifestieren sich in allen erfassten Metriken. Die geografische Verteilung konzentriert sich auf westliche Industrienationen; Afrika blieb bislang ohne olympische Austragung.
Die Arbeit liefert einen wertvollen Beitrag durch die Etablierung eines integrierten Prozesses von der Datenakquise bis zur interaktiven Analyse und legt ein methodisches Fundament für zukünftige Untersuchungen diverser Zusammenhänge olympischer Infrastruktur.
Ausgangslage und Forschungsfrage
Olympische Spiele hinterlassen nicht nur sportliche Rekorde, sondern auch Infrastruktur: Stadien, Hallen, Eisanlagen, temporäre Bauten und ganze Quartiere. Wer langfristige Muster verstehen will (Wachstum, Wiederverwendung, regionale Schwerpunkte), braucht jedoch Daten, die über Jahrzehnte hinweg vergleichbar sind.
Methodisch knüpft die Auswertung an das Konzept des "Distant Viewing" an: Durch die computergestützte Aggregation vieler Einzelbeobachtungen entstehen Makroperspektiven, die bei der Betrachtung einzelner Austragungen verborgen bleiben. [1] [2] [3]
Genau hier setzt die Arbeit an: Die zentrale Herausforderung ist, dass wichtige Informationen zu Spielstätten zwar in offiziellen Berichten und Tabellen vorhanden sind, aber nicht als zentraler, maschinenlesbarer Datensatz vorliegen. Die Forschungsfragen lauten: (1) Wie lassen sich diverse unstrukturierte Datenquellen zu Olympischen Austragungsstätten in einem kohärenten und kontextualisierten Datensatz aufarbeiten, welcher für geographische Visualisierung, sowie grafische Analysen geeignet ist? (2) Welche Aussagen lassen sich aus dem kombinierten Datensatz bezüglich der entstandenen Datenqualität, infrastrukturellen Entwicklung der Austragungsstätte und Kosten Olympischer Spiele treffen?
Im Fokus steht damit weniger ein einzelnes Olympia-Jahr, sondern ein wiederverwendbarer Prozess, der Datenextraktion, Harmonisierung und Exploration zusammenbringt. Eine direkte Bewertung einzelner Organisationsentscheidungen oder politischer Rahmenbedingungen gehört nicht zum Kern; die Arbeit liefert vor allem die Grundlage, um solche Fragen später datenbasiert stellen zu können.
Methodisches Vorgehen
Die Datengrundlage kombiniert drei Perspektiven: (a) strukturbezogene Angaben zu Spielstätten aus einem offiziellen IOC-nahen Bericht (Venues PDF) [4], (b) geographische Koordinaten und Metadaten aus einer Community-Datenbank (Olympedia) [5] sowie (c) ökonomische Kennzahlen aus einem Forschungsdatensatz zu Kosten und Einnahmen (Harvard-Datensatz) [6]. Zusammen bilden diese Quellen ein Gerüst, das sowohl räumliche als auch zeitliche und finanzielle Auswertungen erlaubt.
Zentrales Ziel der Verarbeitung ist ein einheitliches GeoJSON-Format. Für die Olympedia-Daten wird per Web-Scraping eine Sammlung von Venue-Einträgen erzeugt, validiert und pro Olympiade gebündelt. Das Venues-PDF wird in kleinere, jahresweise Dokumente segmentiert (Chunking), was in verwandten Settings die Konsistenz und Extraktionsleistung von LLMs verbessern kann. [7] Anschließend wird pro Chunk eine JSON-Struktur generiert und in einem zweiten Schritt geprüft und korrigiert. In der Umsetzung kommt ein aktuelles Modell der Claude-Sonnet-Familie zum Einsatz. [8] Beim Zusammenführen helfen Fuzzy-Matching-Verfahren, da Namen, Schreibweisen und Sprachvarianten zwischen den Quellen variieren.
Als Explorationswerkzeug entsteht eine Webanwendung mit interaktiver Karte und einem Diagramm-Dashboard. Damit werden räumliche Muster (Ballungen, Streuung, Saison-Unterschiede) und Zeitreihen (Wachstum von Events, Teilnehmerzahlen, Venue-Anzahlen) direkt sichtbar, ohne dass Nutzerinnen und Nutzer die Rohdaten selbst aufbereiten müssen.
Die gewonnenen Erkenntnisse
Die Arbeit zeigt, dass sich heterogene, unstrukturierte Quellen zu einem konsistenten Datensatz zusammenführen lassen, wenn Extraktion, Normalisierung und Matching als Pipeline gedacht sind. Das Ergebnis ist ein GeoJSON-basierter Bestand, der pro Olympiade Spielstätten als Features abbildet und zusätzlich Metadaten aus mehreren Quellen zusammenführt.
Aus dem Datensatz und den Visualisierungen ergeben sich mehrere robuste Muster. Erstens zeigt sich über 120 Jahre ein stetiges Wachstum der olympischen Infrastruktur, etwa bei der Menge erfasster Spielstätten sowie begleitender Metriken wie Sportarten und Teilnehmerzahlen. Zweitens treten deutliche Skalendifferenzen zwischen Sommer- und Winterspielen auf: Sommerspiele umfassen in der Regel mehr Disziplinen, Athletinnen und Athleten sowie eine größere Venue-Landschaft, während Winterspiele in einzelnen finanziellen Kennzahlen besonders hohe Ausreißer zeigen.
Drittens ist die geographische Verteilung stark konzentriert: Westliche Industrienationen dominieren die Austragung, Afrika blieb im betrachteten Zeitraum ohne olympische Ausrichtung. Viertens spricht die Auswertung der Bau- und Nutzungsangaben dafür, dass über die gesamte Historie hinweg häufig bestehende Gebäude genutzt werden, bei gleichzeitigem Anstieg von Neubauten in der Kommerzialisierungsphase (1960er bis 2000er). Fünftens wird die Datenqualität selbst zum Ergebnis: Fehlende Felder, uneinheitliche Benennungen und unsichere Matches begrenzen manche Auswertungen und zeigen, wo zukünftige Datenanreicherung am meisten Wirkung hätte.
Was die Ergebnisse bedeuten
Die Ergebnisse deuten darauf hin, dass die größte Hürde in vielen Infrastrukturfragen nicht fehlende Information an sich ist, sondern fehlende Anschlussfähigkeit: PDFs, Webseiten und Tabellen liefern Puzzleteile, die erst durch ein gemeinsames Schema und nachvollziehbare Matching-Regeln zu einem analysierbaren Gesamtbild werden. Die Pipeline liefert damit eine Methodik, die über das Olympia-Thema hinaus auf andere kultur- und raumbezogene Großereignisse übertragbar ist.
Gleichzeitig zeigen sich klare Limitationen. Ein LLM kann Strukturen aus Dokumenten extrahieren, bleibt aber von Prompt-Qualität, Dokumentlayout und nachgelagerter Validierung abhängig. [9] Zudem können LLMs in Extraktionsaufgaben halluzinieren, weshalb Kontrollschritte und Stichprobenprüfungen wichtig bleiben. [7] Fuzzy Matching reduziert manuellen Aufwand, führt jedoch zu Unsicherheiten, wenn Quellen unterschiedliche Granularitäten verwenden (z. B. Sportfläche vs. Gesamtanlage) oder Namen stark variieren. Auch die finanzielle Perspektive ist zeitlich begrenzt, weil nicht für alle Olympiaden vergleichbare Kennzahlen vorliegen.
Praktisch entsteht dennoch ein wertvoller Einstiegspunkt: Interaktive Karten und Diagramme helfen, Hypothesen schnell zu generieren (z. B. kompakte vs. stark verteilte Austragungen) und Datenlücken gezielt zu lokalisieren. Für Anwendungen in Forschung und Industrie liegt der Nutzen vor allem darin, Datenaufbereitung als wiederholbares Produkt zu behandeln und Visual Analytics früh in den Workflow zu integrieren.
Kernaussagen und Ausblick
Die Arbeit etabliert einen durchgängigen Workflow, der aus heterogenen Quellen einen GeoJSON-Datensatz zu olympischen Veranstaltungsorten erzeugt und ihn über eine Webanwendung explorierbar macht. Damit wird ein praktikabler Weg gezeigt, wie sich Infrastruktur über mehr als ein Jahrhundert systematisch untersuchen lässt.
Als zentrale Kernaussagen bleiben: Datenintegration ist der Schlüssel zu längsschnittlichen Aussagen; Sommer- und Winterspiele unterscheiden sich deutlich in Umfang und Profil; und Muster wie geographische Konzentration sowie überwiegende Wiederverwendung bestehender Bauten werden in einer datengetriebenen Gesamtschau greifbar. Die Methodik legt zugleich offen, wo Datenqualität und Standards (IDs, konsistente Felder, Normalisierung von Wiederverwendungen) als nächste Hebel wirken.
Die Umsetzung entstand in Kooperation mit stack1 GmbH, unterstützt unter anderem durch Hosting-Infrastruktur und Ressourcen für KI-basierte Extraktion.