Abstract
Die Publikation enthält kein eigenes Abstract; die folgende Kurzfassung fasst Ziele, Methodik und zentrale Ergebnisse zusammen. Analysiert werden Instagram-Posts dreier deutscher Nachrichtenportale mit Fokus auf Textgestaltung im Bild. Eine Pipeline aus Scraping, OCR-basierter Textextraktion, Farb- und Layoutmerkmalen sowie Sentimentanalyse und Hashtag-Clustering identifiziert portaltypische Muster: Textfarben werden typischerweise an die Helligkeit des Hintergrunds angepasst, während Tonalität und thematische Abdeckung trotz unterschiedlicher redaktioneller Ausrichtung ähnliche Schwerpunkte zeigen.
Ausgangslage und Forschungsfrage
Visuelle Plattformen wie Instagram sind längst kein reiner Entertainment-Kanal mehr, sondern ein zentraler Ort für Nachrichtenkonsum. Damit verschiebt sich auch die Form der Nachrichtenpräsentation: Statt langer Texte dominieren Bildkacheln, auf denen Typografie, Kontrast und Layout unmittelbar über Lesbarkeit und Aufmerksamkeit entscheiden.
In der Cultural Analytics wird bei der Analyse visueller Daten oft das Bild als primäres Objekt betrachtet; Text im Bild gilt dabei häufig als Störfaktor. Für News-Posts ist Text jedoch ein integraler Bestandteil des Artefakts: Schriftfarbe, Größe, Position und Transparenz wirken mit dem Motiv zusammen und können Wahrnehmung, Einordnung und emotionale Reaktion mitprägen.
Die Arbeit untersucht zwei Forschungsfragen: (1) Welche Rolle spielt der Bildhintergrund für die Textgestaltung in News-Posts? (2) Lässt sich ein Zusammenhang zwischen typografischen Entscheidungen, Textinhalt und dessen affektiver Wirkung erkennen? Der Fokus liegt auf dem Zusammenspiel aus visuellen Merkmalen (Farben, Kontrast) und inhaltlichen Signalen (extrahierter Text, Sentiment, Themen).
Als Vergleichsrahmen dient dabei auch Forschung zu journalistischen Praktiken auf Instagram, die zeigt, wie Nachrichtenorganisationen ihre visuelle Gestaltung an plattformspezifische Ästhetiken und Genres anpassen.
Aus praktischer Perspektive liefert die Analyse Hinweise darauf, wie Gestaltungsentscheidungen systematisch aus dem Bildkontext abgeleitet werden können und wo automatisierte Auswertungen an ihre Grenzen kommen. Das ist relevant für Design-Reviews, Content-Produktion und die Qualitätssicherung von Social-Media-Grafiken.
Methodisches Vorgehen
Die Datengrundlage besteht aus mehreren Tausend Instagram-Posts dreier deutscher Nachrichtenportale. Pro Beitrag wird das erste Bild betrachtet, da es typischerweise den größten Einfluss auf den ersten Eindruck hat. Ergänzend werden Metadaten wie Hashtags verarbeitet, um Themenfelder der Postings grob zu strukturieren.
Die Pipeline kombiniert mehrere Schritte: Ein Scraper sammelt Posts und persistiert Bilder und Metadaten. Für die Texterkennung wird OCR eingesetzt, um den eingebetteten Text samt Bounding-Boxen zu extrahieren. Darauf aufbauend werden bildnahe Merkmale berechnet, unter anderem dominante Hintergrundfarben sowie Textfarben und einfache Größen-/Positionsindikatoren.
Für die affektive Einordnung des extrahierten Textes werden zwei Sentimentverfahren gegenübergestellt: ein lexikonbasiertes Verfahren für kurze Social-Media-Texte sowie ein lokal betriebenes LLM, das den Text in Klassen wie positiv, negativ oder neutral einordnet. Parallel dazu werden Hashtags normalisiert und in einem zweistufigen Clustering zu Themen-Gruppen zusammengefasst, um Verteilungen und zeitliche Muster über Portale hinweg zu vergleichen.
Die Auswertung erfolgt über interaktive Visualisierungen, die Verteilungen, Korrelationen und Clusterbildungen sichtbar machen. Wo automatisierte Schritte Fehlerquellen einbringen (z.B. OCR-Rauschen, Komprimierungsartefakte), werden die Ergebnisse als Musteranalyse interpretiert und nicht als exakte Messung einzelner Posts.
Die gewonnenen Erkenntnisse
Ein zentrales Ergebnis betrifft die Farbwahl: Portalübergreifend dominiert eine relativ breite, aber insgesamt eher gedeckte Hintergrundpalette (häufig Grau- und Brauntöne). Bei den Textfarben zeigt sich eine klare Tendenz zu sehr hellen (weißnahen) Tönen; Abweichungen lassen sich teilweise durch Bildkomprimierung und Transparenz erklären.
Die Zuordnung von Text- zu Hintergrundhelligkeit zeigt eine deutliche Struktur: Textfarben korrelieren tendenziell mit der Helligkeit des dominanten Hintergrunds, was auf eine systematische Kontraststeuerung zur Sicherung der Lesbarkeit hindeutet. Gleichzeitig treten Cluster nahezu schwarzer und nahezu weißer Texttöne auf, was auf wenige Standardstyles in Templates oder Brand-Guidelines schließen lässt.
Zwischen den Portalen werden unterscheidbare Stilprofile sichtbar. Ein Portal nutzt vor allem Weiß/Schwarz und zusätzliche Grautöne, teils mit hoher Transparenz (z.B. für Logos oder Quellenhinweise). Ein weiteres Portal setzt insgesamt heller wirkende Hintergründe ein und zeigt punktuell farbige Texte. Ein drittes Portal verwendet überwiegend sehr helle Texte und nur in kleinerem Umfang dunkle Textfarben.
Die Sentimentanalyse zeigt über alle drei Portale hinweg eine insgesamt eher negative Tonalität, mit portaltypischen Unterschieden in Streuung und Anteil neutraler Werte. Ein hoher Anteil neutraler Default-Werte deutet darauf hin, dass in vielen Bildern entweder wenig Text vorkommt oder der extrahierte Text für die Verfahren schwer interpretierbar ist.
Bei der Themenabdeckung über geclusterte Hashtags zeigen sich trotz unterschiedlicher politischer Zuschreibungen ähnliche Verteilungen über Kategorien. Gleichzeitig kann die thematische Einordnung stark von einzelnen, häufigen Hashtags beeinflusst werden, was die Metadatenabhängigkeit der Kategorisierung sichtbar macht.
Was die Ergebnisse bedeuten
Die Ergebnisse sprechen für eine pragmatische Designlogik: Text wird in vielen News-Posts so gesetzt, dass ein ausreichender Kontrast zum dominanten Bildbereich entsteht. Das passt zu einem Produktionsprozess, in dem Templates und wenige definierte Schriftfarben schnell auf heterogene Bildmotive angewendet werden müssen. Transparenz und Grautöne wirken dabei als zusätzliche Stellschrauben, um Logos, Quellen oder Subheads vom Haupttitel abzugrenzen.
Gleichzeitig wird deutlich, dass "Lesbarkeit" nicht nur eine technische Frage ist. Kontrast, dunkle Hintergründe und markante Schriftstile können die affektive Wirkung verstärken und damit auch Engagement beeinflussen. Die Beobachtung einer insgesamt eher negativen Tonalität passt zudem zu Nachrichtenlogiken, in denen Konflikt, Krise und Problemereignisse häufiger kommuniziert werden als positive Ausnahmen.
Mehrere Limitationen schränken die Interpretierbarkeit ein. OCR kann Logos, Fotografennamen oder Brand-Elemente als Text erfassen und damit Sentimentwerte verzerren. Lexikonbasierte Verfahren sind für deutschsprachigen Text nicht immer robust, während LLM-basierte Klassifikationen zu diskreten, wenig fein aufgelösten Scores tendieren können. Auch Forschung, die Text- und Bildsignale kombiniert, zeigt, dass die inhaltliche Einordnung stark von der Qualität der extrahierten Signale abhängt. Zusätzlich ist die technische Datenerhebung über Plattform-APIs volatil und kann zu Bias in zeitlicher Abdeckung und Posttypen führen.
Trotzdem liefert die multimodale Perspektive einen klaren Mehrwert: Erst im Zusammenspiel aus Bildmerkmalen, extrahiertem Text und Metadaten werden wiederkehrende Gestaltungsmuster sichtbar. Für Folgearbeiten bieten sich robustere Layoutmetriken (z.B. Kontrast im Textbereich statt globaler Dominanzfarbe), bessere Sprachmodelle für Deutsch und eine Erweiterung auf weitere Plattformen oder Formate (Carousels, Reels, Thumbnails) an.
Kernaussagen und Ausblick
Die Analyse zeigt, dass Textgestaltung auf Instagram-Newsbildern stark durch den Bildhintergrund geprägt ist und häufig über wenige, wiederkehrende Farb- und Stilcluster gesteuert wird. Portaltypische Unterschiede sind erkennbar, ohne dass sich daraus automatisch eine klare inhaltliche Trennlinie ableiten lässt.
In der affektiven Dimension deuten die Ergebnisse auf eine überwiegend negative Tonalität und auf methodische Sensitivität gegenüber kurzen, fragmentierten oder OCR-rauschbehafteten Texten hin. Themenprofile wirken zwischen Portalen ähnlich, können aber durch einzelne dominante Hashtags verzerrt werden.
Als Takeaway ergibt sich: Multimodale Auswertungen eignen sich gut, um Gestaltungsroutinen und Abweichungen sichtbar zu machen, sollten aber als Musteranalyse verstanden werden. Für die Praxis heißt das, Kontrast- und Textbereichsmetriken stärker zu operationalisieren und Sentimentauswertungen konsequent mit Qualitätschecks der Textextraktion zu koppeln.
Die Arbeit entstand in Kooperation mit der Stack1 GmbH, die für die Umsetzung Ressourcen (AI API-Zugänge) bereitstellte.