Abstract
Die vorliegende Bachelorarbeit beschäftigt sich mit der Entwicklung und Evaluierung von nutzerzentrierten Designs und Features zur Darstellung von KI-extrahierten Informationen aus PDF-Dokumenten innerhalb einer Webanwendung. Ziel der Untersuchung ist es, herauszufinden, welche Gestaltungs- und Interaktionselemente die Transparenz und Nachvollziehbarkeit der extrahierten Inhalte verbessern können.
Zur Beantwortung dieser Frage werden verschiedene Designkonzepte entwickelt und in einer Nutzerstudie evaluiert. Die Untersuchung umfasst sowohl Tracking-Metriken zur Analyse des Nutzerverhaltens als auch eine qualitative Befragung zur Bewertung der Benutzerfreundlichkeit und der Effektivität der einzelnen Designs.
Die Ergebnisse zeigen, dass keine der getesteten Designvarianten universell bevorzugt wird. Während einige Nutzer die Struktur und Übersichtlichkeit eines Designs loben, empfinden andere dasselbe Layout als unübersichtlich. Zudem zeigt sich, dass interaktive und adaptive Elemente die Nutzererfahrung erheblich beeinflussen können.
Die Studie verdeutlicht, dass ein flexibles, anpassbares Design der Benutzerumgebung erforderlich ist, um unterschiedlichen Nutzerbedürfnissen gerecht zu werden. Die gewonnenen Erkenntnisse liefern wertvolle Ansätze für zukünftige Optimierungszyklen und die Weiterentwicklung KI-gestützter Webanwendungen zur Dokumentenverarbeitung.
Ausgangslage und Forschungsfrage
Generative KI kann Informationen aus langen Dokumenten schnell zusammenfassen und als Antwort auf Fragen bereitstellen. In der Praxis entsteht dabei ein wiederkehrendes Problem: Ohne sichtbaren Bezug zu den Originalstellen lässt sich schwer prüfen, ob eine Antwort korrekt ist, ob wichtige Einschränkungen fehlen oder ob Details aus dem Kontext gerissen wurden.
Gerade bei PDFs ist die Hürde hoch: Inhalte sind oft lang, heterogen formatiert und schwer zu navigieren. Ein nutzerzentriertes Interface muss deshalb nicht nur Antworten anzeigen, sondern auch den Weg zur Quelle, die Relevanz und die Interaktionsmöglichkeiten so gestalten, dass Prüfung und Weiterarbeit effizient bleiben.
Eine zentrale Anforderung ist, unnötige kognitive Belastung zu vermeiden, damit die Aufmerksamkeit bei Inhalt und Verifikation bleibt statt bei Navigation und UI-Interpretation [1].
Die zentrale Forschungsfrage lautet: Wie müssen Benutzeroberflächen-Komponenten und Interaktionsmechanismen gestaltet sein, um die Transparenz und Nachvollziehbarkeit von KI-extrahierten Informationen aus PDFs in einer Web-Anwendung zu gewährleisten?
Der Fokus liegt auf der Darstellung und Bedienbarkeit dieser Transparenzfunktionen. Nicht betrachtet werden Modelltraining oder eine umfassende Bewertung der inhaltlichen Richtigkeit von KI-Antworten über verschiedene Modellfamilien hinweg.
Methodisches Vorgehen
Ausgehend von Designprinzipien und verwandten Arbeiten entstehen mehrere UI-Konzepte, die Quellen und Antwort miteinander verbinden. Die Konzepte adressieren typische Aufgaben wie: relevante Passagen finden, Bezüge zwischen Antwort und Dokument verifizieren und Informationen für die Weiterverwendung organisieren.
Der Entwurf folgt einem iterativen Vorgehen aus Anforderungen, Prototyping und Evaluation, um Gestaltungshypothesen früh mit Nutzern zu prüfen und gezielt nachzuschärfen [2] [3].
Drei Varianten werden prototypisch umgesetzt: eine KI-zentrierte Dreispaltenansicht, eine quellen-zentrierte Dreispaltenansicht sowie ein kompaktes Zweispaltenlayout mit umschaltbarer Quellen- und PDF-Ansicht. Ergänzend werden Interaktionsfeatures wie Filter, Drag-and-Drop, Pinning, Detailansicht und Verweise zwischen Antwort und Quellen vorgesehen.
Für die Quellenarbeit wird ein „Passage“-Denkmuster aufgegriffen: Aus Dokumenten gelöste Textbausteine bleiben über Metadaten mit dem Ursprung verknüpft und lassen sich in unterschiedlichen Ansichten organisieren [4].
Die Evaluation erfolgt als Nutzerstudie mit zwei Datentypen: Tracking-Metriken (z.B. Verweildauer, Klickverteilung, Zeit bis zur ersten Interaktion, Heatmaps) und eine Befragung mit Ratings und Freitextfeedback. Dadurch wird sichtbar, welche Elemente tatsächlich genutzt werden und wie sie subjektiv bewertet werden.
Die gewonnenen Erkenntnisse
Die getesteten Designvarianten werden nicht einheitlich bevorzugt. Ein Teil der Nutzer schätzt „alles auf einen Blick“, andere bevorzugen eine reduzierte Oberfläche, die bestimmte Bereiche (insbesondere die PDF-Vorschau) ausblendet und so visülles Cluttering vermeidet.
Interaktive Verbindungselemente zwischen Antwort und Quellen haben einen klaren Mehrwert. Besonders gut werden Verweise bewertet, die aus der KI-Antwort direkt zur passenden Qülle springen; diese Interaktion wird als leicht verständlich und in der Arbeit mit den Inhalten als nützlich bis notwendig eingestuft.
Eine reine PDF-Vorschau ohne zusätzliche Interaktion (z.B. Markierungen, Sprung zu Textstellen, Kontextvorschau) wird dagegen häufig als wenig hilfreich empfunden. Das deutet darauf hin, dass „Dokument daneben anzeigen“ allein nicht reicht, sondern die Navigation zur relevanten Passage Teil des eigentlichen Produkterlebnisses sein muss.
Übergreifend zeigt sich: Die gleichen UI-Entscheidungen (Layout, Farbführung, Dichte, Icon-Wahl) werden je nach Nutzerpräferenz gegensätzlich bewertet. Adaptivität und individülle Anpassbarkeit (z.B. Fenstergrößen, optionale Bereiche, Darstellungsmodi) werden daher als naheliegender Weg sichtbar, um diese Divergenz produktiv aufzulösen.
Was die Ergebnisse bedeuten
Die Ergebnisse sprechen gegen ein universelles „Best Layout“ und für ein Baukastenprinzip im Interface: feste Kernelemente (Antwort, Quellen, Kontext) plus konfigurierbare Anordnung und Dichte. Damit lässt sich Transparenz nicht nur als Feature, sondern als Arbeitsmodus verstehen, der je nach Aufgabe (Schnellüberblick vs. Prüfung) umschalten kann.
Gleichzeitig wird deutlich, dass Interaktion über reine Sichtbarkeit hinausgeht: Funktionen wie Verweise, Detailansichten oder Filter reduzieren Suchkosten und kognitive Last, weil sie den relevanten Kontext schneller verfügbar machen. Umgekehrt können missverständliche Icons, uneindeutige Farbzustände oder zu viele gleichzeitig sichtbare Optionen dieselben Transparenzfunktionen in ihrer Wirkung schwächen. Für die visülle Führung hilft, Wahrnehmungsprinzipien und Aufmerksamkeitsmechanismen explizit mitzudenken [5].
Eine zentrale Limitation ist die technische Umgebung der Studie: Teile der Transparenzkette (z.B. robuste, automatische Quellenzuordnung und Markierung im PDF) sind schwer zuverlässig umzusetzen, wenn verwendete APIs keine granularen Zitatstellen liefern. Dadurch verschiebt sich die Evaluation in Richtung UI/UX-Wahrnehmung und weniger in Richtung „End-to-End“-Verifikation echter KI-Zitate.
Auch die PDF-Integration selbst ist ein Engpass: Browserbasierte Viewer können PDFs rendern, aber Textstellen automatisiert, robust und performant zu markieren ist technisch anspruchsvoll und hängt stark vom gewählten Rendering-Ansatz ab [6].
Für die Praxis folgt daraus ein klarer Fokus für nächste Iterationen: Quellenbezug als First-Class-Element (Sprung, Markierung, Kontextvorschau), sichtbare Zustände (aktiv/inaktiv, gefiltert, gepinnt) und konfigurierbare Dichte. Damit steigt die Wahrscheinlichkeit, dass Transparenz nicht als Zusatzarbeit wahrgenommen wird, sondern als natürlicher Teil des Workflows.
Kernaussagen und Ausblick
Nutzerzentrierte Transparenz bei KI-Antworten aus PDFs entsteht nicht durch eine einzelne Darstellung, sondern durch gut verbundene Interaktionen zwischen Antwort, Quellen und Dokument.
Die Studie zeigt, dass Verweise und kontextgebende Detailansichten besonders helfen, während eine passive PDF-Vorschau ohne Markierung und Navigation oft keinen spürbaren Mehrwert liefert.
Da Nutzerpräferenzen stark auseinanderlaufen, ist ein flexibles, anpassbares UI (Layouts, Fenstergrößen, optionale Bereiche) der robustere Ansatz als ein fixes „One-Size-Fits-All“-Design.
Die Arbeit wurde im Umfeld der Stack1 GmbH betreut und liefert damit praxisnahe Hinweise für die Weiterentwicklung KI-gestützter Dokumentenwerkzeuge.