Übersicht & Problemstellung
Die Kundin stand vor der Herausforderung, Kassenbon-Bilder aus verschiedensten Quellen automatisiert und exakt auszulesen, ohne manuelle Nachbearbeitung. Die Qualität der Bilder variierte stark: unscharfe Fotos, Schatten, unterschiedliche Lichtverhältnisse und schräge Aufnahmen erschwerten die maschinelle Analyse. Die manuelle Erfassung bindete erhebliche Ressourcen und war fehleranfällig, insbesondere bei hohen Volumina und engen Timings. Zusätzlich verlangte das Anwendungsszenario nach einer live-fähigen API, um eine möglichst direkte Verarbeitung und Rückgabe der extrahierten Daten zu gewährleisten, da die Resultate unmittelbar weiterverarbeitet werden sollten. Schwierigkeiten lagen in der nötigen Robustheit sowie einer Skalierbarkeit bei hohen Tagesvolumina.
Unsere Lösung
Wir haben eine mehrstufige, KI-gestützte Bildverarbeitungspipeline in Python entwickelt und als skalierbare FastAPI-Anwendung umgesetzt. Die Lösung startet mit automatischem Bildzuschnitt, Entzerrung via Filter, quantitativer Kantenanalyse und Hough-Transformation, verbessert Kontraste und reduziert Bildrauschen gezielt für OCR-Zwecke. Die API schneidet die Belege auf ein Standardformat (2048x2048 Pixel) und nutzt ein speziell trainiertes Tesseract-OCR-Modell, das auf typische Kassenbon-Schriften optimiert ist. Für den Echtzeit-Charakter erfolgt die Verarbeitung in einer parallelisierten Pipeline – Container-basiert mit Docker, cloud-native deploybar und mit Performance-Monitoring ausgerüstet. Intelligentes Caching, robuste Fehlerbehandlung und Lastspitzen-Handling sichern die hohe Verfügbarkeit und Geschwindigkeit, sodass auch tausende Belege pro Tag schnell und zuverlässig ausgelesen werden können.
Ablauf & Hürden im Projekt
Die größte Herausforderung lag in der Echtzeitfähigkeit der Verarbeitung bei gleichzeitig stark schwankender Bildqualität. Unterschiedliche Smartphone-Kameras führten zu einer Vielzahl an Formaten, Winkeln, Verzerrungen und Störungen wie Schatten oder Knicken. Die präzise Kanten- und Konturenerkennung musste robust gegen solche Fehlerquellen arbeiten, was komplexe, adaptive Bildfilter und Kombinationen aus verschiedenen Algorithmen erforderte. Das Custom-Training des Tesseract-Modells auf diverse Bonschriften erhöhte die OCR-Präzision, erforderte jedoch umfangreiche Tests mit realen Daten. Neben der technischen Leistung stand die Gewährleistung einer skalierbaren Architektur im Fokus, um Lastspitzen zu beherrschen und durch intelligentes Monitoring Fehler und Engpässe frühzeitig zu erkennen.
Projektergebnis & Fazit
Die entwickelte Lösung automatisiert die Kassenbondigitalisierung und erzielt überzeugende Ergebnisse: Reduktion der Bearbeitungszeit auf unter 1 Sekunde pro Beleg, Erkennungsraten über 95% und stabile Performance bei hohen Volumina. Die API entlastet interne Ressourcen, eliminiert manuelle Fehler und ermöglicht eine flexible, schnelle Integration in die bestehenden Prozesse des Kunden. Das Projekt hat die Digitalisierung und Effizienz der Kundin nachhaltig verbessert.
Über den Kunden
Die Kundin ist ein Unternehmen mit Fokus auf innovative Weblösungen und Consumer-Technologien, ansässig in Deutschland. Für das Projekt kamen moderne Python- und AI-Technologien in einer cloud-nativen Umgebung zum Einsatz. Ziel war die Optimierung und Automatisierung von Erfassungsprozessen im Bereich digitaler Belegverarbeitung.