Abstract
Die Suche nach großen Mengen von Informationen im Internet gestaltet sich oftmals schwierig, da jede Website einzeln aufgerufen und nach den gewünschten Daten durchsucht werden muss. Erarbeitet wird deshalb eine Werkzeugkette (Toolchain), um automatisiert und mit Hilfe einer Suchmaschine eine Datenbank mit relevanten Webseiten zu erstellen, zu filtern und nach gewünschten Informationen zu durchsuchen. Vorhandene Möglichkeiten dieser Art der Informationsgewinnung werden hierbei untersucht und bewertet. Weiterhin werden die Arten von nutzbaren Informationen aus Suchmaschinenergebnissen, sowie mögliche Anwendungsgebiete betrachtet. Es soll exemplarisch eine Sammlung relevanter und vollständiger Kontaktdatensätze von Unternehmen der Event- und Vermietungsbranche erzeugt werden. Davor werden alternative Quellen von B2B-Kontaktdaten dahingehend untersucht, wie darauf zugegriffen werden kann und welche Kriterien den produktiven Einsatz dieser Datensätze ausschließen. Deshalb werden Werkzeuge und Methoden verglichen, Suchmaschinenergebnisse als strukturierte Daten zu erhalten, diese zu filtern und zu persistieren. Es wird gezeigt, wie auf den gewonnenen Websites nach festgelegten Daten gesucht wird. Dabei entstehende Probleme werden betrachtet und Lösungen aufgezeigt. Die Datenqualität wird durch den praktischen Einsatz der gesammelten E-Mail-Adressen in einer studentischen Online-Befragung bewertet. Dabei werden die gewonnenen und strukturierten Unternehmensdaten zur Erzeugung von dynamisch generierten, personalisierten und einladenden E-Mails genutzt, die einen Link zur Online-Befragung enthalten.
Ausgangslage und Forschungsfrage
Für Marktanalysen und gezielte Ansprache werden Unternehmenslisten benötigt, die Branche, Standort und verlässliche Kontaktwege enthalten. Klassische Datenquellen sind oft teuer, unvollständig oder enthalten inaktive Unternehmen, während Suchmaschinen aktuelle und online aktive Anbieter sichtbar machen.
Die zentrale Forschungsfrage lautet: Wie lässt sich eine Toolchain konzipieren, die Suchmaschinenergebnisse automatisiert in eine qualitätsgesicherte, branchen- und ortsbezogene Unternehmensdatenbank überführt und daraus nutzbare Kontaktdaten ableitet? Nicht betrachtet werden rechtliche Detailfragen einzelner Datenquellen und eine Ausweitung auf mehrere Suchmaschinenanbieter.
Die praktische Relevanz liegt in der Nutzung der gewonnenen Daten für personalisierte Kommunikation und für belastbare Marktbefragungen, ohne auf proprietäre Firmendatenbanken angewiesen zu sein. Relevanz und Kontextbezug sind zentrale Faktoren für erfolgreiche E-Mail-Kommunikation. [1] Gleichzeitig ist eine systematische Qualitätsbewertung notwendig, um die Ergebnisse verlässlich einordnen zu können.
Methodisches Vorgehen
Die Toolchain erzeugt Suchanfragen aus verknüpften Listen von Orten und Branchen und ruft Suchergebnisse über eine programmatische Schnittstelle ab. Die gefundenen Domains werden gefiltert, dedupliziert und mit den jeweiligen Suchbegriffen in einer Datenbank gespeichert.
Für die Kontaktgewinnung werden die Zielseiten automatisiert analysiert und nach E-Mail-Adressen gesucht. Dafür werden Suchmuster, Stichwortsuche und strukturierte Auswertung kombiniert, was dem Vorgehen der Informationsextraktion entspricht, die in der Arbeit als Teilgebiet der Computerlinguistik und der Named-Entity-Recognition eingeordnet wird. [2] Ergänzend wird gezielt auf Kontakt- und Impressumsseiten navigiert, um fehlende Angaben nachzuziehen.
Die E-Mail-Extraktion stützt sich auf reguläre Ausdrücke, um typische Adressmuster im Text zu erkennen und zu validieren. [3]
Die Datenqualität wird über eine zufällige Stichprobe überprüft. Bewertet werden die Relevanz der Treffer zum Suchbegriff sowie die Korrektheit der gefundenen E-Mail-Adressen, um Fehlerquellen der Such- und Extraktionsschritte sichtbar zu machen.
Die gewonnenen Erkenntnisse
Die Suche führt zu 15.600 gespeicherten Ergebnissen, nachdem die Liste der Anbieter durch Filterung und Prüfschritte reduziert wurde. In der Qualitätsstichprobe zeigt sich, dass 11 % der Suchergebnisse nicht zum Suchbegriff passen und 27 % der E-Mail-Adressen fehlerhaft oder nicht auffindbar sind. Hochgerechnet verbleiben etwa 10.100 Websites mit passender Branche, richtigem Ort und korrekter E-Mail-Adresse.
Die Ergebnisse zeigen zudem konkrete Schwachstellen in der Extraktion: E-Mail-Adressen mit Sonderzeichen vor dem @-Zeichen werden teilweise falsch erfasst, und ortsbezogene Suchbegriffe können zu irrelevanten Treffern führen. Diese Befunde begründen gezielte Verbesserungen an Suchbegriffen und Extraktionsmustern.
Die gewonnenen Kontaktdaten werden praktisch in einer Online-Umfrage eingesetzt. Von 12.071 versendeten E-Mails nehmen 2.113 Unternehmen teil; die Klickrate liegt bei 22 %. Damit wird die Wirksamkeit der personalisierten Ansprache auf Basis der gewonnenen Daten empirisch gestützt.
Was die Ergebnisse bedeuten
Die Ergebnisse bestätigen, dass Suchmaschinendaten eine belastbare Grundlage für die strukturierte Gewinnung von Unternehmensinformationen bieten, wenn Filterung und Qualitätssicherung fest integriert sind. Der Branchen- und Ortsbezug erweist sich als zentral, weil er die Relevanz der Treffer erhöht und die Ansprache präziser macht.
Gleichzeitig zeigt die Fehlerquote bei E-Mail-Adressen, dass reine Mustererkennung Grenzen hat. Verbesserungen in der Extraktion, etwa robustere Regeln oder ergänzende Verfahren, sind nötig, um die Datenqualität weiter zu steigern und den manuellen Prüfaufwand zu reduzieren.
Die Übertragbarkeit ist hoch, solange die gesuchten Informationen öffentlich auf Websites verfügbar sind. Für die Praxis im E-Mail-Marketing ist die zielgenaue Relevanz der Empfänger entscheidend, was die Bedeutung personalisierter Ansprache unterstreicht.
Kernaussagen und Ausblick
Die Arbeit entwickelt eine Toolchain, die Suchmaschinenergebnisse in strukturierte Unternehmensdaten überführt und deren Qualität überprüfbar macht. Die Resultate zeigen, dass sich mit vertretbarem Aufwand große, aktuelle und zielgerichtete Unternehmenslisten erzeugen lassen.
Der zentrale Takeaway ist, dass Suchmaschinen in Kombination mit systematischer Extraktion und Validierung eine praktikable Alternative zu teuren Datenanbietern bieten. Als Ausblick bieten sich robustere Extraktionsregeln, weitergehende Qualitätsmetriken und die Ausweitung auf zusätzliche Branchen und Regionen an.