Abstract
Spam ist ein Problem, welches es seit der Kommunikation über das Internet gibt. Es beschreibt das Erhalten unerwünschter Nachrichten in oftmals hoher Menge. Spam macht heutzutage einen großen Teil des weltweiten E-Mail-Verkehrs aus. Unternehmen und Privatpersonen können geschadet werden, indem enthaltene Links Personen fehlleiten und sie finanziell schaden oder private Informationen stehlen können.
Diese Thesis behandelt das Problem von Spam im E-Mail-Kontext. Dabei werden verschiedene Verfahren analysiert, die basierend auf dem Nachrichteninhalt E-Mails als Spam detektieren können. Dabei werden Bayes-Klassifikatoren näher betrachtet und in einem Test bewertet. Es wird ein Datensatz an Spam und Nicht-Spam angelegt, welcher genutzt wird, um Bayes-Verfahren (welche auf maschinellem Lernen aufbauen) anzulernen. Außerdem werden verschiedene Optimierungsansätze eingebaut, deren Einfluss auf den Spamfilter untersucht werden. Als Ansätze wird die Stoppwort-Filterung, die Floating Point Underflow (FPU)-Anpassung und die Tokenisierung gewählt.
Nach Durchführung der Tests zeigt sich, dass sowohl die Stoppwort-Filterung, als auch die FPU-Anpassung einen positiven Einfluss auf die Qualität der Klassifikation haben. Ihr Einsatz erhöht die Rate an richtig als Spam erkannten Nachrichten und erhöht die Wahrscheinlichkeit, dass als Nicht-Spam identifizierte Nachrichten auch tatsächlich nicht Spam sind, signifikant. Die Tokenisierung hingegen kann keine zufriedenstellende Leistungssteigerung hervorbringen, wobei dies auf die Definition der Tokenisierungsregeln zurückzuführen und nicht für alle Regeln allgemeingültig ist.
Es zeigt sich, wie wichtig ein gut gewählter Datensatz für die Leistung des Spamfilters ist. Ein großer Datensatz mit hoher Informationsdichte und einer Vielzahl an Datenquellen ist wichtig für den produktiven Einsatz eines Bayesschen Spamfilters.
Ausgangslage und Forschungsfrage
Spam-E-Mails sind mehr als nur lästig: Sie belasten Posteingänge, senken Produktivität und sind ein häufiger Einstiegspunkt für Phishing und weitere Angriffe. Gleichzeitig ist das Ziel eines Filters ambivalent: Nicht nur Spam muss erkannt werden, auch legitime Nachrichten dürfen nicht fälschlich im Spam-Ordner landen. In der Praxis ergänzt inhaltsbasierte Klassifikation technische Schutzmaßnahmen wie Domain-Authentifizierung (z.B. DMARC) statt sie zu ersetzen. [1] Auch das Nachrichtenformat selbst ist standardisiert (z.B. RFC 5322) und bildet die Basis für formale Validierungen. [2]
Die zentrale Frage der Thesis lautet, welche Spam-Klassifikatoren sich für die inhaltsbasierte E-Mail-Klassifikation eignen und wie sich Bayes-basierte Verfahren durch gezielte Optimierungen verbessern lassen. Der Fokus liegt auf Naive-Bayes-Varianten als praxisnaher Kompromiss aus Implementationsaufwand und Klassifikationsleistung.
Nicht behandelt werden fein-granulare Angriffs- oder Infrastrukturdetails von Mail-Providern. Ebenso steht nicht die Umgehung von Authentifizierungsstandards im Vordergrund, sondern die robuste inhaltsbasierte Erkennung als zusätzlicher Baustein.
Methodisches Vorgehen
Die Evaluation basiert auf einem gelabelten E-Mail-Datensatz mit 822 Nachrichten als Trainingsbasis (50:50 zwischen Spam und Ham). Für den Benchmark werden 100 weitere Nachrichten genutzt (ebenfalls 50:50), um die Klassifikation gegen bekannte Zielklassen auszuwerten. Der Datensatz wird vorab bereinigt und anonymisiert, um personenbezogene Inhalte zu entfernen.
Implementiert werden zwei Naive-Bayes-Varianten für Textdaten: Multinomial Naive Bayes (MNB) und Bernoulli Naive Bayes (BNB). Die unterschiedlichen Modellannahmen und ihre Auswirkungen auf Spamfilterung sind in der Literatur gut beschrieben. [3] Eine prototypische API setzt Training (Initialisierung des Datenmodells) und Klassifikation als wiederholbare Endpunkte um.
Untersucht werden drei Optimierungsansätze, die in Kombination variiert werden: Stoppwort-Filterung (Entfernen sehr häufiger Funktionswörter), Underflow-Gegenmaßnahmen bei der Wahrscheinlichkeitsberechnung (Rechnung im Lograum) sowie Tokenisierung (triviale und erweiterte Trennregeln). Die Tokenisierung orientiert sich an etablierten Trennregeln für Bayes-Spamfilter. [4]
Als Qualitätsmetriken dienen u.a. Richtig-Positiv-Rate, Richtig-Negativ-Rate, Precision (positiver Vorhersagewert) und ein gewichtetetes F-Maß (Fβ mit β = 0,9), das Fehlklassifikationen von Ham höher bewertet. [5]
Die gewonnenen Erkenntnisse
Die Underflow-Berücksichtigung (Logarithmen statt Produktsummen sehr kleiner Wahrscheinlichkeiten) verändert das Verhalten der Filter deutlich. Im zweiten Testlauf verbessert sich der positive Vorhersagewert auf 90,2 %, gleichzeitig sinkt die Richtig-Positiv-Rate auf 92 % und die Falsch-Negativ-Rate steigt auf 8 %, was auf eine stärkere Empfindlichkeit und potenzielle Überreaktion hindeutet.
Die Stoppwort-Filterung zeigt einen stabilen Qualitätsgewinn ohne sichtbare Einbußen in der Ham-Erkennung. Im dritten Testlauf steigt die Richtig-Negativ-Rate auf 84 % (MNB) bzw. 86 % (BNB); besonders BNB profitiert und erreicht im F-Maß einen Spitzenwert von 94,1 %.
Die beste Gesamtwertung entsteht in der Kombination aus Stoppwort-Filterung und Underflow-Gegenmaßnahmen bei trivialer Tokenisierung. Im vierten Testlauf erreicht MNB eine Richtig-Negativ-Rate von 92 %, einen positiven Vorhersagewert von 92,3 % und das höchste F-Maß von 94,9 %.
Die erweiterte Tokenisierung liefert hingegen kein robustes Plus, sondern führt ohne weitere Absicherung zu numerischen Problemen. Im fünften Versuch klassifiziert BNB aufgrund von Floating-Point-Underflow alle Nachrichten als Ham (RNR = 0, PV = 50 %); auch mit Lograum-Rechnung tritt im sechsten Versuch ein ganzzahliger Unterlauf auf.
In der aggregierten Betrachtung der Versuche erzielt BNB eine bessere Richtig-Positiv-Rate und ist damit vorteilhaft, wenn fälschlich als Spam markierte legitime E-Mails besonders teuer sind. MNB liefert im Schnitt höhere Precision und (leicht) bessere Richtig-Negativ-Raten und eignet sich eher, wenn maximale Spam-Erkennung priorisiert wird.
Was die Ergebnisse bedeuten
Die Ergebnisse unterstreichen, dass Naive Bayes für Spamfilterung nicht nur eine Frage des Algorithmus ist, sondern der gesamten Pipeline: Tokenisierung, Vorverarbeitung und numerische Stabilität entscheiden mit. BNB ist konzeptionell attraktiv, weil es auch das Nicht-Vorkommen von Token berücksichtigt, reagiert aber stärker auf arithmetische Unterläufe und benötigt daher Schutzmechanismen.
Stoppwort-Filterung und Lograum-Rechnung sind zwei besonders praxisnahe Hebel. Beide reduzieren unterschiedliche Risiken: Stoppwörter dämpfen Verzerrungen durch sehr häufige Tokens und verringern die Modellgröße, die Logarithmen entschärfen Underflow beim Multiplizieren kleiner Wahrscheinlichkeiten. Die Kombination zeigt den stärksten Effekt, während eine komplexere Tokenisierung ohne saubere Numerik sogar Rückschritte erzeugen kann.
Die Aussagekraft bleibt durch die Datengrundlage begrenzt: 822 Trainingsbeispiele aus wenigen Quellen können Verzerrungen (Bias) enthalten und führen zu Korrelationen, die in anderen Posteingängen nicht gelten. Für produktive Filter sind vielfältige Datenquellen und hohe Informationsdichte wichtiger als reine Datenmenge.
Kernaussagen und Ausblick
Die Thesis zeigt, dass Naive-Bayes-Spamfilter mit vergleichsweise einfacher Implementierung eine hohe Klassifikationsqualität erreichen können, wenn Vorverarbeitung und Numerik stimmen. Stoppwort-Filterung und Underflow-Gegenmaßnahmen verbessern die Ergebnisse messbar, während Tokenisierungsregeln sorgfältig getestet werden müssen.
BNB eignet sich besonders, wenn legitime E-Mails möglichst selten im Spam landen sollen; MNB ist attraktiver, wenn eine aggressivere Spam-Erkennung im Vordergrund steht. Entscheidend für beide Verfahren ist ein qualitativ guter, diverser Datensatz.
Die Arbeit entstand im Kontext einer von Stack1 GmbH unterstützten Bachelorarbeit und liefert praxisnahe Hinweise, welche Optimierungen bei Bayes-basierten Spamfiltern zuerst umgesetzt werden sollten.