Wie funktionieren eigentlich Spamfilter?

Spamfilter funktionieren mal mehr, mal weniger gut. Doch woran liegt das überhaupt? Wie kann ein Computer gute von schlechten E-Mails unterscheiden? Hexerei? Glück? Zufall? Finden wir’s heraus!

Ich kann jetzt schon sagen, dass Spam Filter nichts mit übernatürlichen Kräften oder Zufall zu tun hat. Hinter den Spamfiltern stecken Textanalysen, Blacklists und mehr.

 

Von schwarzen Listen

Wer kennt es nicht: die Berge an E-Mails mit Werbung und anderem netten Zeugs. E-Mails dieser Art sind vor allem Menschen, die ihre Email an jeden X-Beliebigen Internetdienst weitergeben mehr als bekannt. Sogenannte Spamfilter sollen uns derlei Müll vom Hals halten.

Die erste Instanz eines Spam-Filters ist die „blacklist“- also die schwarze Liste. Wer auf dieser Liste steht hat jedoch keinen Grund zu feiern: Auf dieser Liste sind die IP- und E-Mail-Adressen bekannter Spammer verzeichnet.

Das Problem mit den blacklists ist, dass sie nicht unbedingt aussagekräftig sind. Denn wer zum Beispiel über einen Shared-Hosting Server E-Mails verschickt, der leidet für seine Mitnutzer aufgrund der identischen IP-Adresse mit.

 

Böse Wörter

Ferner geht es in der zweiten Instanz um „böse Wörter“. In einer Textanalyse fallen beispielsweise E-Mails mit einem hohen Gebrauch von Werbewörtern wie „Viagra“, „Gewinnspiel“ oder „Billig“ auf. Das heißt keineswegs, das diese direkt in den Spam-Ordner verschoben werden: Es ist lediglich ein Indiz.

Sowohl der Betreff als auch der Nachrichtentext wird auf die Häufige Verwendung solcher typischen Werbewörter durchsucht. Dies geschieht zumeist bereits Serverseitig.

Übrigens bewerben fast 26% aller Spam-Mails Medikamente- gefolgt von dubiosen Dienstleistungen (16%).

 

Du entscheidest

Eine weitere Variante, gute von bösen Mails zu unterscheiden ist das Filtern nach der „Bayes-Filter-Methode“. Hier entscheidet der Nutzer, ob die E-Mail Spam ist oder eben nicht. Diese Funktion findet zum Beispiel im Emailprogramm „Thunderbird“ oder in diversen Anti-Viren-Programmen Gebrauch.

Durch das Antrainieren von gut und böse „lernt“ das Programm nach und nach immer besser, automatisiert auszusortieren.

 

Aufmachung der Mail

Das Letzte Kriterium der Spamfilter nimmt sich der Aufmachung der E-Mail an. Hierbei wird zum Beispiel beachtet, in welcher Relation die Bilder mit dem Text stehen oder zu welchen Seiten in der E-Mail verlinkt wird.

Sinn von Spam ist schließlich immer die Aktivierung des Nutzers- er soll handeln. Daher ist es durchaus sinnvoll, die verlinkten Seiten bei der Entscheidung zwischen Spam/ Nicht-Spam zu beachten.

Das Mysterium „Spamfilter“ dürfte damit geklärt sein. Es hat tatsächlich nichts mit Hexerei zu tun: Dafür umso mehr mit ausgeklügelten Algorithmen. Auf das die Spamfilter den Spammern immer einen Schritt voraus sind!

5 Kommentare

  1. Florian K. 26. Dezember 2014
    • Florian K. 26. Dezember 2014
    • Henrik Stamm 27. Dezember 2014
  2. Jens @Sir Apfelot 27. Dezember 2014
    • Henrik Stamm 27. Dezember 2014

Was denkst du darüber?