Spam-Filter

Der Spam-Filter filtert eingehende E-Mails, bevor sie in Postfächern abgelegt werden. Weiterleitungen filtern keine E-Mails, sondern leiten jede E-Mail weiter. Zeigt eine Weiterleitung auf ein Postfach, kümmert sich das Postfach um das Filtern von Spam.

Als Spam-Filter setzen wir dspam ein, was auf einem Bayes-Filter basiert. Der Spam-Filter muss für jedes Postfach erst ein wenig trainiert werden, damit er vernünftig arbeitet. Das liegt daran, dass er anfangs noch nicht weiß, was Spam ist und was nicht und er das erst lernen muss. Wir können bzw. wollen das nicht "für alle User gleich" machen, denn die Auffassungen, was Spam ist, gehen doch weit auseinander - vom Thema Datenschutz einmal abgesehen, denn theoretisch könnte man über den Spam-Filter auch etwas über die E-Mails fremder Postfächer lernen.

Spam-Filter trainieren

Verschiebe Spam-E-Mails in den Ordner "Spam" (weitere Order-Namen, die der Spam-Filter zum Training verwendet sind "Junk" und "Junk-E-Mail") und falsch erkannten Spam aus diesem Ordner heraus. Der Spam-Filter lernt durch das Verschieben automatisch, welche E-Mails Spam sind, und welche nicht, und verbessert so die Genauigkeit der Erkennung.

Der Spam-Filter hat eine Lernkurve, er wird also bei den ersten E-Mails noch nicht so gut entscheiden und dies anhand des Anlernens durch den Benutzer verbessern. Ein "Globales Lernen" (also ein Austausch der Lern-Daten zwischen Nutzern) kann es nicht geben, da der eine E-Mails von Anbieter X als Spam markieren wird, während andere Nutzer diese E-Mails bekommen möchten. Obwohl es in der Theorie eine Abgrenzung zwischen Spam und Nicht-Spam gibt, verwischt diese in der Praxis zu sehr.

Statistiken

In der Verwaltung und per API sind diverse Statistiken zum Spam-Filter verfügbar:

  • Spam, korrekt erkannt: Die Anzahl an E-Mails, welche als Spam klassifiziert wurden
  • Ham, korrekt erkannt: Die Anzahl an E-Mails, welche nicht als Spam klassifiziert wurden
  • False Positives: Die Anzahl E-Mails, welche fälschlicherweise vom Filter als Spam eingestuft wurden und vom Benutzer als "Ham" trainiert wurden
  • False Negatives: Die Anzahl E-Mails, welche vom Filter nicht als Spam erkannt wurden und vom Benutzer als "Spam" trainiert wurden
  • Spam Hit Rate: Die Wahrscheinlichkeit, eine Spam-E-Mail korrekt zu klassifizieren
  • Ham Strike Rate: Die Wahrscheinlichkeit, dass der Filter eine normale E-Mail versehentlich als Spam klassifiziert
  • Gesamte Genauigkeit (overall_accuracy): Die Wahrscheinlichkeit, irgendeine E-Mail korrekt zu klassifizieren

Hinweis zu Outlook: Die "Spam-Filter"-Funktion von Outlook ist eine Client-Funktion (sie wird lokal von Outlook ausgeführt). Outlook hat keinen Einfluss auf den serverseitigen Spam-Filter, weil Outlook die E-Mails in den falschen Ordner verschiebt. Da es nicht möglich ist, den Ordner in Outlook anzupassen, ist nur ein Workaround möglich: lege einen Quickstep an, mit welchem Du die E-Mails in den "Spam"-Ordner verschiebst und schalte die Junk-Mail-Funktion von Outlook aus:

Quickstep Optionen öffnen Spam-Filter deaktivieren