Lade Inhalt...

Spam-Filter - Mechanismen und Algorithmen, Chancen und Gefahren

Einführung Spambekämpfung

Bachelorarbeit 2013 42 Seiten

Informatik - IT-Security

Leseprobe

Inhaltsverzeichnis

1 Einleitung
1.1 Gliederung
1.2 Ziel
1.3 Stand der Forschung

2 Grundlagen
2.1 E-Mail
2.2 Aufbau einer E-Mail
2.3 E-Mail-Übertragung im Internet
2.3.1 Funktionsweise von SMTP
2.3.2 Funktionsweise von POP3
2.3.3 Funktionsweise von IMAP
2.4 Spam
2.4.1 Begriffsursprung
2.4.2 Auswirkungen von Spam
2.5 Entstehungsgeschichte
2.5.1 Card Lottery
2.5.2 Die erste Spamware

3 Anti-Spam Techniken
3.1 Absendervalidierung
3.2 Filtern mit Listen
3.2.1 Blacklisting
3.2.2 Whitelisting
3.2.3 Greylisting oder Challange-Response-Verfahren
3.2.4 Dynamische Adressen
3.2.5 Open Relay
3.2.6 Gemeldete Absender
3.3 Filtern mit Algorithmen
3.3.1 Artificial Neural Network - ANN
3.3.2 Naiver Bayes Algorithmus
3.3.3 Lazy Algorithmen

4 Evaluierung
4.1 Test Corpora
4.2 TREC
4.3 Evaluierung von Cormack und Lynam
4.3.1 Getestete Methoden
4.3.2 Fazit der Studie
4.3.3 Kritik

5 Zusammenfassung
5.1 Schlussfolgerung
5.2 Exkurs

Tabellenverzeichnis

2.1 Befehlssatz Telnet SMTP

2.2 Kommandos POP3

4.1 ROC-Kurve

Abbildungsverzeichnis

1.1 Spam-Aufkommen Oktober und November 2012(Quelle: Eleven Research)

2.1 Aufbau einer E-MailDer Aufbau und die Reihenfolge ist in RFC 2822 festgelegt(de.wikipedia.org)

2.2 E-Mail-Übertragung(eigene Abb.)

2.3 SMTP Handshake(eigene Abb.)

3.1 Schematischer Aufbau eines ANN(eigene Abb.)

3.2 Schematischer Ablauf in einem Bayes-Filter(eigene Abb.)

3.3 Beispiel Kstar Algorithmus(eigene Abb.)

4.1 ROC-Kurve der Ergebnisse (Quelle: Online Supervised Spam Filter Evaluation, Cormack)

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Kurzfassung

Diese Bachelorarbeit soll als Hilfestellung zum Thema Spam und Spam-Bekämpfung fungieren. Es ist beabsichtigt, dass diese Arbeit Grundkenntnisse vermittelt, um die Infrastruktur in z.B. kleinen und mittleren Unternehmen vor Spam zu schützen.

In dieser Arbeit werden Grundkenntnisse zum Thema Spam und E-Mail-Verkehr im Internet vermittelt. Des Weiteren werden Einblicke in unterschiedliche Konzepte zur Spam-Bekämpfung gegeben. Auf die Auswirkungen von Spam und die Wirtschaft wurde ebenfalls eingegangen. Die Methoden werden miteinander Verglichen, mit Hilfe von Studien und einer umfangreichen Recherche werden Aussagen zum Thema Effizienz der einzelnen Methoden getroffen.

In der Schlussfolgerung wird erläutert, dass die Beste Möglichkeit um Spam effizient zu filtern, eine Kombination der vorgestellten Methoden ist. Eine weitere Erkenntnis ist auch, dass man als Zuständiger für den Schutz vor Spam immer über aktuelle Trends informiert sein sollte.

Darüber hinaus werden in einem kurzen Exkurs, am Ende dieser Arbeit, weitere Möglichkeiten zur präventiven Spam-Bekämpfung angeführt.

Executive Summary

This thesis, with the title Spam Filters: Mechanics and Algorithms, Chances and Risks, will serve as a guide on spam and spam control. It is intended that this work will introduce the basics for protecting infrastructure in such as small and medium firms against spam.

In this bachelor thesis a basic knowledge about spam and e-mail traffic on the internet are communicated. Further insights to different approaches of fighting spam are given. The impact of spam on the economy was also discussed. The methods are compared with each other and with the help of studies and extensive research statements on efficiency of each method are made.

It is explained in the conclusion that the best way to filter spam effectively, is a combination of the mentioned methods. Another realization is that one who is responsible for spam protection, should always be informed about current trends. Moreover, in a short excursion at the end of this thesis, some opportunities for preventive spam countering are adduced.

1 Einleitung

Die E-Mail ist bis heute der wichtigste und am meisten genutzte Kommunikations- dienst im World Wide Web. Bis Ende des Jahres 2012 rechnete man mit etwa 3,3 Milliarden aktiven E-Mail Konten weltweit.[1] Doch nicht nur die Anzahl von E-Mail- Konten stieg seit dem Versenden der ersten E-Mail 1971 durch Ray Tomlinson, der als Erfinder der E-Mail gilt.[2] Auch die Zahl von unerwünschten Nachrichten, wie

z.B. Spam, sind in den letzten Jahrzehnten weiter gestiegen. Wie in Abbildung 1.1 zu

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1.1: Spam-Aufkommen Oktober und November 2012. (Quelle: Eleven Research)

erkennen ist, so ist der Spamanteil aller weltweit versendeten E-Mails schwankend, jedoch bleibt der Spamanteil durchschnittlich bei 25%. Durch die Entwicklung neuer Filtermethoden und effektiverer Algorithmen, kann Spam immer besser aus dem E-Mailverkehr gezogen werden.

Für kleine bzw. mittlere Unternehmen stellt sich die Frage, welche Möglichkeiten

zur Filterung von Spam derzeit verfügbar sind und wie hoch die Chancen sind, die eigenen Mail-Boxen vor den Spamfluten zu schützen. Spamfilter kontrollieren ein- gehende E-Mails auf Merkmale typischer Spam-Mitteilungen. Sie sind jedoch nur so gut, wie die Filtermechanik, die zum Einsatz kommt. Durch eine Einführung in diese Thematik und durch Vergleiche der unterschiedlichen Mechaniken, soll ermöglicht werden eine grundlegende Aussage über die Effizienz von Anti-Spam-Methoden zu tätigen.

1.1 Gliederung

In dieser Arbeit werden im ersten Teil Grundbegriffe rund um das Thema Spam und E-Mail erklärt. Nach einer kurzen Darlegung der Spam-Problematik, folgt eine Auflistung und Einführung der gängigsten Anti-Spam-Mechanismen und Algorithmen, die in Spamfilter zum Einsatz kommen.

Die dadurch gewonnenen Erkenntnisse und Ergebnisse der Vergleiche werden im vierten Teil der Arbeit aufbereitet und veranschaulicht. Zum Schluss werden die gesammelten Erkenntnisse in Form eines Fazits erläutert.

1.2 Ziel

Es soll gezeigt werden, wie wirkungsvoll unterschiedliche Anti-Spam Lösungen ar- beiten und wie sie sich technisch voneinander unterscheiden. Dadurch lassen sich die unterschiedlichen Mechanismen identifizieren, die sinnvoll bis sogar unverzichtbar zur Spambekämpfung sind. Durch das Ziel lässt sich die folgende Forschungsfragen ableiten:

Welche Anti-Spam Lösungen gibt es derzeit auf dem Markt und wie unterscheiden sie sich in ihrer Methodik bzw. in ihrer Effektivität der Spambekämpfung? Welche Methoden versprechen den bestmöglichen Schutz vor Spam?

1.3 Stand der Forschung

Zum heutigen Zeitpunkt ist die Forschung hinsichtlich der Entwicklung von Spam erkennenden Methoden recht weit fortgeschritten. Wie in dieser Arbeit dargestellt, basieren die meisten Spamfilter auf autodidaktischen Algorithmen, die selbststän- dig Spam erkennen. Eine Abwanderung von Spam im E-Mailverkehr hin zu den Sozialen Plattformen, wie Facebook[3] und Twitter[4], ist aber deutlich zu erkennen.[5] Dadurch ergeben sich neue Möglichkeiten für Spammer, wie z.B. die Nutzung von Apps und der Folgen -Funktion auf Twitter.

Durch diese Tatsache verlagert sich das Spammen auf diesen Bereich und die Wei- terentwicklung der Spam-Bekämpfung im E-Mailverkehr scheint ihren Höhepunkt bereits überschritten zu haben.[6]

2 Grundlagen

2.1 E-Mail

Im Allgemeinen ist eine E-Mail (Electronic Mail) eine in Computernetzwerken auf elektronischem Weg übermittelte Nachricht. Im Jahre 1982 wurde im RFC 822 das Versenden von Textnachrichten innerhalb des ARPANET (Advanced Research Projects Agency Network), dem Vorläufer des Internets, erstmals spezifiziert.[1] Im Laufe der Jahre und des stetigen Wachstums der Computernetzwerke wurde auch der E-Mail Standard um zahlreiche Funktionen erweitert. Die Möglichkeit Anhänge beliebiger Datei-Typen und z.B. HTML-E-Mails zu versenden ist in der RFC 2822 von 2001 festgehalten.[2]

RFC 5322, das RFC 822 und RFC 2822 ersetzt und zusammenfasst, spezifiziert den derzeitigen Standard des Internet Message Format bzw. der E-Mail.[3]

2.2 Aufbau einer E-Mail

Die E-Mail ist im Wesentlichen in Kopf (engl.: header), Inhalt (engl.: body) und Unterschrift (engl.: signature) gliederbar. Wie aus dem Beispiel in Abbildung 2.1 auf Seite 5[4] hervorgeht, besteht eine E-Mail, aus einer Vielzahl an Informationen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Aufbau einer E-Mail.

Der Aufbau und die Reihenfolge ist in RFC 2822 festgelegt. (de.wikipedia.org)

Der Nutzer sieht nur einen kleinen Teil dieser Informationen, da die meisten E-Mail- Programme nur das Wesentliche anzeigen (blau hinterlegt). Die Header-Informationen (orange hinterlegt) sind in der Regel ausgeblendet, können aber optional angezeigt werden, was aber wiederum vom Funktionsumfang des E-Mail-Programms ab- hängt. Der Inhalt (grau hinterlegt) beinhaltet die eigentlichen Informationen der Nachricht. Bemerkenswert ist, dass die erste Zeile, der s.g. Briefumschlag-Sender (engl.: envelope sender) kein Teil des Headers ist. Der Envelope Sender beinhaltet die E-Mail-Adresse des Absenders und den Zeitpunkt des Absendens und wird während des SMTP-Handshakes (Simple Mail Transfer Protocol)[5] als Parameter übermittelt. Erst wenn die E-Mail im mbox-Format[6] gespeichert wird, so steht der

Envelope Sender in der ersten Zeile.

2.3 E-Mail-Übertragung im Internet

Für das Übertragen von Nachrichten sind sogenannte Mailserver innerhalb eines Netzwerkes verantwortlich. Die direkte Kommunikation zwischen den Mailservern übernehmen Agenten (engl.: agents). Man unterscheidet zwischen Mail Transfer Agents (MTA) und Mail Delivery Agents (MDA). E-Mail-Programme, mit denen Nutzer E-Mails versenden, werden alternativ als Mail User Agent (MUA) bezeichnet. In Abbildung 2.2 wird die Übertragung von E-Mails im Internet dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.2: E-Mail-Übertragung. (eigene Abb.)

Der Nutzer schickt mit seinem E-Mail-Programm (MUA) eine E-Mail los. Die Nach- richt wird via SMTP zu einem Server übermittelt (MTA). Der Zielserver (MDA) stellt die Nachricht zu bzw. für den Empfänger (MUA) bereit.

Zum Abrufen der E-Mails vom Zielserver existieren verschiedene Verfahren, etwa das POP3- (Post Office Protocol Version 3), IMAP-Protokoll (Internet Message Ac- cess Protocol) oder Webmail (z.b. Google Mail). Die genaue Funktionsweise der einzelnen Protokolle ist in den nachfolgenden Unterkapiteln erläutert.

2.3.1 Funktionsweise von SMTP

Erst das Simple Mail Transfer Protocol (SMTP) ermöglicht das Versenden von E- Mails. Im Jahre 1982 wurde SMTP erstmals mit RFC 821 standardisiert.[7] SMTP ist ein Protokoll der IP-Familie (Internet Protocol), das zum Versenden und zum Weiterleiten von E-Mails in Computernetzen dient. SMTP findet sich im OSI- bzw.

TCP/IP-Referenzmodell in der Anwendungsschicht (engl.: application layer) wie- der.[8]Mailserver nehmen SMTP-Verbindungen standardmäßig auf Port 25 entgegen. Da SMTP ein verhältnismäßig altes Protokoll ist, würde zur Benutzung minimal ein Telnet-Client genügen. Telnet ist eines der elementarsten Anwendungsprotokolle, welches die Fernsteuerung eines Rechners im Textmodus ermöglicht. Um die Funk- tionsweise von SMTP darzustellen kann eine Telnet-Verbindung verwendet werden. Es ist nur ein geringer Befehlssatz zum Versenden von E-Mails via Telnet von nöten. In diesem Beispiel dient der Telnet-Client als MUA. Das Verlaufsprotokoll gibt die

Abbildung in dieser Leseprobe nicht enthalten

Die Versendung einer E-Mail mittels eines Telnet-Client ist nicht praktikabel. Es stehen keinerlei Unterstützungen, wie zum Beispiel Editieren des Textes, Beifügen von Anhänge, oder Zugriff auf Adressbücher, zur Verfügung. Der Ablauf des SMTP- Handshakes kann aber so, wie in Abbildung 2.39, gut veranschaulicht werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.3: SMTP Handshake. (eigene Abb.)

[...]


[1] vgl. Radicati, 2012, S.2

[2] vgl. Tomlinson, 2013

[3] Facebook ist ein kommerzielles, soziales Netzwerk

[4] Twitter ist ein soziales Echtzeit-Informationsnetzwerk

[5] vgl. Stringhini et al., 2010

[6] vgl. Potdar et al., 2012

[1] vgl. Mockapetris, 1983

[2] vgl. Resnick, 2001

[3] vgl. Resnick, 2008

[4] vgl. wik, 2013

[5] vgl. Klensin, 2008

[6] vgl. Hall, 2005

[7] vgl. Postel, 1982

Details

Seiten
42
Jahr
2013
ISBN (eBook)
9783656403371
ISBN (Buch)
9783656403852
Dateigröße
680 KB
Sprache
Deutsch
Katalognummer
v208975
Institution / Hochschule
Fachhochschule Kufstein Tirol
Note
Schlagworte
spam-filter mechanismen algorithmen chancen gefahren einführung spambekämpfung

Autor

Teilen

Zurück

Titel: Spam-Filter - Mechanismen und Algorithmen, Chancen und Gefahren