Lade Inhalt...

Web-Usage-Mining: Mehrwert für Internetnutzer, umsatzsteigernd für E-Shop-Betreiber

Ausarbeitung 2006 19 Seiten

Medien / Kommunikation - Multimedia, Internet, neue Technologien

Leseprobe

Inhaltsverzeichnis

Abkürzungsverzeichnis

.1 Einleitung

.2 Rechtsfragen zu Datenschutz und Anonymität

.3 Techniken zur Erhebung relevanter Daten

.4 Software zur Datenerhebung und -analyse

.5 Auswertung des Benutzerverhaltens

.6 Anwendungsmöglichkeiten und Umsetzung von Ergebnissen

.7 Schlussbetrachtung

Literaturverzeichnis

Verzeichnis der Internetquellen

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Das Internet scheint ein schier unendlicher Berg an Informationen zu sein. Ähnlich wie bei einem Micro- oder Macrocosmos lässt es sich ungemein schwer vorstellen geschweige denn beschreiben wie groß das Internet inzwischen tatsächlich ist, da es durch seine Form aus Bits und Bytes gleichermaßen unvorstellbar erscheint. Trotz seiner noch jungen Entstehungsgeschichte[1] hat es bereits ein gigantisches Ausmaß erreicht. Ein paar Zahlen sollen an dieser Stelle näheren Aufschluss über die Größe der „Subkultur“ Internet geben.

Im Jahr 2000 gab es nach Schätzungen 407 Millionen Internetnutzer, davon 167,12 Millionen in den USA, in Europa waren es 113,14 Millionen und im gesamten asiatisch/pazifischen Raum 104,88 Millionen. Afrika bildet dabei mit 3,11 Millionen trauriges Schlusslicht. Zum Vergleich gab es im Jahr 2002, also nur zwei Jahre später, mit 840 Millionen schon knapp doppelt so viele Internetnutzer wie im Jahr 2000[2]. Jeder dieser Benutzer ist dazu berechtigt selber am Internet mitzuarbeiten und Inhalte über eine persönliche Internetseite zur Verfügung zu stellen. Zudem gibt es keine klaren Kontrollstrukturen, die das Internet und dessen Qualität überwachen. Schnell wird klar, dass das Internet „[..] die letzte große Anarchie [ist], die durch organisiertes Chaos geprägt wird“[3]. Das Internet organisiert sich selbstständig und wächst scheinbar unaufhaltsam weiter. Die Frage die sich dabei stellt ist, wie man dieser Lage Herr wird und aus den Unmengen an Informationen einen Mehrwert herausarbeitet.

Aus der Not diese „Datenmasse“ Internet erfassen zu können entwickelte sich die Technik des Web-Minings, welche an sich nicht wirklich neu ist. Als Teilgebiet des Data-Minings dient diese Technik dazu Informationen zu sammeln, ihnen eine Struktur zu geben und daraus die wesentlichen Punkte herauszuarbeiten. Das Web-Mining gliedert sich in drei Teilgebiete, dem Web-Content-Mining, dem Web-Structure-Mining und dem Web-Usage-Mining[4]. In erster Linie widmet sich diese Praxisarbeit dem Web-Usage-Mining, wobei sich jedoch die anderen Teilgebiete nie gänzlich ausschließen lassen. In dieser Arbeit soll geklärt werden wie sich die Internetnutzer auf einer Internetseite verhalten. Dabei werden etwa Fragen wie „Welche Kategorien surft der Nutzer ab?“ oder „Von welchen Seiten kommt der Benutzer?“ beantwortet. Desweiteren soll die Arbeit darüber Aufschluss geben, welchen Wert diese Informationen für den Besitzer der Internetseite haben und was er durch dieses Wissen an der Internetseite ändern/verbessern kann. Zudem soll erörtert werden, welche Auswirkungen das Web-Usage-Mining auf den Internetnutzer hat, ob es rechtliche Bedenken bei der Analyse der Daten gibt und was den Internetnutzer an Mehrwert erwarten könnte.

2 Rechtsfragen zu Datenschutz und Anonymität

Das Wissen über die Aktivität der Internetnutzer ist für jeden Besitzer einer Internetpräsenz interessant. Jeder möchte gern wissen, was genau auf seinen Seiten passiert. Jedoch ist es unumgänglich vor der Auswertung der Daten einige rechtliche Fragen zu beantworten. Allem voran geht die Frage, ob das angesammelte Wissen über die Aktivitäten der Internetnutzer überhaupt legal erworben wurde. Wurden geltende Datenschutzbestimmungen eingehalten?

Bei genauerer Betrachtung wird jedoch jedem klar, dass etwa die Logfileanalyse als Mittel zur Datenerhebung unbedenklich ist und durchaus vom Datenschutzgesetz gedeckt ist. Problematisch werden Informationen erst, wenn versucht wird diese mit einzelnen Personen in Verbindung zu bringen. Wenn also explizit versucht wird die gesammelten Daten einer bestimmten Person im Internet zuzuordnen.

Web-Usage-Mining im Augenschein des Bundesdatenschutzgesetzes

Das Bundesdatenschutzgesetz dient in erster Linie dem Schutz von personenbezogenen Daten. Dies geht schon aus dem ersten Paragraphen des Gesetzestextes hervor, in dem es darum geht „[..] den Einzelnen davor zu schützen, dass er durch den Umgang mit seinen personenbezogenen Daten in seinem Persönlichkeitsrecht beeinträchtigt wird.“[5] Allgemeine statistische Aussagen, wie etwa Informationen über Besucherzahlen, Verweildauer oder Aus- und Einstiegsseiten der Besucher sind also in jedem Fall unproblematisch. Ebenso unproblematisch ist die Weitergabe von Logfiles an Unternehmen, die eine Analyse der Daten durchführen, solange auch hier keine personalisierten Daten mit gereicht werden. Darunter fallen Informationen wie der Name, Anschrift oder auch die E-Mail-Adresse der Internetnutzer. Speziell was die E-Mail-Adresse anbelangt kann man schnell in ein Fettnäpfchen treten, da diese etwa bei der Anmeldung zu einem Newsletter o.ä. angegeben werden muss. Wird die E-Mail-Adresse dann vom Formular zur Anmeldung per GET-Methode an den Server übermittelt – steht sie also in der URI –, so gelangt sie auch in das Logfile. Nach Auffassen des Bundesdatenschutzgesetzes müsste also vor der Weitergabe an Dritte die Information zur Anmeldung an den Newsletter aus dem Logfile entfernt werden, da sonst die E-Mail-Adresse einer individuellen Person mit Nutzungsgewohnheiten in Bezug gebracht werden könnte. Die Verwertung personenbezogener Daten bedarf immer der Zustimmung der betroffenen Person. Erst durch dessen ausdrückliche Zustimmung dürfen Daten über sein Nutzungsverhalten in Kontakt mit seiner Person gebracht werden. Wie die Situation des Newsletters zeigt, kann es dazu kommen, dass die Informationen eines Logfiles nicht immer vollkommen unbedenklich sind.

Rechtliche Grenzen des Web-Usage-Mining

Ungeachtet der Tatsache, dass personalisierte Daten ohne Einverständnis des Betroffenen nicht mit Nutzungsgewohnheiten in Verbindung gebracht werden dürfen, gibt es jede Menge Möglichkeiten eben genau dies doch zu tun. Das Verfahren nennt sich Triangulation und beschreibt eine Methode mit der Informationen, die ein Nutzer an bestimmten stellen auf seinem Weg durch eine Internetseite eingegeben oder unbewusst hinterlassen hat, eindeutig diesem Benutzer zugewiesen werden können[6]. Dabei werden Informationen über den ganzen Weg, den der Nutzer auf dieser Internetpräsenz zurücklegt, weitergereicht. Dies kann auf verschiedenste Art und Weise geschehen, etwa durch Cookies oder durch die Weitergabe von Kennummern über die URI. Verfahren die aktiv Daten über Scripts oder Java Applets aus dem Browser des Internetnutzers auslesen sind generell als grenzwertig zu betrachten[7].

3 Techniken zur Erhebung relevanter Daten

Web-Usage-Mining ist ein technisch sehr komplexes Feld. Der Arbeitsaufwand liegt hier bei den Dienstleistern, die Web-Usage-Mining in Form von Statistiken, Studien o.ä. anbieten, da sie die Daten für den Kunden zusammentragen und übersichtlich aufbereiten müssen, so das der Kunde sie versteht und ohne weitere Vorkenntnisse nutzen kann. Größte Herausforderung beim Web-Usage-Mining ist das Sammeln der relevanten Daten. Dabei gibt es solche, die sich besonders leicht ermitteln lassen und solche Daten, die ein erhebliches Mehr an Aufwand abverlangen. Viele Informationen über die Internetnutzer werden stets automatisch vom Server, auf dem die Internetseite liegt, ermittelt und in einem sog. Logfile gespeichert. Aus diesem lassen sich bereits manch interessante Informationen ermitteln oder ableiten. Spezieller wird es in Fällen wo Sessions oder Cookies zum Einsatz kommen. Dabei wird versucht spezielle Benutzerprofile zu erstellen um genaueren Aufschluss über die einzelnen Charaktere zu erhalten. Im folgenden werden die drei wesentlichen Methoden des Web-Usage-Minings im Detail beschrieben.

Das Logfile

Diese Datei enthält alle Geschehnisse, die sich auf einer Internetseite abspielen, und wird serverseitig erstellt und abgespeichert. Logfiles werden inzwischen von fast allen Webhostern angeboten, da sie zur Abrechnung von Volumentarifen erforderlich sind. In diesen Logfiles finden sich alle Anfragen, die der Browser eines Internetnutzers an den Server sendet. Der Server empfängt die Anfrage des Browsers, führt diese Anfrage aus und speichert das Ergebnis in dem Logfile. Eine Zeile des Logfiles könnte etwa folgender Maßen aussehen:

192.168.156.36 - [20/Jan/2002:19:35:09 +0100] "GET / HTTP/1.1" 200 25641 www.limitattack.de "http://www.limitattack.de/" "Mozilla/4.0 (compatible; MSIE 5.5; Windows ME; DigExt)"[8]

Für den Endkunden lässt sich daraus kaum eine brauchbare Information erschließen, jedoch folgt der Eintrag einer klaren Struktur. Der erste Teil eines Logfile-Eintrags ist die IP des Rechners, der die Anfrage an den Server gesendet hat. Die IP ist für diese Sitzung einmalig und identifiziert den Rechner des Internetnutzers. Nach dem Bindestrich folgt in eckigen Klammern die Angabe der Uhrzeit, zu der die Anfrage stattgefunden hat. Die Angabe erfolgt immer im GMT-Format und wird durch die Zeitzone des Internetnutzers erweitert. Im Beispiel ist das die Zeitzone GMT +100 für Amsterdam, Berlin, Bern, Rom, Stockholm, Wien (entspricht MEZ). Die nächste Angabe spezifiziert die Methode (hier GET), die darauf hinweist, dass die Daten vom Server an den Browser gesendet wurden. Danach folgt das Protokoll, mit dem die Daten kodiert wurden. In diesem Fall ist es das HTTP Protokoll. Nach der Angabe der Methode und des Protokolls folgt der Rückgabewert des Servers, der in diesem Fall 200 lautet und signalisiert, dass die Anfrage problemlos ausgeführt wurde. Auf den Rückgabewert folgt eine weitere Zahl, die angibt welche Datenmenge übertragen wurde. Die Angabe findet in Bytes statt und entspricht der Dateigröße. Im Beispiel wurde eine Datei mit einer Größe von 25,6 KByte übertragen. Danach folgt die Angabe des URI der angefragten Seite. In diesem Fall war es ein direkter Aufruf der Startseite. Der zweite URI in Anführungszeichen gibt an, von welcher Seite der Internetnutzer kommt. Da es ein direkter Aufruf über die Adressleiste des Browsers war, entfällt hier die Angabe bzw. ist die Angabe mit dem ersten URI identisch. Zuletzt folgt die etwas irreführende Angabe des Browsers, der vom Internetnutzer verwendet wurde. In diesem Fall wurde der Internet Explorer 5.5 auf dem Betriebssystem Windows ME verwendet.

Die Session

Durch die Einführung der Session (Sitzung) gibt es eine weitere Möglichkeit an Daten zu gelangen und anzureichern. Bei Beginn einer Session erhält der Internetnutzer eine eindeutige Session-ID, die ihn von da an identifizieren soll. Diese Session-ID erleichtert die Auswertung der Daten des Logfiles um ein vielfaches. Zum einen können wichtige Informationen in einer Session-Variablen gespeichert werden, die global verfügbar und von allen anderen Seiten aus abrufbar ist und zum anderen lässt sich die Session-ID als Ergänzung über den URI weitergeben[9]. Dadurch steht im Logfile bei jeder Anfrage, die der Nutzer abschickt, die Session-ID in dem URI. Folglich lässt sich sehr einfach nachvollziehen, welche Seiten der Benutzer abruft. Dem Internetnutzer kann also ein eindeutiger Pfad zugeordnet werden, den er auf dieser Internetseite während der Session zurückgelegt hat. Der Grund für die einfachere Zuordnung des vom Benutzer zurückgelegten Pfad durch die Weitergabe der Session-ID liegt darin, dass diese über die gesamte Sitzung gleich bleibt. Neben der Session-ID ist sonst die IP einziger Anhaltspunkt um auf einen eindeutigen Benutzer zu folgern. Während sich jedoch die IP eines Internetnutzers innerhalb einer Sitzung ändern kann (etwa durch einen Verbindungsabbruch), ist dies bei einer Session-ID nicht der Fall.

[...]


[1] Das Internet, wie wir es heute kennen, entstammt dem ARPANET – eine Entwicklung des US-Militärs – und wurde erst um 1990 mit dem www-Protokol für den Endanwender brauchbar.

[2] Vgl. Scheucher, G., 2003a S. 95f.

[3] Vgl. Scheucher, G., 2003b S. 86

[4] Vgl. Wikipedia, Web-Mining (Stand: 06. Juli 2005) http://de.wikipedia.org/wiki/Web_Mining

[5] Bundesministerium für Justiz: Bundesdatenschutzgesetz vom 01.06.1991, Neugefasst durch Bek. v. 14.01.2003 I 66, geändert durch § 13 Abs. 1 G v. 05.09.2005 I 2722 http://bundesrecht.juris.de/bdsg_1990/index.html

[6] Vgl. Heindl, E., 2003, S. 25

[7] Auf das technische Verfahren dieser Methoden wird an dieser Stelle nicht weiter eingegangen und soll auch desweiteren keinen Platz in dieser Arbeit finden.

[8] Auszug eines Logfiles der Internetseite http://www.limitattack.de, die auf einem Apache-Webserver gehostet wird.

[9] Vgl. Krause, J., 2004a S. 389ff

Details

Seiten
19
Jahr
2006
ISBN (eBook)
9783638466028
Dateigröße
466 KB
Sprache
Deutsch
Katalognummer
v50368
Institution / Hochschule
Duale Hochschule Baden-Württemberg, Stuttgart, früher: Berufsakademie Stuttgart
Note
2,0
Schlagworte
Web-Usage-Mining Mehrwert Internetnutzer E-Shop-Betreiber

Autor

Teilen

Zurück

Titel: Web-Usage-Mining: Mehrwert für Internetnutzer, umsatzsteigernd für E-Shop-Betreiber