Lade Inhalt...

Einführung in das Data Mining

Wissenschaftlicher Aufsatz 2012 23 Seiten

Statistik

Leseprobe

Inhaltsverzeichnis

1. DATA MINING
1.1. BEGRIFFSKLÄRUNG UND FUNKTIONSWEISE DES DATA-MINING- VERFAHRENS

2. DER DATA MINING PROZESS
2.1 DIE ZIELDEFINITION
2.2 DIE AUSWAHL GEEIGNETER DATENBESTÄNDE
2.3 DATENAUFBEREITUNG UND TRANSFORMATION
2.4 DIE DATA-MINING-METHODEN

3. NEURONALE NETZE
3.1. DAS ENTSCHEIDUNGSBAUMVERFAHREN

4. INTERPRETATION DER ERGEBNISSE
4.1 PROBLEME UND KRITIK

5. ZUSAMMENFASSUNG UND AUSBLICK

LITERATURVERZEICHNIS

1. DATA MINING

Ein immer größeres Datenaufkommen in heutigen Unternehmen führt nicht selten zu einem in der Literatur oft als „Information Overload“ bezeichneten Phänomen.

Experten schätzen, dass sich die Informationsmenge auf dieser Welt alle 20 Monate verdoppelt. Mit den bisher verwendeten Verfahren der klassischen Statistik ist diese Fülle an Daten aber nicht mehr unter Kontrolle zu bringen.

Wissen ist Macht und Zeit ist Geld. Diese beiden bekannten Erkenntnisse sind als ein Hauptantrieb für die Forschung nach einem System zu sehen, dass es eben schafft diese Datenvolumina zu beherrschen.

Geforscht wurde nach einer Anwendung, die es ermöglicht die Daten zu strukturieren, zu sortieren und aufzubereiten um sie für das Unternehmen nutzbar zu machen.

Nur wenn es gelingt aus einer riesigen Datenmenge schnell zuverlässige Informationen zu gewinnen, die die Grundlage für jede operative und strategische Entscheidung sind, kann das Unternehmen im heutigen Geschäft bestehen.

Der angestrebte Idealfall wäre ein vollkommen autonom arbeitendes System das jegliche gewünschte Information auf Knopfdruck bereitstellt. Eine revolutionäre Entwicklung auf diesem Gebiet stellt das Verfahren des Data- Mining dar, das sich in den letzten Jahren etablieren konnte. Das Data Mining dient der Durchforstung großer Datenmengen um neue Zusammenhänge festzustellen.1

1.1. BEGRIFFSKLÄRUNG UND FUNKTIONSWEISE DES DATA-MINING- VERFAHRENS

Der äußerst visuelle Begriff des „Data Mining“ hat seinen Ursprung im Bergbau (engl. Mining). Dort werden mit großem technischen und technologischem Aufwand Unmengen von Gesteinen abgebaut und aufbereitet, um wertvolle Edelsteine und Edelmetalle zu selektieren. Analog zu der Vorgehensweise im Bergbau werden beim Data-Mining- Verfahren riesige Mengen an Daten mit teilweise äußerst anspruchsvollen und automatisierten Methoden nach neuen, gesicherten und für weitere Handlungen relevanten Geschäftserfahrungen durchforstet.2

Der Begriff „Data Mining“ - häufig auch als „Knowledge Discovery in Databases“ bezeichnet - wird in der derzeitigen Diskussion zuweilen verwässert.

„Der Begriff Knowledge Discovery Databases (KDD) kann als - der nichttriviale Prozess der Identifikation gültiger, neuer, potentiell nützlicher und verständlicher Muster in Datenbeständen - definiert werden.“3

Den Kern bilden eine Vielzahl von Methoden, die verwendet werden, um aus großen Datenbanken die gewünschten Informationen herauszufiltern und aus diesen weitestgehend selbständig Annahmen zu generieren. Eben diese Informationen galten eine lange Zeit als nicht auffindbar oder sie wurden für nicht auswertbar gehalten.

Das Data Mining baut auf die klassische Statistik auf und ergänzt diese um neue Analyseverfahren, die die Möglichkeit bieten trotz des hohen Datenvolumens gesicherte Ergebnisse zu erhalten.

Abhängig von der Fragestellung kommen diese Methoden einzeln oder in beliebiger Kombination zum Einsatz. Hierbei eröffnen sich dem Benutzer unbegrenzte Kombinationsmöglichkeiten der verschiedenen Verfahren.

Es gibt eine Reihe von Leistungsmerkmalen, die durch das Data Mining abgedeckt werden.

Zu nennen ist hierbei vor allem die automatisierte Vorhersage von Trends, Verhalten und Mustern durch den Abgleich mit bereits bekannten Verhaltensmustern aus der Vergangenheit, die als überwachtes Lernen bezeichnet wird.

Auch bisher unbekannte Strukturen und Zusammenhänge können so aufgedeckt werden.

Eine Grundvoraussetzung für den erfolgreichen Einsatz des Data-Mining- Verfahrens ist eine hochwertige Datenbasis die Idealerweise durch ein Data Warehouse zur Verfügung gestellt wird

Ein Data Warehouse stellt eine konsolidierte Datenbasis für betriebswirtschaftliche Auswertungen zur Verfügung. Die Haltung dieser Daten erfolgt im Allgemeinen unabhängig von den sonstigen Informationssystemen des Unternehmens und somit redundant.

Des weiteren stellt ein solches System verschiedene Methoden zur Analyse dieser Daten zur Verfügung. Diese Fähigkeit wird auch OLAPFunktionalität genannt (On-Line Analytical Processing).

Die Anforderungen an ein Data Warehouse bestehen vor allem in der schnellen Bereitstellung von Analysen zur Unterstützung des betriebswirtschaftlichen Entscheidungsprozesses durch vorbereitete Reports.

Data Warehouse Systeme werden aus den unterschiedlichsten operativen IT-Systemen befüllt und fassen diese in spezifischen Datenstrukturen zusammen. Die Befüllung erfolgt meist in vorgegebenen Intervallen.

Das Data Warehouse ist zusammenfassend formuliert eine Datenbank die alle externen und internen Daten und Informationen eines Unternehmens zusammenführt, die der Unterstützung bei Managemententscheidungen und der Gestaltung einzelner Geschäftsprozesse dienen.4

Jedes Mitglied eines Unternehmens soll die Möglichkeit erhalten die eigenen Informationsbedürfnisse jederzeit und gezielt befriedigen zu können.

Die Vorgehensweise beim Data Mining ist als ein Projekt zu sehen, dass sich aus mehreren Stufen zusammensetzt auf die im folgenden eingegangen wird.

2. DER DATA MINING PROZESS

Die Data Mining Methode vereint eine Vielzahl von domänenübergreifenden Datenanalyseverfahren in sich. Neben der klassischen Statistik und der künstlichen Intelligenz greift sie auch auf das maschinelle Lernen und die Mustererkennung zur Auswertung von großen Datenmengen zurück.

Eine besondere Bedeutung kommt neben dem Einsatz dieser Methoden der Aufbereitung der Daten und der Nachbearbeitung der Ergebnisse zu. Nur so wird verhindert, dass der Prozess des Data Mining keine oder irreführende Informationen zur Verfügung stellt.

Abb.1: Die Stufen des Data-Mining-Prozesses

Abbildung in dieser Leseprobe nicht enthalten

Quelle: in Anlehnung an Link, J./ Brändli, D./ Schleuning, C./ Kehl, R: Handbuch Database Marketing (1997), S. 240

Der Data-Mining-Prozess lässt sich wie in der obigen Abbildung dargestellt in sechs aufeinander aufbauenden Phasen unterteilen, die durch eine intensive Interaktion mit dem Anwender gekennzeichnet sind. Auch die einzelnen Phasen agieren untereinander und führen zu Rückkoppelungsprozessen.5

Die einzelnen Phasen sollen nun im Folgenden näher beschrieben werden.

[...]


1 vgl. Kemper, A. / Eickler, A.(1997): Datenbanksysteme - eine Einführung, S.468

2 vgl. Hippner, H. / Küsters, U. / Meyer, M. / Wilde, K. (2001): Handbuch Data Mining im Marketing, S.13

3 vgl. Saake, G. / Heuer, A. (1999): Datenbanken - Implementierungstechniken, S.647

4 vgl. Hippner, H. / Küsters, U. / Meyer, M. / Wilde, K. (2001): Handbuch Data Mining im Marketing, S.6

5 vgl. Hippner, H. / Küsters, U. / Meyer, M. / Wilde, K. (2001): Handbuch Data Mining im Marketing, S.21

Details

Seiten
23
Jahr
2012
ISBN (eBook)
9783656393696
ISBN (Buch)
9783656395829
Dateigröße
454 KB
Sprache
Deutsch
Katalognummer
v211736
Note
Schlagworte
data mining

Autor

Teilen

Zurück

Titel: Einführung in das Data Mining