Data Mining - Methoden in der Simulation


Bachelorarbeit, 2008

136 Seiten, Note: 1,0


Leseprobe


Inhaltsverzeichnis

Abstract (Englische Zusammenfassung)

Abbildungsverzeichnis

Abkürzungsverzeichnis

Vorwort

1. Einleitung
1.1 Data Mining
1.2 Simulation
1.3 Zusammenführung und Ziele

2. Simulation
2.1 Definitionen
2.1.1 Definition System
2.1.2 Definition Modell/Modellierung
2.1.3 Definition Simulation
2.2 Aufgabenfelder/Anwendungsbereiche
2.2.1 Vorund Nachteile der Simulation
2.2.1.1 Vorteile der Simulation
2.2.1.2 Nachteile der Simulation
2.2.2 Simulationsarten
2.2.2.1 Kontinuierliche Simulation
2.2.2.2 Diskrete Simulation
2.2.2.3 Monte Carlo Simulation
2.3 James II
2.3.1 Hintergrund
2.3.2 Ziele
2.3.3 Einordnung und Entwicklungen
2.3.4 Entwicklungsstand

3. Data Mining
3.1. Definition
3.2 Ziel(e) des Data Mining
3.3 Data Mining als Prozess
3.4 Grundlegende Methoden
3.4.1 Klassenbildung
3.4.2 Assoziationen
3.4.3 Klassifizierung
3.4.4 Zeitreihenanalyse
3.5 Optimierung von Data Mining-Modellen und genetische Algorithmen
3.6. Einsatz von Data Mining in der Simulation

4. Vergleichskriterien
4.1 Evaluation der Analysearten
4.1.1 Klassenbildung
4.1.2 Assoziationen
4.1.3 Klassifizierung
4.1.4 Zeitreihenanalyse
4.2 Klassifizierung von Data Mining-Werkzeugen
4.2.1 Erweiterungen von DBMS
4.2.2 Data Mining-Suiten
4.2.3 Eigenständige Data Mining-Tools
4.3 Bewertung der Data Mining-Werkzeuge
4.3.1 Generelle Eigenschaften
4.3.2 Datenbankanbindung
4.3.3 Data Mining-Aufgaben
4.3.4 Data Mining-Algorithmen
4.4 Nutzung von Data Mining in konkreten Simulationsaufgaben

5. Analyse
5.1 Analyse Modellierungsund Simulations-Umgebungen
5.1.1 Arena
5.1.1.1 Beurteilung der Data Mining-Funktionen
5.1.1.1.1 Externe Datenquellen
5.1.1.1.2 Analyse und Optimierung
5.1.1.1.3 Präsentation
5.1.2 AnyLogic
5.1.2.1 Beurteilung der Data Mining-Funktionen
5.1.2.1.1 Externe Datenquellen
5.1.2.1.2 Analyse und Optimierung
5.1.2.1.3 Präsentation
5.1.3 SeSam
5.1.3.1 Beurteilung der Data Mining-Funktionen
5.1.1.3.1 Externe Datenquellen
5.1.1.3.2 Analyse und Optimierung
5.1.1.3.3 Präsentation
5.2 Analyse einer Bibliothek
5.2.1 WEKA
5.2.1.1 Generelle Eigenschaften
5.2.1.2 Datenbankanbindung
5.2.1.3 Data Mining-Aufgaben
5.2.1.4 Data Mining-Algorithmen
5.3 Analyse eines Werkzeuges
5.3.1 SPSS
5.3.1.1 SPSS Basispaket („SPSS Base“)
5.3.1.1.1 Generelle Eigenschaften
5.3.1.1.2 Datenbankanbindung
5.3.1.1.3 Data Mining-Aufgaben
5.3.1.1.4 Data Mining-Algorithmen
5.3.1.2 SPSS Clementine
5.3.1.2.1 Generelle Eigenschaften
5.3.1.2.2 Datenbankanbindung
5.3.1.2.3 Data Mining-Aufgaben
5.3.1.2.4 Data Mining-Algorithmen
5.3.2 R-Project/R
5.3.2.1 Generelle Eigenschaften
5.3.2.2 Datenbankanbindung
5.3.2.3 Data Mining-Aufgaben
5.3.2.4 Data Mining-Algorithmen

6. Vergleich und Implementationsentscheidung
6.1 Analyse des zugrunde liegenden Datenmaterials (James II)
6.2 Abschließender Vergleich
6.2.1 Modellierungsund Simulationsumgebungen
6.2.2 Werkzeuge
6.2.3 Bibliotheken
6.3 Ranking der Analysemethoden
6.4 Implementationsentscheidung

7. Implementierung
7.1 Zugrunde liegende Annahmen
7.2 Hilfsklassen
7.2.1 Chi-Quadrat-Berechnungen
7.2.2 Kendalls Tau
7.2.3 Lineare Korrelation nach Pearson
7.2.4 Kontingenztabellen
7.2.5 Student t-Test
7.2.6 Weitere Hilfsklassen
7.3 Klassen und Methoden des k-Means-Algorithmus

8. Auswertung von Simulationsdaten
8.1 Grundmodell
8.1.1 Vorausgesetztes Datenmaterial
8.1.2 Vorverarbeitung
8.2 Vorgaben
8.3 Ergebnisse
8.3.1 Cluster-Analyse mit SPSS
8.3.2 Cluster-Analyse mit dem in James II implementierten Algorithmus
8.4 Beurteilung des implementierten Algorithmus

9. Fazit und Zusammenfassung der Ergebnisse dieser Bachelor-Arbeit

Literaturverzeichnis

Abstract

Principles and methods of data mining are a widespread area, i.e. retail dealer use data mining tools to analyze the behavior of customers, computer hardware supplier use data mining to optimize their inventory. There are multiple possibilities of using data mining techniques, even in technical and scientific areas of applications.

In regard of manyfold fields of application, there are no less than the number of techniques and methods for Data Mining in existence.

Another field to apply Data Mining technique is the domain of simulation. Simulation is the computer-based approach of executing and experimenting of and with models.

One aim of this thesis is to analyze data mining tools to see how capable they are solving data mining duties with respect to data calculated by simulation.

Different data mining tools are analyzed, commercial tools like SPSS and SPSS Clementine as well as established and freely available tools like WEKA and the R-Project. These tools are analyzed in matters of their data mining functionalities, options to access different data sources, and their complexity of different data mining algorithms.

Beyond the analysis of data mining tools with respect to functionality and simulation, environments for modeling and simulation are analyzed with respect to their possibilities of the utilization for data mining. These environments are the commercial tools Arena and Any- Logic and the freely available SeSam-Project.

The effect of all processes of analyzing is a ranking of commonly used data mining techniques and concepts.

The second part of the thesis occupies with the problem, which data mining method or technique is useful to analyze data provided by a simulation process. It also concerns in which way a method is suitable for the validation of a certain model.

In the long run of this thesis the chosen data mining technique is applied to data generated by a simulation process of diffusion and reaction of substances.

Keywords: data mining, simulation, tools

Abbildungsverzeichnis

Abbildung 1: Phasen des Data Mining

Abbildung 2: Beispiele für Klassenbildungsverfahren

Abbildung 3: Beispiele für Assoziationsalgorithmen

Abbildung 4: Beispiele für Klassifizierungsverfahren

Abbildung 5: Beispiele für Zeitreihenanalyseverfahren

Abbildung 6: Evolutionszyklus eines einfachen genetischen Algorithmus

Abbildung 7: Datenpaare vor Durchlauf des k-Means-Algorithmus

Abbildung 8: Datenpaare während Iterationen des k-Means-Algorithmus

Abbildung 9: UML-Klassendiagramm für Chi-Quadrat-Berechnungen

Abbildung 10: UML-Klassendiagramm für Kenndalls Tau-Berechnungen

Abbildung 11: UML-Klassendiagramm lineare Korrelation nach Pearson

Abbildung 12: UML-Klassendiagramm Kontingenztabellen

Abbildung 13: UML-Klassendiagramm t-Test

Abbildung 14: UML-Klassendiagramm F-Test

Abbildung 15: UML-Klassendiagramm k-Means-Algorithmus

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Vorwort

Wer Wirtschaftswissenschaftlern aufmerksam zuhört, vernimmt oft das Wort der „Güter“. Güter werden von Unternehmen produziert um anschließend entweder von Haushalten konsumiert oder von anderen Unternehmen wiederum als Investitionsgut genutzt zu werden. Auf dem Gebiet der Konsumgüter gibt es in der Betriebswirtschaftslehre darüber hinaus weitere Unterscheidungen in Bezug auf die Beziehungen zwischen diesen (Konsum-)Gütern. Man spricht von komplementären Gütern, wenn diese Güter in einem mehr oder weniger festen Verhältnis kombiniert werden können. Beispielsweise ist Kaffesahne ein Komplementärgut zu Kaffee. Neben den Komplementärgütern findet man in der Literatur auch den Begriff der Substitutivgüter, also Güter bei denen die Nachfrage abnimmt, falls der beispielsweise der Preis des Pendants sinkt. Um beim Kaffeebeispiel zu bleiben, wäre das Substitutiv zu Kaffee Tee.

Diese Beispiele werden oft verwandt die o.g. Zusammenhänge darzustellen, sie sind anschaulich und leicht verständlich. In Zeiten der elektronischen Kassen und elektronischen Warendisposition wären solche Theorien mit elektronischen Mitteln leicht empirisch zu beweisen. Unternehmen, die ein Interesse an den Beziehungen ihrer Produkte zueinander haben, möchten oftmals auch herausfinden welche Käufer welche Produkte bevorzugen. Daraus lässt sich beispielsweise abzuleiten, wie die Produkte im Supermarkt angeordnet sein sollten, um dem Kunden einen kurzen Einkaufsweg zu ermöglichen oder die Waren so anzuordnen, dass der Kunde auf seinem Weg durch den Laden an anderen interessanten Produkten vorbeigeführt wird.

Wenn man sich solche Gedanken im Rahmen der Produktpositionierung innerhalb eines Einkaufsmarktes macht, ist man bereits mitten im Data Mining. Mit Hilfe dieser Ansammlung von Methoden, Vorgehensweisen und Algorithmen lassen sich Zusammenhänge und Beziehungen zwischen Produkten oder jeglicher Art von Objekten erkennen. Dabei ist es einerseits möglich bekannte Muster und Vermutungen nachzuweisen (Ist Tee wirklich ein Substitutiv zu Kaffee?), aber auch bis dahin unbekannte Muster und Beziehungen (laut einer Studie einer US-amerikanischen Handelskette greifen überdurchschnittliche viele Käufer von Baby- Windeln auch zu Diät-Cola) zu entdecken. Wie der Prozess des Data Mining konkret abläuft und wie er in einen Gesamtprozess integriert ist, soll später erläutert werden.

Neben den betriebswirtschaftlichen und marketingpolitischen Einsatzmöglichkeiten des Data Mining lassen sich diese Verfahren auch für die Auswertung von mathematisch-statistischen

Daten oder Daten aus Modellen verwenden. Auch hier sollen mit Hilfe der Werkzeuge des Data Mining-Regeln und Muster aus großen Datenmengen extrahiert werden, eine klassische Anwendung des Data Mining.

Doch wozu benötigt man solche Muster und Regeln in Bezug auf Modellierung und Simulation?

Zunächst einmal muss man sich bewusst machen, dass bei der Simulation in diesem Zusammenhang mit einem Abbild der aus der realen Welt (bzw. eines realen Systems), in Form eines Modells experimentiert wird. Ein System, mit dem in der wirklichen Welt nicht oder nur eingeschränkt „probiert“ werden kann. Beispielsweise lassen sich Fabrikanlagen schlecht optimieren wenn diese schon aufgebaut wurden, biologische Prozesse sind nicht unendlich oft wiederholbar. Um diese Probleme zu umgehen, nutzt man die Simulation. Im Vorfeld der Simulation wird zunächst ein realistisches Modell erstellt. Mit diesem Modell wird anschlie- ßend systematisch experimentiert, um beispielsweise eine Optimierung hinsichtlich eines oder mehrere Parameter durchzuführen. Anhand von vorgegebenen Modellparametern und deren Variation möchte man das Verhalten des Simulationsmodells untersuchen. Dieses geschieht anhand von Kenngrößen um einen Gesamtzusammenhang zwischen Variation und Verhalten des Modells abzuleiten.

Aufgrund der Vielzahl von möglichen zu variierenden Parametern, der daraus resultierenden hohen Anzahl von Modellexperimenten führt dies i.d.R. zu sehr großen Datenmengen, welche sich mit „klassischen“ Methoden (z.B. SQL-Anfragen an eine Datenbank) nur schwer oder gar nicht auswerten lassen.

Data Mining-Methoden und -Werkzeuge sind vielfältig und bieten verschiedene Ansätze Auswertungen von Datenbeständen durchzuführen.

Diese Arbeit soll eine Übersicht über bereits etablierte Verfahren des Data Mining in Bezug auf Simulationsergebnisse geben. Dazu werden einzelne Werkzeuge nach noch zu definierenden Kriterien beurteilt und ein Ranking der Verfahren dargestellt. Anschließend an die Beschreibung der Fähigkeiten und Funktionsumfänge der Verfahren und Werkzeuge, wird ein Verfahren bzw. eine Gruppe von Verfahren, in dem an der Universität Rostock bereits existierenden Simulationsframework James II (Java-based Agent Modeling Environment for Simulation II beziehungsweise JAva-based Multipurpose Environment for Simulation), implementiert werden, um schlussendlich deren Verwendbarkeit anhand einer Simulationsstudie zu illustrieren.

1. Einleitung

1.1 Data Mining

Am 8. Oktober 2007 wurde eine Meldung in den Medien propagiert: Das deutsche Software Unternehmen SAP beabsichtigt für 4,8 Mrd. Euro das französische Softwarehaus Business Objects zu übernehmen. Ob dieser Schritt wirtschaftlich gesehen gerechtfertigt ist oder nicht, sei zunächst einmal dahingestellt, der Vorstand von SAP sieht Chancen und äußert wörtlich „Mit Business Objects vergrößern wir unseren adressierbaren Markt" und glaubt an eine Vergrößerung des eigenen Marktes.[1] Die Börse quittierte die Übernahme am Tag danach mit einem Kurseinbruch der SAP-Aktie um 5%.[2] Was ist nun das Geschäftsfeld von Business Objects, was die SAP Führung zum Kauf dieses Unternehmens verleitet? Business Objects gilt als ein Pionier im Bereich der „Business Intelligence“-Lösungen. Es verfügt somit über Know-How und Erfahrungen, wie große Datenmengen auf Trends und Muster hin untersucht werden können. Mit diesem Unternehmensprodukt befinden wir uns direkt im Bereich des Data Mining. An den Geldern, die für diese Übernahme fließen sollen lässt sich erahnen, wie wichtig Data Mining für Unternehmen ist und noch werden wird. Laut Definition der Gartner Group bezeichnet Business Intelligence den Prozess der Umwandlung von Daten in Informationen und das Entdecken und Umwandeln dieser Informationen in Wissen. Business Intelligence ist ein Ansatz, der bei der Definition des Data Mining noch einmal wiederkehren wird. Data Mining wird oft synonym mit dem Begriff „Knowlegde Discovery“ verwendet, also der Suche nach einem bestimmten Trend oder Muster bzw. nach unbekannten Mustern oder Trends in großen Datenmengen. Data Mining ist jedoch kein Prozess für sich allein, er ist vielmehr eingebettet in ein Gesamtsystem zur Wissenserkennung. Weiterhin ist anzumerken, dass Data Mining nicht ein Verfahren, sondern eine Zusammenfassung verschiedener Algorithmen ist. Diese arbeiten immer auf die gleiche, o.g. Zielstellung hin, jedoch bieten sie aufgrund der zugrunde liegenden Daten und des jeweiligen konkreten Ziels verschiedene Ansätze, die auch jeweils unterschiedlich erfolgreich sein können.

1.2 Simulation

Unter dem Begriff der Simulation versteht man die Nutzung von Computern, zur numerischen Bewertung von Modellen und dem Experimentieren mit diesen Modellen. Es werden weiterhin Daten gesammelt, um einschätzen zu können inwieweit das Modell dem erwarteten Verhalten beziehungsweise Ursprungsmodell entspricht.[3] Mit Hilfe der Simulation lassen sich kostengünstig Modelle von real existierenden Vorgängen und Systemen abbilden und diese in ihrem Verhalten beobachten. Gründe für die Nutzung von Modellen und der anschließenden Simulation können vielfältig sein. Sie reichen von einer zu großen Komplexität der realen Vorlage einerseits, bis hin zu ethischen und sozialen Fragen andererseits.

An Modellen lassen sich Parameter relativ einfach verändern und Auswirkungen können auf diese Weise sichtbar werden. Dabei kommt es nicht zu negativen Auswirkungen am realen Objekt. Bereits heute lassen sich Verkehrsströme auf Straßen, Crash-Tests bei noch nicht einmal als Prototyp vorhandenen Fahrzeugen simulieren und selbst medizinische Versuche sind ohne Tierversuche oder menschliche Probanden durchführbar.

1.3 Zusammenführung und Ziele

Wie bereits im Vorwort erwähnt wurde, können Simulationen sehr große Datenmengen erzeugen, die es dem menschlichen Nutzer schwierig machen, diese auf Gemeinsamkeiten, Muster und Zusammenhänge zu erkennen, andererseits können Daten in ihrer Struktur und ihrem Format ebenfalls sehr komplex werden. Data Mining-Algorithmen können hier einen wichtigen Beitrag leisten Zusammenhänge zu erkennen und somit dazu beitragen die Modelle auf ihre Richtigkeit hin zu überprüfen.

Um Data Mining-Algorithmen sinnvoll anwenden zu können, müssen zunächst notwendige Kriterien ermittelt werden, nach denen, in einem weiteren Schritt, die Algorithmen und Bibliotheken miteinander verglichen werden. Die Verfahren werden bezugnehmend auf ihre Verwendbarkeit im bereits bestehenden Simulationsframework „James II“ („Java Based Agent Modeling Environment“ beziehungsweise „Java-based Multipurpose Environment for Simulation“) gegenübergestellt. Nach der Implementation eines oder mehrerer dieser Verfahren, wird anschließend eine Simulationsstudie mit Daten aus diesem Framework durchgeführt.

2. Simulation

Simulation ist die Ausführung beziehungsweise das Experimentieren mit einem Modell. Nach Law und Kelton beinhaltet Simulation beispielsweise die Ausführung des Modells mit verschiedenen numerischen Eingabewerten mit dem Ziel, Auswirkungen auf die Ausgaben oder Systemleistungen zu beurteilen.[4]

2.1 Definitionen

2.1.1 Definition System

Der Begriff System ist ebenfalls in vielen anderen Disziplinen gebräuchlich, sei es durch andere Wissenschaften, in der Gesellschaft und sowie im Bereich der Politik. Daher soll hier eine Definition genannt sein, die ein System als eine Kombination von Elementen oder Komponenten darstellt, die untereinander in Beziehung steht und als Gesamtheit der Erreichung eines bestimmten Ziels dient. Dabei kann ein System wiederum aus anderen Systemen, also sog. Subsystemen bestehen und so weiter. Systeme sind dadurch charakterisiert, dass sie mit ihrer Umwelt über Schnittstellen interagieren. Diese Schnittstellen werden als Inputund/oder Outputschnittstellen bezeichnet. Inputs haben ihren Ursprung außerhalb des Systems und sind somit weitgehend unabhängig davon. Outputs sind Schnittstellen zur Umwelt und werden vom System bestimmt.[5] Systeme besitzen außerdem einen Zustand. Der Zustand lässt sich nach Law und Kelton als eine Sammlung von Variablen, die notwendig sind ein System zu einem bestimmten Zustand zu beschreiben, zusammenfassen.[6]

Systeme lassen sich in zwei Kategorien einteilen, in diskrete und kontinuierliche Systeme. Während sich bei diskreten Systemen die Zustandsvariablen unverzögert zu Zeitpunkten neue Werte annehmen,[7] ändern sich die Zustandsvariablen bei kontinuierlichen Systemen im zeitlichen Verlauf.[8] Bei kontinuierlichen Simulationsmodellen finden während eines Zeitabschnittes möglicherweise unendlich viele Zustandsübergänge statt, bei diskreten Modellen ist diese Anzahl endlich.

2.1.2 Definition Modell/Modellierung

Der Begriff des Modells wurde bereits mehrfach umrissen, daher sollen hier die Eigenschaften eines Modells noch einmal zusammengefasst werden:

- Ein Modell ist ein Objekt oder ein Konzept, das genutzt wird um etwas anderes zu repräsentieren. Die Realität ist in eine zusammengefasste Form umgewandelt.
- Ein Modell ist die vereinfachte Form eines Systems, um zu ermöglichen, es zu verstehen, zu erklären, zu verändern, zu erhalten, vorauszuberechnen und es möglicherweise in seinem Verhalten zu kontrollieren.
- Ein Modell ist ein Ersatz eines konkreten Systems.
- Ein Modell soll das Wissen über ein System in passender Form repräsentieren und uns ermöglichen, es für andere Medien zu nutzen.
- Ein Modell soll nur die Auswirkungen von Einflüssen aufzeigen, welche vom Standpunkt und Zielsetzung der Modellierung heraus betrachtet von Bedeutung sind.
- Ein Modell soll einfach gehalten sein, da die Konstruktion eines universellen, umfassenden Modells nicht praktikabel und unökonomisch ist.[9]

Modellierung beinhaltet den Prozess der Erstellung von Beziehungen zwischen wichtigen Einheiten eines Systems in Form von Modellen mit einem jeweiligen Ziel, Leistungskriterien und Grenzen. Modellierung ist ein iterativer, zyklischer Prozess.[10]

2.1.3 Definition Simulation

Da der Begriff Simulation in verschiedenen Zusammenhängen genutzt wird, ist demzufolge auch dessen Definition kontextabhängig. Generell ist Simulation das Benutzen eines Modells um daraus Einblicke auf das Verhalten eines Objektes der realen Welt zu gewinnen.[11] Simulation ist das Ausführen von Experimenten auf beziehungsweise mit einem Modell. Zielstellung ist es dabei entweder das Verhalten des Systems zu verstehen oder abzuschätzen, wie sich Systeme bei Operationen verhalten können.[12] Die Computer-Simulation erfreut sich im Laufe der Zeit steigender Beliebtheit. Das ist einerseits auf die verbesserten Simulationssprachen, wie GPSS/H, SLAM II oder SIMAN, und Werkzeugen, wie beispielsweise AnyLogic oder Arena, aber auch auf die wachsende Verfügbarkeit von Computersystemen zurückzuführen. Ein komplexes Problem der realen Welt allein mit Hilfe von analytischen oder mathematischen Modellen darzustellen, kann unter Umständen schwierig sein oder in manchen Fällen sogar unmöglich. Daher werden anspruchsvollere Werkzeuge wie die der Computer- Simulation genutzt. Einen Computer zur Simulation von realen Systemen zu verwenden, erfordert die Erstellung eines Modells mit Hilfe von logischen oder mathematischen Beziehungen und der Abbildung in das Computermodell. Die Veränderung von Parametern des Modells ermöglicht es dem Bediener des Systems, die Prozesse des Modells und rückschließend auch die des zu Grunde liegenden realen Systems zu verstehen.[13]

In der Literatur finden sich oftmals widersprüchliche Angaben zum Umfang der Simulation. Einige Autoren betrachten die Konstruktion des Modells auch als ein Teil der Simulation.[14] Nach der Definition der Simulation als das Experimentieren mit einem Modell wie es oben genannt wurde, ist die Konstruktion eines Modells nicht Bestandteil der Simulation.

Zusammenfassend lassen sich folgende Eigenschaften der Simulation darstellen:

- Simulation dynamischer Prozesse ist die iterative Methode, welche das Studium der Eigenschaften eines Systems durch Experimentieren mit dem korrespondierenden Modell ermöglicht. Simulation ist der Prozess des Nachahmens wichtiger Aspekte des Verhaltens eines Systems in Echtzeit, komprimierter Zeit oder erweiterter Zeit durch Konstruktion und Experimentieren mit einem Modell des Systems.
- Im Vergleich zu analytischen Methoden ist Simulation realistischer und leichter zu verstehen, solange sie richtig eingesetzt wird.
- Simulation erlaubt den Ersatz der realen Welt, komplexen Experimenten und Versuchsanlagen durch die Nutzung günstiger und einfacher Kleinrechner. Auf diese Weise ist Experimentieren ohne Risiken möglich, bei gleichzeitig anschaulichen Ergebnissen.
- Simulation ist eine Technik Experimente mit einem Modell auszuführen.[15]

2.2 Aufgabenfelder/Anwendungsbereiche

Computer-Simulation ist möglicherweise eine teure und komplizierte Technik um Probleme zu lösen. Obwohl sich eine Vielzahl von mathematischen, betriebswirtschaftlichen, biologischen und vielen weiteren Forschungsfeldern mit Hilfe der Simulation lösen lassen, gelten folgende Regeln wann der Einsatz von Simulation sinnvoll ist:

- Das reale System existiert nicht beziehungsweise die Installation ist zu kostspielig, zu gefährlich oder ein Prototyp ist unmöglich zu erstellen. Als Beispiele gelten hier u.a. Flugzeuge, Atomreaktoren oder eine Optimierung in der Betriebswirtschaft.
- Das reale System existiert zwar, aber Experimente sind entweder zu teuer, gefährlich oder wirken zerstörend, beispielsweise militärische Systeme, Materialverwaltungssysteme.
- Ein Prognosemodell wird benötigt welches im Voraus lange Zeitspannen in einem komprimierten Verfahren untersucht, zum Beispiel Bevölkerungswachstum, Klimaentwicklung oder Verstädterungsstudien.
- Mathematische Modellierung eines Systems ohne eine analytische oder numerische Lösung. Solche Probleme können u.a. bei stochastischen Problemen oder nichtlinearen Differenzengleichungen vorkommen.[16]

2.2.1 Vorund Nachteile der Simulation

2.2.1.1 Vorteile der Simulation

Hauptvorteil der Simulation ist die Minimierung von Risiken, die mit der Einführung eines neuen beziehungsweise dem Verändern eines bestehenden Systems verbunden sind. Viele Alternativen können so gefahrlos getestet werden. Außerdem ist es möglich, die Experimentalbedingungen besser zu kontrollieren als bei realen Systemen.[17]

Ein weiterer Vorteil der Simulation besteht in dem genauen Betrachten, Erkennen und Dokumentieren des zu simulierenden Objektes durch die Modellierer des Systems. Zur Modellierung werden verschiedene Informationsquellen genutzt und zusammengefasst. Die logischen Zusammenhänge werden auf einer einheitlichen Basis zusammengetragen.[18]

2.2.1.2 Nachteile der Simulation

Neben den Vorteilen existieren auch einige Nachteile, die im Folgenden beispielhaft genannt werden.

Simulationsläufe können teuer sein, ebenso benötigen sie viel Zeit in der Entwicklung, dabei bieten sie nur annähernde Antworten. Die Ergebnisse der Simulation lassen noch immer Raum für Ungewissheiten. Diese Ungewissheit der Lösungen muss mit statistischen Mitteln behandelt werden. Mit Hilfe der Simulation lassen sich Optimierungsprobleme durch Generierung von Antworten und Ergebnissen lösen, diese müssen aber nicht optimal sein.

Ein weiteres Problem ist die Modellvalidierung, insbesondere bei nicht existierenden Systemen.[19]

2.2.2 Simulationsarten

In der Literatur kursieren viele Simulationsarten, daher soll kurz auf die drei bekanntesten eingehen. Kontinuierliche und diskrete Simulation lassen sich zwar ähnlich wie kontinuierliche und diskrete Systeme definieren, allerdings werden diskrete Modelle nicht zwangsläufig zur Modellierung diskreter Systeme und kontinuierliche Modelle nicht ausschließlich zur Beschreibung kontinuierlicher Systeme genutzt. Die Entscheidung welches Modell genutzt wird, ist abhängig von den Simulationszielen. Soll beispielsweise der Autoverkehr auf einer Straße simuliert werden, ist eine diskrete Simulation sinnvoll, solange die jeweiligen Fahrzeuge und ihre Bewegungen individuell betrachtet werden sollen. Dagegen ist eine kontinuierliche Simulation sinnvoll, wenn die Gesamtheit der Fahrzeuge betrachtet wird und die des Verkehrsflusses mit Hilfe von Differenzengleichungen darstellbar ist.[20]

2.2.2.1 Kontinuierliche Simulation

Kontinuierliche Simulationsmethoden beschäftigen sich mit einer Menge von Gleichungen, die ein System, beziehungsweise die Änderung seiner Zustandsvariablen, im zeitlichen Verlauf beschreiben. Kontinuierliche Systeme sind durch die Definition abhängiger Variablen über einen kontinuierlichen Bereich gekennzeichnet.[21] Die Systeme können aus algebraischen, differenziellen oder Differenzengleichungen bestehen.[22] Die Differenzengleichungen geben Beziehungen zwischen den Veränderungsrate der Zustandsvariablen in Bezug auf die Zeit an.[23] Differenzengleichungen können (wenn sie einfach genug sind) analytisch gelöst werden, um so die Werte für die Zustandsvariablen für den gesamten Zeitraum als eine Funktion der Zustandsvariablen zum Zeitpunkt „null“ (Ausgangszeitpunkt) bestimmen zu können. Für die meisten kontinuierlichen Modelle existieren jedoch keine analytischen Lö- sungen. Trotzdem werden numerisch-analytische Verfahren genutzt, um Differenzengleichungen numerisch zu integrieren.[24] Als Beispiel für kontinuierliche Simulationsmodelle ist ein Modell eines Fahrzeugdämpfungssystems denkbar, welches im Laufe der Zeit unterschiedlichen Fahrbahnbelägen ausgesetzt und damit schwankenden Belastungen unterliegt ist.

2.2.2.2 Diskrete Simulation

Diskrete Modelle sind durch abhängige Variablen gekennzeichnet, die sich nur bei eindeutigen Ausprägungen unabhängiger Variablen ändern.[25] Treten also punktuell Ereignisse auf, wird der Zustand des Systems verändert. Als einfaches Beispiel gilt ein Geldausgabeautomat einer Bank: Solange kein Kunde den Automaten beansprucht, ist dieser im Ruhezustand. Wenn jedoch ein Kunde an den Geldautomaten herantritt und eine Transaktion starten möchte, ändert sich der Zustand des Automaten und er wechselt in den Bedienmodus.[26] Die Bedienung eines Kunden dauert eine gewisse Zeit, der Einfachheit halber eine durchschnittliche Länge. Durch Zählung kann nun ermittelt werden, wie viele Kunden den Automaten zu welcher Zeit nutzen. Diese Zahl schwankt für gewöhnlich. Mit Hilfe der Simulation ist nun berechenbar, wie lange beispielsweise ein Kunde durchschnittlich vor dem Automaten warten muss. Es kann berechnet werden, wie lang die Schlangenlänge vor dem Automat ist, wenn Annahmen über die Kundenanzahl vorliegen und diese Annahmen in der Simulation abgebildet sind.

Die diskret-Ereignisorientierte Simulation spielt bei James II („Java Based Agent Modeling Environment for Simulation” beziehungsweise „JAva-based Multipurpose Environment for Simulation“) eine besondere Rolle. Das System kann sich nur zu einer Menge von zählbaren Zeitpunkten ändern. Zu genau diesen Zeitpunkten (wenn das Ereignis auftritt) ändert sich der Zustand des Systems. Ein Ereignis ist definiert als Vorgang, der durch sein Auftreten in der Lage ist, den Systemzustand sofort zu ändern.[27]

2.2.2.3 Monte Carlo Simulation

Der Unterschied dieser Simulationsart zur Diskreten Simulation liegt in der Beachtung des zeitlichen Faktors. Während in der diskreten Simulation Zeit eine wichtige Rolle spielt, hat sie bei der Monte Carlo Simulation keine Auswirkungen. Mit dem Namen Monte Carlo wird allgemein Glückspiel, Chance und Risiko verbunden. So wurde der Name als Codename während der Entwicklung der Atombomben in Los Alamos für Experimente auf Basis von Zufallszahlen genutzt. Heutzutage sind Monte Carlo Experimente per Definition von Law und Kelton aus dem Jahre 1982 eine Zusammenfassung für Schemata, die mit Hilfe von Zufallszahlen bestimmter statistische oder deterministische Probleme lösen. Der zeitliche Bezug spielt bei diesen Problemen keine Rolle.

2.3 James II

2.3.1 Hintergrund

Um den Hintergrund und die Arbeitsweise von James II („Java Based Agent Modeling Environment for Simulation” beziehungsweise „JAva-based Multipurpose Environment for Simulation“) verstehen zu können, sind im Vorfeld einige Erklärungen notwendig. James II ist ein komponentenbasiertes Framework, welche sich zum Ziel gesetzt hat, ein aus wiederverwendbaren Komponenten bestehendes Simulationssystem zu entwickeln, das seinen Benutzern ein effizientes und effektives Experimentieren ermöglicht.

Um dem Begriff Agentensystem näher zu kommen, sollen folgende Ausführungen helfen: Agentensysteme sind zunächst einmal Softwaresysteme, die in offenen, dynamischen Umgebungen operieren. Simulationen spielen bei der Untersuchung ihrer Funktionalität und Leistungsfähigkeit eine zunehmende Rolle. Agenten können modelliert oder in die Simulation eingebettet werden. Sie fordern aufgrund charakteristischer Eigenschaften wie Flexibilität, Autonomie, Ressourcenintensität und Mobilität die Entwicklung speziell zugeschnittener Simulationsmethoden.

Das Vorgängerprojekt von James II, James, erlaubt den hierarchischen Aufbau von Testumgebungen für intelligente und mobile Multiagentensysteme. Agenten spielen in dieser Implementation eine wichtige Rolle, die derart interpretiert sind, dass sie ihre Verhaltenund Interaktionsmuster verändern können. Da die Anwendungsbereiche von Multiagentensystemen stark variieren, wird die Entwicklung von Modellierungsmechanismus gefordert, die die Entwicklung unterschiedlicher Testszenarien vereinfachen und Mechanismen bereithalten, die eine Interoperation mit anderen Simulationssystemen ermöglichen.[28]

2.3.2 Ziele

Das Projekt James II steht für ein flexibles Simulationsframework, das sich für die Erforschung von Modellierungsund Simulationsmethoden, für die Simulation komplexer, heterogener Modelle, als auch für die Lehre von Modellierung und Simulation eignet. Es wird an der Universität Rostock am Lehrstuhl für Modellierung und Simulation im Rahmen eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projektes entwickelt.

Das Nachfolgeprojekt von James basiert auf dem „Plug’n simulate“ Ansatz. Dieser Ansatz ermöglicht die Erweiterung des Systems mit Hilfe von Plug-Ins zur Realisierung unterschiedlicher Anforderungen.

Dieses Framework ist bereits jetzt soweit entwickelt, dass es verschiedene Formalismen und Ausführungsstrategien unterstützt.[29]

Bei der Entwicklung von James II wurden folgende drei prinzipielle Anwendungsfälle berücksichtigt:

- Erforschung von Modellierungsund Simulationsparadigmen
- Einsatz in der Lehre (direkt, als Backend in einem Lehr-/Lernsystem)
- Einsatz im Rahmen von anderen Forschungsprojekten (zur Simulation komplexer Modelle)[30]

2.3.3 Einordnung und Entwicklungen

Das Vorgängerprojekt James beinhaltete bereits als erstes Simulationsframework den Dyn- DEVS-Formalismus und erlaubte den modularen und hierarchischen Aufbau für mobile und intelligente Multiagentensysteme.[31] Agenten und Simulation stehen in einem komplexen Zusammenhang. Einerseits werden sie genutzt, um dynamische Prozesse zu modellieren, andererseits sind Agenten selbst Gegenstand der Simulation, sie dienen beispielsweise als Testumgebung von Softwarekomponenten in simulierten, dynamischen Umgebungen. Weiterhin beeinflussen Agenten verstärkt das Design von Simulationssystemen indem einzelne Komponenten des Simulationssystems selbst als Agenten, sprich als flexible, autonome Softwarekomponenten konzipiert werden oder sogar komplette Simulationssysteme als Agenten das Zusammenspiel mit anderen Simulationssystemen proben.[32]

2.3.4 Entwicklungsstand

Aufgrund der Diversität der unter Punkt 2.3.2 beleuchteten Ziele ergeben sich mehrere Anforderungen an das Simulationsframework. Neben der Unterstützung verschiedener Ausführungsstrategien und der Modellierung in verschiedenen Formalismen in einem leicht wiederverwendbaren und erweiterbaren flexiblen Simulationsframework ergeben sich daraus folgende Anforderungen:

- Modularer Aufbau

(Austausch, Wiederverwendung von Teilen und leichte Erweiterbarkeit des Systems)

- Effiziente Algorithmen

Da James II mit Hilfe zahlreicher Entwurfsmuster in Java (Version 1.6) auf dem sog. "Plug'n simulate"-Konzept basiert, bietet es neben vordefinierten Möglichkeiten zur Erweiterung des Systems mittels Plug-Ins, auch Möglichkeiten die Erweiterungen an sich zu extensivieren. Mit Hilfe dieses Konzeptes lässt sich das System erweitern, ohne das der eigentliche Kern des Systems verändert werden muss.[33]

Derzeit unterstützt James II die Modellierung in PDEVS (Parallel DEVS (Discrete Event System Specification)), sowie einiger Erweiterungen (dynamische Strukturen, externe Prozesse) dieses Formalismus, zelluläre Automaten sowie SpaPi-Modelle („Spatial PI-Models“, räumliche PI-Modelle) und Beta-binders-Modelle.

Eine weitere Funktionalität können PDEVS - Modelle entweder auf einem lokalen Rechner, oder auch parallelverteilt ausgeführt werden. Diskret-ereignisorientierte Simulationsalgorithmen verwenden sogenannte „Ereignisschlangen" („Event Queues“) normalerweise sehr intensiv. Aus diesem Grund wurden in James II eine Reihe von unterschiedlichen Schlangen implementiert, beispielsweise die „calendar queue“, die „mlist“, die „2-list“ und eine „heap“ (Halden)-basierte. Nach derzeitigem Stand stehen drei verschiedene verteilte Simulationsalgorithmen für PDEVS-Modelle zur Verfügung.[34]

3. Data Mining

3.1. Definition

Data Mining ist ein Begriff, der von Natur-, als auch von Wirtschaftswissenschaftlern weltweit genutzt wird und sich weitgehend im Sprachgebrauch etabliert hat. Pioniere auf dem Gebiet des Data Mining sind u.a. Frawley, Piatetsky-Shapiro und Matheus nach denen Data Mining die Extraktion und Entdeckung von implizitem, bisher nicht bekanntem und potentiell nützlichem Wissen aus Daten ist.[35] Um die genaue Definition des Begriffs Wissen streiten sich wiederum viele Autoren, da argumentiert wird, dass Wissen nicht entdeckt werden kann, sondern neue Erkenntnisse vielmehr das bestehende Wissen erweitern können. Ein zweiter Streitpunkt ist die Automatisierung des Data Mining. In der Definition von Frawley, Piatetsky-Shapiro und Matheus ist diese nicht vorhanden, sollte aber nach Ansicht einiger Autoren ein Gütemerkmal von Data Mining-Systemen sein. Allerdings ist dieses Merkmal derzeit nur in begrenztem Maße verfügbar.[36] Aus der o.g. begrenzten Definition wurde von Fayyad, Piatetsky und Smyth die weitergehende Definition geprägt: „Knowledge Discovery is the non trivial process of identifying valid, novel, potential useful and ultimately understandable pattern in data“[37]. In dieser Herangehensweise wird Data Mining zu einem Prozess von Datenanalysen. Dieser Prozess besitzt somit folgende Charakteristiken:

- Er ist „non trivial“, d.h. es handelt sich um einen neuen Analyseansatz
- valid: er ist statistisch sicher in den Aussagen
- novel: er leitet den Blick auf neue Erkenntnisse
- potential useful: der Prozess ist nützlich, jedoch nicht in allen Fällen offensichtlich bewertbar,
- ultimately understandable: er ist anwenderfreundlich und verständlich[38]

Weiterhin nutzen Fayyad, Piatetsky und Smyth den Begriff „pattern“ anstatt „Information“. Dies bedeutet, dass hier zunächst Muster und erst darauf aufbauend eventuell Informationen gewonnen werden.[39] Es wird weiterhin deutlich, dass Data Mining nicht ein einzelnes Verfahren oder gar ein Datenmodell ist, sondern vielmehr ein Prozess von Datenanalysen.[40] Darüber hinaus ist Data Mining, nach Auffassung der oben genannten Autoren, ein Teilschritt in einen Gesamtprozess, der in der Literatur als „Knowledge Discovery in Databases“, kurz KDD zusammengefasst wird. Der Teilschritt hat dabei die Aufgabe Hypothesen zu suchen und zu beweisen.[41]

Für andere Autoren sind Data Mining und KDD nicht ohne weiteres trennbar, so sieht Küppers Data Mining nur als Überbegriff für eine Kombination verschiedener Verfahren, die somit in seinen Augen keinen eigenständigen Begriff rechtfertigen.[42] Dies ist einer der Gründe, warum die meisten Autoren Data Mining und KDD synonym verwenden.[43]

Neben diesen grundlegenden Begriffsdeutungen existieren in der Literatur noch weitere Ansätze. Bei diesen Ansätzen wird jedoch immer wieder von der Mustererkennung in Datenbeständen als Hauptaufgabe des Data Mining geschrieben. Muster können einerseits als existierende Regelmäßigkeiten oder Beziehungen zwischen Datensätzen aufgefasst werden (solange diese ausreichend sicher sind), andererseits stellen die Beschreibungen von Objekten selbst Muster dar. Die Aufgabe der Datenmustererkennung besteht darin, die Unter- schiede zwischen Gruppen von Datensätzen zu erkennen, die jeweiligen Gruppen zu interpretieren und typische Beispiele zu finden.[44]

3.2 Ziel(e) des Data Mining

Zentrales Ziel des Data Mining ist das Erkennen von Mustern und Strukturmodellen mit Hilfe von Datenanalysen. Die daraus resultierenden Muster beziehungsweise Strukturmodelle stellen den schematischen Aufbau und Typisierung der Daten bezogen auf ein konkretes Analyseund Anwendungsziel dar.[45] Man unterscheidet dabei die bestimmte und die unbestimmte Suche. Bei der bestimmten Suche wird nach einem bekannten Muster oder Trend gesucht, während bei der unbestimmten Suche diese Muster oder Trends noch unbekannt sind und aus dem zugrundeliegenden Datenmaterial zu bestimmen sind.

Eine Übersicht über die Ziele des Data Mining soll im Folgenden gezeigt werden:

- Explorative Datenanalyse (Exploratory Data Analysis, kurz EDA)

Ziel dieser Analyse ist es, Datenmengen zu durchsuchen, ohne Vorkenntnisse zu haben nach was überhaupt gesucht werden soll. Typischerweise arbeiten solche Anwendungen interaktiv mit dem Nutzer zusammen und nutzen graphische Visualisierungen. Die Übersichtlichkeit der graphischen Darstellung ist in hohem Maße abhängig von der Anzahl der zu untersuchenden Variablen, denn je größer die Anzahl der Variablen, umso schlechter lassen diese sich trotz möglicher Aggregationen darstellen.

- Deskriptive Modellierung

Hierbei ist es das Ziel, alle Daten beziehungsweise den Prozess ihrer Generierung zu beschreiben. Beispiele für solche Analysen sind die Partitionierung von mehrdimensionalen Räumen mit Hilfe der Cluster-Analyse (Analyse von Datensätzen nach wenigen Grundmustern) oder Segmentierung (ähnliche Datensätze werden nach Ähnlichkeiten analysiert und gruppiert), oder zur Entwicklung von Modellen, welche die Abhängigkeit zwischen Variablen erkennen und darstellen sollen.

- Vorausschauende Modellierung

Sinn dieser Datenanalyse und Modellierung ist es, die Unsicherheit für zukünftige Ereignisse zu minimieren. Konkret bedeutet dies, dass versucht wird, den Wert einer bis dahin unbekannten Variablen aus den bekannten Werten anderer Variablen herzuleiten. Vorausschauende Modellierung beinhaltet in hohem Maße statistische Modelle und maschinelles Lernen. Weiteres Merkmal dieser Modelle ist die Existenz einer zentralen Variable die es vorauszusagen gilt. Praktische Anwendungen dieser Modelle sind beispielsweise zu erwartende Krankheitsverläufe bei Erkrankungen oder Kursentwicklungen von Wertpapieren am Aktienmarkt.

- Musterund Regelerkennung

Die drei ersten Aufgabengebiete beschäftigen sich größtenteils mit der Bildung von Modellen. Andere Anwendungen befassen sich stattdessen mit der Mustererkennung. Ein beliebtes Beispiel aus der Warenwirtschaft ist die Frage, welches Produkt häufig in Zusammenhang mit einem anderen Produkt gekauft wird. Ergebnisse solcher Untersuchungen werden, vorausgesetzt die Untersuchung verlief erfolgreich, auch als Assoziationsregeln bezeichnet. Man kann generalisierend sagen, dass in Datenmengen nach bisher unbekannten Ereignissen, aber auch nach häufig auftretenden Mustern gesucht wird. Ein wichtiges Problem bei der Musterund Regelerkennung ist die Tatsache, dass Daten, die weit außerhalb der Streuung der anderen Werte liegen, die Ergebnisse verfälschen können. Eine Unterscheidung von Werten die innerhalb der Toleranz liegen oder als „Ausreißer“ zu identifizieren sind, ist stark von dem zugrunde liegenden Hintergrundwissen abhängig.

- Inhaltsbasierte Suche

Diese Form der Suche wird häufig auf Textdokumente angewandt und findet zunehmend auch bei Bildern und anderen Medien Anwendung. Wie der Name bereits vermuten lässt, wird dem Nutzer hier ein Werkzeug in die Hand gegeben, welches ihm ermöglicht nach bestimmten Mustern zu suchen. Im Falle von Textdokumenten können das Stichwörter oder Gruppen von Stichwörtern sein. Im Falle von Bildern ist eine Stichwortsuche nach Motiven, aber auch die Suche nach einem vom Nutzer vorgegebenen ähnlichen Bild möglich.

Obwohl die Ziele der hier aufgelisteten Aufgaben sich mehr oder weniger stark unterscheiden, sind auch eine Reihe von Gemeinsamkeiten erkennbar. Die Idee der Ähnlichkeit oder des Abstandes spielt bei vielen Verfahren eine wichtige Rolle. Andererseits gibt es ebenso eine große Anzahl von Unterschieden. Es sei nochmals darauf hingewiesen, dass verschiedene Modelle und Muster je nach Aufgabe benötigt werden und diese in hohem Maße von dem zugrunde liegenden Datenmaterial abhängig ist.[46]

3.3 Data Mining als Prozess

Wie in den vorangegangenen Kapiteln bereits zu lesen war, gibt es nicht ein Data Mining, sondern vielmehr eine Sammlung von Algorithmen die verschiedenen Zielen dienen.

Diese Algorithmen sind nicht isoliert zu betrachten, sondern stehen im Kontext mit weiteren Tätigkeiten und Algorithmen, die im Vorfeld, wie auch in der Nachbereitung des Data Mining in Beziehung stehen.

In Anlehnung an Petersohn ist Data Mining ein Prozess, der eine aufgabenorientierte Steuerung durch einen Anwender benötigt und dabei folgende Teilschritte umfasst:

- Aufgabendefinition

Vom Anwender wird hier gefordert, die Aufgabe beziehungsweise die Problemstellung mit dem Wissen über vorhandene Daten derart zu verknüpfen, um daraus Klassifikations-, Assoziationsund Zeitreihenanalyseaufgaben zu formulieren.

- Datenselektion

Dieser Schritt ist für den Erfolg des Data Mining besonders wichtig. Er umfasst eine zielgerichtete Auswahl von Daten, die entweder bereits in einem Data-Warehouse oder in verteilten Datenbanken vorliegen. Die Existenz von Data-Warehouses (zentralisierte Ansammlung von Daten aus unterschiedlichen Quellen) ist somit keine explizite Voraussetzung für Data Mining. Sie beschleunigen aufgrund der Übersichtlichkeit gegenüber verteilten Systemen aber oftmals den Selektionsvorgang. Grundsätzlich werden aus den Rohdaten nur solche Daten zur Analyse herangezogen, die für die Analyse als sinnvoll und geeignet eingeschätzt werden. Insbesondere sollte das Augenmerk des Anwenders auf der Qualität, der Struktur und auf dem Inhalt der Daten liegen.

- Datenaufbereitung

Zu diesem Zeitpunkt liegen die Rohdaten zwar vor, sind jedoch in den meisten Fällen noch nicht direkt für die Anwendung von Analysemethoden geeignet. Daher schließt sich zu diesem Zeitpunkt zunächst eine Vorverarbeitung (Exploration) an. Dabei werden Objekte mit falschen oder fehlerhaften Eintragungen (hoffentlich) erkannt und anschließend eliminiert, da diese sonst u.U. das Ergebnis des Data Mining-Prozesses verfälschen könnten. Die Daten nach der Exploration werden anschließend einer sogenannten Manipulation unterzogen. Unter Beachtung des angestrebten Ziels werden nun mit Hilfe von Reduktion und Projektion die Anzahl der berücksichtigten Variablen vermindert, unter Berücksichtigung der messtheoretischen Restriktionen einem Skalenniveau zugeordnet und wenn nötig eine Skalentransformation und Normierung durchgeführt.

- Datenanalyse

Mit der Datenanalyse befinden wir uns im Data Mining des engeren Sinnes. In dieser Phase finden die verschiedenen Analysen statt. Während dieser Teilschritte kommen (einzeln oder kombiniert) Verfahren zur Anwendung, die aus den Bereichen Klassenbildung, Assoziationsanalyse, Zeitreihenanalyse und Klassifizierung stammen, zum Einsatz.

- Modellevaluierung

Da die verschiedenen Verfahren der Datenanalyse jedoch zu unterschiedlichen Ergebnissen führen können, müssen ihre Ergebnisse im Zuge der Modellevaluierung einer Evaluation unterzogen werden.

Das Ergebnis aus Datenanalyse und Modellevaluierung ist ein Modell, welches bei Anwendung vorschreibt, inwiefern sich abhängige von unabhängigen Variablen berechnen lassen.

- Anwendung des Analysemodells

Hier wird das gewonnene Modell aus den bisherigen Prozessstufen auf dem zu untersuchenden Datenmaterial angewendet und in der letzten Phase, der

- Ergebnispräsentation, interpretiert. Diese Interpretation erfolgt i.d.R. mit Hilfe deskriptiver Statistiken und Auswertungen im Sinne von OLAP („Online Analytical Processing“, analytische online Verarbeitung).[47]

Wichtig ist weiterhin, dass hier ein Analyseprozess beschrieben wird, der Zusammenhänge aus Daten herleitet. Die jeweiligen Prozessschritte werden dabei jedoch nicht sequentiell durchlaufen, sondern weisen Rücksprünge auf. Dieser iterative Prozess sollte weitestgehend automatisiert werden. Das wird in der folgenden Abbildung anschaulich dargestellt:

[...]


[1] Vgl. o.V.: http://www.tagessschau.de/wirtschaft/sapuebernahme2.html, 12.12.2007, 8:32 Uhr.

[2] Vgl. o.V.: http://boerse.ard.de/content.jsp?key=dokument_254704, 12.12.2007, 8:39 Uhr.

[3] Vgl. Law, Averill M.; Kelton, W. David: Simulation, Modeling and Analysis, Third Edition, McGraw-Hill, Boston, et al., 2000, S. 1.

[4] Vgl. Law, Averill M.; Kelton, W. David: Simulation, Modeling and Analysis, Third Edition, McGraw-Hill, Boston, et al., 2000, S. 5.

[5] Vgl. Matko, Drago; Karba, Rihard, et al.: Simulation and Modeling of Continuous Systems, Prentice Hall, New York, et al., 1992, S. 2.

[6] Vgl. Law, Averill M; Kelton, W. David: Simulation, Modelling and Analysis, Third Edition, McGraw-Hill, 2000, Boston, et al., S. 3.

[7] Vgl. Law, Averill M; Kelton, W. David: Simulation, Modelling and Analysis, Third Edition, McGraw-Hill, 2000, Boston, et al., S. 6.

[8] Vgl. Law, Averill M; Kelton, W. David: Simulation, Modelling and Analysis, Third Edition, McGraw-Hill, 2000, Boston, et al., S. 3.

[9] Vgl. Matko, Drago; Karba, Rihard, et al.: Simulation and Modeling of Continuous Systems, Prentice Hall, New York, et al., 1992, S. 4.

[10] Vgl. Matko, Drago; Karba, Rihard, et al.: Simulation and Modeling of Continuous Systems, Prentice Hall, New York, et al., 1992, S. 4.

[11] Vgl. McHaney, Roger: Computer Simulation A practical Perspective, Academic Press, San Diego, et al., 1991, S. 2.

[12] Vgl. Monsef, Y.: Modelling and Simulation of Complex Systems, Concepts, Methods and Tools, Society for Computer Simulation Int., Erlangen, et al., 1997, S. 2.

[13] Vgl. McHaney, Roger: Computer Simulation A practical Perspective, Academic Press, San Diego, et al., 1991, S. 2-3.

[14] Vgl. Matko, Drago; Karba, Rihard, et al.: Simulation and Modeling of Continuous Systems, Prentice Hall, New York, et al., 1992, S. 4-5.

[15] Vgl. Matko, Drago; Karba, Rihard, et al.: Simulation and Modeling of Continuous Systems, Prentice Hall, New York, et al., 1992, S. 4-5.

[16] Vgl. McHaney, Roger: Computer Simulation A practical Perspective, Academic Press, San Diego, et al., 1991, S. 3.

[17] Vgl. McHaney, Roger: Computer Simulation A practical Perspective, Academic Press, San Diego, et al., 1991, S. 3.

[18] Vgl. McHaney, Roger: Computer Simulation A practical Perspective, Academic Press, San Diego, et al., 1991, S. 3.

[19] Vgl. McHaney, Roger: Computer Simulation A practical Perspective, Academic Press, San Diego, et al., 1991, S. 6.

[20] Vgl. Law, Averill M; Kelton, W. David: Simulation, Modelling and Analysis, Third Edition, McGraw-Hill, Boston, et al., 2000, S. 6.

[21] Vgl. Matko, Drago; Karba, Rihard, et al.: Simulation and Modeling of Continuous Systems, Prentice Hall, New York, et al., 1992, S. 7.

[22] Vgl. McHaney, Roger: Computer Simulation A practical Perspective, Academic Press, San Diego, et al., 1991, S. 9-10.

[23] Vgl. Law, Averill M; Kelton, W. David: Simulation, Modelling and Analysis, Third Edition, McGraw-Hill, Boston, et al., 2000, S. 87.

[24] Vgl. Law, Averill M; Kelton, W. David: Simulation, Modelling and Analysis, Third Edition, McGraw-Hill, Boston, et al., 2000, S. 87.

[25] Vgl. Matko, Drago; Karba, Rihard, et al.: Simulation and Modelling of Continuous Systems, A case study approach, Prentice Hall, New York, et al., 1992, S. 7.

[26] Vgl. McHaney, Roger: Computer Simulation A practical Perspective, Academic Press, San Diego, et al., 1991, S. 10ff.

[27] Vgl. Law, Averill M; Kelton, W. David: Simulation, Modeling and Analysis, Third Edition, McGraw-Hill, Boston, et al., 2000, S. 6-7.

[28] Vgl. o.V.: http://wwwmosi.informatik.uni-rostock.de/mosi/projekte/researchproject.2006-02- 18.4818436731, 18.11.2007, 10:32 Uhr.

[29] Vgl. o.V.: http://wwwmosi.informatik.uni-rostock.de/mosi/projekte/researchproject.2006-02- 18.0073590725/researchsubproject.2006-02-28.3169314540, 19.11.2007, 10:25Uhr.

[30] Vgl. o.V.: http://wwwmosi.informatik.uni-rostock.de/mosi/projekte/researchproject.2006-02- 18.0073590725/researchsubproject.2006-02-28.3169314540, „Über James II“, 19.11.2007, 10:25Uhr.

[31] Vgl. o.V.: http://wwwmosi.informatik.uni-rostock.de/mosi/projects/james/?searchterm=james, 19.11.2007, 12:11 Uhr.

[32] Vgl. o.V.: http://wwwmosi.informatik.uni-rostock.de/mosi/projekte/researchproject.2006-02- 18.4818436731, 12.12.2007, 19:38 Uhr.

[33] Vgl. o.V.: http://wwwmosi.informatik.uni-rostock.de/mosi/projekte/researchproject.2006-02- 18.0073590725/researchsubproject.2006-02-28.3169314540, „The modular design“, 19.11.2007, 10:17 Uhr.

[34] Vgl. o.V.: http://wwwmosi.informatik.uni-rostock.de/mosi/projekte/researchproject.2006-02- 18.0073590725/researchsubproject.2006-02-28.3169314540, „The State“, 19.11.2007, 11:45 Uhr.

[35] Vgl. Frawley, William J.; Piatetsky-Shapiro, Gregory; Matheus, Christopher J.: Knowledge Discovery in Databases: An Overview, 1991, S. 1-27.

[36] Vgl. Petersohn, Helge: Data Mining-Verfahren, Prozesse, Anwedungsarchitektur, Oldenbourg Verlag, München, 2005, S.8.

[37] Vgl. Fayyad, Usama M.; Piatetsky-Shapiro, Gregory; Smyth, Padhraic: From Data Mining to Knowledge Discovery: an overview, 1996, S.1-34.

[38] Vgl. Petersohn, Helge: Data Mining-Verfahren, Prozesse, Anwendungsarchitektur, Oldenbourg Verlag, München, 2005, S.9.

[39] Vgl. Petersohn, Helge: Data Mining-Verfahren, Prozesse, Anwendungsarchitektur, Oldenbourg Verlag, München, 2005, S.9.

[40] Vgl. Petersohn, Helge: Data Mining-Verfahren, Prozesse, Anwendungsarchitektur, Oldenbourg Verlag, München, 2005, S.33.

[41] Vgl. Petersohn, Helge: Data Mining-Verfahren, Prozesse, Anwendungsarchitektur, Oldenbourg Verlag, München, 2005, S.9.

[42] Vgl. Küppers, Betram: Data Mining in der Praxis – ein Ansatz zur Nutzung der Potentiale von Data Mining im betrieblichen Umfeld, 1999, S. 24ff.

[43] Vgl. Adriaans, Peter, Zantinge; Dolf: Data Mining, Addison-Wesley, Harlow, et al., 1998, S. 5.

[44] Vgl. Hagedorn, Jürgen; Bissantz, Nicolas; Mertens, Peter: Data Mining (Datenmustererkennung): Stand der Forschung und Entwicklung, in: WIRTSCHAFTSINFORMATIK 39, 1997, S. 601-612.

[45] Vgl. Petersohn, Helge: Data Mining-Verfahren, Prozesse, Anwendungsarchitektur, Oldenbourg Verlag, München, 2005, S. 10.

[46] Vgl. Hand, David; Manilla, Heikki; Smyth, Padrahic: Principles of Data Mining, MIT Press, Cambridge Massachusetts, 2001, S.11ff.

[47] Vgl. Petersohn, Helge: Data Mining-Verfahren, Prozesse, Anwendungsarchitektur, Oldenbourg Verlag, München, 2005, S.11.

Ende der Leseprobe aus 136 Seiten

Details

Titel
Data Mining - Methoden in der Simulation
Hochschule
Universität Rostock  (Institut für Informatik, Lehrstuhl für Modellierung und Simulation)
Note
1,0
Autor
Jahr
2008
Seiten
136
Katalognummer
V114550
ISBN (eBook)
9783640145478
ISBN (Buch)
9783640146482
Dateigröße
7033 KB
Sprache
Deutsch
Schlagworte
Data, Mining, Methoden, Simulation
Arbeit zitieren
B.Sc. Enrico Seib (Autor:in), 2008, Data Mining - Methoden in der Simulation, München, GRIN Verlag, https://www.grin.com/document/114550

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Data Mining - Methoden in der Simulation



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden