"Text Mining" als Instrument des Informationsmanagements

Name: "Text Mining" als Instrument des Informationsmanagements
Price: 18.95 EUR
Availability: InStock
Author: Dominik Claussen
ISBN: 978-3-640-19367-7

Hausarbeit (Hauptseminar), 2008

19 Seiten, Note: 2,3

Dominik Claussen (Autor:in)

Leseprobe

Inhaltsverzeichnis

II. Abbildungsverzeichnis

III. Tabellenverzeichnis

IV. Abkürzungsverzeichnis

1 Einleitung

2 Hauptteil
2.1 Grundlagen
2.1.1 Einordnung Text Mining
2.1.2 Abgrenzung zu Information Retrieval Systems
2.1.3 Grundlagen der Bedeutungsanalyse
2.2 Prozess des Text Mining
2.2.1 Textdatenbanken
2.2.2 Maschinelle Sprachverarbeitung
2.2.2.1 Bedeutungsanalyse
2.2.2.2 Sprachstatistik
2.2.3 Wissensgenerierung
2.2.3.1 Dokumentsuche mit Suchmaschinen
2.2.3.2 Dokumentordnung: Klassifizierung und Segmentierung
2.2.3.3 Wissen extrahieren: Visualisierung und Data Mining Methoden
2.3 Praktisches Beispiel
2.4 Ausblick

3 Zusammenfassung

V. Literaturverzeichnis

II. Abbildungsverzeichnis

Abbildung 1: Kookkurrenz

Abbildung 2: Zusammenhang Fach- und Allgemeinsprache

Abbildung 3: Technischer Prozess des Text Mining

Abbildung 4: Suche im Text Mining

Abbildung 5: Klassifizierung im Text Mining

Abbildung 6: Segmentierung im Text Mining

Abbildung 7: Beispiel Visualisierung im Text Mining

Abbildung 8: Data Mining Methoden im Text Mining

III. Tabellenverzeichnis

Tabelle 1: Zusammenhang Data und Text Mining

Tabelle 2: Term-Dokument-Matrix

IV. Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Text Mining wird zur Suche und Ordnung von Dokumenten benötigt. Außerdem kann Wissen aus den Texten gewonnen werden. Für diese drei Ergebnisse des Text Mining bestehen zahlreiche Einsatzmöglichkeiten in Unternehmen. Da im Customer-Relationship-Management (CRM) viele Informationen über Texte ausgetauscht werden, kann Text Mining dort gut verwendet werden.

Um einen Einblick in das Thema zu bekommen, soll zuerst eine Einordnungen des Text Mining betrachtet werden. Grundlegend werden im ersten Teil auch einzelne Begriffe erläutert, ähnliche Verfahren abgrenzt, sowie eine Übersicht für sprachliche Problemfälle gegeben.

Anschließend wird der Prozess des Text Mining erläutert, die Erläuterung erfolgt entlang der Prozesskette. So wird erst die Textdatenbank, dann die maschinelle Sprachverarbeitung und abschließend die Wissensgenerierung jeweils als Prozesselement vorgestellt.

Um die Theorie abzurunden, soll ein Ausblick der Entwicklung des Text Mining, sowie ein praktisches Beispiel der Firma Media-Saturn gegeben werden.

Zuletzt werden nochmal die Kernthesen zusammengefasst.

2 Hauptteil

2.1 Grundlagen

2.1.1 Einordnung Text Mining

Im CRM bilden Data und Text Mining gute Hilfestellungen an, um die Masse der vorhandenen Daten verwalten zu können.

Zentrale Zielsetzung ist dabei die Generierung von Wissen, dass im CRM-Kontext oder auch in anderen Bereichen des Unternehmens gewinnbringend eingesetzt werden kann (Heyer et al. 2006, S. 2). Im CRM ist Wissen im Bereich der Business Intelligence angesiedelt, es soll nicht direkt dem Kundenkontakt dienen. Zugriff auf die generierten Daten ist vor allem vom Back Office, Front Office, sowie der operativen IT vorgesehen.

Die Begriffe Daten, Information und Wissen sind grundlegend für das Text Mining. Daten sind in den Unternehmensdatenbanken vorhanden. Information ist eine Auskunft, die, um eine handlungsrelevante Entscheidung zu treffen, erst zu Wissen aufbereitet werden muss (Heinrich 1992, S.7).

Data und Text Mining setzen auf ähnliche Verfahren. Der hauptsächliche Unterschied: Text Mining untersucht im Gegensatz zu Data Mining unstrukturierte Daten, also Texte und keine Zahlen.

Da sich Text zu strukturierten Daten umformen lässt, kann beim Text Mining auch auf Methoden des Data Mining zurückgegriffen werden.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Zusammenhang Data und Text Mining

(Quelle: in Anlehnung an Heyer et al. 2006, S. 5)

Abschließend zu Einordnung von Text Mining noch der Versuch einer Definition: Text Mining ist ein automatisierter Prozess, relevantes Wissen aus Texten zu erhalten (Miller 2005, S. 104).

2.1.2 Abgrenzung zu Information Retrieval Systems

Nachdem der Begriff Text Mining eingeordnet ist, ist es notwendig eine Abgrenzung zu einem ähnlichen Begriff vorzunehmen.

Information RetrievalSystems sind Suchmaschinen. Hier soll aufgrund von einer Benutzerabfrage Information beschaffen werden (Miller 2005, S. 114). Sie sind verwendete Methoden innerhalb des Text Mining, können aber auch losgelöst vom Prozess des Text Mining betrieben werden. In diesem Fall bieten sie einen geringeren Funktionsumfang, dazu mehr im Teil Dokumentsuche mit Suchmaschinen, 2.2.3.1.

2.1.3 Grundlagen der Bedeutungsanalyse

Da sich diese Arbeit mit einer Darstellung des Ablaufes und der Anwendungen des Text Mining beschäftigt, sollen die linguistischen Herausforderungen nur exemplarisch erläutert werden. Nachdem linguistische Zusammenhänge im Text identifiziert sind, können die Texte interpretiert werden. Im Abschnitt Maschinelle Sprachverarbeitung, 2.2.2, werden die sprachlichen Zusammenhänge dann automatisiert erkannt.

Die sprachliche Analyse ist sehr wichtig, da zahlreiche sprachliche Problemfälle, z.B. sinngleiche Wörter oder Abkürzungen, auftreten und für die anschließende Aufbereitung innerhalb des technischen Prozesses des Text Mining in eindeutigen Zusammenhang vorliegen müssen.

Innerhalb eines Textes gibt es strukturelle Beziehungen zwischen den Zeichen eines Zeichensystems. Die Zeichen schaffen Inhalt, der Inhalt enthält Wissen (Heyer et al. 2006, S. 19).

Die strukturellen Beziehungen lassen sich in verschiedene sprachwissenschaftliche Logiken gliedern:

Abbildung in dieser Leseprobe nicht enthalten

Syntagmatische Relationen: 2 Wortformen treten gemeinsam auf und sind damit Kookkurrenzen. Dabei unterscheiden sich die Nachbarschaftskookkurrenz (Bürgerliches Gesetzbuch) oder Satzkookkurrenzen als statistisch-syntagmatische Relation (Sonne scheint), bei der ein Zusammenhang sowie eine statistische Auffälligkeit vorliegt (Heyer et al. 2006, S. 20ff.).

Abbildung 1: Kookkurrenz

(Quelle: in Anlehnung an Heyer et al. 2006, S. 20)

- Paradigmatische Relationen: zwei Wortformen treten in ähnlichen Kontexten auf. Hier ist die Häufigkeit im gesamten Dokument relevant, also die Summe der statistisch-syntagmatisch Zusammenhänge (Heyer et al. 2006, S. 25ff.).
- Semantische Relationen: Voraussetzung hierfür ist eine bereits vorhandene syntagmatische oder paradigmatische Relation, dabei werden Ersetzungsklassen gebildet (Stadt X oder Y, X Hektoliter) (Heyer et al. 2006, S. 30ff.).
- Logische Relationen: Ober- Unterbegriff (Eisbär ist ein Bär), Synonym (Auto = Kfz), Gegensatz (Vater/Mutter im Kontext Eltern), Antonyme (relativer Gegensatz, groß/klein), Komplementärbegriff, Konverse (kaufen, verkaufen => enthält inhaltliche Relation) (Heyer et al. 2006, S. 39ff.)

Abbildung in dieser Leseprobe nicht enthalten

Fach - & Allgemeinsprache: Fachsprache zeichnet sich durch syntaktische und semantische Beschränkung, fachgebietsspezifische lexikalische Beschränkung und fachgebietsspezifische Morphologie aus (Heyer et al. 2006, S. 45ff.).

Abbildung 2: Zusammenhang Fach- und Allgemeinsprache

(Quelle: in Anlehnung an Heyer et al. 2006, S. 47)

Mit Hilfe der erlangten sprachlichen Erkenntnis über die Texte, lassen sich im nächsten Schritt die Regeln in ein automatisiertes Schema der maschinellen Sprachverarbeitung übertragen. Trotzdem bestehen immer noch Fehlerquellen, die den Computer nicht die komplette Logik eines Textes erkennen lassen. Z.B. könnte dem Text eine ironische Meinung zugrunde liegen, während der Computer nur die eindeutig zu erkennende Meinung wiedergibt.

2.2 Prozess des Text Mining

In diesem Abschnitt wird der Prozess, wie er technisch realisiert wird, anhand der aufeinander folgenden Einzelschritte Textdatenbanken, maschinelle Sprachverarbeitung und Wissensgenerierung dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Vorerst jedoch ist der Prozess des Text Mining strategisch innerhalb der jeweiligen Organisation einzubauen, so dass die gewonnenen Resultate sinnvoll für die Anwender und deren Ziele sind. Dazu gehört ein Management der Informationsverarbeitung, in diesem Fall also des Text Mining: gute Vernetzung der diversen Prozessbeteiligten, wie IT-Verantwortliche oder Wissensverwender, eine Festlegung der konkreten Abfrage- und Wissensziele und eine effiziente Weiterverwendbarkeit des generierten Wissens (Fank 2001, S. 19).

Abbildung 3: Technischer Prozess des Text Mining

(Quelle: in Anlehnung an Heyer et al. 2006, S. 6 und Nasukawa/Nagano 2001)

Im technischen Prozess (Abbildung 3) bilden die Elemente Texteingabe und Speicherebene den Schritt Textdatenbanken ab, der zuerst dargestellt wird.

2.2.1 Textdatenbanken

In der Textdatenbank sollen einerseits die zu untersuchenden Dokumente in digitaler Form bereitliegen (Heyer et al. 2006, S. 1). Andererseits werden allgemeine Textressourcen als Grundlage für Analysen benötigt (Heyer et al. 2006, S. 52). Die Auswahl der allgemeinen Texte kann nach Verfügbarkeit oder Qualität erfolgen, sollte jedoch situationsbedingt erfolgen. Texttypen sind:

- Unstrukturierte Texte: Standardform eines Textes
- Annotierte Texte: Wörter liegen in erklärender Form vor und enthalten als Zusatzinformation die jeweilige Wortart (Verb, Adjektiv, …)
- Lexikalische Ressourcen: Wörterbuch mit beliebig vielen Zusatzangaben (Grammatikangaben, Synonyme, Kookkurrenzen)

(Heyer et al. 2006, S. 52)

Beim Einlesen der Texte in Datenbanken ist zu beachten, dass die vorliegenden Texte nicht von der Datenbank fehlinterpretiert werden. So könnte es z.B. vorkommen, dass eine Abkürzung wegen dem Punkt fälschlicherweise als Satzende interpretiert wird. Zur Problemlösung können verfügbare Textressourcen verwendet werden, die z.B. Abkürzungen in ihre ursprüngliche Wortform umdeuten.

In dem ersten Schritt wurden Daten gespeichert und zur Bearbeitung zugänglich gemacht, daraufhin kann mit der Weiterverarbeitung und Analyse der Texte begonnen werden.

2.2.2 Maschinelle Sprachverarbeitung

Nachdem die Texte IT-konform in Textdatenbanken vorhanden sind, sollen im nächsten Schritt die Informationen des Textes analysiert werden, um dann im letzten Schritt eine Interpretation vornehmen zu können.

Als Ziel im Schritt der Textverarbeitung gilt es, den Text als eindeutig identifiziert zu erhalten. Die vorerst unstrukturierten Textdaten sollen also in möglichst strukturierter Form vorliegen und eine unkomplizierte Extraktion des Wissens erlauben.

Die nun vorgestellten Methoden zur Strukturierung der Texte greifen auf die im Abschnitt Grundlagen der Bedeutungsanalyse, 2.1.3, erwähnten sprachlichen Zusammenhänge zurück und verarbeiten diese maschinell.

2.2.2.1 Bedeutungsanalyse

Bei der Stammformenreduktion werden inhaltlich gleichbedeutende, aber formal unterschiedliche Wörter auf ihren gemeinsamen Stamm zurückgeführt. Die Komplexität eines Textes kann damit wesentlich reduziert werden.

[...]

Ende der Leseprobe aus 19 Seiten

Details

Titel: "Text Mining" als Instrument des Informationsmanagements
Hochschule: Katholische Universität Eichstätt-Ingolstadt (Wirtschaftswissenschaftliche Fakultät)
Note: 2,3
Autor: Dominik Claussen (Autor:in)
Jahr: 2008
Seiten: 19
Katalognummer: V116988
ISBN (eBook): 9783640193639
ISBN (Buch): 9783640193677
Dateigröße: 1668 KB
Sprache: Deutsch
Schlagworte: Text, Mining

Arbeit zitieren: Dominik Claussen (Autor:in), 2008, "Text Mining" als Instrument des Informationsmanagements, München, GRIN Verlag, https://www.grin.com/document/116988

Kommentare