Lade Inhalt...

Text Mining - Drei Methoden zur Textanalyse

von Nicole Tode (Autor) Tarek Abuzarour (Autor) Fabian Lang (Autor)

Seminararbeit 2010 54 Seiten

Didaktik - BWL, Wirtschaftspädagogik

Leseprobe

Inhaltsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

Symbolverzeichnis

1. Einleitung
1.1 Das Wesen des Text Minings
1.2 Aufbau und Zielsetzung der Arbeit
1.3 Bisherige Literatur

2. When is a Liability not a Liability? Textual analysis, Dictionairies, and 10-Ks
2.1 Einführung
2.2 Analyse des Datensatzes
2.2.1 Schriftlicher Datensatz
2.2.2 Zeitraum des Datensatzes
2.3 Analyse der Evaluation
2.3.1 Erstellung der Wörterbücher
2.3.2 Analyse der Termgewichtung
2.3.3 Leistungsvergleich Fin-Neg Liste und Harvard Dictionary
2.4 Kritik am Aufbau der Arbeit
2.5 Zusammenfassung

3. Using News Articles to Predict Stock Price Movements
3.1 Einführung
3.2 Datensatz
3.2.1 Datenaufbereitung
3.2.2 Indikator zur Bestimmung der Bewegungsklassen
3.3 Anwendung des naiven Bayes-Textklassifikators
3.4 Auswertungsmetrik
3.4.1 Auswertung des Indikators der Bewegungsklassen
3.4.2 Auswertung der Gruppenzuordnung von Nachrichten
3.4.3 Auswertung des Zeitintervalls des Nachrichteneinflusses
3.5 Zusammenfassung

4. Kursrelevanzprognose von Ad-hoc-Meldungen
4.1 Einführung
4.2 Datenbasis
4.2.1 Ermittlung der Datenbasis
4.2.2 Beschränkte Datenbasis und Sample Selection Bias
4.2.3 Eingeschränkte Einsetzbarkeit
4.3 Kursrelevanz von Ad-hoc Meldungen
4.3.1 Ermittlung der Kursrelevanz von Ad-hoc Meldungen
4.3.2 Problem der Schätzung der erwarteten Rendite
4.3.3 Branchenübergreifende Bewertung und die Arbitrage Pricing Theorie
4.3.4 Die Verwendung von Intraday-Kursen als bessere Indikatoren
4.4 Klassifikation und Evaluation von Ad-hoc Meldungen
4.4.1 Vorgehensweise und Ergebnisse
4.4.2 Klassifikationsfehler als einziges Maß für die Güte des Modells
4.4.3 Problematische Klassifizierung nach Wahrscheinlichkeiten
4.4.4 Das Handelsvolumen als weiterer Indikator für Kursrelevanz
4.5 Zusammenfassung

5. Schlussfolgerung und Ausblick

Literaturverzeichnis

Tabellenverzeichnis

Tabelle 1: Vergleich der negativen Wortlisten mittels Regressionen von Überschussrenditen (Quelle: Loughran, McDonald (2009), S. 41).

Tabelle 2: Vergleich der Indikatoren von Gidófalvi und Market Model (Quelle: eigene Darstellung)

Tabelle 3: Funktionsweise des naiven Bayes-Textklassifikators (Quelle: eigene Darstellung)

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Symbolverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

1.1 Das Wesen des Text Minings

Das computergestützte Text Mining findet in verschiedenen Bereichen Anwendung, z. B. bei der Inhaltsanalyse, Natursprachenverarbeitung, Informationsgewinnung und Computersprachen. Mit dem steigenden Verwendungsgrad von Computern ist ebenfalls die Textanalyse mit dem Beginn der 1950er Jahre bekannter geworden. Durch den Einsatz von Internet und Suchmaschinen rückte das Interesse im Bereich der Textanalyse entscheidend in den Vordergrund (Loughran, McDonald 2009, S. 11). Die Textanalyse wird mittlerweile von vielen verschiedenen Wissenschaftsbereichen verwendet, wovon eine die Finanzwissenschaft ist. Im Fokus dessen besitzt die Prognose von Aktienkursen schon immer eine besondere Faszination für Wissenschaftler. Jedoch ist es bis heute nicht gelungen, den Finanzmarkt in der Modellwelt mit einer hohen Trefferwahrscheinlichkeit exakt abzubilden. Die Problematik liegt vor allem darin begründet, dass Marktdynamiken mit ihren unterschiedlichen Prozessen ein sehr komplexes Modell darstellen, welches nur schwer nachzubilden ist. Die Reduktion auf nur wenige Variable als Inputparameter für ein Modell ist dabei das angestrebte Ziel der Wissenschaft. Als eine bekannte Theorie in Bezug auf die Prognosefähigkeit von vorhandenen Informationen gilt die „Efficient Market Hypothesis“ (EMH) von Fama. Diese impliziert, dass ein aktueller Börsenpreis eines Wertpapieres alle verfügbaren Informationen reflektiert. Fama unterteilt seine Theorie in drei Formen: In der schwachen Form sind ausschließlich historische Kurse enthalten, in der semi-starken Variante sind zusätzlich all aktuell öffentlich zugänglichen Informationen enthalten, während in der starken Form der EMH sowohl historische und öffentliche, als auch private Informationen (Insider-Informationen) enthalten sind (Bodie, Kane, Marcus 2009, S. 348-349). Die Hauptaussage der EMH ist zudem, dass eine Aktie augenblicklich auf neue Nachrichten reagiert und somit eine langfristige Überrendite gegenüber dem Markt unmöglich ist.

Von der Theoriewelt abgeleitet bestehen zwei wesentliche Techniken, um Aktienkurse zu analysieren und prognostizieren. Zum einen über den Weg der Fundamentalanalyse, bei der numerische Informationen, wie Finanzkennzahlen zur Aktienkursprognose verwendet werden. Zum anderen wird die technische Analyse benutzt, bei der aufgrund historischer Kursverläufe, Aussagen zu zukünftigen Kursentwicklungen getroffen werden. Als ein Bestandteil der Aktienkursprognose können die Informationen aus Zahlen- und Textdaten gezählt werden. Denn Informationen aus Quartalsberichten und aktuellen Nachrichten können den Kurs einer Aktie sowohl massiv beeinflussen, jedoch auch ohne Wirkung auf deren Verlauf verblassen. Sowohl fundamentale Ansätze als auch die technische Analyse haben unterschiedliche Techniken zur Prognose von Aktienkursen aus Finanznachrichten entwickelt. Ein wesentlicher Ansatz ist dabei der des Text Mining. Mit Text Mining wird das statistische Lernen von Maschinen verstanden, bei dem individuelle Textteile basierend auf quantitativer Auswertung in Gruppen eingeteilt werden. Dabei werden anhand von Trainingsdaten Algorithmen trainiert, die eingehende Daten auswerten und Prognosewahrscheinlichkeiten angeben.

1.2 Aufbau und Zielsetzung der Arbeit

Die vorliegende Arbeit beschäftigt sich mit der Auswertung drei wesentlicher Methoden zur Analyse von Textmaterial. Diese Methoden stammen allesamt von Wissenschaftlern mit dem Ziel, zukünftig valide Prognosen über den Einfluss einer Neuveröffentlichung zu treffen. Die erste Ausarbeitung mit dem Titel „When is a Liability not a Liability? Textual analysis, Dictionairies, and 10-Ks“ (Loughran, McDonald 2009) befasst sich mit der Auswertung von Texten mittels Wörterbüchern. Die zweite Arbeit namens “Using news articles to predict stock price movements” (Gidófalvi 2001) untersucht den Einfluss von Finanz- und Unternehmensnachrichten auf 12 Aktienkurse des NASDAQ-Index. Dabei wird als Algorithmus der naive Bayes-Textklassifikator verwendet, der aufgrund seiner einfachen und praktischen Anwendbarkeit häufig von Wissenschaftlern zur Klassifizierung von Nachrichten benutzt wird. Schließlich beschäftigt sich die dritte Ausarbeitung mit dem Titel „Kursrelevanzprognose von Ad-hoc-Meldungen“ (Schulz, Spilipoulou, Winkler 2003) mit dem Einfluss mitteilungspflichtiger Unternehmensnachrichten auf deren Aktienkurse, um zukünftige Prognosen vorherzusagen.

Das Ziel dieser Ausarbeitung ist die Analyse der konzeptionellen Vorgehensweise der drei Veröffentlichungen. Es soll dargelegt werden, wie die Methodik der Modelle als auch die Metrik der Auswertung der Ergebnisse bei allen drei Arbeiten sind. Dabei soll anhand der Systematiken anderer Wissenschaftler eine Beurteilung und gegebenenfalls Erweiterung der einzelnen Modelle erfolgen.

Der Aufbau der Arbeit gestaltet sich wie folgt. Nach einer umfassenden Einleitung, die mit einem Überblick zur vorangehenden Literatur von Text Mining abschließt, erfolgt der Übergang zu den drei zentralen Texten. Der erste hier diskutierte Text von Loughran und McDonald wird mittels einer Einführung über den Inhalt und die Motivation des zu diskutierenden Papers vorgestellt. Daraufhin folgt eine Analyse des angewendeten Datensatzes und des Zeitraums aus dem die Daten gewählt sind. Die nachfolgende Untersuchung der Evaluation unterteilt sich in die Erstellung von Wörterbüchern, die Analyse der Termgewichtung und einem Leistungsvergleich zwischen dem neu erstellten Wörterbuch und einer bereits häufig in diesem Forschungsbereich verwendeten Wortliste. Als letzter Analysepunkt folgt die Kritik am Aufbau der Arbeit. Eine Schlussfolgerung rundet die Analyse ab. Die anschließende Untersuchung des Textes von Gidófalvi findet auf verschiedenen Ebenen statt. Nach einer spezifischen Einführung zu der diskutierten Arbeit folgt eine gezielte Auseinandersetzung mit dem verwendeten Datensatz, der Methodik und der Metrik. Dabei wird bezüglich der Analyse des Datensatzes explizit auf die Datenaufbereitung und den Indikator zur Bestimmung der Bewegungsklassen eingegangen. Die Methodik zielt hier speziell auf die Anwendung des Bayes-Textklassifikators ab. Die darauffolgende Auswertungsmetrik gliedert sich in die Auswertung des Indikators der Bewegungsklassen, der Gruppenzuordnung von Nachrichten sowie des Zeitintervalls des Nachrichteneinflusses. Eine Schlussfolgerung schließt die Ausarbeitung ab. Der letzte hier vorgestellte Text von den Autoren Schulz, Spilipoulou und Winkler wird zunächst mit einer kennzeichnenden Einführung vorgestellt. Daraufhin folgt eine umfassende Beschreibung des Modellaufbaus, die sich in den Aufbau der Fallstudie, die Datenbasis, die Ermittlung der Kursrelevanz von Ad-hoc Meldungen und die Klassifikation und Evaluation von Ad-hoc Meldungen gliedert. Dabei werden u. a. Einschränkungen und Probleme der zu diskutierenden Arbeit dargestellt. Eine Schlussfolgerung dieser Teilarbeit grenzt die erbrachte Analyse ab. Zusammenfassend sollen Gemeinsamkeiten und Unterschiede der vorgestellten drei Arbeiten erläutert werden. Darüber hinaus wird diese Ausarbeitung durch einen Ausblick abgerundet, der Anregungen für künftige Foschungsideen liefern soll.

1.3 Bisherige Literatur

Text Mining stellt ein Teilgebiet der Finanzliteratur dar und wird durch verschiedene Herangehensweisen und Methoden geprägt. Zu den wissenschaftlichen Pionieren auf dem Gebiet des Text Minings gehören Wuthrich et al. (1998), die Nachrichtenmeldungen auf Internet-Nachrichtenportalen und Online Zeitungen beobachten, um auf dieser Basis ein Prognosesystem aufzubauen, dass durch Text Mining Technologien und speziellen Zähl- und Transformationsmechanismen Aktienpreisveränderungen vorhersagen kann.

Lavrenko et al. (2000) untersuchen Nachrichtenberichte auf möglichen Einfluss auf die Finanzmärkte. Dabei wird versucht, mit Hilfe von einem System das mit der Text Mining Technologie arbeitet (AEnalyst), solche Nachrichtenmeldungen herauszufiltern, die mit großer Wahrscheinlichkeit eine Kursveränderung bewirken. In einer anschließenden Marktsimulation stellt sich heraus, dass durch die Empfehlungen des AEnalyst Systems ein Händler einen höheren Gewinn erzielen kann.

Mittermayer (2004) entwickelt mit NewsCats (News categorisation and trading system) ein System, das automatisch Pressenachrichten analysiert und kategorisiert und eine Handelsempfehlung abgibt. Als Grundlage werden Unternehmensnachrichten direkt nach ihrer Veröffentlichung herangezogen und innerhalb der ersten Veröffentlichungsstunde beobachtet. Je nach Aktienkursentwicklung werden die Nachrichten als „gut“ oder „schlecht“ klassifiziert. Im Ergebnis stellt das NewsCats Handelsstrategien bereit, die gegenüber individuellen Strategien nach Veröffentlichung einer Unternehmensmeldung überlegen sind.

Groth und Muntermann (2008) gehen einen Schritt weiter, indem sie Ad-hoc Meldungen in sechs Kategorien klassifizieren und dadurch berücksichtigen, dass die Kategorie der Meldung Einfluss auf die Kursrelevanz haben kann. Dabei stellt sich heraus, dass insbesondere die Kategorie „financial statements“ von besonderer Wichtigkeit für die Kursrelevanzprognose ist.

Im Bereich der Textanalyse mittels Wörterbüchern sind die zentralen Ansatzpunkte die Wortkategorisierungsmethode, die verwendeten Wortlisten und die untersuchten Zusammenhänge. Es handelt sich dabei um Zusammenhänge zwischen veröffentlichten Texten und deren Einfluss auf bestimmte Variablen, z. B. die Auswirkungen des Unternehmensberichts von Goldman Sachs auf dessen Aktienkurs. Diese Art von Relationsuntersuchungen geschieht u. a. mittels Textanalyse.

Bezüglich der Wortkategorisierungsmethode nutzen Wissenschaftler, neben der “bag of words“ Methode, die Vektordistanz, Naïve Bayes und die Likelihood-Ratios (z. B.: Das und Chen (2001); Antweiler und Frank (2004); Li (2009)). Der Autor Li rechtfertigt die Verwendung eines statistischen Ansatzes gegenüber der Wortkategorisierung mit dem Argument, dass die Wortkategorisierung keinen großen Einfluss auf Unternehmensdokumente besitzt. Dies begründet er mit der Aussage, dass es keine fertig verfügbaren Wörterbücher gibt, welche für die Analyse von Unternehmensdokumenten geeignet wären (Li 2009, S. 12). Der Autor Tetlock hingegen diskutiert die Nachteile der Verwendung von Methoden, welche die Abschätzung von Likelihood-Ratios erfordern. Die Berechnung dieser Verhältniszahlen geht mit der Schwierigkeit einher, Texttonalität zu replizieren und eine subjektive Klassifizierung vorzunehmen (Tetlock 2007, S. 1440).

Um Texte zu klassifizieren bedarf es z. B. einer Wortliste. Die dabei von Wissenschaftlern häufig verwendete Wortliste ist der Harvard's General Inquirer (GI). Der General Inquirer hat 182 Tag-Kategorien, z. B. die Kategorien positiv, negativ, stark, schwach und aktiv, aber ebenfalls Vergnügen und Schmerzen. Forscher in dem Bereich Finanz- und Rechnungswesen verwenden in der Regel das GI’s Harvard IV-4 für negative und positive Wortkategorien. Dabei beschreiben die Wissenschaftler nicht, ob bisher ein signifikanter Mehrwert für die positive Wortliste zu erkennen ist. Dennoch wird nicht in jeder vorangegangenen Arbeit die negative Harvard Wortliste genutzt, um die Tonalität eines Textes zu bestimmen. Sie dient lediglich als ein typisches Beispiel für Wortklassifikationsschemata.

Als Textgrundlage für die Messung dessen Tonalität dienen z. B. Zeitungsartikel (Kothari, Li und Short (2008)) oder Firmenpressemitteilungen (Demers und Vega (2008); Engelberg (2008); Henry (2006)). Die Ergebnisse werden in Zusammenhang mit niedrigeren Firmengewinnen, Gewinnabweichungen, oder Aktienrenditen untersucht. Zudem sind 10-K Berichte oder IPO Prospekte für ähnliche Forschungsfragen berücksichtigt (Li (2008); Hanley, Hoberg (2008); Feldman, Govindaraj, Livnat, Segal (2008)). Der wichtigste Punkt all dieser Arbeiten ist, dass der sprachliche Inhalt eines Dokumentes nützlich ist für die Erklärung von Aktienrenditen, Aktienkursvolatilitäten oder Handelsvolumen.

Eine sehr bekannte Studie aus diesem Bereich ist die Arbeit des Wissenschaftlers Tetlock, der den Zusammenhang zwischen dem Inhalt der Zeitungskolumne „Abreast of the Market“ aus dem Wall Street Journal mit darauffolgenden Aktienrenditen und Handelsvolumen untersuchte. Der Wissenschaftler findet stark pessimistische Worte in den Texten, welche geringere Renditen am Folgetag der Veröffentlichung mit sich ziehen. Des Weiteren stellt er fest, dass negative Wortklassifizierungen ein Rauschen in den qualitativen Informationen verursachen und dass die fehlerhaften Messungen die geschätzten Regressionskoeffizienten dämpfen. In einer anschließenden Studie von Tetlock, Saar-Tsechansky und Macskassy (2008) konzentrieren sich die Forscher ausschließlich auf die negative Harvard Wortliste in Bezug auf firmenspezifische Nachrichten.

Des Weiteren kann Text Mining mittels Algorithmen erfolgen. Für eine qualitativ hochwertige Anwendung der vorgestellten Algorithmen und Systematiken ist die Güte der Trainingsdaten maßgeblich. Dazu müssen die Trainingsdaten vorher durch bestimmte Methoden entsprechend aufbereitet und klassifiziert werden. Zur Auswertung der Trainingsdaten ist die Wahl eines geeigneten Klassifikators entscheidend (Witten, Frank 2001, S.362). Zur Klassifikation von Daten steht eine Reihe von Verfahren zur Verfügung. Zum einen gibt es die Möglichkeit durch die Anwendung von Wörterbüchern, die Stimmungslage eines Textes zu quantifizieren. Zum anderen kann über einen naiven Bayes-Textklassifikator jedem Trainingsbestandteil eine Wahrscheinlichkeit zugeordnet werden, um eine Prognose über neu zu bewertende Texte tätigen zu können. Außerdem beliebt ist die Verwendung von Support Vector Machines (SVMs). In diesem Zusammenhang beschreiben Dumais et al. (1998), wie Support Vector Machines dazu verwendet werden können, um Dokumenten auf der Basis vieler Trainingsdaten Schlüsselbegriffe aus einem bestimmten Vokabular zuzuordnen.

[...]

Details

Seiten
54
Jahr
2010
ISBN (eBook)
9783656293873
ISBN (Buch)
9783656294610
Dateigröße
3.7 MB
Sprache
Deutsch
Katalognummer
v202971
Institution / Hochschule
Johann Wolfgang Goethe-Universität Frankfurt am Main
Note
1,7
Schlagworte
Text Mining Textanalyse Prognose von Aktienkursen Bayes-Textklassifikator Kursrelevanz von Ad-hoc Meldungen Havard Dictionary

Autoren

Zurück

Titel: Text Mining - Drei Methoden zur Textanalyse