Lade Inhalt...

Inhaltsanalyse in Finance. Auswirkungen des Tons von Ad-hoc-Meldungen auf Aktienkurse von Unternehmen

Masterarbeit 2014 75 Seiten

BWL - Bank, Börse, Versicherung

Leseprobe

Inhaltsverzeichnis

Abkürzungs- und Symbolverzeichnis

Tabellenverzeichnis

1. Einleitung

2. Linguistische Grundbegriffe, der Textanalyse vorgelagerte Schritte und Methodenspektrum
2.1 Linguistische Grundbegriffe
2.2 Datensammlung und Datenauswertung in der Textanalyse
2.3 Methodenspektrum der Textanalyse in der Betriebswirtschaftslehre

3. Inhaltsanalyse in Finance7
3.1 Grundzüge, Anwendungsmöglichkeiten, Anwendungsvoraussetzungen und Ziele
3.2 Allgemeiner Ablauf, regelbasierter Ansatz der Textkategorisierung und Vor- bereitungsschritte des statistischen Ansatzes der Textkategorisierung
3.3 Statistischer Ansatz der Textkategorisierung
3.4 Gütekriterien und Performance-Maße
3.5 Auswertung
3.6 Vorteile und Schwierigkeiten der Inhaltsanalyse

4. Empirische Untersuchungen
4.1 Empirische Untersuchungen über die Beziehung zwischen organisationalen Dokumenten und der Rendite in der Literatur
4.2 Auswirkungen des Tons in Ad-hoc-Meldungen auf die Rendite (Eventstudie)….50

5. Fazit

Literaturverzeichnis

Abkürzungs- und Symbolverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Tabellenverzeichnis

Tabelle 1: Merkmale der Inhaltsanalyse entlang verschiedener Dimensionen gemäß den Abschnitten 3.1 bis 3.5 dieser Arbeit

Tabelle 2: Deskriptive Statistik über Kriterien im Hinblick auf die Ad-hoc-Meldungen und die Kontrollvariablen

Tabelle 3: Deskriptive Statistik über die Beziehung von Ad-hoc-Meldungen zu CAAR aus der univariaten Regressionsanalyse im event window [0,+4]

Tabelle 4: Ergebnisse der multivariaten Regressionsanalyse mit den CAR als abhängiger Variable, dem Anteil negativer Wörter und den Kontrollvariablen als unabhängige Variablen für das event window [0,+4]

1. Einleitung

Die internationalen Kapitalmärkte werden von einer Vielzahl von Werttreibern bestimmt. Um diese Werttreiber ausfindig zu machen und zu quantifizieren, existiert eine ungezählte Menge an Instrumenten und Informationsgrundlagen. Bislang haben Kapitalmarktteilnehmer beinahe ausschließlich von quantitativem Material wie Bilanz- und GuV-Kennzahlen zur Identifizierung, Auswertung und Prognose von Faktoren in der Unternehmensperformance Gebrauch gemacht und qualitatives Material als Untersuchungsgegenstand in wissenschaftlichen Analysen weitgehend vernachlässigt. Dabei besteht eine Vielzahl von Gründen, weshalb auch qualitatives Material wie textliche Teile von Unternehmensabschlüssen, Ad-hoc-Meldungen oder Analystenartikeln als Untersuchungsgegenstand umfassend und beständig Einzug in die Finance-Forschung halten sollte. Einer der ökonomisch wohl bedeutsamsten Gründe ist, dass die bislang existierende empirische Erforschung des Informationsgehalts des textlichen Teils organisationaler Dokumente eine statistisch signifikante Korrelation zwischen dem Ton und den Renditen für ein kleines event window von einigen Tagen und zum Teil auch den Renditen aus der Zeit von einigen Wochen/Monaten nach der Veröffentlichung dieser Dokumente nachgewiesen hat. Der Ton wird in Finance oft quantifiziert und operationalisiert über den Anteil negativer Wörter an der Gesamtwortanzahl in einzelnen Dokumenten oder gesamten Dokumentensammlungen, mitunter auch zusätzlich über die Anteile positiv, neutral, etc. konnotierter Wörter. Bei einer angenommenen Marktkapitalisierung von 5 Milliarden Euro eines börsennotierten Unternehmens führen um ca. 0,3 %[1] verringerte zukünftige abnormal returns (AR) infolge eines um 1 % erhöhten Anteils negativer Wörter zu einer eventbasierten Wertvernichtung von ca. 15 Millionen Euro. In Texten liegt also den Marktwert eines Unternehmens beeinflussendes Wissen verborgen. Dieses Wissen kann, wenn es mittels inhaltsanalytischer Instrumente erschlossen wird, angewendet werden, um Menschen bei dem Verstehen und Beheben von Problemen bspw. in Bezug auf Informationsasymmetrien zwischen dem Emittenten der Dokumente und anderen Kapitalmarktteilnehmern behilflich zu sein und damit zu einer Steigerung der Effizienz von Unternehmungen beitragen. Diese Arbeit soll wegen des für den Wert eines Unternehmens bedeutsamen Wissens in organisationalen Dokumenten einen Überblick über einige der theoretischen Konzepte der Inhaltsanalyse, die für Anwendungen in Finance und Accounting wichtig sind, und deren Anwendung in der Finance- und Accounting-Forschung geben. Darüber hinaus trägt die empirische Studie dieser Arbeit zu der bestehenden inhaltsanalytischen Forschungsliteratur in Finance bei. Die vorliegende Arbeit ist nach dem Kenntnisstand ihres Autors die erste, die die Auswirkung des Informationsgehalts im Sinne des Tons von Ad-hoc-Meldungen deutscher börsennotierter Unternehmen auf die Renditen der Aktienkurse dieser Unternehmen mittels eines inhaltsanalytischen Verfahrens untersucht und zu Resultaten gelangt, die aussagekräftig genug sind, um von einem Einfluss eines negativen Tons von Ad-hoc-Meldungen auf die Renditen der die Meldungen herausgebenden Unternehmen zu sprechen.

Es wird wie folgt vorgegangen. Im zweiten Kapitel wird auf zum Verständnis der darauffolgenden textanalytischen Ausführungen notwendige Grundbegriffe und Wege der Datensammlung und –auswertung eingegangen sowie die in der Betriebswirtschaftslehre neben der Inhaltsanalyse bestehenden diskursiven Textanalyseansätze eingeführt. Das dritte Kapitel bildet den Kern der Arbeit und behandelt ausführlich den formorientierten Typus der Inhaltsanalyse, deren Instrumentarium in der Finance-Forschung ausschließlich eingesetzt wird. Dieses Kapitel umfasst dabei unter 3.1 die Vorstellung der Grundzüge, Anwendungsmöglichkeiten, -voraussetzungen und Ziele der Inhaltsanalyse. 3.2 beschäftigt sich mit dem regelbasierten Ansatz der Textkategorisierung, welcher eine Ausprägung der Textstrukturierung innerhalb des formorientierten Typus´ der Inhaltsanalyse ist und in weiten Teilen auch als die Vorbereitungsschritte des statistischen Ansatzes der Textkategorisierung (preprocessing) anzusehen ist, 3.3 mit dem statistischen Ansatz der Textkategorisierung, welcher hier auch automatische Textkategorisierung (ATC) genannt wird, da er von Analyseeinheiten automatisch zuordnenden supervised machine learning algorithms Gebrauch macht, und welcher eine weitere Ausprägung der Textstrukturierung innerhalb des formorientierten Typus´ der Inhaltsanalyse ist,[2] 3.4 mit den Gütekriterien und Performance-Maßen, 3.5 mit der Auswertung der Textkategorisierung und 3.6 mit den Vorteilen und Schwierigkeiten der Inhaltsanalyse. Studien und Ergebnisse inhaltsanalytischer Forschung in Finance und Accounting über die Beziehung von Kapitalmarktgrößen wie Renditen zu dem Ton organisationaler Dokumente werden ebenso im vierten Kapitel dargestellt, wie eine eigene Eventstudie durchgeführt und in die bestehende Forschungsliteratur eingeordnet wird. Das abschließende fünfte Kapitel enthält ein Fazit und gibt einen Ausblick auf mögliche weitere Untersuchungsvorhaben.

2. Linguistische Grundbegriffe, der Textanalyse vorgelagerte Schritte und Methodenspektrum

2.1 Linguistische Grundbegriffe

Wörter einer Sprache werden in Klassen, deren drei wichtigste Nomen, Verben und Adjektive sind, eingeteilt. In einem Wörterbuch oder Lexikon sind in der Regel die verschiedenen Teile der Sprache für ein Wort aufgeführt.[3] Mit den Wortklassen stehen morphologische Prozesse in systematischer Verbindung.[4] Morphologische Prozesse zu verstehen ist wichtig, um aus dem Leser unbekannten Wörtern, von denen viele morphologisch mit den bereits bekannten Wörtern verbunden sind, Schlussfolgerungen über die syntaktischen und semantischen Eigenschaften der (bislang) unbekannten Wörter zu ziehen.[5] Die hauptsächlichen morphologischen Prozesse behandeln Beugung, Ableitung und Wortzusammensetzungen. Die Syntax bezeichnet die Untersuchung der formalen Beziehungen der Zeichen zueinander.[6] Semantik ist die Lehre und die Praxis von der Bedeutungsanalyse und kann in zwei Teile unterteilt werden: erstens in die Untersuchung der Bedeutung individueller Wörter (lexikalische Semantik) und zweitens in die Untersuchung darüber, wie Bedeutungen von individuellen Wörtern zu Bedeutungen von Sätzen oder größeren Spracheinheiten kombiniert werden (Satz- und Textsemantik).[7] Um die Auswirkungen der morphologischen Prozesse sowie der syntaktischen und semantischen Eigenschaften (bspw. die zu einem Ton(fall) eines Dokuments zusammengeführten Konnotationen bestimmter Wörter in dem Dokument) von Analyseeinheiten (bspw. von Wörtern in Dokumenten/-sammlungen) z. B. auf Ereignisse des Kapitalmarkts zu erfassen, ist es sinnvoll, von der Untersuchung der Häufigkeit und der Struktur des Gebrauchs von Analyseeinheiten Gebrauch zu machen.[8] Diese Formen der Untersuchung erfordern im Idealfall eine Vorgehensweise in der formorientierten Inhaltsanalyse, bei der textliches Material in eine mittels statistischer Methoden klassifizierbare/kategorisierbare Gestalt gebracht wird (statistischer Ansatz der Textkategorisierung).[9] Eine andere Herangehensweise der formorientierten Inhaltsanalyse ist die, bei der Analyseeinheiten auf der Grundlage eines gegebenen Wörterbuchs in vordefinierte Kategorien eingeordnet werden (regelbasierter Ansatz der Textkategorisierung).[10]

2.2 Datensammlung und Datenauswertung in der Textanalyse

Zu unterscheiden ist bei Textanalysemethoden zwischen Wegen der Datensammlung und Wegen, die der Auswertung der gesammelten Daten dienen, wobei darauf hinzuweisen ist, dass die jeweiligen Wege der Datensammlung und -auswertung, die bei empirischer Forschung einzuschlagen sind, von der Fragestellung abhängen.[11]

Wege der Datensammlung bedingen in der Regel standardisierte Verfahren, die u. a. dazu dienen sollen, personenbezogene Einflüsse auf den Forschungsablauf zu vermindern, indem sie bspw. zu bildende Kategorien erfordern, um die Einordnung von Dokumentenbestandteilen einheitlich zu gestalten.[12] Regeln sollen bei der Anwendung der Verfahren sicherstellen, dass wissenschaftlich sauber gearbeitet wird. Zu der Einhaltung von Regeln bei der Datensammlung gehört, Größen der Aussagekraft der Daten zu berücksichtigen.[13] Diese Größen umfassen zum einen die Frage nach der Stabilität der Quelle der Daten im Hinblick auf die über die Zeit sich möglicherweise verändernde Anzahl an in einer Datenbank hinterlegten Dokumenten sowie die Aktualität von Printmedien im Vergleich zu elektronischen Ressourcen.[14] Eine andere Größe ist die der Vollständigkeit und der Richtigkeit der Daten, die darauf abzielt, sicherzustellen, dass Print- und elektronische Ausgabe einander entsprechen und keine Manipulationen des Datenmaterials vorliegen.[15] Im Weiteren ist zu beachten, ob die unter der Annahme, dass das Datenarchiv vollständig ist, durchgeführte Suche sämtliche relevante Dokumente liefert.[16] Ein notwendig durchzuführender Schritt innerhalb der Datensammlung ist daneben die Erörterung, ob ganze Dokumentensammlungen (bspw. organisationale Dokumentensammlungen deutscher und britischer Unternehmen) oder ob einzelne individuelle Dokumente innerhalb einer Dokumentensammlung (bspw. Ad-hoc-Meldungen innerhalb der organisationalen Dokumente deutscher Unternehmen) miteinander verglichen und einander gegenübergestellt oder ob semantische Objekte in einem Dokument (bspw. eine Krise anzeigende Wörter in einer Ad-hoc-Meldung) beschrieben werden sollen.[17] Immer Berücksichtigung finden sollte die Möglichkeit der Unvollständigkeit der Datenquellen, bspw. in Gestalt von Lizenzrestriktionen und eines Unterschieds zwischen Print- und Onlineausgabe.[18]

Konkrete Verfahren anwenden zu können setzt voraus, eine Forschungsphilosophie zu wählen, der man sich verpflichtet fühlt und die die Wege impliziert, auf denen man zu Ergebnissen seiner Forschungsarbeit gelangt.[19] Möchte man z. B. die objektive Bedeutung, die man dem textlichen Teil von Ad-hoc-Meldungen beimisst, explorieren, ist eine andere textanalytische Methode anzuwenden (Inhaltsanalyse), als wenn man der Forschungsphilosophie folgt, dass die textlichen Teile einer Ad-hoc-Meldung keine objektive Bedeutung besitzen, sondern eine Realität konstruieren (diskursive Textanalyse).

2.3 Methodenspektrum der Textanalyse in der Betriebswirtschaftslehre

Die in der betriebswirtschaftlichen Forschung eingesetzten textanalytischen Ansätze sind die Inhaltsanalyse[20] und die diskursive Textanalyse[21].

Während linguistische Methoden, zu denen die diskursiven Textanalyseansätze gehören, sowohl Kohärenz als auch Kohäsion und den Zusammenhang dieser beiden Kriterien untersuchen, haben nicht-linguistische Analysemethoden, unter die u. a. die Mehrzahl der einzelnen Fälle der Inhaltsanalyse zu zählen sind, i. d. R. bloß die Kohärenz zum Untersuchungsgegenstand.[22] Als Kohäsion bezeichnet man die textsyntaktische Verbundenheit, die in Gestalt aller zur Anwendung kommenden Funktionen, die Beziehungen zwischen Elementen herstellen (z. B. Konjunktionen), vorliegt.[23] Die Kohärenz stiftet die Bedeutung eines Textes. Kohärenz liegt bspw. vor, wenn durch eine sich im Text ausdrückende Kausalität Ereignisse zueinander in Beziehung gesetzt werden.[24]

Die Inhaltsanalyse bezeichnet eine Klasse von Forschungsmethoden in der Kreuzung von quantitativen und qualitativen Traditionen.[25] Die inhaltsanalytische Untersuchung von Textmaterial bedeutet in der Praxis der Finance- und Accounting-Forschung i. d. R. die a-priori- Entwicklung von abstrakten Kategorien, die zum Aufstellen eines Schemas zum Kodieren genutzt werden, welches auf textliches Material angewendet wird (deduktiver Ansatz).[26] Das Kodieren bezeichnet das Verfahren, bei dem konkrete Analyseeinheiten abstrakten Kategorien mit bspw. dichotomer Ausprägung in Gestalt von Wörtern mit positiver und negativer Konnotation zugeordnet werden. Bezüglich der Zielsetzungen der Inhaltsanalyse bemerkt Berelson, dass sie eine Forschungstechnik mit dem Ziel einer objektiven und systematischen Beschreibung des Inhalts von Kommunikation, die quantitativer Auswertung zugänglich ist, darstellt.[27] Diesem Gedanken liegt die Annahme zugrunde, dass die Bedeutung der Analyseeinheiten des Textmaterials fest und gleichbleibend ist und genau erfasst werden kann.[28]

Die diskursiven Ansätze sind qualitativer Natur und betonen die Konstruktion von Realität mittels der Anfertigung und Rezeption von Texten.[29] Diese Ansätze konzentrieren sich auf die Schaffung von Bedeutung durch Sprache und untersuchen die Bedeutung der Texte vor dem Hintergrund ihrer Kontexte.[30] Text ist also nicht bedeutend durch sich selbst, sondern er erlangt Bedeutung, indem er als Form der Offenbarwerdung von Sprache respektive Diskurs vor dem Hintergrund gesellschaftlicher Strukturen und sozialer wie historischer Zusammenhänge untersucht wird.[31]

3. Inhaltsanalyse in Finance

3.1 Grundzüge, Anwendungsmöglichkeiten, Anwendungsvoraussetzungen und Ziele

Mit Inhaltsanalyse wird eine große Bandbreite theoretischer Rahmenwerke, Methoden und analytischer Techniken bezeichnet.[32] Zentrale Annahme bei ihr ist, dass die Worthäufigkeit ein Indikator der kognitiven (wahrnehmungs- und überzeugungsbasierten) Wichtigkeit ist.[33] In der Veränderung des Wortgebrauchs spiegelt sich eine Veränderung in der Aufmerksamkeit oder dem kognitiven Schema wider.[34] Die Inhaltsanalyse ist mehr ein Forschungsprogramm als eine dezidierte Textanalysemethode und folgt den Regeln einer deduktiven Forschungstradition.[35] Dabei nimmt sie an, dass Sprache die Verschlüsselung einer objektiven und festen Realität ist und sie konzentriert sich auf die von einem sozialen oder situationsbezogenen Kontext unabhängige Untersuchung des Texts selbst.[36] Sie erfordert die Entwicklung theoretischer Konzepte vor der eigentlichen Analysetätigkeit.[37] Die Theorien werden entsprechend den jeweiligen Forschungsfragen zwecks Aufstellens der Arbeitshypothesen herangezogen.[38] Allgemeine Regeln, bspw. in Bezug auf den Ablauf der Stichprobenziehung, sind angegeben, doch sowohl die Instrumente als auch genaue Regeln, besonders über die Zuordnung von zu analysierenden Einheiten zu abstrakten Kategorien, sind nicht vorgegeben, sondern müssen entwickelt werden.[39]

Der ursprünglich mit dem klassischen Begriff Content Analysis bezeichnete Rahmen hatte sich auf Methoden bezogen, die sich mit unmittelbar und eindeutig quantifizierbaren Bestandteilen von Texten, so bspw. mit der absoluten und relativen Häufigkeit von Wörtern je Text, befassen.[40] Dieser Begriff hat schon bald all jene Verfahren umfasst, die mittels der Erfassung der Häufigkeiten von Zuordnungen eine Quantifizierung von Kategorien zum Ziel haben.[41] Die Quantifizierung von Kategorien bedeutet hier die Beimessung der Bedeutung einzelner Kategorien über die Häufigkeit der in den Kategorien erfolgten Kodierungen.[42] Zusätzlich zu diesen Erweiterungen ist die qualitative Form der inhaltsanalytischen Verfahren hinzugekommen. Eine Abgrenzung zu anderen Methoden der Textanalyse ist damit erschwert worden.[43] So finden sich gegenwärtig der einschlägigen Literatur zufolge unterschiedliche Typen der Inhaltsanalyse. Smith und Taffler identifizieren zwei Typen der Inhaltsanalyse, den formorientierten (klassischen) und den bedeutungsorientierten Typus.[44] Der formorientierte Typus ist dadurch gekennzeichnet, dass er sich auf die Untersuchung der deutlich erkennbaren (manifesten) Inhalte konzentriert, in seinem Forschungsvorgehen hauptsächlich quantitativ ist, Wörter für sich genommen betrachtet und überwiegend computerunterstützt durchgeführt wird.[45] Die bedeutungsorientierte Variante hat die Untersuchung verborgener (latenter) Inhalte zum Gegenstand, wird überwiegend auf qualitative Art durchgeführt, betrachtet bei ihrer Untersuchung den Text-Kontext (linguistischen Kontext) und erfordert zum mehrheitlichen Teil manuelle Analyseschritte.[46] Damit die Typen der Inhaltsanalyse die Ansprüche der Objektivität (analytisches Kategorienschema ist so präzise definiert, dass verschiedene Kodierende zu demselben Ergebnis gelangen), der Systematik (Benutzung von klaren Regeln, um Inhalte ein- oder ausschließen zu können) und der Quantifizierung (Ergebnisse sind zugänglich für statistische Auswertungen) wahren, müssen das bereits erwähnte Gleichbleiben der Bedeutung des Texts und die genaue Erfassung dieser Bedeutung sichergestellt sein, was in der praktischen Anwendung jedoch kaum realistisch ist.[47]

Bezogen auf die Anwendungsgebiete gelten für die verschiedenen Typen der Inhaltsanalyse kaum Einschränkungen.[48] Anwendungsgebiete der Inhaltsanalyse sind im Allgemeinen vorrangig solche, bei denen die Untersuchung von Kommunikationsinhalten vordergründig ist, im Vorfeld abstrakte Kategorienschemata zur Operationalisierung erstellt werden können oder nur eine Analyse des Kompendiums an Wörtern des Textmaterials angestrebt wird.[49]

Die Kernannahme beim Einsatz der Inhaltsanalyse im Hinblick auf die Beschreibung und Erklärung von organisationalen Phänomenen ist, dass Unternehmen in der Sprache ihrer organisationalen Dokumente Spuren der organisationalen Phänomene hinterlassen und dass diese Spuren beobachtet und gemessen werden können.[50] Die Forschungsgebiete in der BWL, in denen die Inhaltsanalyse Anwendung findet, umfassen zum einen das strategische Management in Gestalt von Untersuchungen der Geschäftsstrategie[51] ; der Auswirkungen textlicher Teile organisationaler Dokumente auf Kapitalmarktgrößen wie Rendite und Varianz der Rendite (Volatilität)[52] ; geschäftlicher Risikokomponenten[53] ; des unternehmerischen Krisenmanagements[54] ; der Beziehung zwischen den textlichen Teilen organisationaler Dokumente und der Unternehmensperformance[55] und des Felds competitive dynamics[56]. Neben dem strategischen Management werden z. B. im Feld der organisationalen Erkenntnisse inhaltsanalytische Ansätze eingesetzt, um u. a. die Auswirkungen von Ansehen und Berühmtheit auf die Reaktionen von Investoren auf Gewinnüberraschungen zu untersuchen[57]. Die Autoren der Studien vorgenannter Forschungsfelder ziehen zur Untersuchung eine große Bandbreite an organisationalen Dokumenten heran. Dazu zählen Jahresabschlüsse; mission statements; Ad-hoc-Meldungen; unternehmensinterne Dokumente wie Mitarbeiterzeitschriften; regulatorische Dokumente wie 10-k-filings; Internetseiten wie Social-Media-Plattformen, Message Boards oder Firmenauftritte; Interviews oder Wissenschaftsjournale.

Eine zentrale Annahme der inhaltsanalytischen Forschung in Finance und Accounting ist, dass eine größere Häufigkeit negativer Wörter einen pessimistischeren oder negativeren Ton der Dokumente anzeigt. Ein Großteil der Autoren der Studien aus der finance- und accountingbezogenen Literatur geht in seinen Untersuchungen davon aus, dass die Kategorisierung negativer Wörter in den Dokumenten effektiv den Ton dieser Dokumente misst.[58] Ein gängiger Weg, die Beziehung zwischen Wörterbüchern/Wortlisten und Erscheinungen am Kapitalmarkt zu eruieren, ist, die Marktreaktionen zur Zeit der Dokumentenveröffentlichung zu analysieren. Sofern der Dokumententon tatsächlich von Bedeutung ist, müssten Firmen, deren veröffentlichte Dokumente ein hohes Maß negativer Wörter enthalten, um den Veröffentlichungszeitpunkt herum im Durchschnitt negative AR erleben. Jegadeesh und Wu sind darüber hinausgehend – nach dem Kenntnisstand des Autors dieser Arbeit – als bislang einzige in der Lage, mittels eines ein hohes Maß an Subjektivität aus der Untersuchung entfernenden Vorgehens eine statistisch signifikante positive Renditeänderung für Dokumente, die als positiv im Ton eingestuft wurden, zu beobachten.[59]

Bezüglich der Erweiterung des Anwendungsumfangs ist ein reichhaltigerer konzeptioneller Rahmen in dem Sinn denkbar, dass die Inhaltsanalyse mit Ansätzen aus der qualitativen Textanalyse kombiniert wird.[60] Eine maßgebliche Voraussetzung für das Gelingen einer derartigen Kombination in Finance ist jedoch die Möglichkeit der (voll)umfänglichen computerunterstützten Durchführung bei gleichzeitiger Beibehaltung vor allem der Reliabilität und Validität der Analyse. Geht es bspw. um inhaltsanalytische Verfahren, die nicht empfindlich gegenüber dem zugrundeliegenden Wörterbuch sind, ist es möglich, diese Verfahren auf weitere organisationale Dokumente außer dem in der konkreten Studie untersuchten organisationalen Dokumententyp auszudehnen.[61]

In Bezug auf den Grad der Anwendungsvoraussetzungen sind die Typen der Inhaltsanalyse als einfach einzustufen.[62] Was den Einsatzradius der Inhaltsanalyse angeht, kann von einer allgemeinen Anwendbarkeit gesprochen werden; diese Einstufung trifft jedoch nicht auf die konkreten zur Anwendung kommenden Verfahren der Inhaltsanalyse und die Reichweite des theoretischen Gehalts der aus ihr ableitbaren Schlussfolgerungen zu, da sie sehr exakte und abgegrenzte Forschungsfragen zum Gegenstand haben.[63]

3.2 Allgemeiner Ablauf, regelbasierter Ansatz der Textkategorisierung und Vorbereitungsschritte des statistischen Ansatzes der Textkategorisierung

Nachdem die hauptsächlichen Forschungsfragen, relevante Theorien, vorherige Forschung und das zu untersuchende Textmaterial identifiziert wurden, wird mit den im Folgenden beschriebenen Schritten der Inhaltsanalyse fortgefahren.[64]

Der in der Literatur weitgehend etablierte Ablauf der formorientierten Inhaltsanalyse in den Ausprägungen des regelbasierten und des statistischen Ansatzes der Textkategorisierung umfasst mehrere Schritte, die um nachfolgende Schritte (insbesondere die Auswertung) zu ergänzen sind.[65] Die acht Schritte der Inhaltsanalyse nach Weber, die aufeinanderfolgend durchgeführt werden und sowohl für den regelbasierten als auch den statistischen Ansatz Gültigkeit haben, lauten:

1. Definition der Analyseeinheiten (z. B. Wörter, Phrasen/Ausdrücke, Sätze, Paragraphen),
2. Definition der Kodierkategorien/des Kategorienschemas,
3. Testung des Kodierens an einer Textstichprobe,
4. Beurteilung der Reliabilität und der Validität des Kodierens der Textstichprobe,
5. Überarbeitung der Kodierregeln, sofern die Reliabilität niedrig ist oder prozessuale Fehler entdeckt werden,
6. Wiederholung der Schritte ab dem dritten Schritt, bis eine ausreichende Reliabilität erreicht oder der prozessuale Ablauf einwandfrei ist,
7. Kodieren des gesamten Textmaterials,
8. abschließende Beurteilung der Reliabilität des Kodierens, da man nie davon ausgehen sollte, dass, falls Auszüge aus Texten reliabel kodiert wurden, auch die Gesamttextstichprobe reliabel kodiert worden ist (was besonders bedeutsam ist, sofern die Inhaltsanalyse manuelle Arbeiten umfasst).[66]

Man unterscheidet den regelbasierten von dem statistischen Ansatz der Textkategorisierung. Die Textkategorisierung ist wiederum eine Ausprägung der Textstrukturierung innerhalb des formorientierten Typus´ der Inhaltsanalyse. Im nun folgenden Teil dieses Abschnitts 3.2 werden hauptsächlich die Definition der Analyseeinheiten und des Kategorienschemas beschrieben. Mit einer Ausnahme treffen die Ausführungen des 3.2 auf beide Ansätze der Textkategorisierung zu. Diese Ausnahme bezieht sich auf das Nicht-Vorhandensein von Wörterbüchern/Wortlisten beim statistischen Ansatz. Die eigentliche inhaltsanalytische Arbeit des regelbasierten Ansatzes nach dem ersten, zweiten und siebten Schritt gemäß Weber wird mit den Ausführungen des 3.2 bereits vollumfänglich beschrieben. Für den statistischen Ansatz sind die Ausführungen des 3.2 als Vorbereitungsschritte (preprocessing) für den unter 3.3 beschriebenen Einsatz von supervised machine learning algorithms anzusehen. Der Einsatz dieser algorithms bedeutet das Kodieren gemäß dem siebten Schritt im Rahmen des statistischen Ansatzes.

Für die inhaltsanalytische Arbeit sind an materiellem und immateriellem Instrumentarium insbesondere Computer, Software und lexikalische Ressourcen vonnöten.[67] Zu den lexikalischen Ressourcen gehören ein Textkorpus (bspw. Brown Corpus oder eine Dokumentensammlung verschiedener Ad-hoc-Meldungen, etc.) und Wörterbücher/Wortlisten (bspw. WordNet als ein elektronisches Wörterbuch der englischen Sprache oder die mit Wirtschaftsterminologie gefüllten Wortlisten nach Loughran und McDonald, etc.), welche beim regelbasierten Ansatz benötigt werden.[68]

Hotho et al. führen eine weit gefasste Definition des text mining an. Text mining bezieht sich diesen Autoren zufolge im Allgemeinen auf die maschinenunterstützte Extrahierung von Informationen und Wissen aus unstrukturierten Daten.[69] Es kann angesehen werden als junges interdisziplinäres Forschungsgebiet in der Schnittstelle von information retrieval, dem natural language processing, deren Techniken es benutzt, dem data mining, machine learning und der Statistik, mit deren Methoden und Algorithmen diese Techniken vereint werden.[70] Das Ziel des text mining ist die Offenlegung von in Texten im Verborgenen liegenden Informationen mittels Methoden, die einerseits in der Lage sind, mit der großen Menge an Wörtern und Strukturen in natürlichen Sprachen umzugehen und andererseits die Bewältigung von Unbestimmtheit, Unklarheit und Undeutlichkeit ermöglichen.[71] Im Sinne dieser Definition lassen sich text mining als Instrumentarium der Inhaltsanalyse und die unter 3.2 und 3.3 beschriebenen regelbasierten und statistischen Ansätze als text mining methods verstehen.

Für das mining von Dokumentensammlungen sind Schritte notwendig, die die Dokumentensammlungen in eine Datenstruktur überführen, welche sich anschließende Schritte der Dokumentenuntersuchung erlaubt.[72] Die meisten verwendeten Ansätze des text mining gehen von der Annahme aus, dass ein Dokument von den Wörtern, die es enthält, beschrieben wird (bag-of-words-model).[73] Das bag-of-words-model (BOWM) hat zum Gegenstand, dass Dokumente als eine ungeordnete Liste von Wörtern betrachtet,[74] die Struktur und die Abfolge der Wörter also außer Acht gelassen werden.[75]

Zunächst wird beschrieben, wie man zu dem BOWM gelangt.[76] Mittels des Aufstellens des BOWM geschieht die Definition der Analyseeinheiten. In aller Regel wird sowohl im regelbasierten Ansatz als auch im statistischen Ansatz zur Textkategorisierung das BOWM gebraucht.

Mit den folgenden Ausführungen beginnt der erste Schritt nach Weber.

Mit Analyseeinheiten werden die kleinsten Textbestandteile, die zur Untersuchung des Auftretens und der Ausprägung von Variablen herangezogen werden, bezeichnet.[77] Die Festlegung auf Formen der Analyseeinheiten ist genauso wenig trivial, wie es die Folgen dieser Festlegung sind. Große Analyseeinheiten wie Paragraphen sind üblicherweise schwieriger zu kodieren – also bestehenden Kategorien zuzuordnen – als kleinere Analyseeinheiten wie Wörter, da größere Analyseeinheiten herkömmlich mehr Informationen enthalten und es schwieriger ist, ihre Bedeutung(en) zu erkennen.[78]

Einige Einheiten von Texten in der menschlichen Sprache können es erschweren, diese Texte automatisch untersuchen zu lassen; auf diese Einheiten ist zu achten.[79] So ist es, bevor weitere analytische Schritte unternommen werden können, bei Bedarf notwendig, in einem frühen Schritt der Erstellung des BOWM inhaltlichen Datenmüll wie etwa Dokumententitel oder Diagramme herauszufiltern.[80] Zur Gewinnung und Zusammenführung aller in einem Text vorhandenen Wörter kommt die tokenization zum Einsatz.[81] Bei der tokenization wird der eingegebene Text in Einheiten, die entweder ein Wort oder etwas anderes wie eine Nummer oder ein Satzzeichen sein können, unterteilt.[82] Dabei die Behandlung der Zeichensetzung beiseite zu lassen, ist wahrscheinlich unklug, denn Satzzeichen sagen etwas über die Makrostruktur und die Modifikation von Inhalten durch andere Inhalte aus.[83] Die Beachtung von Satzzeichen bei der tokenization wirft auch die Frage danach auf, was in einem Text als Wort gezählt werden kann.[84] Um nur ein Beispiel für die Problematik, die in dieser Einschätzung liegt, zu nennen, sei darauf verwiesen, dass ein Wort nicht immer alleine dadurch von anderen Wörtern abgegrenzt werden kann, indem man alles als Wort zählt, worum sich weiße Fläche befindet, denn es wären bspw. auch Textbestandteile als Wörter zu behandeln, hinter denen ein Punkt folgt, der kenntlich macht, dass es sich bei dem betreffenden Textbestandteil um eine Abkürzung handelt.[85] Das aus der Zusammenführung aller Dokumente der Sammlung gewonnene Kompendium an Wörtern ist die Gesamtzahl der Analyseeinheiten.[86] Zur Verringerung des Umfangs der Analyseeinheiten und somit der Dimensionalität der Beschreibung der Dokumente kann das Kompendium an Wörtern mittels Filterung, lemmatization und stemming behandelt werden.[87] Methoden der Filterung entfernen Wörter aus dem Kreis der Analyseeinheiten und damit aus den Dokumenten.[88] Eine übliche solche Methode ist das stop word filtering, bei dem Wörter, die wenige oder keine Informationen tragen (bspw. Artikel, Pronomen, sehr häufig und sehr selten auftretende Wörter), entfernt werden.[89] Im Hinblick auf die Morphologie von Texten ist die Frage zu beantworten, ob Wortformen wie sitzen, saß und gesessen separat voneinander oder als derselben Gruppe angehörig behandelt werden sollen.[90] Zur Beantwortung dieser Frage kann lemmatization eingesetzt werden, welches ein Verb zu seinem jeweiligen Infinitiv und ein Nomen in seine Singularform zurückführt, was jedoch sehr zeitaufwendig ist, da zur Durchführung dieses Schritts Kenntnis über die Wortart jedes Worts aus der Sammlung bestehen muss.[91] Zwecks Vereinfachung dieses Prozesses wird i. d. R. vom stemming Gebrauch gemacht. Stemming bezeichnet einen Vorgang der Behandlung von Wortformen als Gruppe, bei dem z. B. Präfixe, Suffixe und das Plural-s entfernt werden, sodass nur noch Stämme übrigbleiben.[92] Eine Einschränkung des stemming liegt in einem möglicherweise mangelnden Performance-Beitrag innerhalb von information-retrieval- Systemen, u. a. weil das Gruppieren der verschiedenen Formen eines Stamms eine Menge Informationen kostet, da bspw. Wörter in einer Abfrage gefunden werden, die unerwünscht sind.[93] Zwei weitere Probleme, die mit stemmers assoziiert sind, sind, dass sie semantisch unterschiedliche Wörter zusammenfassen (bspw. werden Intentionalität und Internationalität zu Int- trunkiert) und dass die trunkierten Stämme für Anwender unverständlich sein können (bspw. wenn Autor als Auto- wiedergegeben wird).[94]

Die Ergebnisse dieser dergestalt ablaufenden Erstellung des BOWM sind bereits sehr präzise.[95] Das BOWM kann in beiden Ansätzen zur Textkategorisierung mittels Computersoftware in eine Vektorendarstellung, in der sich in numerischer Form Eigenschaften eines Worts ausdrücken, überführt werden, um eine quantifizierte Weiterverarbeitung und Auswertung der Inhaltsanalyse zu ermöglichen. Zur Erstellung einer Vektorendarstellung wird das Vector Space Model (VSM) eingesetzt.[96] Über das VSM gibt es mindestens zwei verschiedene Auffassungen. Nach Leetaru liegt der Beginn der Erstellung einer Vektorendarstellung in einer Liste aller einzigartigen Wörter einer Dokumentensammlung, woraufhin für jedes Dokument berechnet wird, wie oft jedes dieser Wörter in dem betreffenden Dokument auftritt.[97] Dabei entsteht eine Tabelle, deren Zeilen jedes der einzigartigen Wörter aus allen Dokumenten und deren Spalten die Anzahl des Auftretens jedes dieser Wörter in einem gegebenen Dokument wiedergeben.[98] Jedes Dokument wird somit von einer Ansammlung von Text in ein Wortschatzhistogramm überführt, welches mit den Histogrammen der anderen Dokumente unmittelbar verglichen werden kann.[99] Eine solche Tabelle kann als ein Vektorenraum aufgefasst werden, in dem jedes Wort einen Vektor in einem mehrdimensionalen Raum darstellt.[100] Aufgrund dieser begrifflichen Auffassung als Vektorenraum trägt diese Technik Leetaru zufolge den Namen VSM.[101] Leetaru sieht das VSM als ein Worthistogramm an. Diese Fassung des VSM ist es, die in der Eventstudie der vorliegenden Arbeit Einsatz findet. Eine andere Auffassung von dem VSM haben bspw. die Autoren Hotho et al. sowie Manning und Schütze. Diese Auffassung wird in dem Abschnitt 3.3 vorgestellt und sie dient im statistischen Ansatz der Bestimmung der semantischen Ähnlichkeit zwischen Analyseeinheiten.

Um Attribute wie die Wichtigkeit eines Worts in der Textkategorisierung zu bemessen, ist gewöhnlich eine Vektorendarstellung nicht nur möglich, sondern sogar unbedingt notwendig.[102] Sofern eine Gewichtung der Bedeutsamkeit gewünscht ist, finden innerhalb dieser Vektorendarstellung Algorithmen zur Gewichtung der Analyseeinheiten (sog. feature reduction algorithms) Einsatz.[103]

Folgend aufgeführt ist der zweite Schritt nach Weber.

Es sind von der Inhaltsanalyse keine expliziten Fragestellungen vorgegeben, doch konzeptionell ist es unumgänglich, konkrete Forschungsfragen zu formulieren und zu untersuchende Variablen zu erarbeiten.[104] Forschungsfragen und Variablen sind Bedingung dafür, das zentrale konzeptionelle Instrument, ein abstraktes Kategorienschema, welches bspw. eine dichotome Ausprägung in Gestalt von positiv und negativ konnotierten Wörtern hat, zur Zuordnung konkreter Analyseeinheiten entwickeln zu können.[105] Mittels des Kategorienschemas sollen die Variablen, die aus der Forschungsfrage hervorgehen, messbar gemacht (operationalisiert) werden, wodurch es sich an der Forschungsfrage und den daraus abgeleiteten Hypothesen anlehnt.[106] Forschungsfragen zu formulieren impliziert das Erfordernis, Arbeitshypothesen für die Untersuchung aufzustellen. Eine Forschungsstrategie nach diesem Ablauf bezeichnet man als eine mit einem konfirmativen Forschungsziel, da hierbei Hypothesen bestätigt oder widerlegt werden sollen.[107] Ist eine Quantifizierung des Ergebnisses gewünscht, erlaubt eine derart durchgeführte Untersuchung eine statistische Einschätzung über die Verteilung der zu untersuchenden Variablen auf die Kategorien.[108] Kategorienschemata sind sowohl in den form- als auch in den bedeutungsorientierten Typen der Inhaltsanalyse zu entwerfen.[109] Eine eindeutige, vollständige und der Forschungsfrage angemessene Definition der Kategorien sollte erfolgen.[110] Die gebildeten Kategorien der zu untersuchenden Variablen haben einander auszuschließen, denn gerade multivariate Regressionsanalysen verlangen nicht verbundene Variablen.[111] In der inhaltsanalytischen Forschung in Finance ist das Kategorienschema häufig dichotom ausgeprägt. Jedoch trifft man auch Fälle an, in denen neben Kategorien mit Wörtern positiver und negativer Konnotation Kategorien mit Wörtern neutraler Konnotation oder Kategorien mit Wörtern, die Unsicherheit ausdrücken, existieren. Entsprechend den nach Weber aufgeführten Schritten der Inhaltsanalyse ist darauf zu achten, das Aufstellen des Kategorienschemas vor dem Kodieren erfolgen zu lassen.[112] Erfordert nämlich eine bereits begonnene Kodierung ein anderes Kategorienschema, hat das Textmaterial unter der Maßgabe des neuen Kategorienschemas vollständig von neuem kodiert zu werden.[113] Meistens sind Kategorien, wie bereits angedeutet, als Nominalskala geschaffen, höhere Skalenniveaus sind aber möglich.[114]

Das Kodieren bezeichnet die Einordnung der Analyseeinheiten in das erstellte Kategorienschema und gilt in dieser begrifflichen Verwendung sowohl für den regelbasierten als auch den statistischen Ansatz.[115] Beim regelbasierten Ansatz werden die nach obigem Vorgehen behandelten Analyseeinheiten auf der Grundlage von Wortlisten, die i. d. R. nach bestimmten Konnotationen geordnete Wörter enthalten, in das Kategorienschema eingeordnet. Findet man eine gegebene Analyseeinheit in einer Wortliste (bspw. mit im Wirtschaftskontext negativ konnotierten Wörtern) wieder, wird die Analyseeinheit in die Kategorie eingeordnet, deren Definition zu der Definition der Wortliste passt (bspw. die Kategorie mit negativ konnotierten Wörtern). Im Unterschied dazu kommen – wie noch weiter ausgeführt werden wird – beim statistischen Ansatz supervised machine learning algorithms zum Einsatz, die entsprechend den von ihnen gelernten semantischen Mustern die Analyseeinheiten automatisch in das gegebene Kategorienschema einordnen. Mit dem dritten und dem siebten Schritt nach Weber erfolgt das Kodieren sowohl beim regelbasierten als auch beim statistischen Ansatz zum einen zwecks Testung an einer Textstichprobe, um zu überprüfen, ob sich das gewählte inhaltsanalytische Verfahren als reliabel und valide erweist, und zum anderen zwecks Ausführung der inhaltsanalytischen Arbeit am gesamten Textkorpus.

Im Abschnitt 3.3 wird der statistische Ansatz der Textkategorisierung erläutert. In diesem Zusammenhang werden einige Begriffe nochmals aufgegriffen, weiter ausgeführt und eingeordnet.

3.3 Statistischer Ansatz der Textkategorisierung

In diesem Abschnitt wird der siebte Schritt nach Weber für den statistischen Ansatz vorgestellt. Dieser Schritt, der Einsatz von supervised machine learning algorithms, ist der, welcher das Kodieren im Rahmen der ATC beschreibt. Zur Ausführung der mit dem statistischen Ansatz in Verbindung stehenden Aufgaben ist eine Übernahme der aus dem data mining bekannten Algorithmen vonnöten.[116] Die für diese Arbeit maßgebliche Perspektive führt zu der Definition des text mining im Rahmen der eigentlichen Textkategorisierung gemäß dem statistischen Ansatz (in Abgrenzung zu dem preprocessing) als Anwendung von Algorithmen und Methoden aus den Feldern Statistik und machine learning zum Aufspüren von in Texten enthaltenen Mustern.[117] Diese Definition entspricht der Definition im Sinne des text data mining.[118] Machine learning ist ein Feld der Forschung innerhalb der Künstlichen Intelligenz, welches sich mit der Entwicklung von Techniken, die es Computern erlauben, unter der Analyse von training data sets zu lernen, beschäftigt.[119] Ein training data set ist ein textlicher Datensatz, in dem jedes Auftreten eines mehrdeutigen Worts mit einer semantischen Bezeichnung versehen ist.[120] In der Regel ist diese semantische Bezeichnung die kontextbezogen angemessene Bedeutung des Wortes.[121] Dass in der wissenschaftlich hochwertigen inhaltsanalytischen Forschung in Finance und Accounting wirtschaftsspezifische (also Wirtschaftsterminologie enthaltende) Wörterbücher (regelbasierter Ansatz) oder gar machine learning algorithms, die Muster von Texten lernen, um sie auf neues Textmaterial anzuwenden (statistischer Ansatz), gegenüber fachunspezifischen/allgemeinen Wortlisten (regelbasierter Ansatz) bevorzugt werden, hat maßgeblich zum einen damit zu tun, dass die beiden erstgenannten Verfahrensweisen eher in der Lage sind, den Ton von Textmaterial zu bemessen. Zum anderen liegt diese Bevorzugung darin begründet, dass die zwischen dem Ton und kapitalmarktbezogenen Größen bestehenden Korrelationen für wirtschaftsspezifische Wörterbücher und machine learning algorithms höher sind als im Fall von wirtschaftsunspezifischen Wörterbüchern. Neben den beiden Ansätzen der Textkategorisierung gibt es in der Textstrukturierung das clustering, welches jedoch nicht weiter zur Sprache kommen wird, da es für die inhaltsanalytische Forschung in Finance von deutlich untergeordneter Bedeutung ist.[122]

Es wird nun die automatische Form der Textkategorisierung, die automated text categorization (ATC), vorgestellt.

Wie bereits im Abschnitt 3.2 erwähnt wurde, wird im statistischen Ansatz i. d. R. das BOWM als System zur Umwandlung textlichen Materials in die Vektorenschreibweise des VSM zur Bestimmung der semantischen Ähnlichkeit im training data set genutzt. Man bezeichnet die Auswahl der Objekte, die zur Umwandlung eingesetzt werden, als feature selection.[123] Die bekanntesten Systeme dieser Umwandlung sind noun phrase extraction, ordered words und das bereits eingeführte BOWM.[124] Noun phrase extraction identifiziert die Liste der in Dokumenten verwendeten noun phrases und nutzt diese als Darstellung der Kernkonzepte der Dokumente.[125] Die Technik ordered words untersucht, welche Wörter in einem Dokument vorhanden sind und listet diese ebenso auf wie die Orte, an denen die Wörter stehen und in der Nähe welcher anderen Wörter diese Wörter stehen.[126] Die genaueste und am häufigsten benutzte Technik ist das BOWM, welches Dokumente als eine ungeordnete Liste von Wörtern ansieht.[127] Unter diesem Ansatz werden Wörter einzig entsprechend der Häufigkeit ihres Auftretens aufgeführt.[128]

[...]


[1] Eine Renditeveränderung in dieser Größenordnung wurde u. a. von Chen et al. (2014) festgestellt.

[2] Li (2010), S. 1058, 1059, spricht von dem regelbasierten und dem statistischen Ansatz als Ansätze zur Textkategorisierung. Hotho et al. (2005), S. 30, ordnet die Textkategorisierung in ihren Ausprägungen der Textstrukturierung zu.

[3] Vgl. Manning und Schütze (1999), S. 82.

[4] Vgl. Manning und Schütze (1999), S. 82.

[5] Vgl. Manning und Schütze (1999), S. 82.

[6] Vgl. Titscher et al. (1998), S. 350.

[7] Vgl. Titscher et al. (1998), S. 350.

[8] Vgl. Manning und Schütze (1999), S. 14.

[9] Vgl. Manning und Schütze (1999), S. 14. Der statistische Ansatz der Inhaltsanalyse formorientierter Natur schließt die Benutzung sogenannter supervised machine learning algorithms, welche unter 3.3 erläutert werden, ein und geht aufgrund der Verwendung von machine learning algorithms über den regelbasierten Ansatz hinaus. Vgl. zu den Begriffen des regelbasierten und des statistischen Ansatzes und zu Vorteilen des statistischen Ansatzes gegenüber dem regelbasierten Ansatz u. a. Li (2010), S. 1059.

[10] Vgl. Li (2010), S. 1058. Das Kernelement des regelbasierten Ansatzes ist in der accounting- und financebezogenen inhaltsanalytischen Forschung sehr häufig das bag-of-words-model, welches unter 3.2 erklärt wird und Instrumentarium der Inhaltsanalyse der Eventstudie der vorliegenden Arbeit ist.

[11] Vgl. Titscher et al. (1998), S. 22, 23. Auf die Datenauswertung wird explizit unter 3.5 eingegangen, da der Ablauf der Datenauswertung nur für die dieser Arbeit zugrundeliegende Textkategorisierung beschrieben werden soll und nicht noch für weitere Textanalyseansätze.

[12] Vgl. Titscher et al. (1998), S. 26, vgl. Weber (1990), S. 12. Diese Kategorien können bspw. in Gestalt einer dichotomen Aufteilung in Wörter mit positiver und in Wörter mit negativer Konnotation oder in Wörter mit nicht-negativer und in Wörter mit negativer Konnotation oder in Wörter mit synonymer Bedeutung vorliegen.

[13] Vgl. Leetaru (2012), S. 8.

[14] Vgl. Leetaru (2012), S. 8.

[15] Vgl. Leetaru (2012), S. 9.

[16] Vgl. Leetaru (2012), S. 9.

[17] Vgl. Leetaru (2012), S. 10, 11.

[18] Vgl. Leetaru (2012), S. 14, 15.

[19] Vgl. Titscher et al. (1998), S. 28.

[20] Vgl. zur Begriffsverwendung und zu den Anwendungsgebieten Titscher et al. (1998), S. 48 ff., Merkl-Davies et al. (2011), S. 315 ff. und Hardy et al. (2004), S. 19 ff.

[21] Vgl. zur Begriffsverwendung und zu den Anwendungsgebieten Titscher et al. (1998), S. 48 ff., Brennan et al. (2013), S. 665 ff. und Hardy et al. (2004), S. 19 ff.

[22] Vgl. Titscher et al. (1998), S. 49, 50. Zu den bezeichneten Fällen gehört auch die formorientierte Inhaltsanalyse.

[23] Vgl. Titscher et al. (1998), S. 40, 41.

[24] Vgl. Titscher et al. (1998), S. 40.

[25] Vgl. Duriau et al. (2007), S. 5.

[26] Vgl. Hardy et al. (2004), S. 20.

[27] Vgl. Berelson (1952), S. 18.

[28] Vgl. Hardy et al. (2004), S. 20.

[29] Vgl. Hardy et al. (2004), S. 19.

[30] Vgl. Hardy et al. (2004), S. 20.

[31] Vgl. Titscher et al. (1998), S. 59. Da diskursive Textanalyse großteils von Hand ausgeführt wird und aus diesem Grund der zeitliche wie geldliche Aufwand für diese Form der textanalytischen Untersuchung deutlich über den der Inhaltsanalyse hinausgeht, trifft man sie in der Finance-Forschung nicht an und wird auf sie in der Folge nicht weiter eingegangen.

[32] Vgl. Duriau et al. (2007), S. 6.

[33] Vgl. Abrahamson und Hambrick (1997) (zit. nach Duriau et al. (2007), S. 6).

[34] Vgl. Namenwirth und Weber (1990) (zit. nach Duriau et al. (2007), S. 6).

[35] Vgl. Titscher et al. (1998), S. 48.

[36] Vgl. Herrera und Braumoeller (2004), S. 16; vgl. Hardy et al. (2004), S. 20.

[37] Vgl. Titscher et al. (1998), S. 49.

[38] Vgl. Titscher et al. (1998), S. 58.

[39] Vgl. Titscher et al. (1998), S. 50.

[40] Vgl. Titscher et al. (1998), S. 74.

[41] Vgl. Titscher et al. (1998), S. 74.

[42] Vgl. Titscher et al. (1998), S. 88.

[43] Vgl. Titscher et al. (1998), S. 74.

[44] Vgl. Smith und Taffler (2000), S. 627. Inhaltsanalyse bezieht sich sowohl auf menschliche als auch auf automatisierte, von Computern ausgeführte Techniken, vgl. dazu Leetaru (2012), S. 2.

[45] Vgl. Smith und Taffler (2000), S. 627, 630, 637, 638. Der formorientierte Typus in Gestalt des regelbasierten Ansatzes der Textkategorisierung findet Einsatz in der Eventstudie dieser Arbeit.

[46] Vgl. Smith und Taffler (2000), S. 627, 632, 637.

[47] Vgl. Kassarjian (1977), S. 9.

[48] Vgl. Titscher et al. (1998), S. 51.

[49] Vgl. Titscher et al. (1998), S. 86.

[50] Vgl. Kabanoff et al. (1995), S. 1079.

[51] Vgl. dazu Bowman (1984).

[52] Vgl. dazu Antweiler und Frank (2004), Chen et al. (2014), Groth und Muntermann (2011), Hanley und Hoberg (2010), Huang et al. (2005), Jegadeesh und Wu (2013), Loughran und McDonald (2011), Pieper (2011), Price et al. (2012), Schumaker und Chen (2009), Tetlock et al. (2008), Tetlock (2007), etc.

[53] Vgl. dazu Groth und Muntermann (2011) und Bowman (1984).

[54] Vgl. dazu Gephart (1997).

[55] Vgl. dazu Back et al. (2001), Davis et al. (2012), Clatworthy und Jones (2006), Li (2010), Kloptchenko et al. (2004), etc.

[56] Vgl. dazu Smith et al. (1991).

[57] Vgl. dazu Pfarrer et al. (2010).

[58] Vgl. dazu Antweiler und Frank (2004), Hanley und Hoberg (2010), Jegadeesh und Wu (2013), Li (2010), Loughran und McDonald (2011), Pfarrer et al. (2010), Pieper (2011), Price et al. (2012), Tetlock et al. (2008), Tetlock (2007).

[59] Vgl. Jegadeesh und Wu (2013), S. 722.

[60] Vgl. Duriau et al. (2007), S. 26.

[61] Vgl. Jegadeesh und Wu (2013), S. 729.

[62] Vgl. Titscher et al. (1998), S. 54.

[63] Vgl. Titscher et al. (1998), S. 54.

[64] Vgl. Weber (1990), S. 21.

[65] Die angesprochenen acht Schritte sowie die Auswertung werden in den Abschnitten 3.2 bis 3.5 der vorliegenden Arbeit ausführlich beschrieben.

[66] Vgl. Weber (1990), S. 21-24. Alle sich auf die für den Gesamttextkorpus (achter Schritt) ermittelte Reliabilität und Validität des regelbasierten und des statistischen Ansatzes beziehenden Ausführungen werden unter 3.4 vorgestellt. Die Bemessung der Reliabilität und Validität der Ansätze wird nur für den vollständigen Textkorpus gemäß dem achten Schritt nach Weber kurz erläutert, somit nicht gesondert für eine Textstichprobe. Jedoch werden einige Performance-Maße für das an einer Textstichprobe durchgeführte Kodieren und für das Kodieren des Gesamttextkorpus´ im Rahmen des statistischen Ansatzes unter 3.4 erklärt.

[67] Vgl. Manning und Schütze (1999), S. 117.

[68] Vgl. Manning und Schütze (1999), S. 19, 20.

[69] Vgl. Hotho et al. (2005), S. 19, 22.

[70] Vgl. Hotho et al. (2005), S. 19, 21.

[71] Vgl. Hotho et al. (2005), S. 19.

[72] Vgl. Hotho et al. (2005), S. 24.

[73] Vgl. Hotho et al. (2005), S. 24.

[74] Vgl. Leetaru (2012), S. 73.

[75] Vgl. Manning und Schütze (1999), S. 237.

[76] Das BOWM wird unter 3.2.2 als eines der Systeme der Umwandlung textlichen Materials in Vektorenform nochmals aufgegriffen.

[77] Vgl. Titscher et al. (1998), S. 78.

[78] Vgl. Weber (1990), S. 16.

[79] Vgl. Manning und Schütze (1999), S. 123.

[80] Vgl. Manning und Schütze (1999), S. 123.

[81] Vgl. Hotho et al. (2005), S. 25.

[82] Vgl. Manning und Schütze (1999), S. 124.

[83] Vgl. Manning und Schütze (1999), S. 124, 125.

[84] Vgl. Manning und Schütze (1999), S. 125.

[85] Vgl. Manning und Schütze (1999), S. 125.

[86] Vgl. Hotho et al. (2005), S. 25.

[87] Vgl. Hotho et al. (2005), S. 25.

[88] Vgl. Hotho et al. (2005), S. 25.

[89] Vgl. Hotho et al. (2005), S. 25, 26.

[90] Vgl. Manning und Schütze (1999), S. 131.

[91] Vgl. Hotho et al. (2005), S. 26.

[92] Vgl. Manning und Schütze (1999), S. 132, vgl. Hotho et al. (2005), S. 26.

[93] Vgl. Manning und Schütze (1999), S. 132.

[94] Vgl. Manning und Schütze (1999), S. 534. Vgl. dazu auch Loughran und McDonald (2011), S. 43.

[95] Vgl. Manning und Schütze (1999), S. 156.

[96] Vgl. Hotho et al. (2005), S. 27.

[97] Vgl. Leetaru (2012), S. 72.

[98] Vgl. Leetaru (2012), S. 72.

[99] Vgl. Leetaru (2012), S. 72.

[100] Vgl. Leetaru (2012), S. 72.

[101] Vgl. Leetaru (2012), S. 72.

[102] Vgl. Hotho et al. (2005), S. 25.

[103] Die Beschreibung der feature reduction algorithms für beide Ansätze zur Textkategorisierung geschieht aufgrund der Struktur dieser Arbeit im Abschnitt 3.3.

[104] Vgl. Titscher et al. (1998), S. 52, 86.

[105] Vgl. Titscher et al. (1998), S. 52, 86.

[106] Vgl. Titscher et al. (1998), S. 79.

[107] Vgl. Titscher et al. (1998), S. 52.

[108] Vgl. Titscher et al. (1998), S. 52.

[109] Vgl. Titscher et al. (1998), S. 87.

[110] Vgl. Herkner (1974), S. 174.

[111] Vgl. Herkner (1974), S. 175, vgl. Weber (1990), S. 23.

[112] Vgl. Weber (1990), S. 23.

[113] Vgl. Titscher et al. (1998), S. 78.

[114] Vgl. Titscher et al. (1998), S. 78.

[115] Vgl. Kassarjian (1977), S. 12.

[116] Vgl. Hotho et al. (2005), S. 23.

[117] Vgl. Hotho et al. (2005), S. 23.

[118] Vgl. Hotho et al. (2005), S. 23.

[119] Vgl. Hotho et al. (2005), S. 21.

[120] Vgl. Hotho et al. (2005), S. 30, vgl. Manning und Schütze (1999), S. 235.

[121] Vgl. Manning und Schütze (1999), S. 235.

[122] Vgl. Hotho et al. (2005), S. 30, vgl. Manning und Schütze (1999), S. 575. Vgl. zum clustering bspw. Manning und Schütze (1999) sowie Leetaru (2012).

[123] Vgl. Leetaru (2012), S. 72.

[124] Vgl. Leetaru (2012), S. 72. Aufgrund der offenbar sehr geringen Bedeutung der Systeme noun phrase extraction und ordered words für die inhaltsanalytische Forschung in Finance werden diese beiden Systeme nur in sehr kurzer Fassung vorgestellt.

[125] Vgl. Leetaru (2012), S. 72.

[126] Vgl. Leetaru (2012), S. 72.

[127] Vgl. Leetaru (2012), S. 73.

[128] Vgl. Leetaru (2012), S. 73.

Details

Seiten
75
Jahr
2014
ISBN (eBook)
9783656855279
ISBN (Buch)
9783656855286
Dateigröße
849 KB
Sprache
Deutsch
Katalognummer
v285537
Institution / Hochschule
Justus-Liebig-Universität Gießen – Professur für Finanzdienstleistungen
Note
1,7
Schlagworte
Inhaltsanalyse Finance content analysis text mining machine learning information retrieval data mining natural language processing automated text categorization text data mining return

Autor

Zurück

Titel: Inhaltsanalyse in Finance. Auswirkungen des Tons von Ad-hoc-Meldungen auf Aktienkurse von Unternehmen