Lade Inhalt...

Long Short-Term Memory Networks bei der Renditeprognose. Inwiefern lassen sich die Ergebnisse von Fischer/Krauss (2017) replizieren und nachvollziehen?

Projektarbeit 2020 33 Seiten

VWL - Finanzwissenschaft

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Einleitung

Neuronale Netze im Allgemeinen

Units

Aktivierung von Units

Training des neuronalen Netzwerks

Rekurrente Netzwerke

Backpropagation through time

Long Short-Term Memory Netzwerke (LSTM)

Adam und RMSProp

Analyse des zu replizierenden Papiers

Aufbau der empirischen Arbeit

Backtesting

Methoden

Empirische Auswertung

Performance

Diskussion

Zusammenfassung und Ausblick

Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1 Idealisierte Darstellung eines Neurons (Quelle: Füser (1995), S.26)

Abbildung 2 Darstellung Backpropagation (Quelle: Vgl. G. Ray, F. Beck (2018) www.neuronalesnetz.de, 2018, [20.04.2020])

Abbildung 3 Darstellung Gradientenabstiegsverfahren (Quelle: Vgl. G. Ray, F. Beck (2018))

Abbildung 4 Darstellung RNN (Quelle: Olah (2015))

Abbildung 5 Auffaltung eines RNN über die Zeit (Quelle: Haselhuhn (2018), S. 7)

Abbildung 6 Beschreibung der LSTM Zelle - Input (Quelle Olah (2015)

Abbildung 7 Darstellung der LSTM Zelle Output (Quelle: Olah (2015))

Abbildung 8 Ergebnisse des zu analysierenden Papiers (Quelle: Fischer/Krauss (2017), S 14)

Abbildung9 Übersicht der Ergebnisse des zu analysierenden Papiers -jährliche Renditen (Quelle: Fischer/Krauss (2017), S.19)

Abbildung 10: DM-Test, Vergleich der Prognosen des LSTM-Networks mit den Prognosen der logistischen Regression

Tabellenverzeichnis

Tabelle 1 Gegenüberstellung der Ergebnisse durch das LSTM-Network und der logistischen Regression (Quelle: Eigene Darstellung)

Tabelle 2 statistische Gegenüberstellung der Ergebnisse aus dem LSTM-Modell und der logistischen Regression (Quelle Eigene Darstellung)

Tabelle 3 DM-Test, Vergleich der Prognosen des LSTM-Networks mit den Prognosen der logistischen Regression (Quelle: Eigene Darstellung)

Tabelle 4 Maximal erziele Durchschnittsrendite eines Monkey Manager Portfolios (Quelle: Eigene Darstellung)

Einleitung

Machine Learning ist seit den 90er Jahren ein verbreitetes Thema der Finanzwissenschaft und Informatik. Mit der neuen Big Data Welle kommt das mittlerweile in die Jahre gekommene Wissenschaftsgebiet wieder in den Fokus der Wissenschaft. Die Gründe liegen auf der Hand. Gerade die besseren Rechenkapazitäten und gröBeren Mengen an öffentlich zugänglichen Kapitalmarktdaten gestatten es, Machine Learning erneut auf den Prüfstand zu stellen. Dies führte zu einer erneuten Prominenz des Forschungsgebietes, des „ Deep Learning “. Das Papier von den Autoren Fischer/Krauss (2017) zum Thema „Aktienmarktprognose mittels neuronaler Netze“ sorgte aufgrund ihrer Ergebnisse für Aufsehen. Die Autoren nutzen in ihrer Arbeit zur Prognose von Aktienmarktrenditen insbesondere Long Short-Term Memory Netzwerke (LSTM-Networks). Diese zählen zu den fortgeschrittensten Methoden in Bereich des Machine Learning. In dem Papier schaffen sie es ausschlieBlich mittels vergangener Renditen, den Benchmark-Index S&P500 mehr als deutlich zu schlagen. Diese Ergebnisse stehen im Konflikt mit der von Eugene Fama entwickelten „Effizienz-Markt-Hypothese“, als das sich aus vergangen Kursdaten keine nützlichen Informationen für die Zukunft ableiten lassen.1 Diese Arbeit soll neben der Replikation des Papiers die wichtigsten Entwicklungsschritte von einfachen neuronalen Netzen bis hin zu den LSTM Netzwerken erläutern und Vor- und Nachteile herausarbeiten. Im zweiten Teil der Arbeit werden die Ergebnisse des Papiers von Fischer/Krauss (2017) kritisch gewürdigt. Die Resultate in dieser Untersuchung weichen zum Teil deutlich von denen des Fischer/Krauss Papieres ab. In dieser Arbeit werden selektiv die Zeiträume der Jahre 1994, 2001, 2008 und 2015 untersucht. Lediglich in den Untersuchten Jahren 1994 und 2001 konnte gegenüber dem S&P500 eine signifikante Outperformance durch das LSTM-Networks, mit durchschnittlich täglichen Renditen von 0,022 respektive 0,0074 festgestellt werden. Eine allgemeingültige Prognosefähigkeit des Modells oder eine Überlegenheit zu etwaigen Benchmark- Modellen lässt sicher allerdings nicht darstellen. Das gewählte Benchmark-Modell, die logistische Regression, liefert in 1994 ähnlich gute Ergebnisse wie das LSTM. Da die Daten und Methoden denen von Fischer/Krauss (2017) folgen, gilt es eine Erklärung der differenten Resultate zu finden. Eine logische Schlussfolgerung sehen die Autoren dieser Arbeit in der Konzeption der „Effizienz-Markt-Hypothese“ und der Ausnutzung von Marktineffizienzen.

Neuronale Netze im Allgemeinen

Das Prinzip künstlicher neuronaler Netzwerke bezieht sich auf die neuronalen Verbindungen im menschlichen Gehirn, welches als Analogie und Inspiration für die heutigen Anwendungen der Computertechnik dient. Diese Analogie hat mit der heutigen Umsetzung aber nur noch wenig gemeinsam. Die ersten Autoren, die sich mit solchen Anwendungen auseinandersetzen sind Warren McCulloch und Walter Pitts. Die im Jahr 1943 das erste Formalmodell eines Neurons entwickelten.2 Mittlerweile ist das Thema neuronale Netze in der Wissenschaft breit diskutiert und hat in den verschiedensten Wissenschaften auch abseits der Biologie Anklang gefunden. Zwei der gröBten Bereiche sind einerseits die Modellierung künstlicher neuronaler Netze, um das menschliche Verhalten und die Funktionsweise des menschlichen Gehirns besser zu verstehen und andererseits um konkrete Anwendungsprobleme aus Bereichen der Statistik, Wirtschaftswissenschaften, Technik und anderen Gebieten zu lösen.3 Primär die Grundlagen und der Aufbau eines neuronalen Netzes sollen im nächsten Kapital genau erklärt werden, um ein grundlegendes Verständnis zu LSTM-Netzwerken und der Arbeit von Fischer/Krauss (2017) zu schaffen.

Units

Neuronale Netze bestehen aus mehreren sogenannten Neuronen oder auch Units genannt. Diese Neuronen dienen dazu Informationen aus der Umwelt oder von anderen Neuronen als Zahlenwerte aufzunehmen und verknüpfte Neuronen oder an die Umwelt in modifizierter Form weiterzuleiten. Dabei ist grundlegend in drei Arten von Neuronen zu unterscheiden. Die Input-Units, die von der AuBenwelt Signale aufnehmen. Die Hidden- Units, welche sich zwischen Output und Input-Units befinden und die aufgenommenen Informationen verarbeiten Die letzte Art sind die Output-Units. Diese geben die nun verarbeitenden Informationen wieder an die AuBenwelt zurück.4

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1 Darstellung eines einfachen neuronalen Netzes. Dunkelgrau: Input-Unit, Orange: Hidden-Unit, Hellgrau: Output-Unit (Quelle: Eigene Darstellung)

Übereinander angeordnete Neuronen werden als Layer bezeichnen. So werden beispielsweise ein Hidden-Layer und/oder ein Output-Layer konstruiert werden. In den neuronalen Netzwerken gibt es meist lediglich einen Input- sowie einen Output-Layer. Hidden-Layer kann es aber beliebig viele geben. Dabei sei aber angemerkt, dass sämtliche Anwendungsprobleme mit mehreren Hidden-Layern auch mit nur einem Hidden-Layer gelöst werden können. Diese Schicht muss aber eine hinreichend groBe Anzahl an Neuronen aufweisen.5

Wie LeCun et al. (2015) erklären sind die Neuronen miteinander verbunden. Die Stärke einer Verbindung wird durch ein Gewicht beschrieben. Es gilt, je stärker dieses Gewicht absolut ausgedrückt wird, desto gröBer ist der Einfluss eines Neurons auf das andere. Hierbei ist auch in positive, negative und neutrale Gewichte zu unterscheiden. Dadurch lassen sich unterschiedliche Einflüsse erklären. Das „Wissen“ eines neuronalen Netzwerkes ist typischerweise in seinen Gewichten gespeichert. Die Gewichte werden durch den sogenannten Lernprozess „trainiert“ bzw. fortlaufend angepasst. Wie der Lernprozess eines neuronalen Netzwerkes funktioniert wird später näher erläutert.

Aktivierung von Units

Wie schon vorher beschrieben hängt die Eingabe, die ein Neuron von einem anderen Neuron erhält, von zwei Faktoren ab. Einerseits der gesendeten Information (Output) und andererseits der Gewichtevektor, der die beiden Neuronen miteinander verbindet. Je stärker der Output Beitrag eines Neurons und je höher das Gewicht, desto gröBer ist der Einfluss auf die empfangende Unit. Ist aber einer der beiden Terme null, so ist der Einfluss auch gleich null. Formal lässt sich der Input folgendermaBen darstellen:6

Abbildung in dieser Leseprobe nicht enthalten

Neben den beiden Faktoren, die für die Bildung des Inputs zuständig sind, braucht es eine Aktivitätsfunktion, um ein gewisses Aktivitätslevel zuordnen zu können. Die Aktivitätsfunktion kann skalierend aber auch begrenzend wirken. So lassen sich verschiedene Aktivierungen des Neurons modellieren. Daraus resultieren auch die Möglichkeiten, verschiedene Modelle zu replizieren wie beispielsweise lineare Regressionsmodelle, logistische Regressionsmodelle oder auch andere nicht lineare Zusammenhänge. Dabei lässt sich in verschiedenste Aktivitätsfunktionen unterscheiden. lineare Aktivitätsfunktion: Hier ist der Zusammenhang zwischen Netzeingabe und Ausgabe linear.

Binäre Schwellenfunktion: Hier gibt es nur zwei Zustände des Aktivitätslevels. (Beispielsweise: 0 und 1)

Sigmoide Aktivitätsfunktion: Diese Art von Aktivitätsfunktion wird in den meisten Modellen verwendet, die kognitive Prozesse simulieren. Es wird zwischen der logistischen Funktion und die tangens-Hyperbollicus Funktion unterschieden. Hierbei verhalten sich diese Funktionen folgendermaBen: Ist der Netzinput betragsmäBig groB und negativ ist, dann liegt das Aktivitätslevel nahe 0 (logistische Funktion) bzw. -1 (Tangens-Hyperbolicus-Funktion). Beim Anstieg des Netzinputs steigt der Aktivitätslevel zunächst langsam an (eine Art Schwelle). Danach wird der Anstieg steiler und gleicht einer linearen Funktion. Bei einem hohen Netzinput nähert sich der Wert schlussendlich asymptotisch der 1 an.7

Das ist ein wesentlicher Vorteil, weil die Aktivität auf einen bestimmten Bereich begrenzt ist. Dies sorgt einerseits für eine höhere biologische Plausibilität und andererseits für das stoppen einer immer gröBer werdenden Aktivität, also einer Überaktivierung eines Neurons. Dies nennt man auch „exploding gradient Problem“. Dies ist gerade bei rekurrierten Netzwerken, wie den LSTM von entscheidender Bedeutung. Der andere Vorteil ist gerade im Vergleich zu einer binären Aktivierungsfunktion, die Differenzierbarkeit der Funktion. Dies ist für den Lernprozess von Bedeutung.8

Training des neuronalen Netzwerks

Das aufgebaute neuronale Netz lässt sich wie ein Gleichungssystem mit mehreren Variablen darstellen, die einen Output beschreiben. Diese Variablen können durch das auflösen zu einem Output hin optimiert werden, so dass die Variablen bestmöglich den Output beschreiben. Dementsprechend werden in der Regel die Gewichte zwischen den einzelnen Neuronen modifiziert. Diese Anpassung der Gewichte entspricht dem Trainingsprozess. Dabei kann zwischen überwachtem und unbewachtem Training unterschieden werden. Beim überwachten Training werden Output-Werte vorgegeben. Bei Zeitreihen sind dies zumeist vergangene, bereits verfügbare Daten. Beim unbewachten Training werden keine Output-Werte vorgegeben. Die Gewichtsveränderungen erfolgen in Abhängigkeit der Ähnlichkeit der Gewichte mit den Inputreizen.9

Diese Arbeit greift auf ein überwachtes Training zurück. Diese Art von Training wird Backpropagation genannt. Hierbei wird das neuronale Netzwerk durch eine rückwärtsgerichtete Anpassung der Gewichte dem Output angepasst. Dieser wird genutzt um das Netzwerk Schritt für Schritt anzulernen. Die Gewichte werden solange verändert, bis durch Eingabe einer Information, der gewünschte Output erzeugt wird. Die ständige Anpassung an eine immer gröBer werdende Trainingsmenge ist der sogenannte

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3 Darstellung Backpropagation (Quelle: Vgl. Ray, Beck (2018) www.neuronalesnetz.de, [aufgerufen am: 20.04.2020])

Lernprozess. Der Fehler zwischen eingespeister Information und Netzwerk Output wird als „Delta“ bezeichnet. Diese Fehlerrate wird durch die Backpropagation Schritt für Schritt minimiert und konvergiert im Laufe des Trainings optimalerweise gegen Null. Ein trainiertes Netzwerk soll nun auch neue, bis dato unbekannte Daten, die in das Netzwerk eingespeist werden, richtig verarbeiten und zu einem korrekten Output führen. Auf diesem Weg werden sich wiederholende Prozesse, Arbeitsschritte oder Kalkulationen automatisiert.10

Die zeitaufwendigen Berechnungen der Backpropagation werden mithilfe des Gradientenabstiegsverfahren optimiert.11 Dieses wurde von Rumelhart et al. (1986) entwickelt und startet mit einer zufällig gewählten Gewichtskombination. Für diese wird der Gradient bestimmt und um eine vorgegebene Länge (Lernrate) hinabgestiegen. Der Gradient kann dabei definiert werden als eine Funktion eines Skalarfelds, welches die Änderungsrate und Richtung der gröBten Änderung in Form eines Vektorfelds angibt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4 Darstellung Gradientenabstiegsverfahren (Quelle: Vgl. G. Ray, F. Beck (2018))

Einfach gesagt ist der Gradient die Beschreibung einer GröBe, die für jeden Ort angibt, wie sehr sich die GröBe ändert und in welcher Richtung die Änderung am gröBten ist.12 Für die neu erhaltene Gewichtskombination wird wiederum der Gradient bestimmt und abermals eine Modifikation der Gewichte vorgenommen. Dieses Verfahren wiederholt sich solange, bis ein lokales Minimum (bzw. globales Minimum) erreicht ist (siehe Abbildung 2).13 Trotz dessen entspringen einige Herausforderungen aus der Systematik des Gradientenabstiegsverfahren. Diese liegen in der lokalen Umgebung begründet, weil die geringeren Rechenaufwände zum Wegfall der Betrachtung des kompletten Raumes führen. Dies führt zu folgenden Problemen:14

- Lokale Minima: Die Unwissenheit beim Gradientenabstiegsverfahren, ob nach der Durchführung ein lokales oder absolutes Minimum gefunden wird. Dieses Problem tritt verstärkt bei höherer Dimension des Netzes (= Anzahl der Verbindungen zwischen den Neuronen). Eine höhere Dimension führt zu einer höheren Anzahl der lokalen Minima. In der Abbildung ist ein zwei- Dimensionales Problem zu sehen, welches gelöst werden muss. In einem Dreidimensionalen Problem gleich die Fehlerfunktion einem Gebirge. Ein Tal repräsentiert ein lokales Minimum. Der Algorithmus neigt dazu, in einem beliebigen Tal stecken zu bleiben, ohne zu wissen, ob es das globale oder lokale Minimum ist.15
- Flache Plateaus: Im Grunde genommen besteht hier genau das umgekehrte Problem. Statt einer starken Zerklüftung existieren kaum "Berge und Täler", sondern ein relativ flaches "Plateau". Dadurch wird der Gradient beim Gradientenabstiegsverfahren sehr klein. Das nächste "Tal" wird dadurch gar nicht mehr erreicht, da dem Algorithmus nicht ersichtlich ist, in welche Richtung er sich bewegen soll. Das Verfahren stagniert folglich.
- Verlassen guter Minima: Auch dieses Problem lässt sich als Gegenstück zum Problem lokaler Minima auffassen. Statt ein globales Minimum gar nicht zu erreichen, wird hier das globale Minimum "übersprungen". Dies passiert vornehmlich, wenn ein "tiefes Tal" mit relativ geringer Ausdehnung in der Hyperebene liegt. In der Folge findet das Gradientenabstiegsverfahren nur ein lokales Minimum.
- Oszillation: Im Falle der direkten Oszillation entdeckt das Gradientenabstiegsverfahren weder ein globales noch ein lokales Minimum. Dies passiert dann, wenn der Gradient von einem "Abhang" eines Tals zum gegenüberliegenden "Abhang" springt und von dort wieder zur selben Stelle zurück. In diesem Fall sind die Beträge der Gradienten gleich, lediglich die Vorzeichen wechseln hin und her. Dem Gradientenabstiegsverfahren gelingt es nicht in die "Tiefe der Hyperebene hervorzustoBen".

Rekurrente Netzwerke

Rekurrente Netze bieten die Möglichkeit auch nichtlineare Zusammenhänge zu modellieren. Sie unterscheiden sich von klassischen neuronalen Netzwerken darin, dass Rückkopplungen von Neuronen einer Schicht zu einer anderen, derselben oder einer vorangegangenen Schicht möglich sind. Damit besteht die Möglichkeit zeitliche Informationen aus den Daten zu Enddecken und abzubilden. Diese Fähigkeit kann mit einem Gedächtnis gleichgesetzt werden, welches erlaubt Informationen aus der

Vergangenheit mit in die Gegenwart einflieBen zu lassen. Gerade dieser Vorteil erlaubt

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5 Auffaltung eines RNN über die Zeit (Quelle: Haselhuhn (2018), S. 7) bei Aktienmarktdaten, eine bessere Prognosefähigkeit als klassische neuronale Netzwerke. Diese behandeln nämlich alle Informationen unabhängig voneinander. Die Abbildung 4 zeigt vereinfacht dargestellt ein RNN Neuron, welches auf der rechten Seite nach der Zeit aufgefaltet wird. Somit zeigt Ot_± den ersten Output welcher von Xt_1 und St_1 abhängt. Im folgenden Zeitschritt wird Ot bestimmt, welcher jetzt aber von Xt, St und der Rückkopplung aus Ot_1 beeinflusst wird. Dies erlaubt die Integration von zeitlichen Abhängigkeiten.

[...]


1 Vgl. Fama (1970), S. 383-417

2 Siehe dazu: McCulloch, Pitts (1943), S. 115-133

3 Vgl. Rey/Wender (2018), S.16

4 Vgl. Rattinghaus-Meyer (1993), S. 52

5 Vgl. Honrik et al. (1989), S. 363

6 Vgl. G. Ray, F. Beck (2018) www.neuronalesnetz.de, [aufgerufen am: 20.04.2020]

7 Vgl. Hinton, G. E. (1992), S. 136

8 Siehe dazu Kapitel: Long Short Term Memory Netzwerke (LSTM)

9 Vgl. Rumelhart et al. (1994), S. 89ff.

10 Vgl. Zimmermann (1994), S. 37ff.

11 Vgl. Rojas (1993), S. 200f.

12 Vgl. Papula (2014), S. 61

13 Vgl. Rumelhart et al. (1986), S. 318ff.

14 Vgl. Ray, Beck (2018), Neuronale Netze, www.neuronalesnetz.de, [aufgerufen am: 20.04.2020]

15 Vgl. Rojas (1993), S. 152f.

Details

Seiten
33
Jahr
2020
ISBN (eBook)
9783346197351
Sprache
Deutsch
Katalognummer
v593789
Institution / Hochschule
Universität Bremen
Note
1,7
Schlagworte
ergebnisse fischer/krauss inwiefern long memory networks renditeprognose short-term

Autor

Zurück

Titel: Long Short-Term Memory Networks bei der Renditeprognose. Inwiefern lassen sich die Ergebnisse von Fischer/Krauss (2017) replizieren und nachvollziehen?