Lade Inhalt...

Maschinelles Lernen einer Balanced Scorecard für Versicherungsunternehmen in Gestalt von Bayesschen Netzwerken

Diplomarbeit 2004 120 Seiten

Informatik - Wirtschaftsinformatik

Leseprobe

Inhaltsverzeichnis

II Abkürzungsverzeichnis

III Abbildungs- und Tabellenverzeichnis

IV Textteil
1 Einleitung
2 Theoretische Grundlagen der Balanced Scorecard
2.1 Definition und Klärung der Bedeutung von Balanced Scorecards ...
2.2 Verbesserungspotentiale des Balanced Scorecardansatzes in der praktischen Anwendung
3 Theorie der Bayesschen Netzwerke
3.1 Allgemeine Bayessche Netzwerke
3.1.1 Klärung der Bedeutung und formale Definition von Bayesschen Netzwerken
3.1.2 Bedingte Unabhängigkeit und d-Separation
3.1.3 Inferenz in Bayesschen Netzwerken
3.2 Dynamische Bayessche Netzwerke
4 Theorie der Verfahren zum Maschinellen Lernen von Bayesschen Netzwerken
4.1 Grundlagen des Maschinellen Lernens
4.1.1 Definition und Abgrenzung des Maschinellen Lernens
4.1.2 Grundlagen des Maschinellen Lernens von Bayesschen Netzwerken
4.2 Maschinelles Lernen der Wahrscheinlichkeitsverteilung von Bayesschen Netzwerken - Bekannte Struktur, vollständige Datenbank ...
4.2.1 Objektiver Ansatz - Maximum-Likelihood-Schätzung
4.2.2 Bayesscher Ansatz - Maximum a posteriori Schätzung
4.3 Maschinelles Lernen der Wahrscheinlichkeitsverteilung von Bayesschen Netzwerken - Bekannte Struktur, unvollständige Datenbank
4.3.1 Allgemeine Informationen zu den Methoden
4.3.2 Gibbs Sampling
4.3.3 EM- Algorithmus
4.3.4 Bound and Collapse Algorithmus
4.4 Maschinelles Lernen der Struktur von Allgemeinen Bayesschen Netzwerken - vollständige Datenbank
4.4.1 Testbasierter (Constraint-based) Ansatz
4.4.2 Metrikbasierter Ansatz
4.4.2.1 Vorstellung von Qualitätsmaßen (Metriken)
4.4.2.2 Suchverfahren für die Anwendung der Metriken
4.4.2.3 Alternativer Metrikbasierter Ansatz - Model Averaging ...
4.5 Maschinelles Lernen der Struktur von Dynamischen Bayesschen Netzwerken - vollständige Datenbank
4.6 Maschinelles Lernen der Struktur von Allgemeinen Bayesschen Netzwerken - unvollständige Datenbank
4.6.1 Allgemeine Bemerkungen
4.6.2 Rein zufälliges Fehlen von Werten in der Trainingsdatenbank - SEM- Algorithmus
4.6.3 Nicht zufälliges Fehlen von Werten bei den Trainingsdaten...
4.6.4 Einführung von versteckten Variablen zur Komplexitätsreduktion
4.7 Maschinelles Lernen der Struktur von Dynamischen Bayesschen Netzwerken - unvollständige Datenbank
5 Praktische Anwendung der Strukturlernalgorithmen für das Maschinelle Lernen einer Balanced Scorecard für Versicherungsunternehmen
5.1 Kurzvorstellung der verwendeten Kennzahlen
5.1.1 Allgemeine Bemerkungen
5.1.2 Ergebniswirksame Kennzahlen
5.1.3 Bilanzielle Kennzahlen
5.1.4 Kundenkennzahlen
5.1.4.1 Kundenzufriedenheit
5.1.4.2 Kundenstruktur
5.1.4.3 Sonstige Kundenkennzahlen
5.1.5 Mitarbeiterkennzahlen
5.1.5.1 Allgemeine Mitarbeiterkennzahlen
5.1.5.2 Maklerkennzahlen
5.1.5.3 Ausschließlichkeitsvertreterkennzahlen
5.1.6 Spartenbezogene Kennzahlen
5.2 Beschreibung der Vorgehensweise bei der Datenvorbereitung und beim Maschinellen Lernen
5.2.1 Methoden- und Programmauswahl
5.2.2 Fallauswahl und Stellvertreterbildung
5.2.3 Gruppierung der Werte
5.2.4 Weitere Hinweise zur Kennzahlenauswahl
5.2.5 Beschreibung der Vorgehensweise beim Maschinellen Lernen der Bayesschen Netzwerke
5.2.5.1 Statisches Modell
5.2.5.2 Dynamisches Modell
5.3 Darstellung der Ergebnisse des Maschinellen Lernens
5.3.1 Statisches Modell
5.3.2 Dynamisches Modell
5.4 Sensitivitätsanalysen
5.4.1 Statisches Modell
5.4.2 Dynamisches Modell
6 Zusammenfassung

V Anhang
7 Anhang
7.1 Recherchen zum Outsourcingindikator
7.2 Ergebnisse der Analysen zur Kennzahlenauswahl
7.2.1 Betrachtung der Anzahl der Verbindungen
7.2.2 Rangkorrelationsanalysen zur Kennzahlenauswahl
7.3 Selbst erstelltes Übergangsnetzwerk
7.4 Ergebnisgraphen
7.4.1 Gesamthausbezogene Graphen
7.4.2 Spartenbezogene Graphen

VI Literaturverzeichnis

II Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

III Abbildungs- und Tabellenverzeichnis

Abbildung 1: Beispiel für Ursachewirkungsbeziehungen Vgl. Mayer, R. u. Ahr, H.: Translating strategy into action, a.a.O., S. 683

Abbildung 2: Ruhtz, V.: Die Balanced Scorecard im Praxistest: Wie zufrieden sind Anwender ?, Pricewaterhouse Coopers Deutsche Revision Aktiengesellschaft Wirtschaftsprüfungsgesellschaft, Frankfurt/Main 2001, S.34

Abbildung 3: Beispiel eines Bayesschen Netzes für die Sparte Haftpflicht (implementiert mit Netica 1.12)

Abbildung 4: Anpassung der Bezeichnungen der Zufallsvariablen aus

Abbildung 3

Abbildung 5: verschiedene Verbindungsarten in einem Bayesschen Netzwerk (Vgl. Jensen, F. V.: Bayesian Networks and Decision Graphs, a.a.O. S.7)

Abbildung 6: Randwahrscheinlichkeiten bei Evidenz (Neuabschluesse = steigend)

Abbildung 7: Beispiel eines Dynamischen Bayesschen Netzwerkes

Abbildung 8: Das Bayessche Prior - und Übergangsnetzwerk werden in (a) dargestellt. Das resultierende ausgerollte DBN für T=2 wird in (b) gezeigt. Vgl. Friedman, N. u.a.: Learning the Structure of Dynamic Probabilistic Networks, a.a.O., S. 140

Abbildung 9: topologische Ordnung 1 des Gesamthausmodells nach 15 Iterationen Hill-Climbing (BIC -1.754)

Abbildung 10: topologische Ordnung 4 des Spartenmodells nach 15 Iterationen Hill-Climbing (BIC: -6.327)

Abbildung 11: Ergebnis des K2-Algorithmus unter Verwendung der topologischen Ordnung 2 (BIC-Metrik: -2,03E+04) - Darstellung der intertemporalen Beziehungen

Abbildung 12: selbst definiertes Übergangsnetzwerk

Abbildung 13: Ergebnis des K2-Algorithmus beim statischen Gesamthausmodell topologische Ordnung

Abbildung 14: Ergebnis nach 10 Iterationen Hill-Climbing bei topologischer Ordnung 1 des statischen Gesamthausmodells (BIC-Metrik: -2.073)

Abbildung 15: Ergebnis nach 15 Iterationen Hill-Climbing bei der topologischen Ordnung 9 des statischen Gesamthausmodells (Wert BIC- Metrik: - 11.339)

Abbildung 16: Teil I des Ergebnisgraphen nach 15 Iterationen Hill- Climbingbei topologischer Ordnung 3 des statischen Gesamthausmodells (Wert BIC-Metrik: - 12.256)

Abbildung 17: Teil II des Ergebnisgraphen nach 15 Iterationen Hill- Climbingbei topologischer Ordnung 3 des statischen Gesamthausmodells (Wert BIC-Metrik: - 12.256)

Abbildung 18: Ergebnis des K2-Algorithmus bei topologischer Ordnung 4 des statischen Spartenmodells

Abbildung 19: Ergebnis nach 10 Iterationen Hill-Climbing beim statischen Spartenmodell der topologischen Ordnung 4 (Wert BIC-Metrik: -6.924)

Abbildung 20: Ergebnis nach 15 Iterationen Hill-Climbing beim statischen Spartenmodell der topologischen Ordnung 3 (Wert BIC-Metrik: - 9.294)

Tabelle 1: Stabilitätsanalyse für Gesamthaus- und Spartenkennzahlenzahlen

Tabelle 2: Werte für BIC-Metrik statische Gesamthausmodelle

Tabelle 3: Werte für BIC-Metrik statische Spartenmodelle

Tabelle 4: Werte für BIC-Metrik vom Übergangsnetzwerk (intertemporale Beziehungen)

Tabelle 5: Rechercheergebnisse zum Outsourcing

Tabelle 6: Anzahl der Verbindungen in der Gruppe der Ausschließlichkeitsvertreterkennzahlen

Tabelle 7: Anzahl der Verbindungen in der Gruppe der Maklerkennzahlen

Tabelle 8: Anzahl der Verbindungen in der Gruppe der Kundenkennzahlen

Tabelle 9: Rangkorrelationsanalyse in der Gruppe der Ausschließlichkeitsvertreterkennzahlen

Tabelle 10: Rangkorrelationsanalyse in der Gruppe der Maklerkennzahlen

Tabelle 11: Rangkorrelationsanalyse in der Gruppe der Kundenkennzahlen

Tabelle 12: Rangkorrelationsanalyse zwischen Kennzahlen aus verschiedenen Gruppen I

Tabelle 13: Rangkorrelationsanalyse zwischen Kennzahlen aus verschiedenen Gruppen II

1 Einleitung

Die Bedeutung der Balanced Scorecard (BSC) als Kennzahlensystem zur Umsetzung von Unternehmensstrategien hat in den letzten Jahren stark zugenommen. Die Balanced Scorecard verbindet dabei finanzwirtschaftliche und qualitative Größen in ausgewogener Weise.1

Um eine effiziente Steuerung von Unternehmen zu ermöglichen, ist es unerlässlich wichtige Kennzahlen sowie deren Ursache-/Wirkungsbeziehungen zu identifizieren und damit die Wirkung von unternehmerischen Entscheidungen, die sich mit zeitlichem Abstand in unterschiedlichen Größen niederschlagen, zu erkennen. Diese Beziehungen zwischen den Kennzahlen werden häufig lediglich durch Expertenhypothesen, Heuristiken bzw. nur durch statistische Methoden definiert.2

Eine möglichst wirklichkeitsgetreue Abbildung der häufig komplexen, aber auch von Unsicherheit geprägten Beziehungen der Kennzahlen ist somit nicht möglich. Teure Fehlsteuerungen des Managements könnten die Folge sein.

Diese Arbeit versucht, über einen speziellen nachfolgend kurz erläuterten Ansatz diese Probleme weitestgehend auszuschließen. Die hier vorgestellte Repräsentationsform der Struktur der Beziehungen zwischen den Kennzahlen wird praktischen Ansprüchen durch die Verwendung von Kennzahlen in Form von Zufallsvariablen, die durch gerichtete Kanten miteinander verbunden sind (können komplexe Ursache-/Wirkungsbeziehungen repräsentieren), in einem hohen Maß gerecht. Diese Darstellungsart wird in der Literatur als Bayessches Netzwerk (BN) definiert.3

Im Rahmen dieser Arbeit soll dabei die Erstellung einer Balanced Scorecard für Versicherungsunternehmen in Form von einem Bayesschen Netzwerk vorgestellt werden. Aus einer Datenbank, dem Versicherungsinformations- pool, werden hierzu quantitative und qualitative Größen ausgewählt, deren Relevanz und Beziehungen durch Methoden des Maschinellen Lernens erarbeitet werden sollen.

Diese Arbeit knüpft an die Erfahrungen einer anderen Ausarbeitung zu diesem Thema an.4 Dabei soll die Basisarbeit insbesondere um die Verwendung von nicht-finanzwirtschaftlichen Größen, die Betrachtung intertemporaler Abhängigkeiten zwischen den Kennzahlen sowie durch die Nutzung alternativer Lernmethoden erweitert werden.

Um ein umfassendes Verständnis für diese Thematik zu bekommen, gliedert sich die Diplomarbeit wie folgt: Im Kapitel 2 erfolgt zunächst eine theoretische Betrachtung der Balanced Scorecard, insbesondere in der Versicherungswirtschaft. Es schließt sich ein Kapitel an, welches Bayessche Netzwerke formal vorstellt. Anschließend werden im Kapitel 4 Methoden für das Maschinelle Lernen von Bayesschen Netzwerken eingeführt. Das 5. Kapitel beschäftigt sich schließlich mit der praktischen Implementierung der Methoden des Maschinellen Lernens. Abschließend werden im Kapitel 6 die erhaltenen Ergebnisse einer kurzen Bewertung unterzogen.

2 Theoretische Grundlagen der Balanced Scorecard

2.1 Definition und Klärung der Bedeutung von Balanced Scorecards

Die Versicherungsbranche hat in den letzten Jahren eine stetige Wettbe- werbsverschärfung erfahren. Zurückzuführen ist dies insbesondere auf den Prozess der Deregulierung und eine mit der rasanten Entwicklung in der Informationstechnologie einhergehende Erhöhung der Markttransparenz. Zusätzlich haben erhöhte Schadenaufwendungen, die beispielsweise durch Naturkatastrophen ausgelöst wurden, für Ertragsdruck gesorgt.5 Gerade im Versicherungsmarkt, der von einer hohen Substitutionsfähigkeit seiner Produkte geprägt ist, ist daher die klare Differenzierung eines Marktteilnehmers von seinen Wettbewerbern durch eine individuelle Unternehmensstrategie und deren Umsetzung unabdingbar für den langfristigen Erfolg.6

Im Strategieumsetzungsprozess ist es für das Management notwendig, stets aktuell und aggregiert über die Geschehnisse im Unternehmen informiert zu werden. Traditionelle Kennzahlensysteme fokussieren dabei finanz- wirtschaftliche Größen.7 Diese sind allerdings nur ein Spiegelbild der Vergangenheit, möglichst genaue Zukunftsprognosen sind auf diesem Weg kaum möglich. Kennzahlen, die die gegenwärtige Situation in Form von Leistungstreibern, gegebenenfalls auch in qualitativen Maßstäben be- trachten, sind für eine effektive Erfolgssteuerung von immenser Bedeutung. Die Balanced Scorecard verbindet daher Kennzahlen, die monetäre und „weiche“ Erfolgsfaktoren abbilden, in einer ausgewogenen Weise. Als erster Ansatz wird empfohlen, Kennzahlen aus den vier Perspektiven: Finanzen, Kunden, interne Prozesse sowie Lern- und Entwicklungsumgebung8 zu ver- wenden. Die Nutzung dieser vier Kategorien darf dabei aber nicht als Dogma gesehen werden, vielmehr sind sie als eine Hilfestellung gedacht, für ein Unternehmen individuell notwendige Perspektiven und Kennzahlen auszuwählen.9 So ist es beispielsweise in der Versicherungsbranche sinnvoll, eine Dimension Risiko als eigenständige Perspektive in die Balanced Scorecard einzubauen.10 Lässt sich doch der „Kern des Versicherungsgeschäfts [...] als Transfer einer Schadenverteilung vom Versicherungsnehmer auf den Versicherer erklären.“11 Nichtsdestotrotz muss die Balanced Scorecard einen übersichtlichen Charakter behalten. Als Orientierung wird daher aus praktischen Erfahrungen heraus empfohlen, 15 bis 25 Maßgrößen in die Balanced Scorecard aufzunehmen.12

Die Balanced Scorecard leitet somit von einer vorhandenen Strategie Ziele ab, transformiert diese in Kennzahlen und definiert für jede Kennzahl Soll- wertausprägungen. Abschließend werden strategische Maßnahmen für die Umsetzung selektiert.13 Entscheidend ist damit für den Umsetzungserfolg der Unternehmensstrategie, dass fehlgesteuerte Maßnahmen wie z.B. eine unzureichend risikominimierende, nur auf das Prämienwachstum ausge- richtete Vertragspartnerauswahl durch Frühindikatoren (Leistungstreiber) rechtzeitig erkannt werden, um noch negative Auswirkungen auf Ergeb- niskennzahlen (Spätindikatoren) wie zum Beispiel die Schadensquote eines Versicherungsunternehmens verhindern zu können.14 Dieser Ansatz führt nur zum Erfolg, wenn die Ursache-/Wirkungsbeziehungen, die letztendlich einzelne Kennzahlen als Früh- bzw. Spätindikatoren identifizieren, zwischen den Zielen/Kennzahlen der Balanced Scorecard bekannt sind. In der Ab- bildung 1 ist ein Beispiel für solche Ursache-/Wirkungsbeziehungen für die Versicherungswirtschaft dargestellt.

Für den Erfolg der BSC ist es außerdem wichtig, dass die Strategie sowie die BSC im Unternehmen kommuniziert werden. In diesem Zusammenhang ist zu empfehlen, sparten- bzw. bereichsindividuelle Balanced Scorecards zu implementieren und diese Balanced Scorecards mit dem Anreizsystem zu verbinden. In der Nutzungsphase der Balanced Scorecard können strategische Verbesserungspotentiale aufgespürt werden und somit Rückkopplungen auf die Unternehmensstrategie ausgeübt werden.15

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Beispiel für Ursachewirkungsbeziehungen Vgl. Mayer, R. u. Ahr, H.: Translating strategy into action, a.a.O., S. 683.

Es wird grundsätzlich empfohlen zunächst in einem Pilotbereich wie beispielsweise einer einzelnen Sparte, eine Balanced Scorecard zu implementieren, um die gesammelten Erfahrungen anschließend für das Gesamtunternehmen nutzen zu können.16

2.2 Verbesserungspotentiale des Balanced Scorecardansatzes in der praktischen Anwendung

Nachdem im letzten Abschnitt die Balanced Scorecard definiert und ihre praktische Relevanz geklärt worden ist, sollen hier Optimierungspotentiale des BSC-Ansatzes aufgezeigt werden. Aus externer Sicht werden in der Literatur häufig folgende beispielhaft ausgewählte Sachverhalte als Gründe für Probleme bei der Anwendung der BSC genannt:

- fehlende oder unkonkrete Unternehmensstrategie,17
- keine unternehmensindividuelle Umsetzung der BSC beispielsweise durch die ausschließliche Verwendung von Branchenkennzahlen18 oder
- keine Verbindung der BSC mit hierarchisch untergeordneten Ziel- und Anreizsystemen.19

Wo die Probleme in der Anwendung der BSC aus Unternehmenssicht liegen, wird in dem nachfolgend dargestellten Ranking, dem Ergebnis einer empirischen Studie der Pricewaterhouse Coopers Human Resource- Beratung aus dem Jahr 2001 deutlich (Umfrage unter den 200 umsatz- stärksten, deutschen Unternehmen des Jahres 1998, geantwortet haben 129 Untenehmen, davon nutzten 59 die BSC).20 Als Hauptproblem im Umsetzungsprozess wird dabei die Identifizierung von Wechselwirkungen zwischen den Kennzahlen charakterisiert.21 Dies ist insofern widersprüchlich, da in der gleichen Studie immerhin 49 % der Balanced Scorecard nutzenden Unternehmen angaben, für alle Kennzahlen Ursache-/Wirkungsbeziehungen ermittelt zu haben. Hinsichtlich der Bestimmungsmethoden werden in der Studie allerdings keine Angaben gemacht.22

In der Literatur wird in diesem Zusammenhang als Lösungsansatz beispielsweise eine „Kennzahlenhierarchie ähnlich dem Du-Pont-Schema“23 genannt. Es werden außerdem Verfahren wie die Regressions- und Korrelationsanalyse24 vorgeschlagen.25 Als kritisch ist bei der Verwendung dieser Methoden anzumerken, dass die Korrelation zwischen zwei Maß- größen x und y keinen eindeutigen Rückschluss auf den kausalen Zusammenhang zulässt. Das bedeutet, dass x die Ausprägung von y verursacht haben kann bzw. auch umgekehrt. Es ist außerdem möglich, dass sich x und y wechselseitig beeinflussen oder jeweils durch eine oder mehrere andere Ursachen bedingt werden. Es kann außerdem sein, dass zwischen x und y gar kein kausaler Zusammenhang besteht.26

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Ruhtz, V.: Die Balanced Scorecard im Praxistest: Wie zufrieden sind Anwender ?, Pricewaterhouse Coopers Deutsche Revision Aktiengesellschaft

Wirtschaftsprüfungsgesellschaft, Frankfurt/Main 2001, S.34.

Die vorhergehend genannten Methoden haben außerdem gemeinsam, dass sie nicht die Dynamik und Komplexität der Beziehungen zwischen den Maßgrößen abbilden können. Der Ansatz der auf Expertenbefragungen be- ruhenden Methode des vernetzten Denkens27 kommt diesem Anspruch bereits sehr nahe. Als Makel bleibt hier allerdings bestehen, dass nur explizites Wissen der Experten berücksichtigt wird und damit unentdeckte, empirisch vorhandene Zusammenhänge nicht betrachtet werden. Um dieses Problem zu beheben, werden im Kern dieser Arbeit Methoden der maschi- nellen Wissensgenerierung vorgestellt. Hierzu werden Beziehungen zwischen Maßgrößen aus Daten erlernt und in einer den praktischen Model- lierungsanforderungen sehr nahe kommenden Form, den Bayesschen Netz- werken, dargestellt.28 Somit wird in dieser Arbeit eine Methode vorgestellt, die die genannten Probleme der Praxis bei der Erkennung von Ursache/Wirkungsbeziehungen adäquat lösen kann.

3 Theorie der Bayesschen Netzwerke

3.1 Allgemeine Bayessche Netzwerke

3.1.1 Klärung der Bedeutung und formale Definition von Bayesschen Netzwerken

Im letzten Kapitel wurden die Probleme bei der Ermittlung und Darstellung von Ursache-/Wirkungsbeziehungen zwischen Kennzahlen in einer Balanced Scorecard aufgezeigt. Mit der Darstellungsform als Bayessches Netzwerk soll nun eine realitätsnahe Modellierungsmöglichkeit vorgestellt werden. Hierzu soll der in der unten stehenden Abbildung 3 dargestellte gerichtete Graph29 genutzt werden, bei dem es um Wechselwirkungen zwischen Kennzahlen in der Sparte Haftpflicht gehen soll.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Beispiel eines Bayesschen Netzes für die Sparte Haftpflicht (implementiert mit Netica 1.12)

Durch die gerichteten Kanten ist es sehr gut möglich, kausale Zusammenhänge zwischen Kennzahlen aufzuzeigen. So kann ein erfolg- reicher Test von Produkten eines Versicherungsunternehmens beispiels- weise in einer Verbraucherzeitschrift eine steigende Anzahl von Neuabschlüssen bewirken, was durch die gerichtete Kante zwischen den bei- den Knoten symbolisiert wird. Zu Neuabschlüssen könnte es allerdings auch dann kommen, wenn der Berater sich in einer ähnlichen Lebenssituation befindet und sich genau in die Kundensituation hineinversetzen kann, so auch absolut glaubhaft wirkt, was durch die Kennzahl Beraterprofil (passend/nicht passend) ausgedrückt werden soll. Steigende Neuabschlüsse können den Marktanteil erhöhen, genau wie sie das Betriebsergebnis steigern können. Das Betriebsergebnis wird außerdem davon beeinflusst von welcher Güte die Qualität der Risikoeinschätzung ist, da von ihr die Höhe der Schadenaufwendungen abhängt. Das Betriebsergebnis wiederum kann einen Einfluss auf den Shareholder Value der betrachteten Sparte haben.

In der Realität ist es allerdings häufig so, dass ein hier als absolut gültig dargestellter kausaler Zusammenhang sich als solcher nicht in jedem Fall erweist. So hat z.B. auf Grund einer nicht jeden Kunden ansprechenden Werbekampagne ein erfolgreicher Produkttest nicht immer den Abschluss eines Versicherungsvertrages zur Folge. Die Gründe für eine mangelnde Gültigkeit der Kausalität können dabei oft auf Grund von unvollständigem Wissen nicht erfasst werden.30 Diese Unsicherheit hinsichtlich des Infor- mationsstandes lässt sich am Besten durch die Wahrscheinlichkeitstheorie darstellen.31 Unter diesem Aspekt bietet es sich an, die Knoten in dem Graphen als Zufallsvariablen32 zu interpretieren. Ohne Beschränkung der Allgemeinheit soll dabei für das Beispiel angenommen werden, dass es sich um binäre Zufallsvariablen handelt.

Somit ergibt sich auch die formale Definition eines Bayesschen Netzwerkes, welches sich als gerichteter, azyklischer Graph, dessen Knoten Zufalls- variablen sind, beschreiben lässt. Ein Bayessches Netzwerk ist damit durch den Graphen G sowie durch die über der Menge der Zufallsvariablen V={ X1,..., Xn } definierte gemeinsame Wahrscheinlichkeitsverteilung P(X1,..., Xn) bestimmt.33 Hinsichtlich der Eigenschaften der Zufallsvariablen werden dabei keinerlei Einschränkungen aufgestellt. Azyklisch bedeutet, dass es in dem Graphen keine gerichteten Verbindungen geben darf, die als Start- und Zielpunkt ein und denselben Knoten haben.34 Dies ist insofern einleuchtend, da unter dem Gesichtspunkt der Kausalität eine Ursache sich nicht selbst erklären darf. Bayessche Netzwerke (Bayesian Networks) werden in der Literatur häufig auch unter den Begriffen Probabilistische (Probabilistic), Kausale (Causal) oder auch Glaubens-(Belief) Netzwerke (Networks) eingeführt.35 Als Begründerin der Theorie der Bayesschen Netzwerke gilt Judea Pearl.36

Für den Anwender ist es wichtig, zu erfahren wie sich die Wahrscheinlichkei- ten über alle Wertausprägungen37 der Zufallsvariablen verteilen. In diesem kleinen, theoretischen Beispiel sind allerdings bereits 128 verschiedene Wahrscheinlichkeiten möglich.38 Unter realistischen Bedingungen dürfte das Netzwerk zum einen eine weitaus größere Anzahl an Zufallsvariablen be- sitzen, für die zum anderen jeweils weit mehr als zwei Zustände existieren. Allgemein lässt sich die Anzahl der Kombinationen von Wertausprägungen der diskreten Zufallsvariablen durch folgende Formel angeben: [Abbildung in dieser Leseprobe nicht enthalten] wobei ri die Anzahl der möglichen Zustände der Zufallsvariable Xi (im Bayesschen Netzwerk existieren insgesamt n Zufallsvariablen) angibt. Doch nicht allein die gemeinsame Verteilung der Wahrscheinlichkeiten ist von Interesse, vielmehr geht es auch um die Ermittlung einer Wahrscheinlich- keitsfunktion für einzelne oder mehrere Zufallsvariablen. Solche Randwahr- scheinlichkeiten, wie sie auch bezeichnet werden, sind in der Abbildung 3 für die einzelnen Zufallsvariablen im Beispielnetz angegeben. Die Ermittlung der Randwahrscheinlichkeiten erfolgt dabei über die Methode der Marginalisierung.39 Hierbei werden die Wahrscheinlichkeiten der Zufalls- variablen, die eine für die zu ermittelnde Randwahrscheinlichkeit gemein- same Werteausprägung besitzen, aus der gemeinsamen Wahrscheinlich- keitsverteilung aussummiert.40 Die Bezeichnungen der Zufallsvariablen des Beispielnetzes aus Abbildung 3 werden nun für die mathematische Dar- stellung, wie nachfolgend aufgeführt, benannt.

Soll beispielsweise die Randwahrscheinlichkeit P(C) für C (Neuabschlüsse) bestimmt werden, so sind alle anderen Werte aus der gemeinsamen Verteilung auszusummieren. Es erfolgt sozusagen eine Projektion auf C. Mathematisch stellt sich das wie folgt dar:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Anpassung der Bezeichnungen der Zufallsvariablen aus Abbildung 3

Es ist durch die Marginalisierung außerdem möglich, bedingte Wahrschein- lichkeiten zu ermitteln. So könnte beispielsweise die Ermittlung der Wahr- scheinlichkeit des Ereignisses E (Steigerung Marktanteil), unter der Beding- ung dass C (Steigerung Neuabschlüsse) eingetreten ist, von Interesse sein.

Abbildung in dieser Leseprobe nicht enthalten

Bei genauerer Betrachtung der Anwendung dieser Formeln bleibt festzustellen: Zum einen sind nicht immer alle Werte der gemeinsamen Verteilung verfügbar, was sich zum anderen unter realistischen Bedingungen bei Vergegenwärtigung der unglaublich großen Anzahl an Wertaus- prägungen der Wahrscheinlichkeitsfunktion der gemeinsamen Verteilung, die sich gemäß Formel (1) berechnen lassen, noch verschärft bzw. bei Verfügbarkeit der Werte zu einem kaum darstellbaren Rechenaufwand führt.41 Daher soll im kommenden Abschnitt aufgezeigt werden, wie sich der Aufwand und die Anzahl der benötigten Werte für die Berechnung der gemeinsamen Verteilung durch die Anwendung von Unabhängig- keitsvoraussetzungen deutlich reduzieren lässt.42 Bevor dies geschieht, sollen im Folgenden noch einige dort verwendete Begriffe eingeführt werden. Ein Knoten Xi ∈ V wird als Vorfahre eines Knoten Xk ∈ V bezeichnet, falls es zwischen Xi und Xk einen gerichteten Pfad43 gibt. Die Menge der Vorfahren wird als anc(Xk) bezeichnet. Umgekehrt heißt Xk Nachfahre von Xi, wobei die Menge der Nachfahren als desc(Xi) bezeichnet wird. Ein Knoten Xk ∈ V wird als Nichtnachfahre von Xi bezeichnet, falls dieser disjunkt von Xi ist und auch kein Nachfahre von Xi ist.44 Die Menge der Nichtnachfahren soll nd(Xi) heißen. Ein Knoten Xi wird als Elternknoten von einem Knoten Xk (die Menge der Elternknoten wird pa(Xk) genannt) bezeichnet, falls eine gerichtete Kante nur Xi und Xk verbindet. Umgekehrt wird Xk als Kind von Xi bezeichnet. Die Menge der Kinder von Xi wird als ch(Xi) geschrieben.45 Der Markov-Blanket (Markovdecke) eines Knoten Xi besteht aus den Eltern von Xi, den Kindern von Xi sowie den anderen Eltern der Kinder von Xi. Formal lässt sich der Markov-Blanket (MB) somit durch folgende Beziehung ausdrücken MB (Xi)=p a (Xi) U ch (Xi) U pa (ch (Xi))\ Xi . 46

3.1.2 Bedingte Unabhängigkeit und d-Separation

Eine Alternative zur Berechnung der gemeinsamen Verteilung ist die An- wendung des Multiplikationssatzes für bedingte Wahrscheinlichkeiten:

P(X1,..., Xn) = P (X1)P(X2 X1) P (X3 X1,X2)⋅...⋅ P (X n X 1, , X n − 1 ) (2).47 Bei genauer- er Betrachtung der Formel (2) fällt wiederum die große Anzahl der verschie- denen Wertausprägungen dieser bedingten Wahrscheinlichkeiten48 auf. Unter der Annahme der wechselseitigen Unabhängigkeit aller Variablen ließe sich die gemeinsame Verteilung gemäß der vorher angewandten Produktregel durch folgende Gleichung darstellen: [Abbildung in dieser Leseprobe nicht enthalten] die Berechnung der gemeinsamen Wahrscheinlichkeitsverteilung wären damit nur noch n x ri Werte notwendig, wobei n wieder die Anzahl der Variablen und ri die Anzahl der Zustände der Variable i (1 ≤ i ≤ n) wäre. Diese Vereinfachungen der Produktregel ergeben sich aus der Tatsache, dass die Bedingungen P (Xi) = P (Xi Xj) sowie P (Xi, Xj) = P (Xi) P (Xj) gelten, wenn Xi und Xj unabhängig voneinander sind. Solche Unabhängigkeits- annahmen lassen sich für ein Bayessches Netzwerk allerdings nicht im Allgemeinen definieren. Vielmehr lassen sich grundsätzlich sogenannte Eigenschaften der bedingten Unabhängigkeit formulieren.49 Zwei Variablen Xi und Xj heißen bedingt unabhängig voneinander gegeben Xk, falls gilt [Abbildung in dieser Leseprobe nicht enthalten]50 Die Frage, die sich der geneigte Leser jetzt stellen mag, lautet: Zwischen welchen Zufallsvariablen bestehen solche bedingten Unabhängigkeitsbe- ziehungen ? Inwieweit sich solche bedingten Unabhängigkeitsbeziehungen aus der graphischen Struktur des Bayesschen Netzwerkes ablesen lassen, wird durch die globale Markoveigenschaft bestimmt. Diese besagt, falls zwei disjunkte Knotenmengen A, B ⊆ V durch eine dritte ebenfalls disjunkte Knotenmenge C ⊆ V d-separiert51 werden, folgt die bedingte Unabhängig- keitsbeziehung A ⊥ B ⏐ C.52 Dabei bleibt festzustellen, dass die Umkehrung der globalen Markoveigenschaft im Allgemeinen nicht gilt. Dies lässt sich wie folgt begründen: Die Menge der instanzierten Knoten C kann bei weiterer Gültigkeit des D-Separationskriteriums beliebig erweitert werden. Das be- dingte Unabhängigkeitskriterium der gemeinsamen Verteilung P kann dage- gen bei einer Vergrößerung der Menge C verloren gehen.53

Ein Graph G, bei dem aus allen D-Separationen solche bedingten Unab- hängigkeiten folgen, wird als Unabhängigkeitsgraph bezeichnet. Falls jede bedingte Unabhängigkeit der gemeinsamen Verteilung durch eine D- Separation im Graphen G ausgedrückt wird, wird dieser Abhängigkeitsgraph genannt. Sollten sich sowohl alle D-Separationen im Graphen G als beding- te Unabhängigkeiten in der gemeinsamen Verteilung P widerspiegeln als auch alle bedingten Unabhängigkeiten in P als D-Separationen im Graphen G sichtbar sein, wird der Graph G als perfekter Graph bezeichnet.54 BN mit gleichen Zufallsvariablen, aber unterschiedlicher Struktur, die die gleichen Unabhängigkeitsbeziehungen einer Wahrscheinlichkeitsverteilung abbilden, werden als äquivalent bezeichnet.55

Die D-Separation wird dabei wie folgt definiert: Zwei disjunkte Variablen (Knoten) in einem Bayesschen Netzwerk sind d-separiert, wenn es für alle Pfade zwischen A und C eine dazwischen liegende Variable B gibt, so dass die Verbindung entweder seriell oder divergierend ist und B instanziert ist (die Wertausprägung von B ist bekannt) oder die Verbindung ist konver- gierend und weder B, noch einer der Nachfahren von B sind instanziert.56 Eine Beschreibung der unterschiedlichen Verbindungsarten zwischen Knoten findet sich in der Abbildung 5.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: verschiedene Verbindungsarten in einem Bayesschen Netzwerk (Vgl. Jensen,

F. V.: Bayesian Networks and Decision Graphs, a.a.O. S.7)

Im Beispielnetz in Abbildung 3 bilden beispielsweise die Knoten Risiko- einschätzung, Betriebsergebnis und Shareholder Value eine serielle Ver- bindung. Ist der Wert von der Zufallsvariable Betriebsergebnis bekannt, so blockiert sie den Informationsfluss zwischen den anderen beiden Zufalls- variablen. Eine Änderung der Risikoeinschätzung hat bei gegebenen Be- triebsergebnis somit in unserem Beispiel keinen Einfluss auf die Zufalls- variable Shareholder Value. Analoges lässt sich auch über die divergierende Verbindung zwischen den Zufallsvariablen Neuabschlüsse, Betriebsergebnis und Marktanteil bei gegebenen Wert der Zufallsvariable Neuabschlüsse berichten. Bei der konvergierenden Verbindung zwischen Beraterprofil, Produkttest und Neuabschlüssen, existiert dagegen bei einem bekannten Wert der Zufallsvariable Neuabschlüsse oder einer ihrer Nachfahren eine bedingte Abhängigkeit zwischen Beraterprofil und Produkttest. Eine dieser Definition der D-Separation äquivalente Herangehensweise existiert mit dem Bayes-Ball-Algorithmus.57

Unter Anwendung der globalen Markoveigenschaft lassen sich für einzelne Knoten im Bayesschen Netzwerk folgende Regeln ableiten: Die lokale Markoveigenschaft besagt, dass eine Zufallsvariable Xi bedingt unabhängig von allen Nichtnachfahren gegeben die Wertausprägung ihrer Eltern ist. Formal lässt sich dies gemäß der im Abschnitt 3.1.1 eingeführten Bezeichnungen schreiben als Xi ⊥ nd(Xi) ⏐ pa(Xi).58 So ist in dem Beispiel aus Abbildung 3 die Zufallsvariable Neuabschlüsse bedingt unabhängig von der Risikoeinschätzung (Nichtnachfahre) gegeben die Eltern Produkttest und Beraterprofil der Zufallsvariable Neuabschlüsse. Die geordnete Markov- eigenschaft besagt, dass eine Zufallsvariable Xi bedingt unabhängig von ihren Vorgängern gegeben die Eltern von Xi ist (Xi ⊥ anc(Xi) ⏐ pa(Xi)).59 So ist im Beispielnetz die Zufallsvariable Betriebsergebnis bedingt unabhängig von den Zufallsvariablen Produkttest sowie Beraterprofil, falls die Eltern- knoten Risikoeinschätzung und Neuabschlüsse gegeben sind. Die Berech- nung der gemeinsamen Verteilung lässt unter Beachtung der benannten bedingten Unabhängigkeiten (geordnete und lokale Markoveigenschaft) wie Abbildung in dieser Leseprobe nicht enthalten 60 Das bedeutet, dass für die Ermittlung der gemeinsamen Verteilung nur bedingte Wahrschein- lichkeiten, die den unterschiedlichen Wertausprägungen der Elternknoten Rechnung tragen, benötigt werden. Für elternlose Knoten werden lediglich sogenannte a priori Wahrscheinlichkeiten gebraucht. Es lässt sich außerdem noch die weitere Eigenschaft ableiten, dass eine Zufallsvariable Xi bedingt unabhängig von allen Zufallsvariablen, die nicht zum Markov-Blanket gehören ([Abbildung in dieser Leseprobe nicht enthalten] MB(Xi)), gegeben den Markov-Blanket MB(Xi) ist.61

3.1.3 Inferenz in Bayesschen Netzwerken

Im folgenden Abschnitt soll die Idee der Inferenz kurz geklärt werden. Sie hat für die Zwecke dieser Arbeit nur eine untergeordnete Bedeutung, ist aller- dings für das Verständnis Bayesscher Netze im Allgemeinen, aber auch von einigen Lernverfahren unerlässlich. Ihre Hauptverwendung liegt vielmehr auf dem Gebiet des Schließens unter Unsicherheit beispielsweise in Experten- systemen.62 Die Inferenz, die zum Teil auch als Propagation bezeichnet wird,63 ist eine Methode, die neue Informationen (sogenannte Evidenzen) nutzt, um die gemeinsame Verteilung bzw. die Randwahrscheinlichkeiten zu aktualisieren. Eine Evidenz ist dabei, als Kenntnis der Wertausprägung einer Teilmenge der Variablen zu verstehen. Bei der Berechnung der Randwahr- scheinlichkeiten der Variablen Xi ∈ V, für die keine Evidenz vorhanden ist, wird dabei folgende Formel angewandt:[Abbildung in dieser Leseprobe nicht enthalten] (4). E steht dabei für die Teilmenge der Variablen, für die eine Evidenz vorliegt. Im Übrigen kann auf analoge Weise die Ermittlung der angepassten gemeinsamen Wahrscheinlichkeitsverteilung erfolgen. Die Berechnung der Wahrschein- lichkeit P(Xi,E)64 kann dabei wieder über das bereits vorgestellte Konzept der Marginalisierung unter Nutzung der bedingten Unabhängigkeitsbezieh- ungen erfolgen.65 Zur Verdeutlichung des Konzeptes der Inferenz wird nun wieder das Einführungsnetzwerk aus Abbildung 3 herangezogen. Wobei in diesem Fall die Kenntnis vorausgesetzt sei, dass die Zufallsvariable Neuab- schlüsse die Wertausprägung steigend annimmt. Wie sich unter diesen Be- dingungen die Randwahrscheinlichkeiten der anderen Zufallsvariablen ent- wickeln, ist in der Abbildung 6 ablesbar.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: Randwahrscheinlichkeiten bei Evidenz (Neuabschluesse = steigend)

Bei den Verfahren der Inferenz lässt sich grundsätzlich in exakte und approximative Methoden unterscheiden. Exakte Methoden bieten den Vorteil einer grundsätzlich genauen Berechnung der Wahrscheinlichkeiten, gehen dabei häufig einher mit einem in Abhängigkeit von der Anzahl der Knoten exponentiellen Berechnungsaufwand. Um akzeptable Berechnungszeiten zu ermöglichen, werden approximative Methoden angewandt, die die Wahr- scheinlichkeiten hinreichend genau schätzen.66 Bei den exakten Varianten werden die Methoden dabei nach der Art der Zufallsvariablen oder des Graphen unterschieden. Bei Graphen, bei denen zwischen jedem möglichen Paar von disjunkten Knoten maximal ein Pfad existiert, was auch als Poly- baum bezeichnet wird,67 gibt es zum Beispiel einen von Pearl entwickelten Algorithmus.68 Dieser nutzt die Tatsache aus, dass nur solche einfachen Verbindungen zwischen den Knoten existieren. Somit kann modellhaft davon ausgegangen werden, dass die aktualisierte Wahrscheinlichkeitsverteilung eines Knotens nach Kenntnis der Evidenzen nur durch sogenannte λ- Nachrichten von den Kindern sowie durch π- Nachrichten von den Eltern eines Knotens bestimmt wird.69 Bei approximativen Methoden werden durch Simulation (unter Anwendung der gemeinsamen Verteilung) bzw. durch systematische Ermittlung N Stichproben von Wertausprägungen der Zufalls- variablen gebildet. Die bedingten Wahrscheinlichkeiten werden dabei anhand des Anteils einer bestimmten Wertausprägung der Variablen Xi und der Evi- denzen E im Verhältnis zur Gesamtzahl der möglichen Wertausprägungen in der Stichprobe errechnet. Die Werte für diese bedingten Wahrscheinlich- keiten werden dabei um so genauer, je größer die Stichprobe ist.70

3.2 Dynamische Bayessche Netzwerke

In den bisherigen Ausführungen wurde davon ausgegangen, dass die ver- wendeten Zufallsvariablen einen statischen Charakter besitzen. Vorgänge in Unternehmen sind aber im Allgemeinen von dynamischer Natur. Um solche intertemporalen Abhängigkeiten zwischen Zufallsvariablen zu verdeutlichen, könnte das eine einfache Balanced Scorecard darstellende Beispiel aus Ab- bildung 3 auf zwei Zeitpunkte erweitert werden, wie es nachfolgend aufge- führt geschehen ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: Beispiel eines Dynamischen Bayesschen Netzwerkes

So kann beispielsweise die Qualität der Risikoeinschätzung eines ver- gangenen Zeitraums auch die Qualität der Zukunft beeinflussen, da z.B. aus Fehlern gelernt wurde. Es wäre außerdem denkbar, dass die Zahl der Neuabschlüsse in der Vergangenheit Auswirkungen auf das Betriebsergeb- nis in der Zukunft hat, weil sie als Bestandsgeschäft die Prämieneinnahmen der Zukunft mitbestimmen. Diese Überlegungen wurden noch einmal in der Abbildung 7 zusammengefasst, wobei intertemporale Beziehungen mit gestrichelten und statische mit durchgezogenen Linien dargestellt werden.

Das Vorgehen der Anbindung von Bayesschen Netzwerken aus späteren Zeitpunkten an das die früheren Zeitpunkte umfassende Bayessche Netz- werk in diesem Beispiel entspricht auch der grundsätzlichen Herangehens- weise bei der Bildung eines Dynamischen Bayesschen Netzwerkes (DBN).71 Ein Bayessches Netzwerk, welches einen einzelnen Zeitpunkt symbolisiert, wird dabei auch als Zeitscheibe bezeichnet.72 Diese Erweiterung der Bayesschen Netzwerke zur Modellierung von temporalen Prozessen hat aber den Nachteil, dass mit zunehmender Anzahl an Zeitscheiben der Speicher- und Rechenaufwand zur Handhabung dieser Netzwerke kaum darstellbar wird. Aus diesem Grund sowie der Tatsache, dass diese stochastischen Prozesse teilweise bestimmten Regelmäßigkeiten folgen, wird nachfolgend davon ausgegangen, dass sich das DBN durch lediglich zwei Bayessche Netzwerke darstellen lässt.73

Dabei handelt es sich zum einen um das Bayessche Priornetzwerk, welches den Startpunkt des Prozesses mit einem eigenen gerichteten Graphen G0 symbolisiert, zum anderen um das Bayessche Übergangsnetzwerk, welches die intertemporalen Beziehungen sowie die nach dem Priornetzwerk fol- gende Struktur in den einzelnen Zeitpunkten definiert. In der Abbildung 8(a) sind allgemeine Beispiele für beide Netze angegeben. Nachfolgend wird von einem zeitdiskreten Prozess ausgegangen. Aus diesem Grund werden die Variablen auch mit t indexiert, was sie eindeutig zu einem Zeitpunkt zuord- net. Das Bayessche Priornetzwerk spezifiziert außerdem noch eine gemein- same Wahrscheinlichkeitsverteilung P0 über die Menge der Ausgangs- variablen X0 (Xi0 ∈ X0 ). Das Bayessche Übergangsnetzwerk definiert einerseits einen DAG G→ über die Menge der Variablen X[t] ∪ X[t + 1], andererseits wird gleichzeitig eine Übergangswahrscheinlichkeitsverteilung [Abbildung in dieser Leseprobe nicht enthalten] für alle Zeitpunkte t über → i =0 diesen Variablen spezifiziert. Die Menge pa(Xi[t+1]) kann dabei sowohl Zufallsvariablen in der Menge X[t] als auch X[t+1] umfassen, wobei die Variablen in diesen Mengen jeweils den gleichen Wertebereich haben.74 Anhand der Definition der Übergangswahrscheinlichkeitsverteilung wird auch die temporale Markoveigenschaft75 erkennbar, die besagt, dass die Menge der Zufallsvariablen X[t+1] bedingt unabhängig von X[τ] mit 0 ≤ τ < t gegeben X[t] ist. Was sich auch als P(X[t + 1] X0,..., X[t]) = P(X[t + 1] X[t]) schreiben lässt. Informal bedeutet dies, dass eine Variable Xi[t+1] in der Zukunft nur durch eine Variable Xi[t] der Gegenwart und nicht durch Werte aus der Vergangenheit beeinflusst werden kann.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8: Das Bayessche Prior - und Übergangsnetzwerk werden in (a) dargestellt. Das resultierende ausgerollte DBN für T=2 wird in (b) gezeigt. Vgl. Friedman, N. u.a.: Learning the Structure of Dynamic Probabilistic Networks, a.a.O., S. 140.

Als weitere wichtige Vereinfachung von DBN wird außerdem angenommen, dass die Übergangswahrscheinlichkeiten P(X[t + 1] X[t]) für alle Zeitpunkte gleich sind, womit der dargestellte Prozess auch als stationär bezeichnet wird.76

In der Literatur finden sich noch Erweiterungen dieses Ansatzes, bei denen im Zeitverlauf von wechselnden Strukturen ausgegangen wird.77 Diese sollen aus Gründen der Einfachheit hier allerdings nicht betrachtet werden. Wird das DBN ausgerollt mit allen T Zeitscheiben dargestellt, entsteht ein Netzwerk, wie es in Abbildung 8 (b) sichtbar ist. Die zugehörige gemeinsame Wahrscheinlichkeitsverteilung lautet wie folgt:

Abbildung in dieser Leseprobe nicht enthalten

Wie gezeigt wurde, stellen DBN lediglich eine Erweiterung der BN dar. Somit sind grundsätzlich auch die Eigenschaften der Bayesschen Netzwerke auf die DBN übertragbar. So sind beispielsweise auch die Methoden der Inferenz in Bayesschen Netzwerken bei DBN verwendbar. Um eine effiziente Implementierung zu ermöglichen, werden teilweise spezielle Methoden angewandt.79

In praktischen Anwendungsfällen ist es allerdings häufig so, dass zwischen Zufallsvariablen, die in mehr als eine Zeiteinheit auseinanderliegenden Zeit- scheiben zu finden sind, Beziehungen bestehen. Aus diesem Grund werden versteckte Variablen in das Bayessche Netzwerk eingeführt, die die Gültigkeit der temporalen Markoveigenschaft sicherstellen sollen.80 Solche versteckte Zufallsvariablen überbrücken somit solche langfristigen Be- ziehungen und reduzieren sie auf Verbindungen von Zufallsvariablen in direkt benachbarten Zeitscheiben. Diese zusätzlichen Variablen übernehmen direkt die Funktion von beobachtbaren Zufallsvariablen aus früheren Zeitscheiben. Dieser Ansatz widerspricht damit auch nicht dem Anliegen dieser Arbeit, Ursache-/Wirkungsbeziehungen explizit und semantisch eindeutig zu identifizieren.

4 Theorie der Verfahren zum Maschinellen Lernen von Bayesschen Netzwerken

4.1 Grundlagen des Maschinellen Lernens

4.1.1 Definition und Abgrenzung des Maschinellen Lernens

Nachdem im letzten Kapitel Bayessche Netzwerke formal und anhand von Beispielen eingeführt wurden, sollen hier die theoretischen Grundlagen für ihr computergestütztes Erlernen gelegt werden. Bevor dies geschieht, soll zunächst der Begriff des Maschinellen Lernens geklärt werden.

Das Maschinelle Lernen wird trotz unterschiedlicher Definitionen81 grund- sätzlich als Teilprozess der Wissensentdeckung in Datenbanken (Knowledge Discovery in Databases (KDD)) angesehen. Es bildet als Teil des Data Mining den Kern der Wissensentdeckung.82 „Ziel des Data Mining ist [dabei] die automatische und nichttriviale Suche nach [impliziten] Wissen in Massendaten.“83 Als Spezialfall des Data Mining lässt sich der Prozess des Maschinellen Lernens wie folgt definieren: „Jedes System, das seine Performanz hinsichtlich einer bestimmten Aufgabe auf der Basis gesammelter Erfahrungen [(Trainingsdaten)] verbessern kann, [implementiert] Maschinelles Lernen.“84 Die Trainingsdaten, von denen neues Wissen generiert werden soll, stellen eine zufällige bzw. willkürliche Stichprobe aus der Grundgesamtheit dar.85

Der Prozess des KDD unterteilt sich dabei grob in folgende Phasen:

- Anforderungs- und Machbarkeitsanalyse, Analyse des Anwendungsgebietes,
- Datenauswahl- und Datenvorbereitung,
- Data Mining/Maschinelles Lernen,
- Interpretation und Bewertung.86

In den folgenden Abschnitten werden nach einer kurzen Einführung die Methoden zum Maschinellen Lernen theoretisch vorgestellt. Anschließend wird im nächsten Kapitel die Anwendung dieser Verfahren zum Erlernen einer Balanced Scorecard für Versicherungsunternehmen aus Daten dargestellt. Hierbei wird aus praktischen Gesichtspunkten auch auf die anderen Teilprozesse des KDD eingegangen.

4.1.2 Grundlagen des Maschinellen Lernens von Bayesschen Netzwerken

Beim Maschinellen Lernen von Bayesschen Netzwerken wird grundsätzlich zwischen dem Lernen der Parameter (der bedingten Wahrscheinlichkeiten) bei gegebenen Graphen und der Ermittlung der graphischen Struktur und der Parameter des Bayesschen Netzwerkes unterschieden.87

Das Erlernen der Parameter unterteilt sich in die objektiven und die sub- jektiven (Bayesschen) Verfahren, was auch die Ansätze in der Wahrschein- lichkeitstheorie widerspiegelt. Beim objektiven Ansatz werden die bedingten Wahrscheinlichkeiten allein anhand der gegebenen Trainingsdaten bestimmt. Während beim subjektiven Ansatz bereits eine Meinung über die Art der Ver- teilung der Wahrscheinlichkeiten existiert, die durch die Daten weiter spezifiziert wird.88 Bei den Lernverfahren wird wieder ohne Beschränkung der Allgemeinheit von diskreten Zufallsvariablen ausgegangen. Die Ver- fahren zum Erlernen der Parameter sind dabei bei dem in dieser Arbeit zum Tragen kommenden Ansatz der gleichzeitigen Berücksichtigung aller Trai- ningsdaten (sogenanntes Offline-Lernen) auch auf die Dynamischen Bayesschen Netzwerke übertragbar.89

Beim Erlernen der Struktur von Bayesschen Netzwerken werden grund- sätzlich zwei Herangehensweisen unterschieden: der metrikbasierte Ansatz, bei dem Kandidatennetzwerke mit einem Qualitätsmaß verglichen werden, sowie der testbasierte Ansatz (wird im Allgemeinen als constraint-based be- zeichnet), bei dem ein Graph explizit aus den vorhandenen Trainingsdaten z.B. auf der Grundlage von Tests zur bedingten Unabhängigkeit konstruiert wird.90 Beide Ansätze werden in eigenen Abschnitten ausführlich vorgestellt. Zunächst werden noch einige Ausführungen zum metrikbasierten Lernen der Struktur von BN angestellt: Die zu verwendenden Kandidatennetzwerke, die aus den Trainingsdaten über noch vorzustellende Methoden (z.B. contraint- based) ermittelt wurden, werden hinsichtlich einer Maßgröße (Performanz, Metrik) miteinander verglichen. Ein solches Qualitätsmaß besteht dabei in der Regel aus drei Komponenten: einer Maßgröße, die vorhandenes Priorwissen berücksichtigt (um so höher desto besser Kandidatennetzwerk zu diesem Wissen passt), einem Qualitätsmaß, das die Daten wertet (um so höher je mehr Daten für das zu bewertende BN sprechen) sowie einem Bestandteil, der die Komplexität des Kandidatennetzwerkes untersucht (Maßzahl ist um so niedriger je höher die Komplexität ist). Die Komplexität wird dabei z.B. über die Anzahl der Verbindungen zwischen den Knoten ge- messen.91 Auf Grund der Tatsache, dass die Zahl der Kandidatennetzwerke (DAG) mit der Anzahl der Knoten mehr als exponentiell wächst,92 wird die Suche des laut der Maßgröße optimalen Netzwerkes nach heuristischen Prinzipien auf eine sinnvolle Teilmenge beschränkt.93 Diese Vorgehensweise wird angewandt, da eine ausführliche Suche über alle möglichen Strukturen praktisch nicht durchführbar ist.94 Die Methoden für das Erlernen der Struktur werden in den folgenden Abschnitten sowohl für Allgemeine als auch für Dynamische Bayessche Netzwerke vorgestellt.

[...]


1 Vgl. Weber, J. u. Schäffer, U.: Balanced Scorecard & Controlling - Implementierung- Nutzen für Manager und Controller - Erfahrungen in deutschen Unternehmen, 2. Auflage, Wiesbaden, 2000, S. 1 f.

2 Vgl. Pietsch, T. u. Memmler, T.: Balanced Scorecard erstellen - Kennzahlenermittlung mit Data Mining, Berlin 2003, S. 130.

3 Vgl. Jensen, F. V.: Bayesian Networks and Decision Graphs, New York, USA, 2001, S. 19. 1

4 siehe Perederij, W.: Einsatz von Data Mining Verfahren zur Erstellung einer Balanced Scorecard aus standardisierten Kennzahlen einer Versicherungsdatenbank, Frankfurt/Oder, Univ., Diplomarbeit, 2002.

5 Vgl. Romeike, F.: Balanced Scorecard in Versicherungen- Strategien erfolgreich in der Praxis umsetzen, Wiesbaden, 2003, S. 35 f.

6 siehe Müller, A.: Strategisches Management mit der Balanced Scorecard, Stuttgart 2000, S. 15 ff.

7 Vgl. Weber, J. u. Schäffer, U.: Balanced Scorecard & Controlling, a.a.O., S. 2 f.

8 Vgl. Kaplan, R. u. Norton, D.: Balanced Scorecard, Stuttgart, 1997, S. 23.

9 siehe Weber, J. u. Schäffer, U.; Balanced Scorecard & Controlling, a.a.O., S. 6 f.

10 Vgl. Romeike, F.: Balanced Scorecard in Versicherungen, a.a.O., S. 85.

11 Farny, D.: Versicherungsbetriebslehre, 3. Auflage, Karlsruhe, 2000, S. 35.

12 Vgl. Daum, A. u.a.: Balanced Scorecard braucht mehr als nur die richtigen Zahlen - Einsatz in der internationalen Rückversicherung zur erfolgsorientierten Steuerung, in: Versicherungswirtschaft, (17) 2002, S. 1314.

13 Vgl. Mayer, R. u. Ahr, H.: Translating strategy into action - Strategieimplementierung mit der Balanced Scorecard in Versicherungsunternehmen; in: Zeitschrift für die gesamte Versicherungswirtschaft, (04) 2000, S. 678.

14 siehe Kaplan, R. u. Norton, D.: Balanced Scorecard, a.a.O., S. 153.

15 Vgl. Müller, A.: Strategisches Management, a.a.O., S.117 f.

16 Vgl. Grötzinger, M.: Im dynamischen Wettbewerb erfolgreich agieren, in: Versicherungskaufmann, (02) 2000, S. 47.

17 Vgl. Weber, J. u. Schäffer, U.: Balanced Scorecard & Controlling, a.a.O., S. 48.

18 Vgl. Kaplan, R. u. Norton, D.: Balanced Scorecard, a.a.O., S. 151 f.

19 Vg. ebenda, a.a.O., S.187.

20 Vgl. Ruhtz, V.: Die Balanced Scorecard im Praxistest: Wie zufrieden sind Anwender ?, Pricewaterhouse Coopers Deutsche Revision Aktiengesellschaft Wirtschaftsprüfungsgesellschaft, Frankfurt/Main, 2001, S. 7.

21 siehe ebenda, S. 34.

22 Vgl. ebenda, S. 23.

23 Müller, A.: Strategisches Management, a.a.O., S.111.

24 Es gibt zwischen einer oder mehreren Größen einen stochastischen (zufallsbedingten) Zusammenhang. Je nach Stärke des Zusammenhangs ist eine mehr oder weniger präzise Merkmalsvorhersage (Regression) möglich. Der Korrelationskoeffizient misst dabei den Zusammenhang (seine Werte liegen im Intervall zwischen -1 und 1; -1 gibt einen gegenläufigen, 1 einen gleichläufigen, 0 keinen (linearen) Zusammenhang an). Vgl. Bortz, J.: Statistik für Sozialwissenschaftler, 5. Auflage, Berlin, 1999, S. 173 f.

25 siehe Weber, J. u. Schäffer, U.: Balanced Scorecard & Controlling, a.a.O., S. 8 f.

26 Vgl. Bortz, J.: Statistik für Sozialwissenschaftler, a.a.O., S. 226.

27 Vgl. Müller, A..: Strategisches Management, a.a.O., S. 111 f.

28 Vgl. Perederij, W.: Einsatz von Data Mining Verfahren zur Erstellung einer Balanced Scorecard aus standardisierten Kennzahlen einer Versicherungsdatenbank, a.a.O., S. 2.

29 „Ein gerichteter Graph oder Digraph (kurz für „directed graph“) ist ein [...] Paar G=(V,E) aus einer endlichen Menge V und einer Menge E von geordneten Paaren (a,b) mit a ≠ b aus V. Die Elemente von V heißen [...] Punkte („points“) und die von E Kanten („edges“); zur Unterscheidung vom ungerichteten Fall ist auch die Bezeichnung Bogen („arc“) statt Kante üblich.“ Jungnickel, D.: Graphen, Netzwerke und Algorithmen, 3. Auflage, Mannheim, 1994, S. 46.

30 Vgl. Charniak, E.: Bayesian Networks without Tears, in: Artificial Intelligence Magazine, (12) 1991, S. 51.

31 Vgl. Beierle, C. u. Kern-Isberner, G.: Methoden wissensbasierter Systeme - Grundlagen - Algorithmen - Anwendungen, 2. Auflage, Wiesbaden, 2003, S. 332 f.

32 Die Begriffe Knoten und Zufallsvariable (Kennzahl) werden in dieser Ausarbeitung äquivalent genutzt.

33 Vgl. Jensen, F. V.: Bayesian Networks and Decision Graphs, a.a.O., S. 19 ff.

34 Vgl. Borgelt, C.: Data Mining with Graphical Models, Magdeburg, Univ., Diss., 2000, S. 99. 10

35 Vgl. Charniak, E.: Bayesian Networks without Tears, a.a.O., S. 50.

36 siehe Pearl, J.: Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference, San Mateo, USA, 1988.

37 Eine Zufallsvariable Xi ∈ V hat dabei ri Zustände (Wertausprägungen), wird sie im Text als gegeben bezeichnet, so ist ihre Wertausprägung bekannt.

38 Die Berechnung der Anzahl der Wertausprägungen ergibt sich durch folgende Formel: n =2 7 =128, da sich die Summe der Einzelwahrscheinlichkeiten zu 1 addiert, reichen bereits 127 Werte aus, um die unterschiedlichen Werte der gemeinsamen Verteilung der Wahrscheinlichkeiten P zu bestimmen. Formel Vgl. Charniak, E.: Bayesian Networks without Tears, a.a.O., S. 52 f.

39 Vgl. Bohley, P.: Statistik - Einführendes Lehrbuch für Wirtschafts- und Sozialwissenschaftler, 7. Auflage, München 2000, S. 433.

40 Vgl. Beierle, C. u. Kern-Isberner, G.: Methoden wissensbasierter Systeme, a.a.O., S. 408.

41 Vgl. Neapolitan, R. E.: Learning Bayesian Networks, Chicago, USA, 2004, S. 36.

42 Vgl. Charniak, E.: Bayesian Networks without Tears, a.a.O., S. 53.

43 Sei G=(V,E) ein gerichteter Graph. V ist dabei wieder die Menge der Knoten, E ist die Menge der Kanten. Seien A, B ∈V, so gibt es zwischen ihnen einen gerichteten Pfad, falls es eine Sequenz disjunkter Knoten C1,..., Ck, k ≥ 2, mit C1=A und Ck =B gibt, für die ∀ i, 1 i < k gilt (Ci,Ci+1) ∈ E. Gilt (Ci,Ci+1) ∈ E ∨ (Ci+1,Ci), so wird die Verbindung Pfad genannt. Vgl. Borgelt, C.: Data Mining with Graphical Models, a.a.O., S. 98 f.

44 Vgl. Borgelt, C.: Data Mining with Graphical Models, a.a.O., S. 99.

45 Vgl. Castillo, E. u.a.: Expert Systems and Probabilistic Networks Models, New York, USA, 1997, S. 122.

46 Vgl. Murphy, K. P.: Dynamic Bayesian Networks: Representation, Inference and Learning, Berkeley, Karlifornien USA, Univ., Diss., 2002, S. 124.

47 Vgl. Hartung, J. u.a.: Statistik - Lehr- und Handbuch der angewandten Statistik, 13. Auflage, München, 2002, S. 100.

48 Welche bedingten Wahrscheinlichkeiten dabei für die Berechnung der gemeinsamen Verteilung benötigt werden, hängt von der Art der Anordnung der Zufallsvariablen ab. Unterschiedliche Anordnungen der Zufallsvariablen und damit unterschiedliche Ausprägungen der Anwendung des Multiplikationssatzes bedingter Wahrscheinlichkeiten ergeben allerdings identische gemeinsame Verteilungen, so dass die Anordnung grundsätzlich keine Rolle spielt. Wie sich noch zeigen wird, folgt die Anordnung der bedingten Wahrscheinlichkeiten in einem Bayesschen Netzwerk allerdings bestimmten Regeln.

49 Vgl. Charniak, E.: Bayesian Networks without Tears, a.a.O., S. 53.

50 Vgl. Beierle, C. u. Kern-Isberner, G.: Methoden wissensbasierter Systeme, a.a.O., S. 416.

51 A, B wird d-separiert durch C, wird geschrieben als 〈A⏐C⏐B〉.

52 Vgl. Borgelt, C.: Data Mining with Graphical Models, a.a.O., S. 107.

53 Vgl. Beierle, C. u. Kern-Isberner, G.: Methoden wissensbasierter Systeme, a.a.O., S. 337. 14

54 Vgl. Borgelt, C.: Data Mining with Graphical Model, a.a.O., S. 104.

55 Vgl. Neapolitan, R. E.: Learning Bayesian Networks, a.a.O., S. 88 f.

56 Vgl. Jensen, F. V.: Bayesian Networks and Decision Graphs, a.a.O., S. 7 f.

57 siehe Shachter, R.: Bayes-ball: The rational pastime (for determining irrelevance and requisite information in belief networks and influence diagrams), in UAI ,1998.

58 Vgl. Cowell, R. G. u.a.: Statistics for Engineering and Information Science- Probabilistic Networks and Expert Systems, New York, USA 1999, S. 73.

59 Vgl. ebenda, a.a.O., S. 73 f.

60 Vgl. Murphy, K. P.: Dynamic Bayesian Networks, a.a.O., S.125.

61 Vgl. Beierle, C. u. Kern-Isberner, G.: Methoden wissensbasierter Systeme, a.a.O., S. 339.

62 Vgl. Cowell, R. G. u.a.: Statistics for Engineering and Information Science, a.a.O., S. 21 f.

63 Vgl. ebenda, a.a.O., S. 95 f.

64 P (X i, E) = ∑ P (X 1,... X n) Es wird dabei über alle Variablen außer Xi und die V \{Xi,E} Teilmenge der Evidenzen aussummiert.

65 Vgl. Castillo, E. u.a.: Expert Systems and Probabilistic Networks Models, a.a.O., S. 318 f. 17

66 Vgl. Charniak, E.: Bayesian Networks without Tears, a.a.O., S. 56 ff.

67 Vgl. Borgelt, C.: Data Mining with Graphical Model, a.a.O., S. 100.

68 siehe Lauritzen, S.L. and Spigelhalter, D.: Local computation with probabilities on graphical structures and their applications to expert systems (with discussions), in: Journal of Royal Statistical Society, Series B 50, 1988, S. 157 ff.

69 Vgl. Neapolitan, R. E.: Learning Bayesian Networks, a.a.O., S. 129 f.

70 Vgl. Castillo, E. u.a.: Expert Systems and Probabilistic Networks Models, a.a.O., S. 395 f. 19

71 Vgl. Brandherm, B.: Rollup- Verfahren für komplexe dynamische Bayessche Netze, Saarbrücken, Univ., Diplomarbeit, 2000, S. 41.

72 Lerner, U.N.: Hybrid Bayesian Networks for Reasoning about Complex systems, Stanford, USA, Univ., Diss., 2002, S. 128.

73 Vgl. Friedman, N. u.a.: Learning the Structure of Dynamic Probabilistic Networks, in: Uncertainty in Artificial Intelligence; Proceedings of the Fourteenth Conference, hrsg. v. G.F. Cooper u. S. Moral, San Mateo, Carlifornia, 1998, S. 140.

74 Vgl. Neapolitan, R. E.: Learning Bayesian Networks, a.a.O., S. 267 f.

75 Hinweis: Die temporale Markoveigenschaft wird in dieser Arbeit zum Zwecke der Abgrenzung von den anderen Markoveigenschaften so bezeichnet.

76 Vgl. Friedman, N. u.a.: Learning the Structure of Dynamic Probabilistic Networks, a.a.O., S. 140.

77 siehe Murphy, K. P.: Dynamic Bayesian Networks, a.a.O., S. 45.

78 Vgl. Neapolitan, R. E.: Learning Bayesian Networks, a.a.O., S. 268.

79 siehe Murphy, K. P.: Dynamic Bayesian Networks, a.a.O., S. 58 ff.

80 siehe Ghahramani, Z.: Learning Dynamic Bayesian Networks, in: Lecture Notes in Artificial Intelligence 1387 - Adaptive Processing of Sequences and Data Structures, hrsg. v. C. Lee Giles u. M. Gori, New York, 1998, S. 173 ff.

81 siehe Herrmann, J.: Maschinelles Lernen und Wissensbasierte Systeme - Systematische Einführung mit praxisorientierten Fallstudien, Berlin, 1997, S. 15 ff.

82 Vgl. Beierle, C. u. Kern-Isberner, G.: Methoden wissensbasierter Systeme, a.a.O., S. 144.

83 Lusti, M.: Data Warehousing and Data Mining - Eine Einführung in entscheidungsunterstützende Systeme, 2. Aufl., Berlin, 2002, S. 260.

84 Wittig, F.: Maschinelles Lernen Bayes’scher Netze für benutzeradaptive Systeme, Saarbrücken, Univ., Diss., 2002, S. 57.

85 Vgl. Neapolitan, R. E.: Learning Bayesian Networks, a.a.O., S. 19.

86 Vgl. Nakhaeizadeh, G.: Wissensentdeckung in Datenbanken und Data Mining: Ein Überblick, in: Data Mining - Theoretische Aspekte und Anwendungen, hrsg. v. G. Nakhaeizadeh, Heidelberg, 1998, S. 4.

87 Vgl. Beierle, C. u. Kern-Isberner, G.: Methoden wissensbasierter Systeme, a.a.O., S. 367 f.

88 Vgl. Cowell, R. G. u.a.: Statistics for Engineering and Information Science, a.a.O., S. 189 f. 25

89 Vgl. Murphy, K. P.: Dynamic Bayesian Networks, a.a.O., S.105.

90 Vgl. Wittig, F.: Maschinelles Lernen Bayes’scher Netze für benutzeradaptive Systeme, a.a.O., S. 100 f.

91 Vgl. Castillo, E. u.a.: Expert Systems and Probabilistic Networks Models, a.a.O., S. 484 ff.

92 Die Gesamtzahl an möglichen DAG f(n) in Abhängigkeit von der Anzahl der Knoten berechnet sich durch folgende rekursive Gleichung: [Abbildung in dieser Leseprobe nicht enthalten]Dabei gilt n>2 sowie f(0)=1,und f(1)=1. Vgl. Robinson, R.W.: Counting Unlabeled Acyclic Digraphs, in Lecture Notes in Mathematics: Conditional Mathematics V, New York, 1977, S. 28 ff.

93 Vgl. Borgelt, C.: Data Mining with Graphical Models, a.a.O., S. 164.

94 Siehe Chickering, D.M.: Learning Bayesian networks is NP-complete, In: Learning from Data: Artificial Intelligence and statistics V, hrsg. v. D. Fisher u. H.-J. Lenz, New York, 1996, S. 121 ff.

Details

Seiten
120
Jahr
2004
ISBN (eBook)
9783638324427
ISBN (Buch)
9783638703550
Dateigröße
1.7 MB
Sprache
Deutsch
Katalognummer
v31430
Institution / Hochschule
Universität Leipzig
Note
1,3
Schlagworte
Maschinelles Lernen Balanced Scorecard Versicherungsunternehmen Gestalt Bayesschen Netzwerken

Autor

Zurück

Titel: Maschinelles Lernen einer Balanced Scorecard für Versicherungsunternehmen in Gestalt von Bayesschen Netzwerken