Lade Inhalt...

Konzepte und Werkzeuge zum Online Analytical Processing

Seminararbeit 2008 45 Seiten

Informatik - Internet, neue Technologien

Leseprobe

Inhaltsverzeichnis

Darstellungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

1 Einleitung

2 Grundlagen
2.1 Begriffsbestimmung und Abgrenzung
2.2 Fast Analysis of Shared Multidimensional Information
2.3 Multidimensionale Datenstruktur

3 Interaktion mit Daten und Informationen
3.1 Architekturkomponenten und Technologie
3.2 Funktionalitäten
3.3 Anforderungen an die Datenhaltung

4 OLAP Anbieter und Produkte

5 Praxisbeispiel
5.1 Beispielhafte Darstellung der Funktionalitäten
5.2 OLAP Datenmodellierung mit Praxisbeispiel
5.3 OLAP-System PALO

6 Zusammenfassung

Quellenverzeichnis

Anhangsverzeichnis

Darstellungsverzeichnis

Abbildung 1: ROLAP

Abbildung 2: HOLAP

Abbildung 3: DOLAP

Abbildung 4: Entstehung dünn besetzter Matrizen

Abbildung 5: OLAP-TOOL PALO in MS Excel

Abbildung 6: Mehrdimensionales Informationsobjekt

Abbildung 7: Dimensionshierarchie Beispiel

Abbildung 8: OLAP Funktionen

Abbildung 9: Datenbankexplosion - Prekalkulation

Abbildung 10: OLAP Datenmodellierung

Abbildung 11: Beispielhaftes Semantisches ADAPT Datenmodell

Abbildung 12: Beispielhafte logische ROLAP Datenstruktur

Abbildung 13: Bildung der Faktentabelle

Abbildung 14: Bildung der denormalisierten Dimensionstabellen

Abbildung 15: Normalisierung der Dimensionstabellen

Abbildung 16: Physische Datenstruktur für das ROLAP

Tabellenverzeichnis

Tabelle 1: Vergleich der OLAP Architekturen

Tabelle 2: OLAP Anbieter - Marktanteil in 2006

Tabelle 3: OLAP Produktmatrix

Tabelle 4: Beispiel der OLAP Funktion: Rotate - Sicht 1

Tabelle 5: Beispiel der OLAP Funktion: Rotate - Sicht 2

Tabelle 6: Beispiel der OLAP Funktion: Drill down - Sicht 1

Tabelle 7: Beispiel der OLAP Funktion: Drill down - Sicht 2

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Diese Arbeit wurde im Rahmen des Faches IT-Controlling des Verbundstudienganges Wirtschaftsinformatik (Master) erstellt. Die Arbeit dient als Prüfungsergebnis und ersetzt eine Klausur.

Ziel der Arbeit ist zum einen die theoretische Auseinandersetzung mit dem The- ma „Online Analytical Processing“ im Hinblick auf deren Konzepte und Werk- zeuge. Nach Aufarbeitung der Theorie wird das erworbene Fachwissen in ei- nem praktischen Beispiel zur Unterstützung von Führungsentscheidungen an- gewendet.

Die Arbeit gliedert sich in einen theoretischen und einen praktisch Teil. Der praktische Teil dient zur Festigung des in der Theorie erworbenen Wissens. Das theoretische Fachwissen des „Online Analytical Processing“ wird in den Kapiteln 2 bis 4 behandelt. Kapitel 2 dient als Grundlagenkapitel. Es nimmt eine Begriffsbestimmung und -abgrenzung vor, erläutert die FASMI Kriterien und gibt einen Überblick über mehrdimensionale Datenstrukturen. In Kapitel 3 werden die Konzepte vorgestellt. Zum einen werden die verschiedenen Architekturvarianten analysiert, des weiteren werden die Funktionalitäten und Anforderungen an die Datenhaltung dargestellt. In Kapitel 4 werden die Anbieter und deren Online Analytical Processing Produkte vorgestellt.

In Kapitel 5 wird der praktische Teil der OLAP Funktionalitäten wird mit Bei- spielanwendung illustriert. Zudem wird eine beispielhaften OLAP Datenmodellierung aufgezeigt und anhand des Open-Source OLAP Systems PALO wird die Darstellung der Multidimensionalität in MS Excel veranschaulicht. In Kapitel 6 wird die Arbeit resümiert.

2 Grundlagen

2.1 Begriffsbestimmung und Abgrenzung

Der Begriff des „Online Analytical Processing“ (kurz: OLAP) wurde 1993 von Codd in einem White Paper gebildet. Er beschreibt allgemein eine Form der Entscheidungsunterstützung und Datenanalyse für das Management von Un- ternehmen auf Basis eines Datenstandes. Diese Analyse kann als flexibel, in- teraktiv und multidimensional verstanden werden.1 OLAP Systeme werden zur Datenanalyse und Informationsfindung verwendet. Diese setzen als Informati- onsanalysetools auf einer Datenbasis auf. Diese kann entweder ein Data Wa- rehouse oder sonstige Datenquellen sein. Aufbauend auf dem OLAP Server be- reiten Frontends die Informationen für den Endanwender grafisch so auf, dass intuitiv analysiert werden können.

Das Grundkonzept von OLAP ist die Multidimensionalität, die durch die Kombi- nation von Dimensionen und deren Hierarchien entsteht und eine natürliche Sicht auf unternehmerische Prozesse darstellt. Die Daten werden dem Benut- zer in einer realitätsnahen und leicht verständlichen Form präsentiert. Der Kern dieser Ansicht bilden Kennzahlen, wie z.B. der Unternehmensumsatz und die Verknüpfung mit Dimensionen wie z.B. Region, Zeit oder Produkt. Dadurch ent- seht ein multidimensionaler Raum, der gleich einem mehrdimensionalem Koor- dinationssystem aufgebaut ist. In jeder Zelle des Raums kann der Kennzahlen- wert in Abhängigkeit der verschiedenen Dimensionen bestimmt werden. Das OLAP Konzept entstand aus einer nicht ausreichenden Anforderung der modernen Datenanalyse bis Anfang der 90er Jahre. Eine direkte und flexible Analyse von Geschäftsdaten war durch den relationalen und flachen Aufbau der Datenstruktur von Informationssystemen bis dahin nicht möglich.2 Aus dieser Situation resultierten zwölf Regeln an OLAP Systeme, die Codd formulierte und, wie im Anhang A zu erkennen ist, Anforderungen an Auswer- tungswerkzeuge darstellen.3

Codd grenzt den Begriff bewusst gegen den traditionellen Begriff „Online Tran- saction Processing“ (kurz: OLTP) ab, der die Informationsverarbeitung im Be- reich der operativen Systeme definiert und im relationalen Datenbankkonzept zum Einsatz kommt. OLTP bildet die täglichen Geschäftsprozesse ab und unterstützt diese. Dazu werden aus Techniksicht nur aktuelle Detailinformation datensatzweise abgefragt. Des weiteren erfolgt beim Datenverarbeitungskonzept OLTP der Zugriff auf Daten nicht nur lesend, sondern auch schreibend und löschend.4 Die einbezogene Datenmenge ist gering und mit einer Größenordung von Megabyte bis Gigabyte an Daten.

Dagegen werden bei OLAP historische und agreggierte Daten in mehreren Di- mensionen betrachtet. Es werden dazu eine Vielzahl von Datensätzen einbezo- gen. Der Datenzugriff erfolgt nur lesend. Die Datengröße erstreckt sich bis zum Terrabyte-Bereich. Es ist zu beachten, dass OLAP Systeme nur sinnvoll einge- setzt werden können, wenn eine entsprechende große Datenbasis mit Dimen- sionen bereitsteht.

OLTP-Systeme sind für moderne Analyseanforderungen des Managements und der Fachabteilungen von Unternehmen ungeeignet:

- Sachbearbeiter verfügen im Regelfall nicht über ausreichende Kenntnisse in einer datenorientierten Sprache, d.h. Sprache der vierten Generation, um geeignete Anfragen zu formulieren.
- Die Formulierung von Abfragen ist im Vergleich zum erwarteten Ergebnis sehr zeitaufwendig. Durch Missverständnisse zwischen Sachbearbeiter und Management führen Abfragen zu falschen Ergebnissen.
- Fehlende Standardisierungen machen eine Vergleichbarkeit von Auswer- tungsergebnissen unmöglich, da diese auf einer unternehmensindividuellen Datenbasis beruhen.
- Die Basisdaten erstrecken sich über verschiedenste Systeme. Der Sachbearbeiter muss Zugang und Kenntnisse über die Existenz und den Umgang dieser Systeme besitzen um Transaktionen durchführen zu können.

Dennoch blieben die zwölf Regeln von Codd nicht ohne Kritik. Es lassen sich zwei Hauptkritikpunkte an den Regeln erkennen:

Zum einen sind die Regeln stark an das Produkt „Essbase“ der Firma Arbor an- gelehnt.5 Die entstandene Abhängigkeit wird deutlich, weil Essbase alle Regeln erfüllt und Codd das Produkt im White Paper hervorhebt.6 Trotzdem werden die Regeln als das Ergebnis einer objektiven Untersuchung dargelegt.7 Zweitens trennen die Regeln nicht zwischen fachlich-konzeptionellen und technischen Anforderungen. Es bleibt offen, ob die Multidimensionalität spezielle Speichersysteme voraussetzt.8

Diese Kritik löste Diskussionen aus, die zu Erweiterungen und Ergänzungen zu den Codd’schen Regeln führten. So formulierten Softwareanbieter eigene neue Regeln und veröffentlichten diese. Diese neue OLAP Kriterienschwemme ver- anlasste Codd 1995 , die ursprünglichen zwölf Kriterien auf achtzehn zu erwei- tern.9

Die insgesamt achtzehn Regeln wurden von Codd in vier Eigenschaften zu- sammengefasst: Basic Features (Regeln 1, 2, 3, 5, 8, 10, 13, 14), Special Fea- tures (Regeln 15, 16, 17, 18), Reporting Features (Regeln 4, 7 , 11) und Di- mension Features (Regeln 6, 9 ,12). Diese Eingruppierung führte aber zu kei- nen neuen Erkenntnissen und hat für die Literatur keine große Bedeutung.10

2.2 Fast Analysis of Shared Multidimensional Information

Neben den Regeln von Codd fanden die von Pendse und Creeth aufgestellten Kriterien “Fast Analysis of Shared Multidimensional Information” (kurz: FASMI) in Wissenschaft und Praxis Beachtung. Diese wurden im OLAP Report veröf- fentlicht und stellen funktionale Anforderungen an ein OLAP System dar.11 Wie die Abkürzung FASMI ausdrückt, beschreiben die Schlüsselwörter Fast, Analysis, Shared, Multidimensional und Information das FASMI-Konzept:12 Wie in der im Anhang B genannten Auflistung zu erkennen ist, blenden diese Kriterien technische Aspekte weitgehend aus und stellen, wie Marquardt fest- stellt, Benutzeranforderungen an OLAP Systeme in den Vordergrund. Sie sind weniger spezifisch als die Codd’schen Regeln, was in der Wirtschaft als vorteilhaft aufgenommen wird.13

2.3 Multidimensionale Datenstruktur

Wie schon in Kapitel 2.1 beschrieben wurde, besteht die zugrunde liegende Da- tenstruktur eines OLAP Systems aus folgenden Komponenten:

- Kennzahlen: Zahl, die betriebliche Sachverhalte (oft in stark komprimierter Form) wiedergibt.

Beispiel: Umsatz, Preis, Menge

- Dimensionen: Beschreibung/ Konkretisierung von Kennzahlen, Gruppierung zusammengehöriger Umweltobjekte.

Beispiel.: Kunden, Artikel, Regionen

- Hierarchien (Kennzahlen- und Dimensions-): mathematisches oder sachlogisches Zusammenfassen gleichartiger Elemente über mehrere Ebenen, Aufdecken geordneter Zusammenhänge

Beispiel.: Zeithierarchie, Organisationsstruktur

Die in der OLAP Datenstruktur quantitativ vorliegenden Inhalte sind Kennzah- len. Diese stellen erfassbare Sachverhalte in verdichteter Form dar und erfüllen so Informationsfunktionen. Die Verdichtungsstufe einer Kennzahl kann variie- ren.

Kennzahlen lassen sich unterscheiden: nach Objektbereich (gesamt-, teilbe- trieblich), nach Additivität (additiv, nicht additiv, semi-additiv), nach statistischer Form (absolut (Einzel-, Mittelwert, Summe, ...), relativ), nach Handlungsbezug (deskriptiv, normativ), nach Skalenniveau (nominal, ordinal, kardinal). Frühwarnindikatoren sind Kennzahlen, die zu einer anderen Kennzahl einen gewissen zeitlichen Vorlauf haben. Das Monitoring von Frühwarnindikatoren hilft, Entwicklungen frühzeitig zu erkennen und so vorausschauend reagieren zu können.

Aufgrund der begrenzten Aussagekraft einzelner Kennzahlen wird in der Regel eine Menge von Kennzahlen zu einem Kennzahlensystem zusammengefasst.

Als Dimensionen werden die Perspektiven bezeichnet, nach denen eine Kenn- zahl betrachtet werden kann. Sie bilden den Kontext einer Kennzahl und be- schreiben diese näher. Eine Dimension kann durch mehrere Attribute beschrie- ben werden, die oftmals in einer hierarchischen Beziehung zueinander stehen (Abstraktionsebenen, Verdichtungsstufen).

Anhang C zeigt ein mehrdimensionales Informationsobjekt mit den drei Dimensionen Zeit, Artikel und Kunde. Während eines Geschäftsprozesses ergeben sich die Dimensionsausprägungen aus den die Kennzahl beeinflussenden Kriterien bzw. aus den am Prozess beteiligten Elementen. Zu den gängigen Dimensionen einer betriebswirtschaftlichen Kennzahl gehören Artikel, Adresse (Kunde/ Lieferant), Region und Organisation.

Die Zeitdimension nimmt gegenüber den anderen Dimensionen eine Sonderstellung ein. Zum Einen wird sie als Standarddimension angesehen und zum anderen verlangt sie nach einer speziellen Bearbeitung (lineare Abfolge, Wiederholung (Montag), Planung und Kontrolle).14

Hierarchien bezeichnen einen vollständigen Navigationspfad in einer Dimensi- on. Dieser orientiert sich ausschließlich an „eins zu n“ Beziehungen der Attribu- te. Das oberste Attribute wird als „all-Attribut“ bezeichnet, da dieses den größt- möglichen Verdichtungsgrad bzw. die gesamte Dimension bezeichnet. Anhang D zeigt ein Beispiel einer Dimensionshierarchie mit weiteren Detailler- nungsstufen, die durch „eins zu n“ Beziehungen aufgelöst werden. Die Datenstruktur kann als Würfel-Gebilde dargestellt werden. Dies wird in der Literatur als „Hyperwürfel“ (englisch: Hypercube) bezeichnet. Die Achsen des Würfels stellen die Dimensionen dar. Generell enthalten OLAP Würfel ab vier Dimensionen. Werden nur zwei Dimensionen abgebildet, ergibt sich eine Flä- che. Die Darstellung des Würfels entfällt und wird durch eine Tabelle ersetzt. Eine eindimensionale Betrachtung gleicht einer Linie. Eine nulldimensionale Da- tenstruktur ist genau ein Wert bzw. einzelne Zelle.15

Die durch den Geschäftsprozess erzeugten quantifizierten Prozessergebnisse werden durch die unternehmerische Datenerfassung erfasst und in Tabellen gespeichert. Erst in einem zweiten Schritt wird diese eindimensionale Form in Richtung einer mehrdimensionalen transformiert. Zu diesem Zweck werden die Spalten zu Ebenen einer Dimensionshierarchie (Achsen). Die Zellen des resultierenden Gebildes ergeben sich in der Regel durch Aufsummierung der Kennzahlen gemäß der Dimensionsstruktur. Dieses Verfahren entspricht dem Aufbau und Füllung eines n-dimensionalen Würfels.

3 Interaktion mit Daten und Informationen

3.1 Architekturkomponenten und Technologie

Die Realisierung eines OLAP Systems kann auf unterschiedliche Weise erfol- gen. Die Unterschiede sind auf die Datenhaltungsschicht zurückzuführen: Zum einen werden Daten in relationalen Datenbankmanagementsystemen (kurz: RDBMS) gehalten. Das darauf aufbauende System wird als „ROLAP“ bzw. „Relationales OLAP“ bezeichnet. Zum anderen liegen Daten in multidi- mensionalen Datenbankmanagementsystemen vor. Hier ist die Bezeichnung des OLAP Systems „MOLAP“ bzw. „Multidimensionales OLAP“. „HOLAP“ bzw. „Hyprid OLAP“ ist eine Mischform aus beiden Ansätzen. Die RDBMS wird zur Speicherung historischer Detaildaten verwendet. Das MDBMS dient zur Speicherung oft verwendeter höher aggregierter Datenwürfel.

Schließlich werden „DOLAP“ bzw. „Desktop-OLAP“ und „FFOLAP“ bzw. Flat File OLAP“ Systeme genutzt, um sowohl die Präsentation als auch die Datenhaltung zentral auf einem Desktop-PC stattfinden zu lassen. Die zugrundliegende Datenbasis kann sowohl ein relationales und / oder ein multidimensionales Datenbankmanagementsystem sein.16

Ein ROLAP System setzt, wie in Abbildung 1 dargestellt ist, in der Regel auf einem Data Warehouse oder RDBM System auf, dass verschiedenste Datenquellen aggrigiert und in zweidimensionalen Tabellen abspeichert, analog der RDBMS der operativen Systeme.

Mehrdimensionale Ansichten werden nur virtuell durch die Verknüpfung mehrerer Tabellen erzeugt. Um be- triebswirtschaftliche Analysen durch- führen zu können, müssen in der Re- gel zusätzliche Diagnosewerkzeuge verwendet werden, die zweidimensio- nalen Daten aufbereiten. Vorteil die- ses Systems ist zum einen die robuste Datenbanktechnologie und der Zugriff mit Standard SQL. Des weiteren kön- nen große Datenmengen, d.h. größer als hundert Gigabyte, verarbeitet werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: ROLAP Quelle: Eigene Darstellung

Nachteilig erweist sich das Standard SQL für mehrdimensionale Analysen, da es dafür nur bedingt geeignet ist. Zudem müssen mehrdimensionale Informati- onsobjekte bei Anfrage berechnet werden, was zu Wartezeiten bei der Analyse führen kann. Das MOLAP basiert auf einem MDBMS. Die Daten werden physisch in multidimensionalen Strukturen gespeichert. Aus Performancegründen werden die Daten vorverdichtet, so dass die Multidimensionalität nicht zu Anwendungszeit berechnet werden muss.

Vorteil des MOLAP sind die Antwortzeiten bei kleinen Datenmengen, da diese in der Regel schon vorverdichtet vorliegen und vollständig im Hauptspeicher gehalten werden können. Zudem ist die multidimensionale Abfragesprache ver- ständlicher und intuitiver als SQL. Nachteilig erweisen sich zum einen die inhe- terogenen Datenbestände, die keine einheitliche Abfragesprache zulassen. Zudem müssen komplette Datenwürfel im Hauptspeicher gehalten werden. Die daraus resultierende Datengröße wird dadurch reduziert. Eine Datenabfrage, die nicht aus dem Hauptspeicher geladen werden kann, müssen Daten von der persistenten Datenschicht nachgeladen werden. Des weiteren ist ein weiterer Negativeffekt der des „dünn besetzten“ Datenwürfels, der zu Speicherplatzver- schwendung führt, dadurch, dass nicht alle Kennzahlenwerte mit allen Dimensi- onen verknüpft werden können.

Das HOLAP unternimmt den Versuch, die Vorteile des ROLAP und des MO- LAP zu vereinen. Zum einen werden rechenintensive, verdichtete Daten in einem MDBMS gehalten. Historische Daten, die keine hohen Zugriffszahlen aufweisen, werden in einem RDBMS gespeichert. Dies wird in Abbildung 2 verdeutlicht.

Durch die vielseitige Datenstruktur wird die Wartung und Pflege des HO- LAP komplizierter als die des MOLAP und ROLAP. Zudem können Daten im MDBMS nur zyklisch aktualisiert wer- den, beim RDBMS ist aber eine Echtzeit-Aktualisierung möglich.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: HOLAP Quelle: Eigene Darstellung

Dieser Umstand verursacht eine zeitliche Ungleichheit zwischen den Systemen. Das DOLAP und FFOLAP sind wie oben schon erwähnt für Desktop-PCs konzipiert. Sowohl die Präsentations- als auch Datenhaltungsschicht liegen auf dem Client. In dieser Arbeit wird auf das FFOLAP nicht weiter einge- gangen, da die Ähnlichkeit zum DO- LAP sehr groß ist.

Die Idee des DOLAP liegt in der Por- tabilität des Systems, der niedrigen Kosten und vielfältigen Einsatzmög- lichkeit. Für den Einsatz wird ein aktu- elles Datenbankteilabbild, wie in Abbildung 3 zu erkennen ist, des Servers auf den Client übertragen und steht damit zur weiteren Analyse bereit.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: DOLAP

Quelle: Eigene Darstellung

[...]


1 Vgl. Codd, E. F./ Codd, S. B./ Salley, C. T.: Providing OLAP to User-Analysts, 1993, www.fpm.com

2 Vgl. Marquardt, J.: Metadatendesign zur Integration von OLAP in das Wissensmanagement, 2007, S.97

3 Vgl. Codd, E. F./ Codd, S. B./ Salley, C. T.: Providing OLAP to User-Analysts, 1993, www.fpm.com

4 Vgl. Chamoni, P./ Gluchowski, P.: On-Line Analytical Processing, 2000, S.334.

5 Die Firma Arbor ging 1998 in der Hyperion Solutions Corporation auf, die noch heute Essbase unter dem Namen „BI+ Analytic Services“ im Portfolio hat.

6 Vgl. Pendse N.: The OLAP Report: Commentary: The Hyperion merger and aftermath, www.olapreport.com, 2003

7 Vgl. Thomson E.: OLAP Solutions, 2002

8 Vgl. Marquardt, J.: Metadatendesign zur Integration von OLAP in das Wissensmanagement, 2007, S.105.

9 Vgl. Oehler, K.: OLAP: Grundlagen, Modellierung und betriebswirtschaftliche Lösungen, 2000, S. 106.

10 Vgl. Pendse, N.: The OLAP Report: What is OLAP?, 2005, www.olapreport.com

11 Vgl. Pendse, N.: The OLAP Report: What is OLAP?, 2005, www.olapreport.com

12 Vgl. Becker W./ Fuchs R.: Controlling Informationssysteme, 2004, S.36-37

13 Vgl. Marquardt, J.: Metadatendesign zur Integration von OLAP in das Wissensmanagement, 2007, S.109

14 Vgl. Inmon, W. H.: Buidling the Data Warehouse, 1996, S.252

15 Vgl. Oehler, K.: OLAP: Grundlagen, Modellierung und betriebswirtschaftliche Lösungen, 2000, S.55.

16 Vgl. Pendse, N.: The OLAP Report: OLAP architectures, 2006, www.olapreport.com

Details

Seiten
45
Jahr
2008
ISBN (eBook)
9783640546626
ISBN (Buch)
9783640545995
Dateigröße
1 MB
Sprache
Deutsch
Katalognummer
v145111
Institution / Hochschule
Technische Hochschule Köln, ehem. Fachhochschule Köln
Note
1,7
Schlagworte
Konzepte Werkzeuge Online Analytical Processing

Autor

Zurück

Titel: Konzepte und Werkzeuge zum Online Analytical Processing