Homepage > Katalog > Informatik - Wirtschaftsinformatik

Integration von HADOOP in die Data-Warehouse-Architektur

Name: Integration von HADOOP in die Data-Warehouse-Architektur
Price: 13.99 EUR
Availability: InStock
Author: Johannes Veeh
ISBN: 978-3-668-73993-2

Hausarbeit, 2016

12 Seiten, Note: 1,3

Johannes Veeh (Autor:in)

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Abkürzungsverzeichnis

1 Einleitung
1.1 Motivation
1.2 Zielsetzung und Vorgehensweise

2 Grundlagen
2.1 Definition von Data-Warehouse-Systemen
2.2 Definition der HADOOP-Technologie
2.2.1 HDFS
2.2.2 Map-Reduce
2.2.3 YARN
2.3 Gründe für den Einsatz der HADOOP-Technologie

3 Möglichkeiten zur Erweiterung der klassischen Data-Warehouse-Architektur um HADOOP
3.1 HADOOP als Staging-Area im ETL-Prozess
3.2 HADOOP als ELT-Worker
3.3 HADOOP als Datenbank
3.4 HADOOP als langfristig verfügbares Datenarchiv

5 Fazit

Literaturverzeichnis

Abbildungsverzeichnis

Abb. 1: Übersicht über die Struktur eines Data-Warehouse-Systems

Abb. 2: Architektur und Funktionsweise des HDFS

Abb. 3: Beispiel zur Anwendung von Map-Reduce

Abb. 4: Schema einer HBase-Tabelle

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

1.1 Motivation

Damit Unternehmen im Markt bestehen und wachsen können, müssen sie diesen ver- stehen und sich so einen wichtigen Vorteil gegenüber Wettbewerbern verschaffen. Um ein solches Marktverständnis zu erlangen, müssen die Manager die Daten, die aus dem Tagesgeschäft anfallen, analysieren und auf Basis dessen Entscheidungen treffen.¹ Dabei war schon immer die Verwaltung und Analyse von Kundendaten eine der größten Herausforderungen für Unternehmen. Werden nur wenige Produkte an einige Kunden verkauft, so hält sich die aufkommende Datenmenge durch die Transaktionen in Gren- zen und kann in einer einfachen relationalen Datenbank abgelegt werden. In den global aufgestellten Konzernen fallen heutzutage allerdings in allen Bereich unzählige Daten an. Hinzukommen weitere Informationen aus externen Quellen wie beispielsweise aus sozialen Netzwerken, von mobilen Endgeräten oder von Webservern, die die Klicks der Kunden auf den Onlineshop-Webseiten registrieren.²

Um diese Auswertung fahren zu können, werden die aufkommenden Daten in einem Data-Warehouse bearbeitet und bereitgestellt. Klassische Systeme können die Anforderungen an die Menge der Daten im Tera- bis Exabyte allerdings nicht mehr vollständig erfüllen, so dass einige neue Technologien hierfür entwickelt wurden. Eine Lösung stellt HADOOP dar, welches von der Apache Software Foundation entwickelt wurde.³ Namensgeber war ein kleiner gelber Elefant, der von dem Sohn des Entwicklers immer liebevoll HADOOP genannt wurde.⁴ Diese Arbeit möchte dem Leser einen Einblick in den Aufbau und der Funktionsweiße dieses Systems geben.

1.2 Zielsetzung und Vorgehensweise

Um den heutigen Anforderungen an die Datenhaltung und Datenverarbeitung in Unter- nehmen gerecht zu werden, besteht das Hauptziel der vorliegenden Arbeit darin, die bestehenden Möglichkeiten von HADOOP zur Erweiterung von Data-Warehouse- Architekturen aufzuzeigen. Um dieses Ziel zu erreichen, werden im Kapitel 3 der vorlie- genden Arbeit vier Einsatzszenarien für HADOOP vorgestellt, die als Teilziele angese- hen werden können. So kann die HADOOP-Technologie als Staging-Area im ETL- Prozess, als ELT-Worker, als Datenbank und als langfristig verfügbares Datenarchiv eingesetzt werden.

Zunächst werden im allgemeinen Teil der vorliegenden Arbeit das Data- Warehouse-System und die HADOOP-Technologie definiert. Dabei wird auf die Teilbe- reiche HDFS, Map-Reduce und YARN eingegangen. Daraufhin werden mögliche Grün- de für den Einsatz dieser Techniken geliefert. In Kapitel 3 werden dann die Möglichkei- ten für einen Einsatz von HADOOP zur Erweiterung der klassischen Data-Warehouse- Architektur aufgezeigt. Abschließend wird die vorliegende Arbeit kurz zusammengefasst und ein Fazit daraus gezogen.

2 Grundlagen

2.1 Definition von Data-Warehouse-Systemen

Für die Auswertung großer Datenmengen in Unternehmen wurde das Data-Warehouse entwickelt, welches nicht mehr direkt auf transaktionale Systeme zugreifen muss, son- dern für die Datenanalyse eine speziell eingerichtete Architektur besitzt. Dabei können die Daten aus unterschiedlichen internen und externen Quellen zusammengeführt wer- den.⁵ Um eine konsistente Sicht und eine hohe Qualität der Daten zu erhalten, werden diese vor dem Laden in das Data-Warehouse einem Bereinigungs- und Harmonisie- rungsvorgangs unterzogen. Weiterhin kann eine Aggregation vollzogen werden, bevor eine Analyse über Online Analytical Processing (OLAP)-Systeme stattfindet und danach die gewünschten Informationen zur Verfügung stehen.⁶ In Abbildung 1 ist eine Über- sicht über die Struktur eines Data-Warehouse-Systems aufgezeigt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Übersicht über die Struktur eines Data-Warehouse-Systems⁷

2.2 Definition der HADOOP-Technologie

Beim Open-Source-Projekt HADOOP handelt es sich technisch gesehen um ein Java- Framework zum verteilten Speichern von Daten und zu derer parallelen Verarbeitung auf Standard-Hardware. Das System wird dabei auf einem horizontal skalierbaren Clus- ter betrieben, womit auf einfachstem Wege weitere Knoten hinzugefügt werden kön- nen.⁸ Die Datenbank-Tools und Lösungen die auf der HADOOP-Technologie basieren, eignen sich sehr gut, um große Datenmengen im Rahmen von Batch-Jobs zu verarbei- ten. So gewann das von Doug Cutting entwickelte System im Juli 2008 den Terabyte- Sort-Benchmark, bei dem seit 1998 jedes Jahr die besten Sortieralgorithmen gegenei- nander antreten.⁹

HADOOP besteht dabei maßgeblich aus den drei Komponenten Hadoop Distributed File System (HDFS), Map-Reduce und Yet Another Resource Negotiator (YARN), welche in den folgenden Kapiteln vorgestellt werden. Die Technologie kann dabei erst beim Zusammenspielen aller Teilbereiche ihre Stärken ausspielen. Dennoch sind HDFS, Map-Reduce und YARN nicht unbedingt voneinander abhängig, sondern können auch alleine eingesetzt werden.¹⁰

2.2.1 HDFS

Im Gegensatz zu relationalen Datenbanken werden bei HADOOP die Daten ohne Rela- tion zueinander abgelegt. Dieses verteilte System benötigt keine besondere Hardware und setzt auf gängige Dateisysteme wie ext3 von Linux auf. Um allerdings große Datei- en verarbeiten zu können, werden nicht wie üblich Dateiblöcke von 1 bis 64 Kilobyte, sondern von bis zu 128 Megabyte verwendet. Dabei ist von sogenannten Flat-Files die Rede.¹¹ Um die große Lese- und Schreiblast und die Hochverfügbarkeit von datenin- tensiven Verarbeitungsprozessen realisieren zu können, sind bei HDFS verschiedene Rechner-Knoten im Einsatz.

Beim Name-Node handelt es sich um ein zentrales System, welches alle Dateioperationen im HDFS-System kontrolliert und regelt. Es dient allen anderen DataNodes als Master-System. In der Standard-Konfiguration werden alle Dateiblöcke auf drei Data-Nodes repliziert, was die Ausfallsicherheit garantiert und die Verarbeitungsgeschwindigkeit der Abfrage erhöht. Da der HDFS-Client seine Anfragen direkt an die Data-Nodes stellt und sich diese untereinander selbstständig replizieren, wird der Datenverkehr im Netzwerk verringert.¹²

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Architektur und Funktionsweise des HDFS¹³

[...]

¹ Vgl. Geisler (2014), S. 395

² Vgl. Geisler (2014), S. 495

³ Vgl. Köppen et al. (2014), S. 10

⁴ Vgl. http://www.cnbc.com/id/100769719

⁵ Vgl. Geisler (2014), S. 501

⁶ Vgl. Köppen et al. (2014), S. 16

⁷ In Anlehnung an Köppen et all. (2014), S. 16

⁸ Vgl. Freiknecht (2014), S. 20

⁹ Vgl. Wartala (2012), S. 20 ff.

¹⁰ Vgl. Freiknecht (2014), S. 20

¹¹ Vgl. Freiknecht (2014), S. 21

¹² Vgl. Wartala (2012), S. 22 ff.

¹³ In Anlehnung an Freiknecht (2014), S. 22

Ende der Leseprobe aus 12 Seiten

Details

Titel: Integration von HADOOP in die Data-Warehouse-Architektur
Hochschule: AKAD University, ehem. AKAD Fachhochschule Stuttgart
Veranstaltung: BIN01 - Business Intelligence
Note: 1,3
Autor: Johannes Veeh (Autor:in)
Jahr: 2016
Seiten: 12
Katalognummer: V431601
ISBN (eBook): 9783668739925
ISBN (Buch): 9783668739932
Dateigröße: 551 KB
Sprache: Deutsch
Schlagworte: BIN01, Business Intelligence, HADOOP, Data-Warehouse-Architektur, HDFS, Map-Reduce, YARN, OLAP, ETL, Staging-Area, NoSQL, HBase

Arbeit zitieren: Johannes Veeh (Autor:in), 2016, Integration von HADOOP in die Data-Warehouse-Architektur, München, GRIN Verlag, https://www.grin.com/document/431601

Kommentare