Lade Inhalt...

BIG DATA. Technologieansätze im Überblick

Seminararbeit 2015 44 Seiten

Informatik - Wirtschaftsinformatik

Leseprobe

Inhaltsverzeichnis

Abkürzungs- und Symbolverzeichnis

Abbildungsverzeichnis

1. Einleitung

2. BIG DATA – Grundlagen
2.1 Begriffsbestimmung
2.2 Wirkungsprinzip
2.3 Relevanz

3. BIG DATA – Technologieansätze im Überblick
3.1 Aktuelle Kerntechnologiesegmente
3.1.1 Scalable No-SQL – Hadoop
3.1.2 Streaming
3.1.3 In-Memory
3.1.4 Standard SQL
3.2 Taxonomie von BIG DATA-Technologien
3.2.1 Daten-Haltung
3.2.2 Daten-Zugriff
3.2.3 Analytische Verarbeitung
3.2.4 Visualisierung
3.2.5 Daten-Integration
3.2.6 Daten-Governance & -Sicherheit
3.3 Exemplarische Architektur- und Lösungsansätze mit BIG DATA
3.3.1 PSD Bank Hannover: Optimiertes Zielgruppenmarketing
3.3.2 BMW: Verbesserte Produktentwicklung und erhöhte Kundenzufriedenheit

4. Zusammenfassung und Ausblick

Literaturverzeichnis

Abkürzungs- und Symbolverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abb. 1-1: Weltweites Datenvolumen bis 2020 (prognostiziert)

Abb. 2-1: Übersicht Maßeinheiten für Datengrößen

Abb. 2-2: Schematisches Wirkungsprinzip von Big Data

Abb. 3-1: Anforderungen und Technologiesegmente von Big Data

Abb. 3-2: Schematische Darstellung: Hadoop MapReduce

Abb. 3-3: Konzepte in CEP-Anwendungen

Abb. 3-4: Hybride und native IMS

Abb. 3-5: Klassifikationsschema von Big Data-Technologien

Abb. 3-6: Visualisierungstechniken, Rollen und Ziele im Überblick

Abb. 3-7: Traditionelle - vs. Big Data - Aspekte von Daten-Governance

Abb. 3-8: Exemplarische Referenzarchitektur einer Big Data-Lösung

Abb. 3-9: Schematische Darstellung des PSD Bank-Beispiels

Abb. 3-10: Schematische Darstellung des BMW-Beispiels

1. Einleitung

Aktuell ist „Big Data“ in aller Munde. Übersetzt man Big Data aus dem Englischen, lautet dies schlicht „große Datenmengen“. Doch große Datenmengen sind weder in der IT noch in den Geschäftsprozessen eine Neuigkeit.

Neu sind die Geschwindigkeit des Wachstums des globalen Datenvolumens sowie die Anforderungen, diese zu verarbeiten und zu analysieren, um einen betriebswirtschaftlichen Nutzen daraus ziehen zu können. Zwischen den Jahren 2010 und 2020 prognostiziert man unter Experten ein weltweites Wachstum des Datenvolumens um 42% pro Jahr [Kolb14, 26]. Dies entspricht einer Steigerung zwischen 2010 und 2020 um mehr als das 30-Fache (vgl. Abb. 1-1).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1 - 1 : Weltweites Datenvolumen bis 2020 (prognostiziert) Quelle: Eigene Darstellung in Anlehnung an [Kolb14, 26]

Die zunehmende Digitalisierung in Unternehmen, der anhaltende Trend zu Social Media, das Anwenden von mobilen Anwendungen auf Smartphones, etc. haben zur Folge, dass das Datenvolumen, welches auch verarbeitet werden muss, rasant ansteigt. Weiter wird die Integrität und Auswertung der Datenmengen immer komplexer. Es fallen nicht mehr ausschließlich strukturierte, sondern vermehrt unstrukturierte Daten an.

In Summe führt dies zu völlig neuen Anforderungen an die Skalierbarkeit[1], Verfügbarkeit, Flexibilität und Performanz im Datenmanagement und somit an die Informationstechnologie. Relationale Datenmodelle[2] mit SQL3 als Abfragesprache sind in einigen Fällen hierzu nicht mehr die erste Wahl.

Nachfolgende Arbeit definiert in Kapitel zwei den Begriff Big Data und verdeutlicht das Wirkungsprinzip sowie die Relevanz für deutsche Unternehmen. Kapitel drei widmet sich aktuellen Technologiesegmenten im Big Data-Umfeld, gibt einen Überblick zur Taxonomie verwendeter Technologien und stellt abschließend zwei Architektur- und Lösungsansätze mit Big Data im Banken- und Automobilsektor vor. Zum Schluss wird die Arbeit zusammengefasst und ein Ausblick gegeben.

2. BIG DATA – Grundlagen

Neben der allgemeinen Begriffsbestimmung wird das Wirkungsprinzip von Big Data dargestellt und anschließend die Relevanz für deutsche Unternehmen aufgezeigt.

2.1 Begriffsbestimmung

Es gibt viele Definitionen von Big Data. [King14, 34ff] Nachfolgend eine Definition, die neben dem Aspekt der Datenverarbeitung u. a. auch den technologischen Aspekt einbezieht und somit als besonders treffend identifiziert wird:

„Big Data stellt (…) Konzepte, Technologien und Methoden zur Verfügung (…), um die (…) großen Volumina vielfältiger Daten zu analysieren und als fundierte und zeitnahe Entscheidungsgrundlage zu verwenden.“ [FeJo14, 364]

In der gängigen Literatur werden die Anforderungen „ Volume “, „ Velocity “ und „ Variety “ an Big Data genannt: [Lane01, 1ff; O'Lea13, 54; KuKw14, 2ff; PaCa12, 11; ScSh12, 4ff]

- Volume: Bezeichnet die Datenmengen, welche im privaten, geschäftlichen, wissenschaftlichen und öffentlichen Bereich anfallen und exponentiell anwachsen. Hierzu zählen z. B. Dokumente, E-Mails und digitale Fotos. 2014 wurden pro Tag geschätzte 2,5 ExaBytes (vgl. Abb. 2-1) erzeugt. [BuKr14, 372] Das Datenvolumen verdoppelt sich Studien zufolge alle zwei Jahre [RuLi14, 13] und steht in unmittelbarer Relation zum Wachstum der Rechnerkapazitäten nach dem Moore` schen Gesetz [Moor65, 114ff]. Grundsätzlich stehen dem Nutzer die Datenmengen in unterschiedlichen Datenquellen zum Abruf zur Verfügung (z.B. in virtualisierten Clustern oder Clouds[3] ). [Heue13, 14f]

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2 - 1 : Übersicht Maßeinheiten für Datengrößen Quelle: Eigene Darstellung

- Velocity: Wird einerseits als Geschwindigkeit verstanden, mit der neue Daten entstehen. [Fase14, 389; McBr14, 7] Andererseits wird hierbei auch oft von der Geschwindigkeit gesprochen, mit der neue Datenströme verändert und verarbeitet werden müssen. [King14, 35] Als dritte Definition von Velocity wird sich auf Anforderungen bezogen, welche Big Data an die Geschwindigkeit der Verarbeitung von IT-Systemen stellt. [Dors15, 7; BeWa14, 279] Neben dem Entstehen von neuen Daten, z.B. durch Sensoren in Automobilen oder schriftlichen Kommentaren in sozialen Netzwerken (z.B. Facebook), spielt somit auch die Geschwindigkeit von automatischen Auswertungen, bestenfalls in Echtzeit, eine große Rolle. Kurze Antwortzeiten für operative Entscheidungen sind beispielsweise für Kauf-/Verkaufstransaktionen an der Börse oder in der Weganpassung in Navigationsgeräten notwendig. [BuKr14, 372]

- Variety: Bezeichnet die Vielfalt der vorhandenen Datenquellen und -formate. Grundsätzlich unterscheidet man zwischen strukturierten und unstrukturierten Daten. Experten gehen davon aus, dass in 2012 lediglich 15% strukturiert und ca. 85% der Daten unstrukturiert waren. [Dapp14, 8] So gibt es ein vielfältiges Spektrum, welches von technischen Messdaten über Social Media-Inhalte bis zu Video-Streams reicht. Diese heterogenen Daten zu analysieren und Erkenntnisse daraus zu gewinnen, ist eine der Kernaufgaben von Big Data. [Dors15, 8; O'Lea13, 54]

Zusätzlich zu den gängigen „3V“ werden von Experten zwei weitere Anforderungen an Big Data, namentlich „ Veracity “ und „ Value “, diskutiert:

- Veracity: Bezieht sich auf die Vollständigkeit, Verlässlichkeit und Korrektheit der Dateninhalte. [BeWa14, 279] Datenpräzision und -qualität ist sehr unterschiedlich, oft auch der Vielfältigkeit der Daten geschuldet. Messfehler, Übertragungsfehler oder bewusste Falschmeldungen können die Datenqualität beeinträchtigen. [ZiDe13, 14] Meist lassen sich nur aus stimmigen und zuverlässigen Daten sinnvolle Empfehlungen ableiten. Es ist jedoch kennzeichnend für Big Data-Anwendungen, auch solche Daten zu verwenden, deren objektiver Erkenntniswert nicht (sicher) messbar ist. [Dors15, 8]

- Value: Beschreibt die Werthaftigkeit des Einsatzes von Big Data. Zur Analyse und Interpretation von Big Data sind z. B. Analysemethoden der automatisierten Erkennung und Nutzung von Mustern, Text- und Bildanalytik erforderlich, um daraus einen wirtschaftlichen Nutzen zu liefern. Aus dieser Erkenntnis können z.B. individualisierte Kundenprodukte entwickelt und verkauft werden, welche die Wertschöpfung im Unternehmen erhöhen (können). [DaBa12, 44; O'Lea13, 54]

So kann man die anfangs erwähnte Definition von Big Data erweitern. Diese lautet nun in adjustierter Form:

„Big Data stellt Konzepte, Technologien und Methoden zur Verfügung, um die großen Volumina vielfältiger Daten in hoher Qualität zu analysieren und als fundierte und zeitnahe Entscheidungsgrundlage zu verwenden, so dass daraus ein wirtschaftlicher Nutzen entstehen kann.“

2.2 Wirkungsprinzip

Wesentlicher Treiber für das Thema Big Data ist sicherlich die flächendeckende Durchdringung der Digitalisierung in Gesellschaft, Wirtschaft und öffentlicher Verwaltung. [BMWI15, 6ff; Dapp14, 10] Hierbei werden große Datenvolumina produziert, welche sich nach ihrem Ursprung grob in drei Gruppen unterteilen lassen und maßgeblich zur Datarisierung [4] beitragen: [ScKn12, 20]

- Von Maschinen produzierte Daten: z.B. Sensordaten, Datendienste, Klickstatistiken, Sprache/Video/Audio.
- Von Menschen produzierte Daten: z.B. Bilder, Korrespondenz (vor allem E-Mails, Social Media), Publikationen, Dokumente, Freitext, Sprache/Video/Audio.
- Daten in Unternehmen: z.B. Kundenstamm- und Falldaten (CRM[5] -Daten), Materialbedarfsplan-Daten (ERP[6] ), Transaktionsdaten.

Daten-Produzenten, die unter anderem auch als Kombination der bereits unterschiedenen Gruppen auftreten, sind neue Domänen wie Cloud-Computing-Dienste, soziale Netzwerke, mobile Anwendungen oder das Internet der Dinge[7], welche eine Datarisierung zugunsten Big Data zusätzlich beschleunigen. [O'Lea13, 55f]

Nach erfolgter Erfassung und -integration der Massendaten in leistungsfähige IT-Systeme sind Big Data-Anwendungen in der Lage, zwischen Daten, Ereignissen, Zuständen und Funktionen Wechselbeziehungen zu identifizieren und ergebnisorientiert aufzubereiten. Diese Daten-Analyseverfahren werden auch als Big Data Analytics bezeichnet. Experten unterscheiden vier zentrale Analysemethoden, welche jeweils eine andere analytische Fragestellung aufgreift mit dem Ziel, einen Nutzen für die Organisation / das Unternehmen zu generieren: [LaMa15a, 56f; BuKr14, 373f]

- Descriptive Analytics: Bezeichnet das Beschreiben von Daten. Die zentrale Fragestellung lautet: „Was ist passiert?“. Regelmäßige Berichte oder Kennzahlenreporte geben hierauf eine Antwort und bilden die Grundlage zur Steuerung und Überprüfung von Unternehmensprozessen.
- Diagnostic Analytics: Hierbei werden Gründe für das Eintreten eines Ereignisses gesucht. Die zentrale Fragestellung lautet: „Warum ist es geschehen?“ Kausale Zusammenhänge zwischen Daten können durch Rückverfolgung von Zusammenhängen in bereits bestehenden Daten identifiziert werden.
- Predictive Analytics: Bezeichnet die Analyse mit statistischen Verfahren mit dem Ziel, Prognosen über zukünftige Ereignisse zu generieren. Die zentrale Fragestellung lautet: „Was könnte passieren?“. Hierbei werden Methoden des maschinellen Lernens[8] sowie Data-Mining[9] eingesetzt, um mathematisch-statistische Modelle hinsichtlich einer zu erwartenden Information zu schulen. Dazu werden vergangenheitsbezogene, bereits vorhandene Daten bearbeitet, zu denen eine Antwort in Verbindung mit weiteren Daten bereits bekannt ist. Erkennbare Muster, die in vorhandenen Daten auftauchen, werden untersucht und bewertet. Die Präzision dieses Analyse-Modells bzgl. der Antwortfindung kann anhand bestehender Vergangenheitsdaten überprüft werden.
- Prescriptive Analytics: Beschäftigt sich mit der zentralen Frage: „Was soll geschehen?“. Mittels bereits beschriebener Analyse-Modelle plus einer Prognosemöglichkeit mit welcher Wahrscheinlichkeit welches Ereignis eintreten wird, können mit dem Prescriptive Analytics - Modell direkte Handlungsempfehlungen abgeleitet werden.

Durch die Anwendung von Big Data können Prozesse auf Basis komplexer Daten analysiert und verbesserte Entscheidungsprozesse durch das Management hervorgerufen werden. Konkrete Probleme und branchenspezifische Fragestellungen können durch intelligente Prozessapplikationen gelöst werden. Dies hat große Auswirkungen auf Branchen einer Volkswirtschaft wie Energiedienstleistungen (z.B. durch intelligente Stromversorgungsnetze), Automobilhersteller (z.B. Vernetzung von Automobilen), Finanzdienstleistung (z.B. erweitertes Risikomanagement) und dem von der deutschen Regierung ausgerufenen Projekt „Industrie 4.0“[10]. [FeJo14, 365] Ziel dabei ist die Generierung eines Wettbewerbsvorteils und eine darauf basierende Profitabilitätssteigerung für Unternehmen sowie eine Verbesserung des Kundennutzens und der Kundenzufriedenheit.

In der nachfolgenden Abbildung 2-2 wird das Wirkungsprinzip von Big Data mit Auswirkungen auf exemplarisch genannte Branchen / Projekte schematisch verdeutlicht:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2 - 2 : Schematisches Wirkungsprinzip von Big Data Quelle: Eigene Darstellung in Anlehnung an [FeJo14, 365]

2.3 Relevanz

Klassische Produktionsfaktoren der Wirtschaft sind: Kapital, Arbeit, Boden und Rohstoffe. [Vari07, 381] Nun kommt ein weiterer Produktionsfaktor hinzu: Daten. [Bitk14, 13] Doch erst die Verknüpfung und Auswertung dieser Daten mittels Big Data, sowie eine darauf basierende Entscheidung des Managements kann Wettbewerbs- und Produktionsvorteile schaffen. [ScPl14, 309ff] Der wirtschaftliche Nutzen von Big Data lässt sich in folgenden Managementbereichen identifizieren: [Bitk12, 34ff; Czot14, 14f; Dave14, 73ff]

- Prozessmanagement: Hierbei sind alle Unternehmensbereiche betroffen, insbesondere aber der Produktions-, Service- und Supportbereich. Sensoren an Produkten (Stichwort(e): Internet der Dinge, Industrie 4.0) liefern Daten, welche in Echtzeit in Datenbanken einfließen und automatisierte Entscheidungsprozesse zur Produktionsoptimierung im Unternehmen auslösen. Mit Big Data lassen sich Produkte auch im laufenden Betrieb überwachen. Zeitgleich können intelligente Diagnosen mit Trendanalysen erstellt werden, die präventiv wirken. Aktuelle Produkt- und Sensorinformationen werden mit früheren Produktfehlern im Kundenservicecenter analysiert und ausgewertet. Durch verbesserte Produkte und zielgerichteten Kundenservice lassen sich somit Kundenservicemodelle verbessern und der Vertrieb optimieren. Potentielle Produktfehlerquellen können in Echtzeit identifiziert und dadurch Korrekturen im Fertigungsprozess eingeleitet werden. Neben offensichtlichen Fertigungsfehlern aufgrund beispielsweiser mangelnder Materialbeschaffenheit für ein Produkt kann Big Data Fehlerursachen herausfinden, die nicht sofort offensichtlich sind. Z.B. können mittels Sensoren an Fertigungsanlagen die Temperatur und die Luftfeuchtigkeit gemessen werden, was unter Umständen auch Einwirkung auf die Fehlerhaftigkeit von Produkten haben könnte. Durch Berücksichtigung aller Daten kann Big Data Zusammenhänge zwischen Indikatoren aufdecken, die nicht sofort offensichtlich sind. Dies unterstützt eine präventive Wartung der Fertigungsmaschinen. Verringerung der Stillstandzeiten und Kostenreduktion im Wartungsbereich sind die positive Folge.

- Transformationsmanagement: Big Data ermöglicht ein tiefes Verständnis vom Wettbewerbsumfeld und vom Unternehmen selbst. Hierbei kann Big Data Transformationsprozesse auslösen, falls eine offene Lernkultur besteht. Das Management wird durch Big Data zunehmend gezwungen, streng rationale auf Daten basierende Entscheidungen zu treffen. Dies setzt jedoch voraus, dass Statistik-Know-how erworben werden muss, um das Potential von Big Data nutzen zu können. Personalabteilungen müssen Weiterbildungen des Managements, von IT-Teams und der Fachabteilungen vorantreiben und ggf. frühzeitig Big Data-Spezialisten rekrutieren.

- Risikomanagement: Dies tangiert insbesondere Unternehmensabteilungen wie Finanz- und Risikocontrolling sowie Compliance. Echtzeit-Reaktionen auf Geschäftsinformationen können schnell zusammengeführt und für Entscheidungen genutzt werden. Erweiterte Simulations-, Vorhersage- und Szenarien-Bildungsmöglichkeiten helfen bei der Erstellung einer Ergebnishochrechnung und verbessern die Planung. Durch die Auswertung von Massendaten können Betrugserkennung verbessert und Manipulationsprävention betrieben werden. Hierbei können verdächtige Muster erkannt und Gegenmaßnahmen eingeleitet werden. Risikocontrolling in Echtzeit ermöglicht eine effizientere Eigenkapitalallokation und ermöglicht eine zeitnahe Einleitung von Gegenmaßnahmen bei Markt- und Unternehmensrisikopositionen. Durch die Auswertung von Massendaten aus verschiedensten Quellen wächst die Fähigkeit des Erkennens von Kreditrisikofaktoren. Dadurch können z.B. Banken zugrunde liegende Risiken bewerten und Kredite bonitätsnah bepreisen.

- Innovationsmanagement: Insbesondere der Unternehmensbereich Entwicklung profitiert von Big Data. Durch Kundenbewertungen aus verschiedenen Quellen können Produktideen generiert und Verbesserungspotentiale bestehender Produkte identifiziert und umgesetzt werden. Ziel ist dabei die Umsatzsteigerung und ein verbesserter Kundennutzen. Durch die Auswertung von Social-Media-Kanälen können gesellschaftliche Trends frühzeitig aufgegriffen und bedarfsspezifische Produkte entwickelt werden. Als erste Anbieter neuer Produkte bestehen höhere Absatzchancen und erhöhte Margenpotentiale.

- Kundenmanagement: Dank Big Data können Marketing- und Vertriebsabteilungen Service- und Produktangebote passgenauer und bedarfsgerechter auf einzelne Kundensegmente zuschneiden. Durch die exaktere Erfolgsmessung von Marketingkampagnen können Streuverluste vermieden und letztendlich Kosten eingespart werden. Muster für Kaufentscheidungen können durch Echtzeitanalysen identifiziert und spezifische Angebote unterbreitet werden. Dies kann den Umsatz bei Verkaufsvorgängen erhöhen. Mittels Big Data kann zudem die Markt- und Wettbewerbsbeobachtung deutlich ausgeweitet werden.

- Kooperationsmanagement: Big Data ermöglicht einen unternehmensübergreifenden Mehrwert. Je nach Güte und Wichtigkeit für ein Unternehmen können Big Data-Analyseergebnisse an Kooperationspartner und Kunden offeriert werden. Beispielsweise bietet DHL für Unternehmen ein Prognosetool, mit dem sich zukünftige Verkaufszahlen in einer Region abschätzen lassen. Umgekehrt sind Unternehmen dankbar, von Lieferanten oder Kunden Daten für die eigene Analyse zu bekommen. Dies ermöglicht insgesamt verbesserte Analyseergebnisse und neben einem effizienteren Kundenmanagement auch ein verbessertes Kostenmanagement.

- Kostenmanagement: Durch ein effizienteres Unternehmensmanagement können in allen Unternehmensbereichen Kosten eingespart werden, beispielsweise in der Verschlankung von Prozessen und durch zielgerichtete Marketingkampagnen (optimierte Allokation des Marketingbudgets). Zu berücksichtigen sind natürlich hohe Anfangsinvestitionen in IT und dauerhaft höhere Kosten für IT-Spezialisten und Wartung der IT-Systeme.

Zusammenfassend lässt sich die Relevanz von Big Data für Unternehmen in Deutschland als sehr hoch klassifizieren. Da die Produktionsfaktoren Boden und Rohstoffe für deutsche Unternehmen nur begrenzt bzw. sehr begrenzt vorhanden sind, sollte verstärkt auf die verbleibenden Produktionsfaktoren Arbeit, Kapital und Daten gesetzt werden. Insbesondere können durch Big Data viele nicht realisierte Effizienzpotentiale in Unternehmen gehoben und durch Individualisierung von Diensten/ Produkten Wettbewerbsvorteile geschaffen werden. [ScKn12, 62]

3. BIG DATA – Technologieansätze im Überblick

In diesem Kapitel wird zunächst eine grobe Gliederung der Kerntechnologiesegmente vorgenommen. Anschließend wird in eine generelle Taxonomie der Big Data-Technologien eingeführt. Abschließend werden exemplarische Architektur- und Lösungsansätze mit Big Data vorgestellt, wobei hier ausschließlich auf die Branchen Automobilbau und Banken eingegangen wird.

3.1 Aktuelle Kerntechnologiesegmente

Eine Big Data - Referenzarchitektur soll die in Kapitel 2.1 erläuterten Anforderungen abdecken. Variety und Velocity beeinflussen die Architekturmerkmale am stärksten. Denn zum einen sollen nicht nur gespeicherte Daten (engl.: Data-at-Rest), sondern auch Datenströme (engl.: Data-in-Motion) bearbeitet werden. Zum anderen müssen strukturierte, halbstrukturierte und unstrukturierte Daten gespeichert werden können. In diesem Zusammenhang gilt, dass Datenbestände mit unterschiedlicher Struktur als polystrukturiert bezeichnet werden. [LaMa15b, 263-265]

Abb. 3-1 gliedert die aktuellen Kerntechnologiesegmente Scalable NoSQL - Hadoop, Streaming, In-Memory und Standard SQL nach den Dimensionen Variety und Velocity. Funktionale Aspekte der vier Kerntechnologiesegmente werden in nachfolgendem Kapitel erläutert.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3 - 1 : Anforderungen und Technologiesegmente von Big Data Quelle: [Bitk14, 21]

3.1.1 Scalable No-SQL – Hadoop

NoSQL-Datenbanken sind eine flexible, moderne Art von Datenbanktechnologie, mit der die Möglichkeit besteht, unterschiedlich strukturierte Daten hoch skalierbar und nicht relational zu speichern und zu verarbeiten. Einige NoSQL-Datenbanken erlauben auch komplexe Anfrageanforderungen im Gegensatz zu herkömmlichen relationalen Datenbanken z.B. ohne ein fest definiertes Datenschema (etwa im Bereich von unstrukturierten Daten wie Video-, Bild- oder Audiodateien). [Bitk14, 24; EdFr10, 2f]

Apache Hadoop gilt als flexible Anwendung für die Parallelverarbeitung von unterschiedlich strukturierten Massendaten. Es ist ein von der Apache Software Foundation programmiertes Open-Source-Framework für den Stapelverarbeitungsbetrieb. Es sorgt für stabile Analyse- und Speicherprozesse und lässt sich horizontal skalieren. Hauptbestandteile von Hadoop sind das Hadoop MapReduce-Framework und das Hadoop Distributed File System (HDFS). [FeSc15, 279] Hadoop Distributed File System (HDFS) ist eine Open-Source-Software zur verteilten Verarbeitung von Massendaten in beliebigen Datenformaten in Stapelform (engl.: Batch) auf hoch skalierbaren Server-Clustern. Entwickelt wurde diese neue Technologie mit dem Ziel, große Datenmengen vor allem kostengünstig zu speichern und zu verarbeiten. HDFS stellt eine hohe Verfügbarkeit und Redundanz der Daten sicher. NoSQL und HDFS werden oft in einem Atemzug genannt, denn durch eine gezielte Kombination beider Technologien kann der Zugriff auf Massendaten verbessert werden. [FeSc15, 285; Bitk14, 34f; Müll14, 447ff, Praj13, 28]

Die Herausforderung besteht also insgesamt bei zunehmenden Datenvolumen (Volume) die Verarbeitungsgeschwindigkeit (Velocity) so zu steigern, um zeitgleich ein Ergebnis zu produzieren zu können. Diese Herausforderungen lassen sich mit einer Shared-Nothing-Architektur[11] meistern. Die hochgradig parallele Architektur für Datenhaltung als auch für Datenverarbeitung von Hadoop bietet hierfür eine weitere Lösung. [Bitk14, 35]

[...]


[1] Begriffsdefinition „Skalierbarkeit“: Ein System gilt als skalierbar, wenn es deren Performanz trotz erhöhter Auslastung nicht negativ beeinflusst. [Meie07, 26] Drei Charakteristika werden hierbei einem skalierbaren System zugerechnet: das System kann sich an einer erhöhte Nutzung anpassen (1), das System kann sich an einen erhöhten Datenbestand anpassen (2) und ein System ist wartbar (3) [Hend06, 246]

[2] Begriffsdefinition „Relationales Datenmodell“: Ein Datenmodell, welches mit den Beziehungen zwischen Daten in Form von Relationen bzw. in Tabellenform beschrieben wird. [Codd70; Codd90] 3 Begriffsdefinition „SQL“: Abkürzung für „Structured Query Language“ (dt.: strukturierte Abfragesprache). Eine Datenbanksprache zur Definition von Strukturen in relationalen Datenbanken sowie zum Bearbeiten und Abfragen von Datenbeständen. [PeUn03, 205ff; Meie01, 4ff]

[3] Begriffsdefinition „Cloud“: Dies ist ein Modell, das es erlaubt bei Bedarf, jederzeit und überall bequem über ein Netz auf einen geteilten Pool von konfigurierbaren Rechnerressourcen (z. B. Netze, Server, Anwendungen und Speichersysteme) zuzugreifen, die schnell und mit minimalem Managementaufwand zur Verfügung gestellt werden können. [MeGr11, 2]

[4] Begriffsdefinition „Datarisierung“: Die Umwandlung von allen Dingen in Datenform, um diese quantifizieren und auswerten zu können. [FeJo14, 365]

[5] Begriffsdefinition „CRM“: Abkürzung für „Customer Relationship Management“ (dt.: Kundenbeziehungsmanagement). Dies ist ein ganzheitlicher Ansatz zur strategischen Ausrichtung eines Unternehmens am Kunden, dessen Fokus die Kundenorientierung ist. [MaSt02]

[6] Begriffsdefinition „ERP“: Abkürzung für „Enterprise Resource Planning“ (dt.: Unternehmenskapazitätsplanung). Eine bereichsübergreifende ERP-Software steuert und wertet betriebswirtschaftliche Prozesse z.B. in Produktion, Vertrieb, Finanzen aus, um eine optimale Steuerung und Planung herbeiführen zu können. [O'Lea04, 63ff]

[7] Begriffsdefinition „Internet der Dinge“: Bezeichnet die Verknüpfung von physischen Gegenständen mit virtuellen Anwendungen. Dinge können beispielsweise Sensoren, Datenbanken oder Software sein. Via Internet lässt sich der Zustand per Ferndiagnose ermitteln und aktuelle Daten können über Vorgänge und Objekte gesammelt und ggf. anschließend ausgewertet werden. [MaFl10, 107ff; O'Lea13, 55f]

[8] Begriffsdefinition „maschinelles Lernen“: Anwendung von Verfahren, durch die Computersysteme befähigt werden, (selbstständig) Wissen aufzunehmen und zu erweitern, um ein vorhandenes Problem besser lösen zu können. [Görz93, 243ff]

[9] Begriffsdefinition „Data-Mining“: Hierbei erfolgt eine softwaregestützte Auswertung von Daten mittels Algorithmen, um bisher unentdeckte Trends oder Zusammenhänge zu ermitteln. [KeEi13, 557]

[10] Begriffsdefinition „Industrie 4.0“: Hierbei wird die beginnende vierte industrielle Revolution nach Mechanisierung, Industrialisierung und Automatisierung verstanden. Durch intelligente Vernetzung von Produkten und Prozessen in der industriellen Wertschöpfung soll ein deutlicher Mehrwert für die deutsche Wirtschaft durch Erzielung besserer Absatzchancen für Produkte und/ oder Dienstleistungen entstehen. [Spat13, 22]

[11] Begriffsdefinition „Shared-Nothing-Architektur“: Die Shared-Nothing-Architektur beschreibt eine IT-Verarbeitungs-Architektur, bei der jeder Knoten mit einem Prozessor und dem zugeordneten Speichermedium unabhängig und eigenständig seine Aufgaben erledigt und nicht ein bestimmter, einzelner Knoten für die Verbindung zu einer Datenbank zwingend notwendig ist. Ein ausgelasteter Knoten kann Aufgaben an einen nicht-ausgelasteten Knoten weitergeben. Jeder Knoten verfügt über eine Kopie des Datenbank-Management-Systems. [Ston86, 4ff]

Autor

Teilen

Zurück

Titel: BIG DATA. Technologieansätze im Überblick