Lade Inhalt...

Data Science und Big Data. Eine Übersicht

von Robert Bastei (Autor)

Hausarbeit (Hauptseminar) 2017 8 Seiten

Informatik - Allgemeines

Leseprobe

1 Einfuhrung

Die Begriffe „Data Science" und „Big Data“ sind neben der „Cloud“ und „KI“ die wohl am haufigsten genutzten Buzzwords der letzten Jahre. Sie werden in Verbindung gebracht mit dem exzessiven Datensammelwahn grofier Konzerne und werfen Datenschutzbedenken auf und bieten gleichzeitig unendliche Moglichkeiten zur Vorhersage und Analyse von Verhalten. Die Wichtigkeit von Big Data und den damit verbundenen Technologien erreicht mittlerweile immer mehr Unternehmen und macht so eine Verbindung zwischen Geschaftswelt und Wissenschaft notig.

2 Der Beruf Data Scientist

Nach einer Studie von Manyika et al. [8] beherbergen alleine Open-Data-Quellen ein Wertschopfungspotential von 3-5 Mrd. $USD in verschiedensten Bereichen der Wirtschaft, u.a. im Bildungs- und Transportsektor (siehe Abbildung 1). Eine weitere Studie der Autoren erwartet fur das Jahr 2018 eine Knappheit von 140.000-190.000 Data Scientists alleine in den USA. ([7]) Das Feld der Datenanalyse bietet also in Zukunft ein grofies Potential sowohl fur Firmen, als auch fur Hochschulabsolventen auf der Suche nach einer sicheren Anstellung. Diese schaffen den Einstieg in den Beruf als Data Scientists hauptsachlich uber ein Studium in Statistik und Informatik und werden aktuell hauptsachlich in Versicherungen angestellt. ([4]) Dies ist kein Zufall, da besonders in dieser Branche Analysen mit grofien Datenmengen, uber das Alter, den Beruf oder die Interessen des Kunden durchgefuhrt werden konnen. Diese ermoglichen es dem Versicherer daraufhin, dass Risikopotential eines potentiellen Kunden zu bestimmen, um damit mogliche Kosten abzuschatzen.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1. Potential in Open-Data-Quellen (Manyika et al. [8])

2.1 Anforderungen

„Ein Data Scientist ist eine Berufsbezeichnung fur einen Mitarbeiter oder einen Business-Intelligence (BI) -Berater, der Unternehmen bei der Analyse von Daten unterstutzt beziehungsweise diese vollstandig in Eigenregie ausfuhrt. Analysiert werden dabei insbesondere Big Data - also grofie Mengen an strukturierten, unstrukturierten und semistrukturierten Daten, die ein Unternehmen produziert. Von der Analyse versprechen sich Geschaftsfuhrer und Manager entscheidende Wettbewerbsvorteile[1] "

— Rouse

Da der Beruf des Data Scientists wie im Zitat von Rouse oben erwahnt viele Aspekte umfasst, werden unterschiedlichste Kompetenzen erwartet. So muss es Data Scientist umfassendes Wissen zu Technologien des Datensammlung, der Speicherung, Verarbeitung & Analyse sowie zur Auswertung besitzen. Er muss in der Lage sein, effiziente und passende Systeme mithilfe von entsprechenden Technologien zu designen. Dabeispielen u.a. die Wahl eines passenden Datenbank- systems, sowie die Nutzung von Lastverteilungstechnologien eine Rolle. So kann es bei „geringen“ Datenmengen genugen, eine MySQL-Datenbank zu nutzen, wahrend zur Erfassung von grofien Mengen von Daten in kurzer Zeit die Verwen- dung einer NoSQL-Datenbank wie MongoDB Sinn macht. In diesem Kontext sollte er sich aufierdem uber die Auswirkungen auf z.B. die Datenkonsistenz im Klaren sein. Zur Verarbeitung der Daten sollte der Data Sciencist in der Lage sein, Scripts u.a. zur Bereinigung und Homogenisierung von Datensatzen in einer Sprache wie R oder Python umzusetzen und schliefilich auch in diesen Analysen durchzufuhren.

Hierzu ist es von Noten, dass neben dem Wissen im informatischen Bereich auch Kenntnisse aus dem statistischen Sektor vorhanden sind. So sollte der Analyst in der Lage sein, Vorhersagen und Analysen sowohl mit klassischen Methoden wie der Regression oder durch Random-Forests als auch durch moderne Techniken des Machine-Learnings. Auch Wissen uber den fachgerechten Umgang mit fehler- haften Daten, sowie mit grofien Abweichungen sollte vorhanden sein.

Um unternehmenserelevante Probleme zu erkennen und mithilfe seiner Analyse zu losen, benotigt der Data Scientists aufierdem tiefgreifendes Wissen uber die ent- sprechende Geschaftsdomane. So muss ein Analyst in einer Versicherung Wissen uber verschiedene Risikoklassen sowie die Funktionsweise bestimmter Versiche- rungen besitzen, um so relevante Vorhersagemodelle zu generieren. Zusatzlich zur unternehmerischen Betrachtung spielt auch die Kenntnis und Einhaltung von Gesetzen und Richtlinien, insbesondere bezuglich des Datenschutzes und der Datensicherheit eine wichtige Rolle.

Schlussendlich mussen die gesammelten Erkenntnisse haufig der Managementebe- ne zur weiteren Entscheidungsfindung prasentiert werden. Dazu ist es wichtig, dass der Analyst in der Lage ist, seine Erkenntnisse anschaulich und leicht ver- standlich darzustellen und zu kommunizieren. Hilfreich sind hierbei vor allem Diagramme. Des weiteren kann die Visualisierung von Daten dabei helfen, Zu- sammenhange oder Auffalligkeiten in den gesammelten Daten zu erkennen und bietet als sogenannte „Visual Analytics" einen wichtigen Ausgangspunkt zur Untersuchung der Daten.[2]

3 Analyse-Technologien

Die im vorherigen Abschnitt erwahnten Analysetechniken lassen sich in unter- schiedliche Gebiete basiert auf der Art und Form der vorliegenden Daten, sowie dem Ziel der Analyse klassifizieren. Diese werde ich im folgenden kurz vorstellen und aktuelle Forschungen in den jeweiligen Kategorien aufzeigen.

3.1 Text-Analyse

Der Schwerpunkt der Text-Analyse liegt auf der Informationsgewinnung aus Daten, die in Textform vorliegen. So konnen z.B. Stimmungen und Meinungen aus Social Media Posts extrahiert werden (Pang and Lee [9]) oder grofie Mengen an textuellen Produktbewertungen fur Kunden automatisch zusammengefasst werden (Hu and Liu [6]). Haufig genutzt werden in diesem Zusammenhang u.a.

[...]


[1] (Fasel and Meier [4], S. 63)

[2] (Chen et al. [3])

Details

Seiten
8
Jahr
2017
ISBN (eBook)
9783668642676
ISBN (Buch)
9783668642683
Dateigröße
517 KB
Sprache
Deutsch
Katalognummer
v412288
Institution / Hochschule
Universität Rostock
Note
1,6
Schlagworte
Data Science Big Data

Autor

  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.

    Robert Bastei (Autor)

Zurück

Titel: Data Science und Big Data. Eine Übersicht