Wie die Logistik 4.0 Daten effizient nutzt. Implementierung eines Data Mining Algorithmus zur Nivellierung von Kommissionierspitzen


Fachbuch, 2019

92 Seiten


Leseprobe


Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Formelverzeichnis

Abkürzungsverzeichnis

1 Einleitung
1.1 Problemstellung und Rahmenbedingungen
1.2 Ziele & Aufbau der Arbeit

2 Grundlagen der Kommissionierung
2.1 Statische Kommissionierverfahren (Mann-zur-Ware-Systeme)
2.2 Dynamische Kommissionierverfahren (Ware-zum-Mann-Systeme)
2.3 Einstufige, mehrstufige, serielle und parallele Kommissionierverfahren

3 Grundlagen des Data Mining
3.1 Definition und Beschreibung
3.2 Beschreibung und grundlegende Begriffe der Assoziationsanalyse

4 Auswahl eines geeigneten Algorithmus
4.1 Vorgehen zur Auswahl eines Algorithmus
4.2 Einschränkung der zu suchenden Artikelgruppierungen
4.3 Algorithmen zum Item Set Mining

5 Implementierung des FP-Growth-Algorithmus in RapidMiner
5.1 Einführung in RapidMiner
5.2 Datenstruktur und Datenaufbereitung
5.3 Darstellung des Data Mining Prozesses
5.4 Durchführung des Data Mining Prozesses

6 Analyse der Outputdaten
6.1 Ergebnisse des programmierten Algorithmus
6.2 Bewertung der Ergebnisse
6.3 Anwendung der Ergebnisse
6.4 Ergebnis der Nivellierung der Kommissionierspitzen

7 Fazit und Ausblick

Literaturverzeichnis

Anhang
Anhang 1: Pseudocode Apriori Algorithmus
Anhang 2: Pseudocode Eclat Algorithmus
Anhang 3: Pseudocode FP-Growth-Algorithmus – Erstellung des FP-Tree
Anhang 4: Pseudocode FP-Growth-Algorithmus – Ermittlung von Frequent Item Sets
Anhang 5: Parameter Screenshots
Anhang 6: Gesamter RapidMiner Prozess als ein Bild
Anhang 7: Nivellierung des Spitzentages
Anhang 8: RapidMiner Studio Bildungslizenz

Abbildungsverzeichnis

Abbildung 1-1: Kommissionierleistung im Tagesverlauf

Abbildung 2-1: Die Prozesskette der Kommissionierung

Abbildung 2-2: Kommissioniersystem Mann-zur-Ware (statisch)

Abbildung 2-3: Kommissioniersystem Ware-zum-Mann (dynamisch)

Abbildung 2-4: Einstufige Kommissionierung

Abbildung 3-1: Überblick über die Phasen des KDD-Prozesses

Abbildung 3-2: Phasen des CRISP-DM Referenzmodells

Abbildung 4-1: Maximal Frequent Item Sets

Abbildung 4-2: Anzahl der Frequent, Closed und Maximal Item Sets in einem üblichen Benchmark Datensatz (BMS-Webview-1)

Abbildung 4-3: Einordnung Boolescher Assoziationsverfahren

Abbildung 4-4: Netz der Untermengen und Maximal Item Set induzierten Netze

Abbildung 4-5: Equivalence Class und Uniform Hypergraph Clique Clustering

Abbildung 4-6: Eine Transaktionsdatenbank als laufendes Beispiel

Abbildung 4-7: Zwischenzeitlicher Aufbau eines FP-Tree

Abbildung 4-8: Der FP-Tree des Beispiels

Abbildung 4-9: Ein von m abhängiger FP-Tree

Abbildung 4-10: Geschwindigkeitstests verschiedener Algorithmen

Abbildung 5-1: Hauptbildschirm RapidMiner Studio v8.0.001

Abbildung 5-2: Erster Teil des Data Mining Prozesses in RapidMiner

Abbildung 5-3: Beispielhafte Matrix nach Durchlaufen des Operators Set Role

Abbildung 5-4: Zweiter Teil des Data Mining Prozesses in RapidMiner

Abbildung 5-5: Fehlermeldung über zu geringen Speicher für RapidMiner Prozess

Abbildung 6-1: Anzahl an Frequent Item Sets je Setgröße

Abbildung 6-2: Optimierte Kommissionierleistung im Tagesverlauf

Abbildung 6-3: Optimierte Kommissionierleistung inklusive Mehraufwand

Abbildung 6-4: Beispielhafte Zahlungsreihe des Data Mining Prozesses

Tabellenverzeichnis

Tabelle 4-1: Bewertungsklassen der Nutzwertanalyse

Tabelle 4-2: Einordnung der Algorithmen in Bewertungsklassen und Berechnung des Nutzwerts

Tabelle 5-1: Darstellung des Aufbaus der Inputdaten für den Data Mining Prozess

Tabelle 5-2: Vorläufige Inputmatrix für den FP-Growth-Algorithmus in RapidMiner

Tabelle 6-1: Darstellung aller berechneten FIS

Tabelle 6-2: Aufbau der zur Nivellierung benötigte Matrix der Transaktionsdaten

Tabelle 6-3: Zwischengespeicherte Matrix der Transaktionsdaten

Tabelle 6-4: Zur Nivellierung benötigte Matrix der FIS

Tabelle 6-5: Durch RapidMiner erstellte Aufstellung der FIS

Formelverzeichnis

Formel 2-1: Kommissionierzeitformel

Formel 2-2: Kommissionierzeit je Position r

Formel 3-1: Berechnung des Supports

Formel 3-2: Berechnung der Konfidenz

Formel 4-1: Häufigkeitsbedingung

Formel 4-2: Antimonotonie-Eigenschaft

Formel 4-3: Untermengenkriterium

Formel 4-4: Maximal Frequent Item Set Bedingung

Formel 4-5: Apriori-Kriterium

Formel 5-1: Berechnung des Minimum Supports

Formel 6-1: Berechnung des Lifts

Formel 6-2: Berechnung des Einsparungspotentials je Frequent Item Set

Formel 6-3: Kapitalwertmethode zur Feststellung der Wirtschaftlichkeit

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Die Digitalisierung ist einer der größten Wirtschaftstreiber der heutigen Zeit und ist in vielerlei Hinsicht als Chance für Unternehmen zu begreifen. Allerdings wird sie ebenfalls als Bedrohung für ganze Branchen und Wirtschaftszweige gesehen. Große IT-Unternehmen von der amerikanischen Westküste drängen ausgehend von ihrem Stammgeschäft in immer weitere Bereiche entlang ihrer Wertschöpfungskette vor und werden zunehmend als Bedrohung für Unternehmen konservativer Branchen wahrgenommen. So drängt ein amerikanischer Onlinehändler aus Seattle in immer weitere Wirtschaftsbereiche vor, entwickelt neue Geschäftsfelder und löst sich zunehmend von seinen Wurzeln.

Zugleich wächst der Onlinehandel und wird dies nach aktuellem Kenntnisstand in den nächsten Jahren weiterhin tun.1 Um in diesem Geschäft bestehen zu können, müssen Unternehmen zeitnah die Digitalisierung ihres Geschäfts vorantreiben. Zu diesen Methoden gehört der Einsatz von Big Data Technologie, wie Data Mining, und die Transformation der Logistik hin zur „Logistik 4.0“. Nebst Margendruck sind die Erfüllung von Kundenanforderungen, Effektivitäts- und Effizienzsteigerungen im Unternehmen, sowie die Beschleunigung nahezu aller Unternehmensprozesse die Treiber der erfolgreichen Digitalisierung von Logistikunternehmen.2

Die vorliegende Arbeit diskutiert wesentliche Bedingungen für die erfolgreiche Umsetzung dieser Treiber im Unternehmen, und wird durch den Einsatz der bereits angesprochenen Technologien darauf abzielen, einige dieser Treiber zu befriedigen.

1.1 Problemstellung und Rahmenbedingungen

Durch die bereits angesprochenen Treiber der Digitalisierung in Logistikunternehmen stehen diese unter enormem Druck. Nebst Angriffen durch neue Wettbewerber, gilt es immer neue Kundenanforderungen zu erfüllen und die Digitalisierung des eigenen Unternehmens profitabel zu meistern. Dies gilt gerade für Unternehmen, welche im Onlinehandel aktiv sind. Ein Zusatzfaktor ist der hohe Margendruck. In dieser Gemengelage kommt der Logistik von E-Commerce Unternehmen eine Schlüsselrolle zu. Sie muss zum einen hocheffizient arbeiten, zum anderen muss die Möglichkeit bestehen, in Zukunft weiterhin zu wachsen. Deshalb muss die Logistik zukünftige Auftragsvolumina abwickeln können. Erschwert werden diese Grundvoraussetzungen durch die in Abbildung 1-1 dargestellte ungleiche Verteilung des Kommissionieraufkommens im Tagesverlauf. Abbildung 1-1 basiert auf echten Transaktionsdaten eines E-Commerce-Unternehmens und zeigt den Verlauf der Auftragsbefriedigung im Verlauf des Tages anhand der gesammelten und kommissionierten Auftragspositionen. Wie zu sehen ist, ist das Auftragsvolumen in einigen Stunden sehr hoch, in anderen hingegen werden überhaupt keine Aufträge bearbeitet. Dies führt zu Ineffizienzen und einer geringen mittleren Auslastung der Anlagen. Diese werden im Rahmen dieser Arbeit teilweise behoben.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1-1: Kommissionierleistung im Tagesverlauf

Quelle: Eigene Darstellung

1.2 Ziele & Aufbau der Arbeit

Ziel dieser Arbeit ist es, das Aufkommen an Kommissionierleistung und entsprechend die unternehmensinterne Nachfrage nach Kommissionierleistung durch den Einsatz von Data Mining Algorithmen zu nivellieren und zu verstetigen. Es wird demnach eine Verringerung des Aufkommens in Spitzenstunden und eine Erhöhung in Stunden mit geringem Kommissionieraufkommen angestrebt. Es soll eine Regression zum in Abbildung 1-1 gezeigten Mittelwert erfolgen. Im Vordergrund steht daher zunächst die Frage, ob die Zielsetzung erreicht werden kann und anschließend welchen Effekt der Einsatz der titelgebenden Data Mining Algorithmen hat.

Diese dienen der Warenkorb- und Assoziationsanalyse (siehe Kap. 0). Sie werden im betriebswirtschaftlichen Umfeld häufig im Marketing eingesetzt. Im vorliegenden Fall sollen sie jedoch für die Nivellierung der Kommissionierung genutzt werden. Hierzu muss zunächst der Kommissioniervorgang selbst in seiner Komplexität verstanden werden. Aufgrund dieser Komplexität bedarf es geeigneter Mittel, um die Regression zum Mittelwert erfolgreich durchzuführen. Ein probates Mittel hierzu kann Data Mining oder Knowledge Discovery in Databases (KDD) sein. Nach Vorstellung eines KDD-Prozesses wird dieser in Form von Data Mining Algorithmen durchlaufen und implementiert, um die Kommissionierung zu nivellieren.

Der Aufbau orientiert sich stark an dieser funktionalen Aufteilung. Die Komplexität der Kommissionierung steht zunächst im Vordergrund. Anschließend werden die Prozesse und speziellen Algorithmen des Data Mining vorgestellt. Es erfolgt die Auswahl und Anwendung eines Algorithmus und schließlich die Bewertung und Anwendung der Ergebnisse. Den Abschluss bildet die Neuberechnung der Kommissionierung mithilfe der Ergebnisse des Data Mining Programms.

2 Grundlagen der Kommissionierung

Im folgenden Kapitel wird ein Überblick über die Grundlagen des Kommissionierens geboten. Zudem werden in den Kapiteln 0 - 0 ausgewählte Kommissionierverfahren vorgestellt.

Laut Richtlinie 3590 „Kommissioniersysteme“ des Vereins Deutscher Ingenieure e.V. (VDI-Richtlinie 3590) wird Kommissionierung wie folgt definiert: „Kommissionieren hat das Ziel, aus einer Gesamtmenge von Gütern (Sortiment) Teilmengen (Artikel) auf Grund von Anforderungen (Aufträge) zusammenzustellen.“3 Es werden also von Kunden angeforderte Waren ausgelagert und diese anschließend zum Kunden hin transportiert. Stimmen die Lagereinheit und die vom Kunden angeforderte Menge überein, so wird die gesamte Lagereinheit ausgelagert. Dies ist jedoch selten der Fall. Daher müssen die Lagereinheiten in bedarfsgerechte Transporteinheiten umgewandelt werden. Die Vereinzelung ist daher der Kernvorgang der Kommissionierung. Die Aufgabe, und damit der Zweck der Kommissionierung, bestehen in der Befriedigung von internen und externen Warenanforderungen.4 Im vorliegenden Fall des E-Commerce sind ausschließlich externe Warenanforderungen zu bearbeiten.

Die Vereinzelung von Artikeln aus einer Lagereinheit wird über Aufträge abgewickelt. Diese werden Kommissionieraufträge genannt. Bearbeitet werden sie über ein Kommissioniersystem. Der Kommissionierprozess gliedert sich nach Arnold et al in fünf Teilschritte5:

- Zunächst die Bereitstellung des Sortiments in Lagereinheiten (bspw. ein Karton in einem Fachbodenregal);
- zweitens die Entnahme (das Picken) aus der Lagereinheit;
- anschließend die Abgabe in ein Sammelbehältnis zum internen Transport;
- Ggf. Zusammenführung der Entnahmemengen eines Kommissionierauftrags;
- zum Abschluss werden die Bereitstellplätze mit Nachschub versorgt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-1: Die Prozesskette der Kommissionierung

Quelle: in Anlehnung an (Schulte 2013), S.268.

Wie in Abbildung 2-1 deutlich wird, sieht Schulte dem Kommissionieren die Lagerung vor- und den Warenausgang nachgelagert. Zugleich bezieht sich die Abbildung nur auf produzierende Unternehmen, da sie die Produktionslogistik beinhaltet. Die angestrebte Nivellierung bezieht sich im vorliegenden Fall auf Handelsunternehmen. Daher sei gesagt, dass im Falle von Handelsunternehmen der Prozessschritt Produktionslogistik wegfällt. Schulte betont zudem die hohe Komplexität des Kommissioniervorgangs und das damit einhergehende Rationalisierungspotential.6 An dieses Rationalisierungspotential schließt die vorliegende Arbeit an, und zielt darauf ab, dieses für Peakzeiten zu realisieren.

Wie lange ein Kommissioniervorgang dauert, hängt von verschiedenen Parametern ab (bspw. Größe des Auftrags, Sortiment, usw.). Die Zeit, um einen Kommissionierauftrag zu befriedigen setzt sich aus den folgenden Teilzeiten zusammen:

Abbildung in dieser Leseprobe nicht enthalten

Formel 2-1: Kommissionierzeitformel

Quelle: (Arnold/Furmans 2009), S.218.

Daraus ergibt sich die anteilige Kommissionierzeit für jede Position r:

Abbildung in dieser Leseprobe nicht enthalten

Formel 2-2: Kommissionierzeit je Position r

Quelle: (Arnold/Furmans 2009), S.218.

Unterstützt werden die Kommissionierer durch verschiedene Technologien. So gibt es unter anderem die Unterstützung durch Pick-by-Light und Pick-by-Voice.7 Pick-by-Light unterstützt den Kommissionierer visuell, indem an allen Fächern LED-Lampen angebracht sind. Soll aus einem Fach ein Artikel entnommen werden, leuchtet die LED auf. Bei einigen Systemen zeigt ein Display zusätzlich die zu entnehmende Anzahl an.8 Pick-by-Voice hingegen unterstützt den Kommissionierer akustisch. Es werden die Gang- und Fachnummer angesagt und die Anzahl der zu entnehmenden Artikel. Der Kommissionierer gibt wiederum als Bestätigung Artikel- und/oder Fachnummer über ein Mikrofon zurück.9

Wird eine Position versehentlich falsch gepickt, wird von einem Kommissionierfehler gesprochen. Die heutzutage üblichen Fehlerraten sind mit modernen IT-gesteuerten Kommissioniergeräten gering und befinden sich im Bereich von 0,08% bis 0,94%.10 Aufgrund ihrer in absoluten Zahlen untergeordneten Bedeutung, sollen sie hier nicht weiter betrachtet werden.

Da Warenbereitstellung, Entnahme und Abgabe zeitlich und räumlich divergieren können, gibt es verschiedene Kommissionierverfahren.11 In den folgenden Kapiteln (0 - 0) wird eine Auswahl an Kommissionierverfahren vorgestellt.

2.1 Statische Kommissionierverfahren (Mann-zur-Ware-Systeme)

Bei Mann-zur-Ware-Systemen wird das Sortiment statisch (keine Bewegung aufweisend) gelagert, sodass der Kommissionierer sich bewegt, um Zugang zu Lagerplätzen zu erhalten. Er läuft also zum Beispiel gezielt durch einzelne Gänge und entnimmt an den Lagerplätzen die jeweiligen Artikel seines Kommissionierauftrags.12 Abbildung 2-2 zeigt das System in einfacher Form.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-2: Kommissioniersystem Mann-zur-Ware (statisch)

Quelle: Darstellung in Anlehnung an (Schulte 2013), S.274.

Dies hat den Vorteil, dass flexibel auf schwankende Anforderungen reagiert werden kann. Zudem ist der Investitionsaufwand gering. Die Kommissionierleistung je Mitarbeiter hingegen ist gering, wenn ein Auftrag aus wenigen Positionen besteht. Eine optimale Gestaltung des Arbeitsplatzes ist ebenfalls nicht möglich.13 Bewegen sich die Kommissionierer zudem ohne Hilfsmittel fort, so ist die körperliche Belastung einer Kommissionierschicht sehr hoch. Mann-zur-Ware-Systeme eignen sich daher besonders für Aufträge mit mehreren Posten. Zudem sollten die Posten eine größere Entnahmemenge aufweisen.

Eine detaillierte Gegenüberstellung der dynamischen und statischen Bereitstellung findet sich bei Ehrmann.14

2.2 Dynamische Kommissionierverfahren (Ware-zum-Mann-Systeme)

Dynamische Bereitstellung der Ware (Ware-zum-Mann-Systeme) bedeutet, dass der Kommissionierer von einem festen Kommissionierarbeitsplatz aus arbeitet. Die Ware wird in Transportbehältern bis zum Arbeitsplatz transportiert und dort kommissioniert.15 Abbildung 2-3 veranschaulicht den Prozess in einfacher Form.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-3: Kommissioniersystem Ware-zum-Mann (dynamisch)

Quelle: Darstellung in Anlehnung an (Schulte 2013), S.274.

Dies führt zu hohen Kommissionierleistungen, da die Wegzeit wegfällt. Die Mitarbeiterzufriedenheit kann bei der dynamischen Bereitstellung gefördert werden, indem die Bereitstellungsplätze optimal ausgestattet sind. Außerdem sind Bearbeitungen am Bereitstellungsplatz möglich. Eine geringe Fehlerrate ist ein weiterer Vorteil der dynamischen Bereitstellung. Nachteilig wiederum ist, dass nur eine geringe Zahl Artikel gleichzeitig im direkten Zugriff sind. Ebenfalls ist der hohe Investitionsaufwand eine Hürde. Auftragsschwankungen sind nur schwer abzufangen.16 Daher eignet sich die dynamische Bereitstellung von Waren vor allem für geringe Entnahmemengen und wenigen Posten je Auftrag. Eine gleichmäßig hohe Auslastung ist eine Grundvoraussetzung zur Nutzung eines dynamischen Kommissioniersystems.17

2.3 Einstufige, mehrstufige, serielle und parallele Kommissionierverfahren

Es gibt vier grundlegende Ablaufarten für Kommissionieraufträge: einstufige und mehrstufige Kommissionierung, sowie serielle und parallele Kommissionierung.

Die einstufige Kommissionierung wird dann eingesetzt, wenn ein Kundenauftrag durch einen passenden Kommissionierauftrag abgebildet werden soll. Deshalb wird sie auftragsbezogene Kommissionierung genannt. Hierbei wird jeder Kommissionierauftrag -und damit jeder Kundenauftrag- einzeln bearbeitet.18 Wie in Abbildung 2-4 deutlich wird, muss für jeden Auftrag ein Kommissionierer die Lagerbereiche betreten, in denen Artikel des ihm zugeordneten Kommissionierauftrags liegen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2-4: Einstufige Kommissionierung

Quelle: (Hompel/Sadowsky/Beck 2011), S.34.

Die mehrstufige Kommissionierung hingegen, sammelt mehrere Kundenaufträge einer bestimmten Zeitperiode und fasst diese zusammen (ein sogenannter Batch). Dieser Batch wird anschließend kommissioniert und zu einem Bearbeitungsplatz gebracht. Dort wird der Batch vereinzelt und auf die zugehörigen Kundenaufträge aufgeteilt.19 Dies führt zu einer Verringerung der durchschnittlichen Wegzeit pro Pick.20

Bei der seriellen Kommissionierung werden einzelne Teilaufträge nacheinander (daher seriell) kommissioniert. Hierzu werden n Teilaufträge für n Lagerzonen generiert. Anschließend wird Teilauftrag 1 kommissioniert und zum Bearbeitungsplatz für Teilauftrag 2 in Lagerzone 2 transportiert. Dieser Vorgang wiederholt sich bis alle n Teilaufträge kommissioniert sind.21

Die parallele Kommissionierung ist eine spezielle Form der Kommissionierung. Bei dieser wird ein Kommissionierauftrag aufgeteilt, sodass es mehrere Kommissionieraufträge gibt. Es wird ein Kommissionierauftrag pro Lagerzone generiert. Anschließend wird für jede Lagerzone der lagerzonenspezifische Kommissionierauftrag ausgeführt. Hierbei kann sowohl eine einstufige, als auch mehrstufige Kommissionierung erfolgen.22 Die parallele Kommissionierung bei nur einer Lagerzone (engl. Multi Order Picking) erfolgt mithilfe mehrerer Kommissionierbehälter. Die Anzahl der Kommissionierbehälter ist die gleiche wie die Anzahl der Kommissionieraufträge. Der Kommissionierer muss bei dieser Art des Kommissionierens den jeweiligen, gerade gepickten Artikel dem richtigen Behälter zuordnen können.23

3 Grundlagen des Data Mining

Das folgende Kapitel vermittelt die grundlegenden Zusammenhänge des Data Mining. Hierzu werden zunächst eine Begriffsdefinition und eine allgemeine Beschreibung des Data Mining Prozesses geliefert (Kap. 0). Anschließend erfolgt eine genauere Betrachtung der Assoziationsanalyse, welche zur Nivellierung von Kommissionierspitzen eingesetzt wird (Kap. 0).

3.1 Definition und Beschreibung

Data Mining ist kein feststehender, definierter Begriff, sondern wird in unterschiedlicher Art und Weise genutzt.24 Darüber hinaus gibt es den Begriff des Knowledge Discovery in Databases (KDD), welcher zum Teil synonym25 und teils davon abgegrenzt genutzt wird.26 Beide beschreiben jedoch, zumindest in Teilen, die autonome Entdeckung von Mustern (Patterns) zum Erkenntnisgewinn.27 In der vorliegenden Anwendung ist die genaue Abgrenzung jedoch nachrangig, da der Fokus auf eben jenem Erkenntnisgewinn liegt. Zudem sind die im Kapitel 4 vorgestellten Algorithmen nach beiden Definitionen Bestandteil des Data Mining.

Knowledge Discovery wird von Frawley et al als „nichttriviale Extraktion von impliziten, vorher unbekannten, und potentiell nützlichen Informationen“ definiert.28 Fayyad et al wiederum beschreiben den Vorgang als „nichttrivialen Prozess der Identifizierung von validen, neuen, potentiell nützlichen und verständlichen Mustern in den Daten“.29 Es wird demnach deutlich, dass es sich nicht um triviale Analysetechniken wie beispielsweise die Berechnung von Mittelwerten handelt, sondern um statistisch gesicherte, komplexe Verfahren, aus denen neue Informationen gewonnen werden können.30 Im hier vorliegenden Fall sollen diese Informationen der zeitlichen Entzerrung von Kommissionierleistungen dienen.

Fayyad et al sehen Data Mining als Bestandteil des KDD. Aufgrund der anschaulichen Darstellung veranschaulicht Abbildung 3-1 hier den Ablauf eines Data Mining bzw. KDD Prozesses.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3-1: Überblick über die Phasen des KDD-Prozesses

Quelle: (Fayyad/Piatetsky-Shapiro/Smyth 1996), S.41.

An erster Stelle des KDD Prozesses steht das Verstehen des Anwendungsfalls und der Erwerb des Wissens, welches nötig ist, um den speziellen KDD Prozess ausführen zu können. Ebenfalls muss das Ziel des KDD Prozesses definiert werden. Darauf folgt die Auswahl geeigneter Daten, die als Basis dienen, um in ihnen nach Mustern zu suchen. Anschließend werden diese bereinigt und auf den eigentlichen Mining-Prozess vorbereitet. Die Daten werden im Anschluss auf das benötigte Inputformat transformiert. Zugleich wird eine Mining Methode selektiert. Im vorliegenden Fall ist das ein Algorithmus zum Item Set Mining (siehe Kapitel 4). Zudem müssen die Parameter und die speziellen Ziele des Algorithmus gewählt werden (siehe dazu Kapitel 0). Anschließend findet der eigentliche Mining Vorgang statt. Der Nutzer kann diesen Vorgang erheblich fördern, indem die vorangegangenen Schritte analytisch und gründlich ausgeführt werden. Sind die gewünschten Muster berechnet, so erfolgt eine Evaluation der Ergebnisse. Gegebenenfalls müssen die ersten Schritte wiederholt werden, um ein positives Ergebnis zu erhalten. Das Prozessmodell kann also durchaus als Kreislauf aufgefasst werden. Ist ein positives Ergebnis der Evaluation gegeben, so kann eine Implementierung erfolgen. Es wurde „Wissen entdeckt“ (Knowledge Discovery). Auf Basis diesen neuen „Wissens“ wird gehandelt.31

Es gibt noch weitere Modelle des KDD-Prozesses. Jedoch liegt der Fokus im vorliegenden Fall auf der Umsetzung einer Data Mining Methode für den speziellen Fall des Kommissionierens. Eine theoretische Auseinandersetzung mit verschiedenen Modellen erfolgt daher nur in verkürzter Form. Daher wird an dieser Stelle lediglich auf den Cross-industry standard process for data mining (CRISP-DM) eingegangen (siehe hierzu Abbildung 3-2). Bei genauerem Hinsehen offenbart sich, dass sich die Prozesse ähneln. CRISP-DM beschreibt den Data Mining Prozess direkt als Kreislauf. Zudem wird im Modell davon ausgegangen, dass einige Teilprozesse wiederholt werden müssen, sodass diese direkt als Schleifen angelegt wurden. Die meisten Schritte sind jedoch ähnlich zu denen im oben gezeigten Modell von Fayyad et al.32

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3-2: Phasen des CRISP-DM Referenzmodells

Quelle: (Chapman/Clinton/Kerber/Khabaza/Reinartz/Shearer/Wirth 2000), S.10.

Im weiteren Verlauf der Arbeit wird der Begriff Data Mining synonym zu KDD verwendet. Nichtsdestotrotz wird der komplette Prozess des KDD durchlaufen.

3.2 Beschreibung und grundlegende Begriffe der Assoziationsanalyse

Zu den größten Anwendungsbereichen des Data Mining gehört die Suche nach Mustern und Regeln. Diese werden per Assoziationsanalyse gefunden.33 Mit dieser werden häufig gemeinsam auftretende Objekte einer Datenbasis berechnet.34 Es werden also Beziehungen zwischen zwei oder mehr Objekten eines Datensatzes gesucht.35 Treten diese Objekte häufig zusammen auf, so lässt sich dafür eine Regel ableiten (siehe Kapitel 0). Die Anwendungsbereiche der Assoziationsanalyse erstrecken sich über weite Wissenschaftsfelder. Unter anderem wird die Technologie in der Astronomie, der Medizin, aber auch der Wirtschaft angewendet.36

Der letztgenannte Punkt umfasst die sogenannte Warenkorbanalyse.37 Sie dient dazu, Artikel zu identifizieren, welche häufig gemeinsam gekauft werden. Weitere Anwendungsgebiete sind die Identifikation von Regeln, welche die Implikation zum Kauf eines Objektes beinhalten unter der Bedingung des vorherigen Kaufs eines anderen Objektes. Diese Informationen werden anschließend genutzt werden, um potentiellen Kunden weitere Produkte auf Basis ihrer bisherigen Käufe anzubieten. Dies wird Crossmarketing genannt.38 Es werden allerdings nicht nur die Käufe analysiert, sondern ebenfalls die Kunden. So kann eine Datenbank aller Kunden angelegt werden, in der persönliche Daten wie Herkunft, Bildungsstand, Beruf, Familienstand und weiteres gespeichert werden. Mithilfe dieser Daten werden dann potentielle neue Kunden (bspw. vermögende Individuen) kontaktiert.39

In den folgenden Kapiteln werden statt Objekt die Begriffe Item oder Artikel genutzt, um einzelne Objekte einer Datenbank zu beschreiben. Dies ist der Tatsache geschuldet, dass die Assoziationsanalyse auf Transaktionsdaten eines Onlinehandels angewandt wird. Daher handelt es sich bei den Einträgen um Artikelnummern und Transaktionsnummern. In den Kapiteln 4 und 5 wird eine Warenkorbanalyse durchgeführt. Zielsetzung ist, wie bereits beschrieben, die Nivellierung der Kommissionierleistung. Hierbei wird der gesamte KDD Prozess durchlaufen.

Da die Warenkorbanalyse hauptsächlich dem Zweck dient, das Kaufverhalten von Kunden genauer zu analysieren, bedarf es einiger grundlegender Voraussetzungen, um eine Assoziationsanalyse durchführen zu können. Daher werden an dieser Stelle die wichtigsten, grundlegenden Begriffe eingeführt.

3.2.1 Sortiment und Transaktionsdatenbank

Grundlegend für die Assoziationsanalyse ist das Sortiment. Dieses beinhaltet Artikel I (oder Items), welche in den Transaktionen des Onlineshops vorkommen. Diese Transaktionen sind in der Transaktionsdatenbank gespeichert. Jede Transaktion T hat eine Transaktions-Identifikation (TID).40

Weitere wichtige Werte im Zusammenhang mit der Assoziationsanalyse sind der Support und die Konfidenz. Beide werden im Folgenden erläutert.

3.2.2 Support

Der Support als wichtige Kennzahl der Datenanalyse wird unterteilt in die absolute Häufigkeit eines Artikel I in T (Support Count) und in die relative Häufigkeit (den eigentlichen Support).41 Der Support Count von I ist ergo |I|. Der eigentliche Support gibt an, welche Auftrittshäufigkeit ein Artikel oder eine Artikelmenge I im Verhältnis zur Gesamtzahl der Transaktionen aus T hat. Daher:

Abbildung in dieser Leseprobe nicht enthalten

Formel 3-1: Berechnung des Supports

Quelle: Eigene Darstellung in Anlehnung an (Han/Kamber/Pei 2012), S.246.

Eine besondere Form des Supports ist der Minimum Support (min_sup). Dieser ist der vom Benutzer definierte minimale Support, den ein Artikel oder eine Artikelmenge erreichen muss, damit er als „häufig“ (frequent) gilt.42

3.2.3 Konfidenz

Die Konfidenz einer Assoziationsregel I àJ (siehe hierzu Kapitel 0) sagt aus, in welchem Maße die Konklusion (in diesem Fall J) eintritt, unter der Voraussetzung, dass zuvor die Prämisse (in diesem Falle I) eingetreten ist.43 Daher:

Abbildung in dieser Leseprobe nicht enthalten

Formel 3-2: Berechnung der Konfidenz

Quelle: Eigene Darstellung in Anlehnung an (Han/Kamber/Pei 2012), S.246.

Auch bei der Konfidenz kann es eine vom Benutzer zuvor definierte Mindestkonfidenz geben.44

4 Auswahl eines geeigneten Algorithmus

Um die in Kapitel 0 genannten Möglichkeiten des Data Mining und der Assoziationsanalyse ausnutzen zu können, wird, neben einer geeigneten IT-Infrastruktur, ein Algorithmus und eine dazu passende Software benötigt. Deshalb wird an dieser Stelle das Vorgehen zur Auswahl eines geeigneten Algorithmus vorgestellt (Kap.0), um in Kapitel 5 den ausgewählten Algorithmus zu implementieren und den KDD Prozess (siehe Kap. 0) durchzuführen. Zunächst wird die zu suchende Artikelgruppierung eingeschränkt (Kap.0). Im Anschluss werden alle Algorithmen vorgestellt und anschließend erfolgt die Auswahl eines Algorithmus (Kap. 0).

4.1 Vorgehen zur Auswahl eines Algorithmus

Zur Auswahl eines Algorithmus zur Assoziationsanalyse wird zunächst der Suchraum in Form einer bestimmten Artikelgruppierung definiert. Im Anschluss erfolgt eine Klassifizierung der Algorithmen anhand des Suchvorgehens im Allgemeinen, und anhand des spezifischen Vorgehens im Besonderen. Jeder Algorithmus wird im Detail vorgestellt. Nach der Vorstellung aller Algorithmen wird ein Algorithmus anhand von objektiven und subjektiven Kriterien über eine Nutzwertanalyse ausgewählt. Dieser Algorithmus wird anschließend implementiert und für den Data Mining Prozess genutzt.

4.2 Einschränkung der zu suchenden Artikelgruppierungen

Die meisten Data Mining Algorithmen zur Berechnung von häufigen Artikelmengen können mehrere Arten selbiger berechnen. Daher wird an dieser Stelle ein Überblick über einige der gängigsten zu suchenden Artikelmengen gegeben und deren Charakteristika in Hinblick auf den möglichen Nutzen in der Kommissionierung kurz beschrieben. Anschließend erfolgt eine Einschränkung, welche Artikelgruppen in der vorliegenden Arbeit gesucht werden.

[...]


1 Vgl. eMarketer, abgerufen am 11.02.2018.

2 Vgl. Fraunhofer SCS (2016), abgerufen am 11.02.2018.

3 Verein Deutscher Ingenieure (2002), Blatt 1, S.1ff.

4 Vgl. Hompel/Sadowsky/Beck (2011), S.3f.

5 Vgl. Arnold/Isermann/Kuhn/Tempelmeier/Furmans (2008), S.669.

6 Vgl. Schulte (2013), S.268.

7 Vgl. Pfohl (2010), S.129f.

8 Vgl. Hompel/Schmidt/Nagel (2007), S.268.

9 Vgl. Hompel/Sadowsky/Beck (2011), S.57ff.

10 Vgl. Hompel/Schmidt/Nagel (2007), S.268f.

11 Vgl. Gudehus (2011), S.659f.

12 Vgl. Koch (2012), S.61.

13 Vgl. Ehrmann (2012), S.401.

14 Vgl. Ehrmann (2012), S.401.

15 Vgl. Koch (2012), S.61.

16 Vgl. Ehrmann (2012), S.401f.

17 Vgl. Ehrmann (2012), S.401f.

18 Vgl. Schulte (2017), S.275.

19 Vgl. Schulte (2017), S.275.

20 Vgl. Hompel/Sadowsky/Beck (2011), S.36.

21 Vgl. Martin (2014), S.399.

22 Vgl. Martin (2014), S.399.

23 Vgl. Hompel/Sadowsky/Beck (2011), S.35.

24 Vgl. Petersohn (2009), S.8.

25 Vgl. Krahl/Windheuser/Zick (1998), S.24.

26 Vgl. Fayyad/Piatetsky-Shapiro/Smyth (1996), S.39ff.

27 Vgl. Petersohn (2009), S.8.

28 Frawley/Piatetsky-Shapiro/Matheus (1992), S.58.

29 Fayyad/Piatetsky-Shapiro/Smyth (1996), S.40f.

30 Vgl. Fayyad/Piatetsky-Shapiro/Smyth (1996), S.41.

31 Vgl. Fayyad/Piatetsky-Shapiro/Smyth (1996), S.42.

32 Vgl. Chapman/Clinton/Kerber/Khabaza/Reinartz/Shearer/Wirth (2000), S.1ff.

33 Vgl. Nisbet/Elder/Miner (2009), S.23f.

34 Vgl. Petersohn (2009), S.101f.

35 Vgl. Tan/Steinbach/Kumar (2006), S.327f.

36 Vgl. Nisbet/Elder/Miner (2009), S.24.

37 Vgl. Hastie/Tibshirani/Friedman (2017), S.487f.

38 Vgl. Nisbet/Elder/Miner (2009), S.24.

39 Vgl. Hastie/Tibshirani/Friedman (2017), S.499ff.

40 Vgl. Borgelt (2012), S.438.

41 Vgl. Adamo (2001), S.7.

42 Vgl. Borgelt (2012), S.438.

43 Vgl. Tan/Steinbach/Kumar (2006), S.329f.

44 Vgl. Han/Kamber/Pei (2012), S.18.

Ende der Leseprobe aus 92 Seiten

Details

Titel
Wie die Logistik 4.0 Daten effizient nutzt. Implementierung eines Data Mining Algorithmus zur Nivellierung von Kommissionierspitzen
Autor
Jahr
2019
Seiten
92
Katalognummer
V459663
ISBN (eBook)
9783960956006
ISBN (Buch)
9783960956013
Sprache
Deutsch
Schlagworte
Logistik, Kommissionierung, Data Mining, Big Data, Predictive Analytics, FP-Growth-Algorithmus, Nutzwertanalyse, Frequent Item Sets, Effektivität, Effizienzsteigerung
Arbeit zitieren
Tristan Lizardo (Autor:in), 2019, Wie die Logistik 4.0 Daten effizient nutzt. Implementierung eines Data Mining Algorithmus zur Nivellierung von Kommissionierspitzen, München, GRIN Verlag, https://www.grin.com/document/459663

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Wie die Logistik 4.0 Daten effizient nutzt. Implementierung eines Data Mining Algorithmus zur Nivellierung von Kommissionierspitzen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden