Lade Inhalt...

Eine statistische Clusteranalyse zur Analyse von Datensätzen. Theorie und Praxis

Hausarbeit 2017 25 Seiten

Mathematik - Statistik

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Abkurzungsverzeichnis

Symbolverzeichnis

1 Einleitung

2 Grundlagen der Clusteranalyse
2.1 Ausgangssituation und Anforderungen
2.2 Ahnlichkeits und Distanzbestimmung in Abhangigkeit des Skalenniveaus
2.3 Verfahren der Clusteranalyse
2.3.1 Agglomerative-hierarchische Verfahren
2.3.2 Ausgewahlte Clusteralgorithmen

3 Computergestutzte Clusteranalyse eines Testdatensatzes

4 Schluss

Literaturverzeichnis

Anhang

Abbildungsverzeichnis

Abbildung 1: Datenkonstellation ohne erkennbarere Clusterstruktur

Abbildung 2: Datenkonstellation mit erkennbarer Clusterstruktur

Abbildung 3: Beispielhaftes Dendrogramm

Abbildung 4: Beispielhaftes Scree-Diagramm

Abbildung 5: Dendrogramm Single-Linkage-Verfahren

Abbildung 6: Dendrogramm Ward-Verfahren

Tabellenverzeichnis

Tabelle 1: Beispielhafte Rohdatenmatrix

Tabelle 2: Beispielhafte Distanzmatrix

Tabelle 3: Beispielhaftes Verschmelzungsschema

Tabelle 4: Korrelationsmatrix

Tabelle 5: Statistische Kennzahlen fur die 3-Cluser-Losung

Tabellen im Anhang

Tabelle T1: Testdatensatz

Tabelle T2: Distanzmatrix

Abkurzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Symbolverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Das Problem muhsamer und zeitaufwendiger Informationsbeschaffung gehort schon seit vie len Jahren der Vergangenheit an. Durch das Internet, elektronische Datenbanken und Massen speicher ist die Informationsbeschaffung preiswert und schnell geworden. In Zeiten von „Big Data“ stellt sich viel mehr die Frage, wie sich die Massen an verfugbaren Informationen sys tematisch auswerten lassen. Ein mogliches Instrumentarium, um Strukturen in groBen Daten mengen zu erkennen, ist die Clusteranalyse.

Aus betriebswirtschaftlicher Sicht ist die Anwendungsbandbreite riesig. Im Marketing ist die Clusteranalyse ein beliebtes Instrument zur Abgrenzung und Beschreibung von Kauferseg menten oder Absatzmarkten. In der Logistikbranche lasst sich die Clusteranalyse im Rahmen der Standortplanung einsetzten, um eine Menge von Standortalternativen auf der Grundlage verschiedener Faktoren zu gruppieren. Im Anschluss kann durch die Interpretation der Analy seergebnisse jenes Cluster herausgestellt werden, das fur das Unternehmen hinsichtlich der festgelegten Standortfaktoren die gunstigsten Voraussetzungen bietet. (Vgl. Schreier, 2003, S. 16)

Die folgende Arbeit gliedert sich in zwei Abschnitte: Zunachst wird die Theorie der Cluster analyse dargestellt, wobei der Fokus auf die hierarchischen Verfahren gelegt wird. Im zweiten Teil wird eine computergestutzte Anwendung einer solchen Analyse auf einen selbst erstellten Rohdatensatz dargestellt. Das Ziel dieses Abschnittes ist es eine sinnvoll interpretierbare Klassifikation der vorliegenden Daten aufzudecken.

2 Grundlagen der Clusteranalyse

In diesem Kapitel werden die theoretischen Grundlagen, die dem Anwendungsbeispiel im dritten Kapitel zugrunde liegen, dargelegt. Abschnitt 2.1 beschreibt die Ausgangssituation einer Clusteranalyse und die Anforderungen, die eine sinnvolle Clusterlosung erfullen sollte. Im Abschnitt 2.2 werden ausgewahlte Methoden zur Ahnlichkeits und Distanzbestimmung in Abhangigkeit des Skalenniveaus erortert. Abschnitt 2.3 befasst sich mit den verschiedenen Verfahrensgruppen der Clusteranalyse, wobei in den Abschnitten 2.3.1 und 2.3.2 insbesonde re auf die agglomerative-hierarchische Verfahren eingegangen wird und ausgewahlte Cluster algorithmen dieser Verfahrensgruppe naher erlautert werden.

2.1 Ausgangssituation und Anforderungen

Die Ausgangsbasis einer Clusteranalyse ist ein zu untersuchender Datensatz, der aus ver schiedenen Klassifikationsobjekten (z.B. Unternehmen) besteht. Fur jedes dieser Objekte sind Merkmalsauspragungen bzw. Variablen (z.B. Umsatz, Gewinn, Anzahl der Angestellten) be kannt, die sich, wie in Tabelle 1 dargestellt, in einer Rohdatenmatrix anordnen lassen. (Vgl. Backhaus et al., 2000, S. 331)

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Beispielhafte Rohdatenmatrix

Quelle: (In Anlehnung an Backhaus et al., 2000, S. 331)

Die Clusteranalyse zahlt zu den struktur-entdeckenden Verfahren1 der multivariaten Analy semethoden. (Vgl. Backhaus et al., 2000, S. XXI) Ziel ist die Zusammenfassung von Klassifi kationsobjekten zu Gruppen. (Vgl. Bacher et al., 2010, S. 15) Dabei sind dem/der Anwen der/in zu Analysebeginn die Gruppierungen noch nicht bekannt. Von zentraler Bedeutung ist, dass die Objekte innerhalb einer Gruppe ahnlich sind (interne Homogenitat), wogegen sich Objekte, die zu unterschiedlichen Clustern gehoren, voneinander unterscheiden sollten (exter­ne Heterogenitat). (Vgl. Micheel, 2010, S. 158)

Sind diese Grundvoraussetzungen nicht erfullt, ist es wenig sinnvoll eine Klassifikation durchzufuhren. Abbildung 1 verdeutlicht diesen Sachverhalt. Die untersuchten Klassifikati onsobjekte bilden in den Variablen X und Y eine groBe, relativ dichte Punktewolke, welche sich nicht sinnvoll in Cluster unterteilen lasst. (Vgl. Bacher et al., 2010, S. 17)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Datenkonstellation ohne erkennbarere Clusterstruktur

Quelle: (In Anlehnung an Bacher et al., 2010, S. 17)

In Abbildung 2 bilden die dargestellten Klassifikationsobjekte drei deutlich erkennbare Clus­ter. Sie sind in sich homogen und voneinander verschieden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Datenkonstellation mit erkennbarer Clusterstruktur

Quelle: (In Anlehnung an Bacher et al., 2010, S. 17)

Neben den beiden Grundvoraussetzungen werden in der Literatur weitere Anforderungen an die gesuchte Klassifikation gestellt. Eine gute Clusterlosung erfordert stabile Cluster. Eine geringfugige Modifikation der Daten oder des Clusteranalyseverfahrens darf keine gravieren den Anderungen der Ergebnisse nach sich ziehen. Voraussetzung fur diese Stabilitat ist eine gewisse MindestgroBe der einzelnen Cluster. Daruber hinaus sollen die Cluster gut interpre­tierbar sein, wobei dies prinzipiell durch die Auswahl einer geringen Clusterzahl erleichtert wird. Cluster sollen auBerdem inhaltlich valide sein. Dies ist dann der Fall, wenn die Cluster mit externen Variablen korrelieren, von denen bekannt ist, dass sie im Zusammenhang mit den Typen stehen, die aber nicht in die Bildung der Cluster eingehen. (Vgl. Bacher et al., 2010, S. 18)

2.2 Ahnlichkeits und Distanzbestimmung in Abhangigkeit des Skalen niveaus

Um die beiden Grundforderungen der internen Homogenitat und der externen Heterogenitat zu quantifizieren, gibt es verschiedene Methoden zur Ahnlichkeits bzw. Distanzmessung. Diese sind abhangig vom vorliegenden Skalenniveau des Rohdatensatzes.

Im Vorfeld sollten die Werte des Datensatzes standardisiert werden, um bei unterschiedlichen GroBenordnungen oder unterschiedliche MaBeinheiten eine Vergleichbarkeit der ermittelten Distanzen zwischen den Objekten zu ermoglichen. Dies kann durch die z-Transformation gewahrleistet werden. (Vgl. Bacher et al., 2010, S.177-178) Das Ergebnis der z Transformation ist der standardisierte Wert der Merkmalsauspragung i des Objektes k (zik). Fur die Berechnung des z-Wertes muss die Auspragung i des Objektes k (xik), der Mittelwert und die Standardabweichung der Auspragungen i uber alle Objekte (xj und si) in den in For mel (1) abgebildeten Zusammenhang gebracht werden.

Abbildung in dieser Leseprobe nicht enthalten

In der standardisierten Form haben die Werte einen Mittelwert von 0 und eine Standardab weichung von 1 und sind unabhangig von den ursprunglichen MaBeinheiten.

Liegt den Untersuchungsobjekten ein nominales Skalenniveau zu Grunde, so konnen die Ergebnisse weder geordnet noch der Abstand zwischen diesen bestimmt werden. Lediglich die Haufigkeit der vorkommenden Auspragungen ist erfassbar. Aus diesem Grund ist nur die Ahnlichkeits und keine Distanzbestimmung zwischen Objekten moglich. Zwei Objekte sind sich ahnlich, wenn das gewahlte ProximitatsmaB einen hohen Wert annimmt. Binarvariablen, die die Werte 1 (Eigenschaft vorhanden) oder 0 (Eigenschaft nicht vorhanden) annehmen konnen, werden eingesetzt, wenn eine Variable mehrere Auspragungen annehmen kann. (Vgl. Backhaus, 2000, S. 332-333) In der Literatur werden etliche ProximilitatsmaBe fur die Ahn lichkeitsbeziehung zwischen Objekten aufgefuhrt. Tanimoto, Simple-Matching sowie Russel & Rao sind die bekanntesten. (Vgl. Eckey et al., 2002, S. 219)

Bei metrischem Skalenniveau konnen sowohl die Anzahl, der Rang als auch der Abstand zwischen den Auspragungen bestimmt werden. Es ist dem zur Folge sowohl die Ahnlichkeits als auch die Distanzbestimmung moglich. Zur Ahnlichkeitsbestimmung zwischen zwei Ob jekten wird haufig der Q-Korrelationskoeffizient herangezogen. Ein bekanntes Proximitats maB zur Distanzmessung ist die Minkowski-Metrik (L1/L2 Norm). Die zu vergleichenden Ob jekte ahneln sich dann, wenn das gewahlte DistanzmaB einen kleinen Wert annimmt. (Vgl. Vogel, 1974, S. 82) Da bei metrischem Skalenniveau in der Regel die Distanzmessung im Vordergrund steht, wird im Weiteren nur die Minkowski-Metrik ausfuhrlicher erlautert.

Formel (2) zeigt die Minkowski-Metrik, die die Grundform der L1 Norm (auch City-Block Metrik) und der L2 Norm (auch Euklidische Distanz) darstellt.

Abbildung in dieser Leseprobe nicht enthalten

Die Distanz zwischen den Objekten k und l (dk,l) wird mit Hilfe der standardisierten Werte der Merkmalsauspragungen i von Objekt k bzw. l (zik und zil) sowie der Minkowski-Konstante (r > 1) berechnet. Die beiden L-Normen unterscheiden sich hinsichtlich der Minkowski Konstante. Es gilt: Je groBer die Minkowski-Konstante, desto starker fallen groBere Distanzen ins Gewicht und Kleinere beeinflussen kaum noch das Ergebnis. (Vgl. Eckey et al., 2002, S. 212-213) Fur r = 2 ergibt sich die euklidische Distanz. (Vgl. Eckey et al., 2002, S. 207) Wird die euklidische Distanz quadriert, erhalt man die quadrierte euklidische Distanz. Einige Clus teralgorithmen stutzen sich auf dieses MaB. (Vgl. Eckey et al., 2002, S. 211) Beide L-Normen weisen das gleiche ahnlichste bzw. unahnlichste Paar aus. Dazwischen ergeben sich aufgrund der unterschiedlichen Behandlung der Differenzen verschiedene Reihenfolgen der Objekte. (Vgl. Backhaus et al., 2000, S. 341-342)

2.3 Verfahren der Clusteranalyse

Zum Auffinden von Clustern wurde eine Vielzahl von Verfahren entwickelt, die sich den fol genden Verfahrensgruppen zuordnen lassen:

Unvollstandige Clusteranalyseverfahren liefern ausschlieBlich raumliche Darstel lungen der Ergebnisse. Die Zuordnung der Klassifikationsobjekte zu Clustern muss von dem/der Betrachter/in selbst vorgenommen werden. Dies ist in einem niedrigdi mensionalen idealerweise in einem zweidimensionalen Raum zwar anschaulich und unkompliziert, lasst aber auch individuellen Spielraum zu.
Bei deterministischen Clusteranalyseverfahren erfolgt eine deterministische Clus terzuordnung der Klassifikationsobjekte mit Hilfe von mathematischen Algorithmen. Deterministisch bedeutet, dass jedes Klassifikationsobjekt einem oder mehreren Clus tern mit einer Wahrscheinlichkeit von 0 oder 1 zugewiesen wird.
Bei Prohabilistische Clusteranalyseverfahren werden Klassifikationsobjekte den Clustern nicht-deterministisch, d.h. mit einer Wahrscheinlichkeit zwischen 0 und 1, zugeordnet. (Vgl. Bacher et al., 2010, S. 19)

Im Weiteren erfolgt eine nahere Betrachtung der deterministischen Clusteranalyse bei einer Vernachlassigung der anderen beiden Methoden.

Bezuglich der Zuordnung lasst sich die deterministische Clusteranalyse in uberlappungsfreie und uberlappende Verfahren unterteilen. Erstere fuhren zu einer Clusterlosung, in der jedes Klassifikationsobjekt genau einem Cluster zugeordnet wird. Bei uberlappenden Verfahren konnen Klassifikationsobjekte mehreren Clustern angehoren. In diesem Zusammenhang ist zu beachten, dass die Heterogenitat zwischen den Clustern mit zunehmendem Anteil der Uber­lappungen abnimmt. Bestehen zwischen zwei Clustern viele Uberlappungen, konnen diese nicht eindeutig unterschieden werden, wodurch die Grundforderung der externen Heterogeni tat nur im geringen MaBe erfullt ist. (Vgl. Bacher et al., 2010, S. 147) Deswegen werden uber lappende Verfahren im Folgenden vernachlassigt.

Im Rahmen der deterministischen Clusteranalyse lassen sich zudem hierarchische und partiti onierende Verfahren unterscheiden. (Vgl. Backhaus et al., 2000, S. 348) Bei den partitionie renden Verfahren muss die Anzahl der zu bildenden Cluster vorgegeben werden. Die Klassi fikationsobjekte werden dann den Clustern so zugeordnet, dass ein bestimmtes Kriterium ma ximiert bzw. minimiert wird. Das bekannteste partitionierende Verfahren, das K-Means Verfahren, minimiert im Zuge der Zuordnung die Varianz in den Clustern. Bei den hierarchi schen Verfahren ist es nicht notwendig, die Anzahl der zu bildenden Gruppen zu kennen. Alle zu klassifizierenden Objekte befinden sich zunachst entweder in einer Gruppe (divisive Ver fahren) oder jedes Untersuchungsobjekt bildet ein eigenes Cluster (hierarchisch agglomerative Verfahren). (Vgl. Bacher et al., 2010, S. 19) Partitionierende Verfahren haben den Vorteil, dass sie wesentlich grobere Objektmengen bearbeiten konnen als die aufwandi gen Algorithmen der hierarchischen Verfahren, die zwischen allen Objekten aller Gruppen immer wieder neue Paarbeziehungen berechnen. (Vgl. Herink et al., 2004, S. 290) Besonders wenn eine Struktur in Daten entdeckt werden soll, ist es nicht moglich eine Gruppenanzahl vorzugeben, sondern erst die Analyse selbst ergibt die Anzahl der Cluster, wofur dann hierar chische Verfahren angewendet werden mussen. Partitionierende Analysen werden manchmal dazu benutzt, die so gefundene Losung ggf. noch zu verbessern (Vgl. Eckey et al., 2002, S 203-204), wobei dieses Verfahren in der Praxis nur sehr begrenzt angewendet wird. (Vgl. Backhaus et al., 2000, S. 351-352) Aus diesem Grund werden die partitionierende Verfahren im Folgenden nicht weiter berucksichtigt. Die divisiven Varianten der hierarchischen Verfah ren haben sich in der praktischen Anwendung ebenfalls nicht durchgesetzt. (Vgl. Eckey et al., 2002, S. 229) Daher wird im weiteren Verlauf dieser Arbeit nur die agglomerative hierarchische Clusteranalyse genauer betrachtet.

2.3.1 Agglomerative-hierarchische Verfahren

Der allgemeine Ablauf einer agglomerativen-hierarchischen Clusteranalyse gliedert sich in zwei Abschnitte. Zunachst muss ein Proximitatsmab gewahlt werden, das die Ahnlichkeiten bzw. Distanzen zwischen den Objekten der Rohdatenmatrix ermittelt. Dieses muss fur das zugrundeliegende Skalenniveau geeignet sein. Die Rohdatenmatrix kann dadurch in eine Dis tanzmatrix uberfuhrt werden. Tabelle 2 zeigt eine beispielhafte Distanzmatrix.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2: Beispielhafte Distanzmatrix

Quelle: (In Anlehnung an Backhaus et al., 2000, S. 331)

[...]


1 Daneben gibt es laut (Backhaus et al., 2000, S. XXI) struktur-prufende Verfahren, wie die Regressionsanalyse.

Details

Seiten
25
Jahr
2017
ISBN (eBook)
9783346173546
Sprache
Deutsch
Katalognummer
v541372
Institution / Hochschule
Universität Hamburg
Note
2,0
Schlagworte
analyse clusteranalyse datensätzen eine praxis theorie

Autor

Zurück

Titel: Eine statistische Clusteranalyse zur Analyse von Datensätzen. Theorie und Praxis