Lade Inhalt...

Clusteranalyse - Ein Anwendungsbeispiel

Essay 2007 32 Seiten

Soziologie - Methodologie und Methoden

Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Zu den Daten

3 Methodische Vorüberlegungen

4 Diskussion verschiedener Lösungsmöglichkeiten
4.1 Zusammensetzung der Cluster und Vergleich der Mittelwerte
4.2 F- und t-Werte

5 Endgültiges Modell
5.1 Statistische Argumente
5.2 Inhaltliche Argumente
5.3 Zusammenhang mit soziodemografischen Merkmalen

6 Zusammenfassung

7 Anhang
7.1 Syntax
7.2 Die wichtigsten Tabellen und Grafiken

1 Einleitung

Unter dem Begriff „Clusteranalyse“ versteht man ein Segmentierungsverfahren, mit dem die zu untersuchenden Daten in Gruppen aufgeteilt werden sollen. Diese Gruppeneinteilung wird von Backhaus et al. (2003) folgendermaßen beschrieben:

„Die Mitglieder einer Gruppe sollen dabei eine weitgehend verwandte Eigenschaftsstruktur aufweisen; d.h. sich möglichst ähnlich sein. Zwischen den Gruppen sollen demgegenüber (so gut wie) keine Ähnlichkeiten bestehen. Ein wesentliches Charakteristikum der Clusteranalyse ist die gleichzeitige Heranziehung aller vorliegenden Eigenschaften zur Gruppenbildung. […] Bei allen Problemstellungen, die mit Hilfe der Clusteranalyse gelöst werden können, geht es immer um die Analyse einer heterogenen Gesamtheit von Objekten (z.B. Personen, Unternehmen), mit dem Ziel, homogene Teilmengen von Objekten aus der Objektgesamtheit zu identifizieren.“[1]

Die im Folgenden dargestellte Clusteranalyse hat einen Datensatz der Katholischen Universität Eichstätt zur Grundlage, der sich auf eine 2004 durchgeführte Schülerbefragung bezieht. Leiter der Studie war Prof. Dr. Siegfried Lamnek; das Thema war „Gewalt in der Schule“. Die hier betrachteten Variablen sind acht Täter- und Opfer-Indizes, mittels denen die Schüler in Gruppen eingeteilt werden sollen.

2 Zu den Daten

Die vorliegenden acht Variablen wurden aus einer ganzen Reihe von Items gebildet, in denen die Erfahrungen der Schüler mit verschiedenen Gewalttaten erfasst wurden. Die auf diese Art erzeugten Indizes drücken zum einen die Erlebnisse der Opfer, zum anderen die der Täter aus. Sowohl die Opfer- als auch die Täter-Indizes bestehen jeweils aus vier Dimensionen: physische Gewalt gegen Personen, physische Gewalt gegen Sachen, psychische Gewalt und verbale Gewalt. Jeder Index kann einen Wert zwischen 0 (keinerlei Erfahrungen mit Gewalt aus dem jeweiligen Bereich; Verneinung aller Items) und 10 (sämtliche Items wurden bejaht) annehmen.

Im Datensatz liegen weiterhin eine Reihe soziodemographischer Merkmale vor, mit denen im Anschluss an die Clusteranalyse zusätzlich Korrespondenzanalysen durchgeführt werden können, um Zusammenhänge von den erzeugten Clustern (Gruppen) und Merkmalen grafisch zu veranschaulichen.

3 Methodische Vorüberlegungen

Da der Datensatz aus über 4000 Fällen besteht, ist es zunächst einmal sinnvoll, sich eine 10%ige Zufallsstichprobe zu erstellen. Diese ermöglicht es, Dendogramme anzufertigen und sich so einen Überblick über die Daten zu verschaffen und das weitere Vorgehen bei der Analyse zu planen. Nachdem die Stichprobe anhand der Häufigkeitsverteilungen darauf überprüft wurde, ob sie den Verhältnissen im Datensatz entspricht, kann mit der eigentlichen Analyse angefangen werden.

Für die Clusteranalyse können unterschiedliche Fusionsalgorithmen verwendet werden. Im vorliegenden Fall wird sie sowohl mit dem WARD-Verfahren als auch mit Complete Linkage durchgeführt. Beim Complete Linkage Verfahren werden auf jeder Fusionsstufe für alle Klassen die Abstände der am weitesten voneinander entfernten Objekte bestimmt. Fusioniert werden dann diejenigen beiden Klassen, für die dieser Abstand am geringsten ist. Die auf diese Art klassierten Objekte sind also nicht nur dem nächstgelegenen Nachbar ähnlich, sondern allen Objekten innerhalb der Klasse. Beim Ward-Verfahren hingegen werden die Klassen berechnet, indem die quadrierte euklidische Distanz für alle Objektpaare bestimmt wird und dann diejenigen Objekte zu Klassen zusammengefasst werden, bei deren Fusion der geringste Zuwachs des Heterogenitätsmaßes (Fehlerquadratsumme) resultiert.

Eine Betrachtung der Dendogramme beider Verfahren ergibt, dass beim Complete Linkage viele sehr schwach besetzte Klassen sowie eine riesige Klasse gebildet werden. Dies ist für die Durchführung einer Clusteranalyse wenig sinnvoll und führt daher zu der Entscheidung, die weiteren Analysen auf dem Ward-Verfahren basieren zu lassen, da die Klassensituation hier deutlich besser aussieht.

Bei der daran anschließenden Entscheidung darüber welche Klassenlösungen man näher untersucht, gilt es zwischen Homogenität und Handhabbarkeit abzuwägen. Einerseits sollen natürlich so viele Klassen wie möglich gebildet werden, um die Daten möglichst genau und so differenziert wie möglich abzubilden. Andererseits möchte man natürlich die Komplexität der Daten verringern und daher möglichst wenige Klassen erzeugen. Um diesem Konflikt zwischen Modellanpassung und Modellökonomie gerecht zu werden wurden im vorliegenden Fall als Obergrenze sieben Klassen für sinnvoll erachtet. Daher werden im Folgenden die 2- bis 7-Klassen-Lösungen eingehender betrachtet und ausgewertet.

4 Diskussion verschiedener Lösungsmöglichkeiten

Im Anhang befinden sich zunächst die Kreuztabellen, in denen die Mittelwerte der erzeugten Cluster abgebildet sind (Tabellen A1 bis A5)[2]. Daran schließen dann die Häufigkeitstabellen der jeweiligen Cluster an (Tabellen A6 bis A10). Beide Tabellensets sind jeweils in aufsteigender Reihenfolge dargestellt, da sie im Folgenden in eben dieser Reihenfolge behandelt werden (sozusagen „rückwärts“: nicht wie die Cluster fusioniert, sondern wie sie „aufgespalten“ werden würden; für die Logik der Interpretation ändert diese Umkehrung der Betrachtung nichts). Zuerst wird die Zusammensetzung der Cluster betrachtet und eine Klassendiagnose anhand von Mittelwertvergleichen vorgenommen. Im Anschluss daran wird kurz auf einige Kriterien zur Beurteilung der Homogenität der gefundenen Gruppen eingegangen: die sog. F- und t-Werte (Tabellen A11 bis A15).

4.1 Zusammensetzung der Cluster und Vergleich der Mittelwerte

Betrachtet man zunächst die 2-Cluster-Lösung (vgl. Anhang, Tabelle A1 und A6), so bietet sich ein relativ unspektakuläres Bild: beide Cluster sind etwa gleich groß (55,5 und 44,5% der Objekte); die erste Gruppe hat überall leicht erhöhte Mittelwerte, während die zweite Gruppe überall (teilweise sehr deutlich) unter dem Gesamtmittelwert liegt. Mehr lässt sich an dieser Stelle noch nicht erkennen.[3]

Im Schritt zur 3-Cluster-Lösung wurde die erste Gruppe in zwei neue Gruppen gesplittet (vgl. Anhang, Tabelle A2). Hier zeigt sich bereits ein erstes interessantes Ergebnis: eine der beiden neuen Gruppen besteht nur aus 97 Objekten (vgl. Anhang, Tabelle A7)! Weiterhin fällt sofort auf, dass diese Gruppe enorme Abweichungen vom Mittelwert bei allen Variablen hat – scheinbar handelt es sich dabei um eine Extremgruppe, die besonders viel Erfahrung im Umgang mit Gewalt jeglicher Art hat.

Bei der anderen neu erzeugten Gruppe ist augenscheinlich, dass sämtliche Indizes ebenfalls erhöhte Werte haben, allerdings lange nicht so hoch wie die der Extremgruppe. Die erhöhten Werte sind nicht weiter verwunderlich, wenn man sich in Erinnerung ruft, dass diese Gruppe ja fast gänzlich mit der ersten Gruppe aus der 2-Cluster-Lösung übereinstimmt.

Auch beim Übergang zur 4-Cluster-Lösung wurde wieder die erste Gruppe aufgespaltet. Wir erhalten nun eine Gruppe, die ähnlich der Extremgruppe durchgehend hohe Werte aufweist(vgl. Anhang, Tabelle A3), jedoch nicht annähernd so hohe wie die Extremgruppe selber (abgesehen vom Opfer-Index verbale Gewalt – dieser Wert liegt sogar noch etwas über dem der Extremgruppe; da dieses Cluster noch weiter geteilt wird, muss eine Interpretation dieser Abweichung auf später verschoben werden). Auch die Anzahl der zugeordneten Objekte (vgl. Anhang, Tabelle A8) macht deutlich, dass es sich hierbei kaum um eine weitere Extremgruppe handelt: mit 545 Fällen (und somit rund 1/8 der verfügbaren Fälle) kann man nicht mehr von einer extremen Minderheit sprechen.

Die andere neue Gruppe weist jetzt andere Eigenschaften auf, als die Gruppe vor dem Split hatte: abgesehen von den beiden Indizes, die sich mit der verbalen Gewalt befassen, liegen die Werte jetzt unter den Gesamtmittelwerten. Die Abspaltung der anderen Gruppe hatte also auch deutlichen Einfluss auf die Homogenität innerhalb dieser Gruppe.

Bei der 5-Cluster-Lösung wurde die soeben erzeugte vierte Gruppe erneut geteilt. Wir erhalten nun eine sehr interessante fünfte Gruppe (vgl. Anhang, Tabelle A4): sämtliche Werte der Opfer-Indizes liegen deutlich über dem jeweiligen Mittelwert, wohingegen sämtliche Werte der Täter-Indizes nur geringfügig erhöht sind. Dies lässt auf eine Gruppe von Opfern schließen. Dass auch die Täter-Indizes erhöhte Werte aufweisen stützt diese Interpretation sogar noch – schließlich sind die Opfer von Gewalt dazu gezwungen, sich gegen ihre Übeltäter zur Wehr zu setzen. Auch die Größe von rund 6% der Fälle (vgl. Anhang, Tabelle A9) scheint für eine Opfergruppe annehmbar zu sein.

Die zweite Gruppe besteht ebenfalls aus etwa 6% der Fälle und hat auch inhaltlich einige Auffälligkeiten: abgesehen vom Opfer-Index Gewalt gegen Sachen (der nur eine geringfügige Erhöhung des Mittelwerts aufweist) sind alle Mittelwerte deutlich erhöht, die beiden Indizes zur verbalen Gewalt sogar extrem.

Das 6-Cluster-Modell schließlich unterscheidet sich von der vorangegangenen Lösung durch die Aufspaltung der 1. Gruppe. Dadurch entsteht eine neue Gruppe, die überall niedrigere Werte aufweist außer bei den beiden Indizes zur verbalen Gewalt; diese sind geringfügig über dem jeweiligen Mittelwert (vgl. Anhang, Tabelle A5). Dies entspricht den Verhältnissen in der soeben geteilten Gruppe, nur sind alle Werte noch weiter gesunken.

Die zweite neue Gruppe weist ein etwas eigenartiges Profil auf: der Opfer-Index Gewalt gegen Sachen liegt unter dem allgemeinen Durchschnitt, Opfer Gewalt gegen Personen und Opfer psychischer Gewalt liegen geringfügig über den entsprechenden Mittelwerten und alle anderen Werte liegen im Großen und Ganzen deutlich darüber. Diese Gruppe besteht aus 12% aller Fälle (vgl. Anhang, Tabelle A10), was bei der Interpretation letztlich auch nicht großartig weiterhilft.

4.2 F- und t-Werte

Der F-Wert ist ein Kriterium zur Beurteilung der Homogenität einer gefundenen Gruppe. Je kleiner er ist, desto geringer ist die Streuung der Variable in einer Gruppe im Vergleich zur Erhebungsgesamtheit.[4]

Der t-Wert ist ein Kriterium, das Anhaltspunkte zur Interpretation der Cluster liefern soll. Es handelt sich dabei um einen normierten Wert, bei dem eine negative Ausprägung bedeutet, dass die Variable in der betrachteten Gruppe im Vergleich zur Erhebungsgesamtheit unterrepräsentiert ist und eine positive Ausprägung, dass die Variable in der betrachteten Gruppe im Vergleich zur Erhebungsgesamtheit überrepräsentiert ist.

Tabelle 4.2.1 zeigt sowohl F- als auch t-Werte für die 7-Cluster-Lösung. Die grau hervorgehobenen Werte sind diejenigen F-Werte, die 1 überschreiten und somit ein Argument gegen die Homogenität der Gruppe darstellen. Wie man erkennen kann, sind die Cluster 1, 2 und 5 die einzigen, bei denen keinerlei Homogenitätsprobleme vorliegen. Alle anderen Cluster weisen teilweise gruppeninterne Varianzen auf, die in der Untersuchungsgesamtheit niedriger ausfallen würden. Betrachtet man jedoch die F-Werte der anderen Clusterlösungen (vgl. Anhang, Tabellen A11 bis A15), so lässt sich erkennen, dass keine Lösung existiert, in der die Homogenitätsprobleme einzelner Gruppen gänzlich behoben wären. Stattdessen kann man jedoch sehen, dass die F-Werte durch die Aufteilung der einzelnen Cluster insgesamt geringer werden und sich somit dem Idealbild, bei dem alle F-Werte unter 1 wären, zumindest tendenziell annähern. Es stellt sich die Frage, ob weitere Aufspaltungen in noch mehr Cluster noch bessere Ergebnisse des F-Wertes liefern würden; da Lösungen mit mehr als 7 Clustern von vornherein ausgeschlossen wurden spielt dies jedoch keine größere Rolle.

Die Ergebnisse, die der t-Wert liefert entsprechen denen, die die gesonderte Betrachtung der Mittelwerte ebenfalls ergibt. Insofern ist eine ausführliche Besprechung der vom t-Wert nicht erforderlich, da dies an anderer Stelle bereits implizit gemacht wurde.

Tabelle 4.2.1: Übersicht über F- und t-Werte der 7-Cluster-Lösung

Abbildung in dieser Leseprobe nicht enthalten

Warum letztendlich die 7-Cluster-Lösung den anderen Kandidaten vorgezogen wurde, soll im folgenden Abschnitt geklärt werden.

5 Endgültiges Modell

Tabelle 5.1: Mittelwerte, Standardabweichungen und Varianzen der 7-Cluster-Lösung

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 5.1 fasst noch einmal zusammen, was in Kapitel 4.1 bereits etwas ausführlicher dargestellt wurde, ergänzt um die letzte Aufteilung einer Gruppe in zwei neue. Die bei der 3-Cluster-Lösung angesprochene Extremgruppe zerfällt bei diesem Schritt in die Gruppen 3 und 7.

5.1 Statistische Argumente

Wie man der in Tabelle 5.1.1 dargestellten Häufigkeitsverteilung entnehmen kann, sind die Cluster ihrer Größe nach zu urteilen sehr heterogen. Auf Cluster 1 und 2 fallen bereits über 70% aller Objekte, wohingegen Cluster 3 und 7 gerade einmal 1% der Fälle enthalten. Dies spricht generell eher gegen die Lösung, da normalerweise bei Clusteranalysen eine Gleichbesetzung der Gruppen angestrebt wird. Nichtsdestotrotz spricht die Heterogenität im vorliegenden Fall für dieses Modell; dazu finden sich jedoch in Abschnitt 5.2 nähere Erläuterungen.

Tabelle 5.1.1: Häufigkeitsverteilung der 7-Cluster-Lösung

Abbildung in dieser Leseprobe nicht enthalten

Wie bereits weiter oben erwähnt wurde, sind auch die F-Werte der 7-Cluster-Lösung nicht frei von Kritik. Bei Cluster 3 geht dies sogar so weit, dass nicht ein einziger F-Wert unter 1 liegt. Trotzdem sind die Werte als akzeptabel anzusehen, da die anderen Lösungen kaum bessere Werte aufweisen und die im Folgenden dargestellte inhaltliche Argumentation die 7-Cluster-Lösung sinnvoll interpretierbar macht.

5.2 Inhaltliche Argumente

Die sieben Cluster können inhaltlich folgendermaßen charakterisiert werden (vgl. hierzu auch Tabelle 5.1):

Cluster 1 – die „ braven Schimpfer “: Alle Werte außer den beiden Indizes zur verbalen Gewalt liegen unter dem Gesamtdurchschnitt. Dies kann man dahingehend interpretieren, dass Schüler aus dieser Gruppe nur wenig Erfahrung im Umgang mit Gewalt gemacht haben und im Großen und Ganzen eher harmloser Natur sind. Streitigkeiten werden größtenteils auf verbaler Ebene ausgetragen, was die erhöhten Werte sowohl bei den „Tätern“ als auch bei den „Opfern“ verbaler Gewalt erklärt.

Cluster 2 – die „ Braven “: Diese Gruppe hat durchweg niedrige Werte in allen Bereichen. Tabelle 5.1.1 kann man außerdem entnehmen, dass dieser Gruppe mit 44,5% die meisten Befragten angehören. Dieses Cluster fasst also diejenigen Schüler zusammen, die sich von Gewalt – in welcher Form auch immer sie auftreten mag – so weit wie möglich fern halten.

Cluster 3 – „ Angeber “: Bei dieser Gruppe fällt sofort auf, dass alle Werte enorm über dem Durchschnitt liegen. Da es sich mit 47 zugeordneten Objekten um die kleinste Gruppe handelt sind solche hohen Werte verhältnismäßig „leicht“ zu erreichen. Trotzdem sind die Werte ungewöhnlich und zeigen besonders viel Erfahrung im Umgang mit Gewalt an, sei es aktive oder passive. Ob die Antworten der Schüler tatsächlich alle der Wahrheit entsprechen bleibt natürlich fraglich, es ist durchaus vorstellbar dass manche Schüler die Items aus reinem Blödsinn bejaht haben. Unabhängig davon, ob die Antworten wahrheitsgemäß abgegeben wurden oder nicht drücken die Werte einen gewissen Stolz auf solches Verhalten aus, weswegen diese Gruppe mit „Angeber“ betitelt wurde.

Cluster 4 – die „ aggressiven Schimpfer “: Ähnlich den „Angebern“ hat auch diese Gruppe deutlich erhöhte Werte (allerdings längst nicht so ausgeprägt), am stärksten fällt dies jedoch bei der verbalen Gewalt ins Gewicht. Daher wird diese Gruppe als „aggressive Schimpfer“ bezeichnet.

Cluster 5 – „ Mitläufer “: Eine weitere Abschwächung der beiden vorangegangenen Gruppen stellt Cluster 5 dar. Die Opfer-Indizes sind nur leicht erhöht (mit Ausnahme von Gewalt gegen Sachen), die Täter-Indizes deutlich, am stärksten die Indizes zur verbalen Gewalt. Eine mögliche Erklärung für ein derartiges Verhalten stellt die innere Unsicherheit der Schüler dar, die dazu führt, dass sie sich lieber hinter die „starken“ Mitschüler stellen als selber zum Opfer zu werden. Dieses Handeln bewährt sie auf der einen Seite vor Gewalt von anderen und erklärt gleichzeitig, warum ihre Gewaltneigung nicht so hoch ist wie die der beiden vorherigen Cluster.

Cluster 6 – „ Opfer “: Klar erkennen kann man, dass bei dieser relativ kleinen Gruppe (ca. 6%) die Werte bei den Opfer-Indizes deutlich erhöht sind, während die bei den Tätern nur geringfügig größer sind als die Gesamtmittelwerte. Hier handelt es sich offensichtlich um diejenigen Schüler, die von ihren Mitschülern besonders gerne gehänselt werden.

Cluster 7 – „ Täter “: Diese Gruppe ist das Pendant zu den Opfern: Ihre Werte sind bei den Täter-Indizes sogar noch höher als die der „Angeber“. Dass die Täter auch bei den Opfer-Indizes leicht erhöhte Werte aufweisen liegt vermutlich daran, dass man wenn man fleißig austeilt gelegentlich auch mal einstecken muss.

Bei den statistischen Argumenten wurde erläutert, dass die Heterogenität bei der Besetzung der Cluster normalerweise eher unerwünscht ist. Da die hier untersuchten Daten jedoch Gewalt thematisieren, ist die Forderung nach annähernder Gleichbesetzung der Gruppen nicht sinnvoll. Vielmehr ist es einleuchtend, dass lediglich eine Minderheit zur Gewalt gegenüber Anderen neigt, während ein Großteil der Befragten damit kaum Erfahrungen haben wird. Insofern ist die Unterschiedlichkeit bei den Gruppengrößen auch nicht weiter verwunderlich.

Gerade eben wurden die ersten beiden Cluster als (im Vergleich zu den restlichen Clustern) brav bzw. harmlos charakterisiert. Dies passt auch zum hohen Anteil der Befragten Schüler, der auf diese beiden Cluster fällt. Lediglich etwas mehr als ein Viertel haben also intensivere Erfahrungen mit Gewalt gemacht.

Alles in allem ist also die inhaltliche Zusammensetzung der 7 Cluster durchaus sinnvoll interpretierbar. Die 6-Cluster-Lösung wäre zwar auf ein sehr ähnliches Ergebnis gekommen, jedoch ist die Differenzierung zwischen Tätern und Angebern sowohl inhaltlich als auch statistisch gesehen schlüssig, was letzten Endes zur Entscheidung für das 7-Cluster-Modell geführt hat.

[...]


[1] Backhaus, K. et al. (2003). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 10. Auflage. Berlin: Springer.

[2] Die graue Markierung bei den Clusterzahlen gibt jeweils an, welches Cluster im nächsten Schritt aufgespaltet wird (bzw. zu welchem Cluster die vorangegangene Fusion geführt hat). Die unterschiedlich hellen Hervorhebungen bei den Mittelwerten sollen das Erkennen von Gemeinsamkeiten/Unterschieden erleichtern: hellgrau – unter dem Gesamtmittelwert; dunkleres Grau – über dem Gesamtmittelwert; dunkelgrau – deutlich über dem Gesamtmittelwert. Markiert wurden jeweils nur die bisher noch nicht betrachteten Cluster.

[3] In diesem Abschnitt werden lediglich diejenigen Lösungen dargestellt, die NICHT als endgültiges Modell ausgewählt wurden. Das bevorzugte Modell wird Gegenstand des 5. Kapitels.

[4] In diesem Abschnitt gehe ich nicht weiter auf die unter 4.1 dargestellten Lösungen ein, sondern lediglich auf die letztendlich ausgewählte 7-Cluster-Lösung. Gründe für die getroffene Wahl werden im 5. Kapitel ausführlich behandelt.

Details

Seiten
32
Jahr
2007
ISBN (eBook)
9783640199280
Dateigröße
646 KB
Sprache
Deutsch
Katalognummer
v117121
Institution / Hochschule
Otto-Friedrich-Universität Bamberg – Fakultät für Sozial- und Wirtschaftswissenschaften
Note
1,0
Schlagworte
Clusteranalyse Anwendungsbeispiel Datenanalyse

Autor

Zurück

Titel: Clusteranalyse - Ein Anwendungsbeispiel