Lade Inhalt...

Entwicklung eines Prototypen zur Analyse multivariater, verteilungsfreier Daten in den Bereichen Benchmarking und Skillmanagement

Diplomarbeit 2005 188 Seiten

Informatik - Wirtschaftsinformatik

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Symbolverzeichnis

Abkürzungsverzeichnis

Vorwort

1 Einleitung

2 Analyse multivariater, verteilungsfreier Daten
2.1 Allgemeine Einführung
2.1.1 Multivariate Analyseverfahren im Überblick
2.1.2 Mögliche Einsatzgebiete unterschiedlicher Verfahren
2.2 Grundlagen
2.2.1 Daten und Skalen
2.2.2 Ähnlichkeits- und Distanzmaße
2.2.3 Daten- und Distanzmatrix

3 Benchmarking
3.1 Überblick
3.1.1 Ursprünge und Definition
3.1.2 Traditioneller Betriebsvergleich vs. Benchmarking
3.1.3 Einsatzfelder und Nutzen des Benchmarking
3.2 Prinzipien und Arten des Benchmarking
3.2.1 Internes vs. Externes Benchmarking
3.2.2 Unterschiedliche Betrachtungshorizonte
3.2.3 Vor- und Nachteile verschiedener Benchmarking-Typen
3.3 Der Benchmarking-Prozess
3.3.1 Unterschiedliche Modelle im Überblick
3.3.2 Das 5-Phasen-Konzept als Beispiel
3.4 Klassifizierendes Benchmarking als neue Benchmarkingmethode
3.4.1 Grundlagen
3.4.2 Unternehmensgruppierung mit Hilfe multivariater Analysemethoden

4 Skillmanagement
4.1 Überblick
4.1.1 Einführung und Definition
4.1.2 Skillmanagement als Instrument des Wissensmanagements
4.1.3 Motivationsgründe für Skillmanagement
4.2 Mögliche Einsatzgebiete für Skillmanagement
4.2.1 Expertensuche
4.2.2 Projektmanagement
4.2.3 Personalentwicklung und –beschaffung
4.2.4 Ein konkretes Anwendungsszenario
4.2.5 Technische Durchführung mit Hilfe multivariater Analysemethoden
4.3 Abschließende Einschätzung
4.3.1 Problembereiche
4.3.2 Fazit und Ausblick

5 Die Clusteranalyse als multivariate Analysemethode
5.1 Einleitung
5.1.1 Entscheidungsgrundlagen für die Wahl der Clusteranalyse
5.1.2 Problemstellung der Clusteranalyse
5.1.3 Allgemeine Einführung und Vorgehensweise
5.2 Hierarchische Klassifizierungsverfahren
5.2.1 Single-Linkage-Verfahren
5.2.2 Complete-Linkage-Verfahren
5.2.3 Average-Linkage-Verfahren
5.2.4 Ward-Verfahren
5.2.5 Weitere hierarchische Verfahren
5.2.6 Evaluation hierarchischer Klassifizierungsverfahren
5.3 Partitionierende Klassifizierungsverfahren
5.3.1 Allgemeine Vorgehensweise
5.3.2 K-Means-Methode als Beispiel
5.4 Abschließende Ausführungen
5.4.1 Möglichkeiten der graphischen Ergebnisdarstellung
5.4.2 Vorschlag eines ganzheitlichen Analyseablaufes
5.4.3 Fazit

6 Die Entwicklung des Prototypen
6.1 Angewandte Technologien
6.1.1 Komponentenorientierte, verteilte Systeme
6.1.2 Enterprise JavaBeans als Beispiel
6.1.3 Entwicklungswerkzeuge
6.2 Der Software-Entwicklungsprozess
6.2.1 Analyse
6.2.2 Design
6.2.3 Implementierung
6.2.4 Testphase
6.3 Abschließende Ausführungen
6.3.1 Probleme während der Entwicklung
6.3.2 Fazit

7 Zusammenfassung und Ausblick

Schrifttumsverzeichnis

Anhangverzeichnis

Abbildungsverzeichnis

Abbildung 1: Übersicht ausgewählter multivariater Verfahren

Abbildung 2: Überblick über ausgewählte Proximitätsmaße

Abbildung 3: Datenmatrix

Abbildung 4: Distanzmatrix

Abbildung 5: Die Entwicklung des Benchmarking

Abbildung 6: Arten des Benchmarking

Abbildung 7: Bewertung von Benchmarking-Varianten

Abbildung 8: Vor- und Nachteile verschiedener Benchmarking-Typen

Abbildung 9: Unterschiedliche Vorgehensweisen für Benchmarking

Abbildung 10: 5-Phasen-Konzept

Abbildung 11: Verteilung von Wissen im Unternehmen

Abbildung 12: Ausgewogenes Projektteam

Abbildung 13: Geänderte Anforderungen in Richtung Detail- und Fachwissen

Abbildung 14: Ergebnisse eines Soll-Ist-Vergleichs

Abbildung 15: Gegenwarts- und zukunftsorientierter Soll-Ist-Vergleich

Abbildung 16: Skala für die Skillbewertung

Abbildung 17: Todesspirale

Abbildung 18: Allgemeiner Ablauf einer Clusteranalyse

Abbildung 19: Zwei grundlegende Arbeitsschritte der Clusteranalyse

Abbildung 20: Hierarchische Klassifizierungsverfahren

Abbildung 21: Ablaufschritte agglomerativer Verfahren

Abbildung 22: Distanzberechnung beim Single-Linkage-Verfahren

Abbildung 23: Distanzberechnung beim Complete-Linkage-Verfahren

Abbildung 24: Distanzberechnung beim Average-Linkage-Verfahren

Abbildung 25: Ablaufschritte partitionierender Klassifizierungsverfahren

Abbildung 26: Beispiel Dendrogramm

Abbildung 27: Beispiel Struktogramm

Abbildung 28: Beispiel Ergebnis Clusteranalyse

Abbildung 29: Beispiel Ergebnis Clusteranalyse als Balkendiagramm

Abbildung 30: Beispiel Darstellung durch Objektdistanzen

Abbildung 31: Beispiel Ergebnis Clusteranalyse in Tabellenform

Abbildung 32: Vorschlag eines ganzheitlichen Analyseablaufes

Abbildung 33: Physikalische Architektur eines EJB-Systems

Abbildung 34: Ablaufschema der EJB-Architektur

Abbildung 35: Anwendungsfalldiagramm

Abbildung 36: Objektorientiertes Analysemodell

Abbildung 37: Klassendiagramm Designphase

Abbildung 38: Paketdiagramm clusteranalyse.util

Abbildung 39: Paketdiagramm clusteranalyse

Abbildung 40: Darstellung der Klasse "ClusterAnalyse"

Abbildung 41: Darstellung der Klasse "MetrischeDistanz"

Abbildung 42: Darstellung der Klasse "Vierfeldertafel"

Abbildung 43: Das Home-Interface des Prototypen

Abbildung 44: Das Remote-Interface des Prototypen

Abbildung 45: Die Bean-Klasse des Prototypen

Abbildung 46: Inhalt der Datei "ejb-jar.xml"

Tabellenverzeichnis

Tabelle 1: Grundlegende Verfahren der Dependenzanalyse

Tabelle 2: Zusammenfassung multivariater Analyseverfahren

Tabelle 3: Skalenniveaus mit Beispielen

Tabelle 4: Kombinationsmöglichkeiten binärer Variablen

Tabelle 5: Auswahl einiger Ähnlichkeitsfunktionen

Tabelle 6: Übersicht Berechnung metrisch skalierter Proximitätsmaße

Tabelle 7: Betriebsvergleich und Benchmarking im Vergleich

Tabelle 8: Ausgewählte Bereiche für Benchmarkingeinsätze

Tabelle 9: Nutzen des Benchmarking

Tabelle 10: Abgrenzung Internes und Externes Benchmarking

Tabelle 11: Anwendungsbeispiele der Clusteranalyse

Tabelle 12: Evaluation hierarchischer Klassifizierungsverfahren

Tabelle 13: Überblick über die EJB-Typen

Symbolverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Vorwort

Immer häufiger wird das Vorwort dazu genutzt, all denen zu danken, die zur erfolgreichen Anfertigung der Diplomarbeit beigetragen haben. So soll es auch in dieser Arbeit sein.

Zunächst gilt ein besonderer Dank Herrn Prof. Dr. Raymond Fleck, der die Aufgabe des Erstgutachters übernahm.

Des Weiteren spreche ich Herrn Prof. Dr.-Ing. Hartmut F. Binner meinen Dank aus, der als Zweitprüfer sowie als Geschäftsführer der XXXXX GmbH den erfolgreichen Abschluss dieser Diplomarbeit ermöglichte.

Nicht zu vergessen sind natürlich alle Mitarbeiter der XXXXX GmbH, die mich stets bei Problemen jeglicher Art unterstützten und einen Rahmen schufen, der die erfolgreiche Erstellung dieser Arbeit gewährleistete.

An dieser Stelle muss außerdem meine gesamte Familie erwähnt werden, die mir nicht nur während des Diplomsemesters, sondern auch während der gesamten Studienzeit Halt und Kraft gegeben hat. Ein ganz besonderer Dank gilt hier meinem Vater, Detlef Kublank, der immer für mich da war, wenn ich Hilfe benötigte, mich immer wieder motivierte und somit sicherlich einen großen Anteil an den insgesamt guten Leistungen während des Studiums hat.

Abschließend möchte ich mich in besonderem Maße bei meiner Lebensgefährtin, Bettina Etzel, bedanken, die mir in dieser zum Teil schweren und oftmals stressigen Zeit trotz zwischenzeitlicher Panikattacken oder gelegentlicher Unausstehlichkeiten immer zu mir gehalten hat, mir stets Zuversicht gab und nie an mir und an der erfolgreichen Fertigstellung dieser Arbeit zweifelte. Außerdem half sie durch ihre selbstlose und uneingeschränkte Unterstützung während der Korrektur, die Qualität dieser Arbeit enorm zu steigern, was ihr aufgrund der zum Teil sehr theoretischen und somit trockenen Ausführungen mit Sicherheit nicht leicht fiel.

1 Einleitung

In den letzten Jahren ist ein fortschreitender Trend zur Globalisierung der Märkte zu erkennen. Dies führt zunehmend zu Veränderungen im Wirtschaftsleben. Branchenübergreifend ist der Wettbewerb durch verschärfte Konkurrenzsituationen gekennzeichnet. Des Weiteren nimmt die Erwartungshaltung der Kunden in Bezug auf Qualität, Preis-Leistungs-Verhältnis sowie fachkundiger und individueller Betreuung stetig zu. Somit besteht für Unternehmen die Notwendigkeit, sich den geänderten Rahmenbedingungen anzupassen, um sich signifikant von der Konkurrenz abzuheben, dadurch konkurrenzfähig zu bleiben bzw. die eigene Markposition zu sichern. Dabei ist es erforderlich, Analysen in allen Bereichen des Unternehmens durchzuführen, um Schwachstellen zu identifizieren und Optimierungspotenziale zu erschließen. Folglich sammeln sich während der Unternehmenstätigkeit eine Vielzahl von ebenso komplexen wie umfangreichen Daten, die es gilt auszuwerten. Dazu bietet sich der Einsatz unterschiedlicher Verfahren der multivariaten Statistik an, welche somit in zunehmenden Maße an Bedeutung in den unterschiedlichsten Bereichen der Wirtschafts- und Sozialwissenschaften, Psychologie, Medizin, Pädagogik und Biologie gewinnen.

Im Folgenden werden die genannten Problembereiche aufgegriffen und Lösungsalternativen dargestellt. Dabei erfolgt zunächst eine allgemeine Vorstellung des Bereiches der multivariaten Statistik. Anhand ausgewählter Beispiele werden verschiedene Methoden erläutert und das enorme Potenzial dieser Verfahren verdeutlicht. Des Weiteren sollen wesentliche Grundlagen, welche für das weitere Verständnis dieser Arbeit unabdingbar sind, vermittelt werden.

Anschließend wird in den Kapiteln 3 und 4 ein Einstieg in die Theorie zweier Managementwerkzeuge gegeben, die zur Lösung der o. g. Probleme beitragen können. Zunächst erfolgt in Kapitel 3 eine Einführung in das Thema Benchmarking, welches ein wertvolles Instrument zur Leistungssteigerung von Unternehmen sowie zur Optimierung der Prozesse darstellt. Anschließend wird in Kapitel 4 die Managementmethode Skillmanagement vorgestellt, durch die es möglich wird, erfolgreich mit der zunehmend an Bedeutung gewinnenden Ressource Wissen bzw. Informationen umzugehen und diese zu managen. Sowohl in Kapitel 3 als auch in Kapitel 4 wird u. a. aufgezeigt, welche Möglichkeiten der multivariaten Statistik zur Verfügung stehen, um einzelne Prozesse der genannten Managementwerkzeuge zu unterstützen.

Kernthema dieser Arbeit stellt das Kapitel 5 dar. Hier wird die Clusteranalyse als spezielle Ausprägung einer multivariaten Analysemethode vorgestellt. Dabei wird u. a. auf unterschiedliche Anwendungsbereiche, differenzierte Algorithmen sowie verschiedene Darstellungsmöglichkeiten eingegangen.

Auf der Grundlage der in Kapitel 5 vermittelten theoretischen Kenntnisse erfolgt in Kapitel 6 die Darstellung des Software-Entwicklungsprozesses für den im Kontext dieser Arbeit zu erstellenden Prototypen, der eine Vielzahl in Kapitel 5 aufgezeigten Algorithmen implementiert.

An dieser Stelle muss ausdrücklich darauf hingewiesen werden, dass die in den Kapiteln 3 und 4 vermittelten theoretischen Kenntnisse in diesem Umfang nicht für die Entwicklung und das Verständnis des Prototypen erforderlich sind. Da jedoch die Implementierung einzelner Funktionalitäten der Clusteranalyse durch die Verwendung in den Bereichen Benchmarking und Skillmanagement initiiert wurde und somit die genannten Bereiche eine prägende Entscheidungsgrundlage bildeten, soll auf deren theoretische Ausführung, auch in diesem Umfang, nicht verzichtet werden.

2 Analyse multivariater, verteilungsfreier Daten

Das Datenmaterial in allen Bereichen der Wissenschaft und ebenso in Wirtschaft, Handel, Technik oder Administration nimmt aufgrund der fortschreitenden Technisierung stetig zu. Somit besteht die Notwendigkeit, die erhobenen Daten zu untersuchen, um unbrauchbare Daten zu extrahieren, nutzbare Informationen zu erkennen und relevante Schlüsse ziehen zu können. In den genannten Bereichen gilt es, Daten zu analysieren, auszuwerten oder graphisch zu repräsentieren, deren Strukturen und Zusammenhänge ebenso komplex wie umfangreich sind. Um diesen Entwicklungen gerecht zu werden, erfolgt der Einsatz unterschiedlicher Verfahren der Statistik und in zunehmenden Maße der multivariaten Statistik.

Dieses Kapitel soll im ersten Abschnitt einen allgemeinen Einblick in die unterschiedlichen multivariaten Analyseverfahren geben und deren Einsatzgebiete anhand ausgewählter Beispiele verdeutlichen. Im zweiten Abschnitt wird versucht, wesentliche für den weiteren Verlauf der Arbeit erforderliche Grundlagen der Statistik zu vermitteln. Dabei wird vor allem auf unterschiedliche Datenniveaus sowie deren Anwendung, Ähnlichkeits- und Distanzmaße und abschließend auf Daten- und Distanzmatrizen eingegangen, die eine Grundlage und außerdem ein wesentliches Hilfsmittel für eine Vielzahl von Berechnungen bilden. Da der Bereich der Statistik und insbesondere die multivariate Statistik außerordentlich komplex ist, kann jedoch nicht auf alle Teilbereiche der Statistik eingegangen werden, um den Umfang dieser Arbeit nicht zu sprengen.

2.1 Allgemeine Einführung

Die Statistik beschäftigt sich wie bereits erwähnt mit der Beschreibung und Analyse umfangreicher Datenmengen, die durch die unterschiedlichsten Erhebungsmethoden gewonnen werden.[1] In diesem Kontext ist es interessant, welche Bedeutung die im Titel dieser Arbeit verwendeten Begriffe besitzen. Eine allgemein gültige Definition der aufgeführten mathematischen Vokabeln „multivariat“ sowie „verteilungsfrei“ soll zum Verständnis dieser Arbeit beitragen.

„Multivariat“ bedeutet „mehrere Variablen betreffend“. Multivariate Analysemethoden befassen sich demnach mit der gleichzeitigen Auswertung von Objekten, die anhand einer beliebigen Anzahl an Merkmalen (Variablen) charakterisiert werden. Im Gegensatz dazu erlauben univariate Analysemethoden lediglich die Auswertung von Objekten mit einem Merkmal und bivariate Datenanalysen die Auswertung von Objekten mit maximal zwei Merkmalen. Der Vorteil multivariater Analysen gegenüber einzelnen für jedes Merkmal durchgeführten uni- bzw. bivariaten Analysen besteht darin, dass durch die angesprochene gleichzeitige Analyse mehrerer Variablen die Abhängigkeiten einzelner Variablen berücksichtigt werden können.[2]

„Verteilungsfrei“ ist ebenfalls unter den Begriffen „nonparametrisch“ bzw. „parameterfrei“ bekannt und lässt sich im Kontext der Statistik am ehesten operational beschreiben. Verteilungsfreie Methoden sind demnach Methoden, die auf jede Art der Häufigkeitsverteilung von Messwerten, darüber hinaus auch auf Rangdaten und qualitative Informationen angewendet werden können und nicht an eine bestimmte Verteilung der Messwerte, z. B. die Normalverteilung, gebunden sind. Als Einsatzgebiete für verteilungsfreie Methoden bieten sich dementsprechend solche Datenmengen an, über deren Verteilung keine Angaben gemacht werden können oder sollen.

Zusammenfassend ist anzumerken, dass die Analyse multivariater, verteilungsfreier Daten ein großes Potenzial bezüglich möglicher Anwendungsgebiete besitzt, da an Struktur, Zusammensetzung und Abhängigkeiten einzelner Variablen bzw. Objekte keine Restriktionen gestellt werden. Im Folgenden werden einzelne Methoden zur Analyse multivariater, verteilungsfreier Daten vorgestellt.

2.1.1 Multivariate Analyseverfahren im Überblick

Im Zuge der zunehmenden Leistungsfähigkeit, insbesondere der schnell ansteigenden Rechenleistung des PCs, gewinnen multivariate Analyseverfahren mehr und mehr an Bedeutung und stellen bereits eines der Fundamente der empirischen Forschung dar.[3] Die Vorteile multivariater Analyseverfahren gegenüber uni- bzw. bivariaten Analyseverfahren sind unverkennbar, denn die zuletzt genannten Verfahren stoßen bei der Anwendung im wissenschaftlichen Kontext schnell an ihre Grenzen. Aufgrund der umfangreichen und komplexen Datenstrukturen und stetig anwachsender Datenbestände sind die Antworten, die uni- oder bivariate Datenanalyse geben, z. B. die Berechnung von Lage- und Streuungsmaßen, die Durchführung von Signifikanztest oder die Berechnung von Korrelationskoeffizienten, häufig ungenügend. Aus diesem Grund werden ständig neue oder verbesserte Methoden oder Varianten entwickelt bzw. neue Anwendungsgebiete erschlossen, um den gestiegenen Anforderungen gerecht zu werden. Im Folgenden wird versucht, einen Überblick über die derzeit bekanntesten und wohl wichtigsten Verfahren zu geben. Dabei ist anzumerken, dass dieses Kapitel nicht den Anspruch auf Vollständigkeit hat, da eine vollständige Darstellung aller existierenden Methoden bzw. Varianten nahezu unmöglich und für das weitere Verständnis dieser Arbeit nicht erforderlich ist.

Für die Einteilung der unterschiedlichen multivariaten Analyseverfahren bestehen in der Literatur verschiedene Ansätze. Übereinstimmend ist in einer Vielzahl von Beiträgen die Einteilung nach anwendungsbezogenen Fragestellungen zu finden, wobei zu erwähnen ist, dass eine eindeutige Zuordnung ohne Überschneidungen nicht immer möglich ist. Grund dafür ist, dass sich die Zielsetzungen der Verfahren z. T. überlagern.[4] Im wissenschaftlichen Kontext bietet sich eine Einteilung in Verfahren der Dependenzanalyse und der Interdependenzanalyse an.

Verfahren der Dependenzanalyse, die ebenfalls strukturen-prüfende Verfahren genannt werden, befassen sich mit der Überprüfung von Zusammenhängen zwischen Variablen. Dabei erfolgt i. d. R. durch den Anwender dieser Methoden eine Unterteilung in abhängige und unabhängige Variablen. Eine typische Fragestellung in diesem Kontext könnte sein, welchen Einfluss der übermäßige Genuss von Nikotin (unabhängige Variable) auf den Gesundheitszustand (abhängige Variable) des Rauchers hat. Da bereits vor der Durchführung einer Analyse die o. g. Einteilung vorgenommen werden muss, besteht die Vorraussetzung, dass der Anwender vorab Kenntnisse über den Kausalzusammenhang der abhängigen bzw. unabhängigen Variablen hat. Das bedeutet, er vermutet oder weiß, inwieweit bestimmte Variablen Einfluss auf einzelne oder mehrere abhängige Variablen haben. Für die oben genannte Fragestellung stellt das den Anwender vor keine übermäßigen Probleme, jedoch ist eine vorab durchgeführte Bestimmung eines Kausalzusammenhanges in verschiedenen Bereichen der Wissenschaft nicht immer so trivial. Grundlegende Verfahren der Dependenzanalyse lassen sich gemäß der folgenden Tabelle anhand der Skalenniveaus[5] der abhängigen sowie der unabhängigen Variablen charakterisieren.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Grundlegende Verfahren der Dependenzanalyse[6]

In Tabelle 1 wurde u. a. das Conjoint Measurement vernachlässigt, da bei diesem Verfahren häufig auf ordinalem Skalenniveau gemessen wird, bei den oben aufgeführten Verfahren jedoch nur zwischen metrischem bzw. nominalem Skalenniveau zu differenzieren ist. Des Weiteren wird nicht näher auf die LISREL-Analyse eingegangen, da diese Methode, ähnlich wie das Conjoint Measurement, im Bereich der multivariaten Analyseverfahren eher eine Ausnahmestellung einnimmt und lediglich bei der Lösung von Spezialproblemen angewandt wird.

Im Gegensatz zu den Verfahren der Dependenzanalyse befassen sich die Verfahren der Interdependenzanalyse, die auch unter dem Begriff strukturen-entdeckende Verfahren bekannt sind, mit der Entdeckung genau der Zusammenhänge zwischen Variablen oder Objekten, die im Bereich der Dependenzanalyse vom Anwender vorgegeben werden. Daher erfolgt vorab durch den Anwender keine Einteilung in abhängige und unabhängige Variablen, sondern alle Variablen der betrachteten Objekte werden gleichwertig behandelt. In Anwendung des bereits oben aufgeführten Beispiels werden genau die Zusammenhänge (Nikotingenuss « Gesundheitszustand) durch die strukturen-entdeckenden Verfahren aufgedeckt. Dementsprechend muss der Anwender dieser Methoden keine Kenntnis über die Beziehungszusammenhänge der betrachteten Variablen besitzen, was im Vergleich zu den Verfahren der Dependenzanalyse durchaus vorteilhaft sein kann. Verfahren, die dieser Analyseform zugeordnet werden können, sind u. a. die Clusteranalyse, die Kanonische Korrelation, die Faktorenanalyse, die Multidimensionale Skalierung sowie die meisten graphischen Methoden.[7]

Eine weitere Einteilungsmöglichkeit ergibt sich, wenn eine Unterscheidung nicht anhand der Betrachtung der Variablen allein erfolgt, sondern nach Verfahren differenziert wird, die sich primär mit der Betrachtung der Variablen befassen (die so genannte R-Technik) und Verfahren, die hauptsächlich die Untersuchungsobjekte als Ganzes analysieren und Objektklassifizierungen vornehmen (die so genannte Q-Technik). Auch hier ist eine eindeutige Zuteilung der unterschiedlichen multivariaten Analyseverfahren zu genau einer Technik nicht möglich, da u. U. verschiedene Verfahren sowohl die R-Technik, als auch die Q-Technik anwenden können. Demnach ist die Zuteilung zu einer dieser beiden Techniken dadurch charakterisiert, welche Technik für das betrachtete Verfahren vorwiegend eingesetzt wird.

Um zusammenfassend einen allgemeinen Überblick über die genannten multivariaten Verfahren zu erlangen, verdeutlicht die folgende Abbildung die Einteilung anhand der erörterten Einteilungskriterien (Dependenz- bzw. Interdependenzanalyse und Q- bzw. R-Technik).[8]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Übersicht ausgewählter multivariater Verfahren

Der folgende Abschnitt geht kurz auf die in Abbildung 1 genannten multivariaten Analyseverfahren ein und versucht anhand ausgewählter Beispiele mögliche Einsatzgebiete aufzuzeigen.

2.1.2 Mögliche Einsatzgebiete unterschiedlicher Verfahren

Der Anwendung multivariater Analyseverfahren in den unterschiedlichsten Bereichen der Wissenschaft, Technik, Administration, Wirtschaft usw. sind fast keine Grenzen gesetzt und ständig werden neue Anwendungsgebiete erschlossen. Um ein allgemeines Verständnis für die in Kapitel 2.1.1 genannten multivariaten Analyseverfahren zu erlangen, werden sie anhand ausgewählter Beispiele kurz erläutert. Dabei wird zunächst auf die dargestellten Verfahren der Dependenzanalyse eingegangen und im Anschluss die genannten Verfahren der Interdependenzanalyse erläutert.

Die Regressionsanalyse, deren Vorgehensweisen im eigentlichen Sinne nicht multivariat sind, besitzt für andere multivariate Analyseverfahren eine große Bedeutung.[9] Eine Hauptaufgabe der Regressionsanalyse besteht darin, den funktionalen Zusammenhang von einer abhängigen und einer oder mehrerer unabhängigen Variablen zu entdecken bzw. zu analysieren. Dabei kann durch die Regressionsanalyse aufgezeigt werden, welche Variablen wesentlich zur Bestimmung der betrachteten abhängigen Variable beitragen. Des Weiteren ist es mit Hilfe der Regressionsanalyse möglich, Variablen, die keinen Einfluss auf die betrachtete Variable haben zu eliminieren. Außerdem kann die Regressionsanalyse zur Durchführung von Prognosen zukünftiger Werte eingesetzt werden. Die Regressionsanalyse zeichnet sich bzgl. möglicher Anwendungsgebiete durch eine außerordentliche Flexibilität aus, welche ein Hauptgrund für ihre große Bedeutung ist. Eine typische Fragestellung, die zur Anwendung der Regressionsanalyse führen könnte, ist z. B., ob die Absatzmenge eines Produktes vom Preis, den Werbeausgaben, der Zahl der Verkaufsstätten oder dem Volkseinkommen abhängt.[10] Wenn die genannte Vermutung anhand der Regressionsanalyse bestätigt werden konnte, ist es möglich, für andere Produkte, die ähnliche Merkmale besitzen, die ungefähre Absatzmenge zu bestimmen.

Die Korrelationsanalyse dient im Gegensatz zur Regressionsanalyse zur Bestimmung der Stärke eines Zusammenhangs zwischen zwei oder mehreren Merkmalen. Dabei wird versucht, die Abhängigkeiten der betrachteten Merkmale anhand bestimmter Korrelationsmaße zu quantifizieren. Im Vorfeld der Analyse ist allerdings darauf zu achten, dass nur solche Merkmale untersucht werden, für die im betrachteten Kontext ein tatsächlicher Zusammenhang besteht, da sonst so genannte Nonsens-Korrelationen berechnet werden, wie z. B. die Korrelation zwischen der Anzahl der Störche und der Geburtenrate.[11] Des Weiteren ist zu beachten, dass nicht solche Korrelationen berechnet werden, deren betrachtete Merkmale wiederum mit anderen Merkmalen korrelieren. Ein Anwendungsbeispiel für die Durchführung einer Korrelationsanalyse könnte z. B. die Fragestellung sein, in welchem Maße die Kundenzufriedenheit von einzelnen Serviceleistungen (z. B. in der Versicherungsbranche) abhängt. Im Anschluss an eine solche Analyse besteht die Möglichkeit, Einsparpotenziale aufzudecken bzw. Bereiche, in denen investiert werden muss, um die Kundenzufriedenheit zu erhöhen, auszumachen.

Die Varianzanalyse untersucht im Gegensatz zur Regressionsanalyse lediglich unabhängige Variablen, die auf einem nominalen Skalenniveau gemessen wurden. Die Ähnlichkeit der genannten Verfahren ist jedoch unverkennbar, denn sowohl die Regressionsanalyse als auch die Varianzanalyse dienen dazu, Zusammenhänge zwischen abhängigen und unabhängigen Variablen aufzudecken. Ein mögliches Anwendungsgebiet der Varianzanalyse könnte z. B. die Analyse der Wirkung verschiedener Marketinginstrumente und deren Einfluss auf die Absatzzahlen eines Produktes sein.[12]

Die Kovarianzanalyse stellt eine Erweiterung der Varianzanalyse dar, durch die es möglich wird, metrisch erhobene unabhängige Variablen bei der Analyse zu berücksichtigen, wobei eine metrische unabhängige Variable als Kovariate bezeichnet wird.[13] Um z. B. den Lernerfolg unterschiedlicher Unterrichtsmethoden zu analysieren, bietet sich die Anwendung der Kovarianzanalyse an. Die Kovariate ist in diesem Beispiel das Vorwissen, dass z. B. in einem Wissenstest gemessen werden kann, die abhängige Variable stellt das Wissen nach der Anwendung einer bestimmten Unterrichtsmethode dar und die bereits erwähnten Unterrichtsmethoden beschreiben die unabhängigen Variablen.

Die Diskriminanzanalyse ist vorrangig ein Klassifizierungsverfahren, wobei vorausgesetzt wird, dass sich die betrachteten Objekte auf mehrere Gruppen verteilen und sich die gebildeten Gruppen anhand bestimmter Gruppierungsvariablen beschreiben lassen.[14] Es ergeben sich als Aufgabenstellung für die Diskriminanzanalyse einerseits die Analyse von Gruppenunterschieden und andererseits die Prognose von Gruppenzugehörigkeiten.[15] Ein Beispiel für die Durchführung der Diskriminanzanalyse im Kontext der Analyse von Gruppenunterschieden könnte die Analyse bestimmter Wählerverhalten sein. In diesem Fall bilden die unterschiedlichen Parteien die besagten Gruppen und unterschiedliche soziodemografische und psychografische Merkmale beschreiben die Gruppenelemente, d. h. die einzelnen Wähler.[16]

Letztes vorgestelltes Verfahren der Dependenzanalyse ist die Kontingenzanalyse. Im Unterschied zu allen bisher betrachteten Verfahren dient dieses Verfahren ausschließlich der Analyse nominalskalierter Variablen. Typische Fragestellungen, die durch dieses Verfahren beantwortet werden können, sind z. B. die Aufdeckung des Zusammenhangs zwischen Rauchen (Raucher vs. Nichtraucher) und Lungenerkrankung (ja, nein).[17]

Im Bereich der Verfahren der Interdependenzanalyse lassen sich ebenfalls eine Reihe von Methoden darstellen, die in der multivariaten Statistik angewandt werden. Eine kleine Auswahl an unterschiedlichen Methoden wird im Folgenden kurz erläutert.

Die Faktorenanalyse befasst sich mit Problemstellungen, bei denen es darum geht, eine Vielzahl von erhobenen Variablen auf eine kleine Auswahl zu reduzieren bzw. zu bündeln. Dabei erfolgt die Reduktion nicht auf bereits vorhandene Variablen, sondern es werden so genannte „Supervariablen“ gebildet, die nur indirekt über die bereits vorhandenen (manifestierten) Variablen gemessen werden können und diese beschreiben. Die Zuordnung der erhobenen Variablen zu den Supervariablen erfolgt durch die im Vorfeld berechneten Korrelationen zwischen den betrachteten Variablen. D. h. es wird davon ausgegangen, dass eine hohe Korrelation zwischen zwei Variablen auf eine gemeinsame, diese Variablen beschreibende Supervariable zurückzuführen ist. Ein einfaches Beispiel für die Anwendung der Faktorenanalyse stellt die Reduktion einer Vielzahl technischer Eigenschaften eines Kraftfahrzeugs auf wenige, diese Eigenschaften beschreibende Variablen, z. B. Leistung, Sicherheit, Komfort, dar.

Die Kanonische Korrelation, die eine Erweiterung der Korrelationsanalyse darstellt, bezeichnet ein weiteres Verfahren, welches sich hauptsächlich mit der Analyse von Variablen und weniger mit der Analyse von Objekten beschäftigt. Ziel dieses Verfahrens ist die Bestimmung eines kanonischen Korrelationskoeffizienten, der die Beziehung bzw. die Abhängigkeit zweier Gruppen von Merkmalen beschreibt. Dabei ist es z. B. möglich, auf die Ergebnisse der Faktorenanalyse zurückzugreifen, in der einzelne Gruppen von sich korrelierenden Merkmalen gebildet wurden. Mit Hilfe der Kanonischen Korrelation ist es nun möglich, die Zusammenhänge einzelner Gruppen durch die Bestimmung der Korrelationskoeffizienten betrachteter Supervariablen zu bestimmen. Im konkreten Fall könnte u. a. der Zusammenhang zwischen den o. g. Eigenschaften Leistung und Sicherheit untersucht werden.

Die Clusteranalyse bezeichnet ein Verfahren, bei dem es im Gegensatz zur Faktorenanalyse weniger um die Untersuchung, Bündelung und Reduktion von einzelnen Variablen geht, sondern eher eine Gruppierung von Objekten angestrebt wird.[18] Ziel der Clusteranalyse ist es dabei, geeignete Gruppen (Cluster) zu finden, deren Objekte untereinander möglichst homogen, Objekte aus unterschiedlichen Gruppen jedoch möglichst heterogen sind. Clusteranalysen können in den unterschiedlichsten bereichen eingesetzt werden. Beispielhaft sei hier die Bildung von Käufergruppen erwähnt, so ermöglicht die Clusteranalyse in diesem Fall die Zuordnung von Personen zu unterschiedlichen durch ihr Kaufverhalten bestimmte Gruppen. Ergebnis einer Clusteranalyse könnte z. B. sein, dass gerade junge Personen zwischen 15 und 20 Jahren, die aus Familien mit mittlerem Einkommen stammen, häufiger Computerspiele oder CDs kaufen als andere Personengruppen.

Die Multidimensionale Skalierung bildet eine Alternative zur faktoriellen Positionierung mit Hilfe der Faktorenanalyse.[19] Ziel der Multidimensionalen Skalierung ist es, auf der Basis gegebener Ähnlichkeiten oder Distanzen zwischen Objekten bzw. Variablen, diese durch Punkte in einem 2- oder 3-dimensionalen Koordinatensystem darzustellen.[20] Solange die untersuchten Objekte durch weniger als vier Merkmale charakterisiert werden, ist eine Darstellung in einem Koordinatensystem unproblematisch. Sind jedoch mehr als drei Merkmale zu berücksichtigen, ist eine Darstellung nur mit einem Informationsverlust zu realisieren, der aus einer notwendigen Dimensionsreduktion resultiert. Dieses Verfahren wird vor allem dann eingesetzt, wenn über den genauen Zusammenhang der betrachteten Objekte keine oder nur geringe Kenntnisse bestehen. So ist es z. B. möglich, anhand der Positionen einzelner Objekte im Koordinatensystem auf den ersten Blick zu erkennen, welche Objekte sich ähnlich sind, da diese Ähnlichkeiten im Koordinatensystem durch deren Entfernungen zueinander ausgedrückt werden.

Zusammenfassend ist zu erwähnen, dass in jedem Fall vor der Durchführung einer Analyse die sachlogischen Hintergründe, der Zweck der Analyse sowie deren Ergebnisse kritisch hinterfragt werden sollten, da multivariate Verfahren leicht zu Fehlinterpretationen hinreißen lassen, wenn sie gedankenlos eingesetzt werden.[21] Die folgende Tabelle gibt noch einmal einen Überblick über die dargestellten multivariaten Verfahren mit jeweils einem Anwendungsbeispiel.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2: Zusammenfassung multivariater Analyseverfahren

2.2 Grundlagen

Ein Kernthema dieser Arbeit ist die beispielhafte Anwendung eines multivariaten Analyseverfahrens und in diesem Zusammenhang sind eine Vielzahl von mathematischen Berechnungen durchzuführen. Da der Bereich der Statistik und im Kontext dieser Arbeit die multivariate Statistik überaus komplex ist, werden bestimmte Vorkenntnisse aus den genannten Gebieten vorausgesetzt. Gründe dafür wurden bereits in der Einleitung zu diesem Kapitel genannt. Unverzichtbar sind jedoch Kenntnisse über Daten und Skalen, Ähnlichkeits- und Distanzmaße sowie die Erstellung und Anwendung von Daten- und Distanzmatrizen, denn diese Themen bilden das Grundgerüst der multivariaten Statistik sowie die Entscheidungsgrundlage für die Anwendung einer Vielzahl mathematischer und insbesondere statistischer Methoden. Aus diesem Grund wird im Folgenden eine Einführung in die genannten Themenbereiche gegeben, um zum Verständnis dieser Arbeit beizutragen.

2.2.1 Daten und Skalen

Um multivariate Analysen durchführen zu können, werden Daten benötigt, welche die zu betrachtenden Objekte charakterisieren. Im Vorfeld einer Analyse müssen dementsprechend die benötigten Daten erhoben werden, wobei die Erhebung u. a. durch Messungen, Befragungen oder Schätzungen erfolgen kann. Maßgeblich für den Informationsgehalt und somit für die Qualität der Daten ist dabei die Art der Messung und das verwendete Skalenniveau. Je höher der Informationsgehalt bzw. die Qualität der Daten und somit auch das verwendete Skalenniveau ist, desto mehr statistische Verfahren können angewandt und exaktere statistische Entscheidungen getroffen werden. Aus diesem Grund sollte immer versucht werden, bei der Datenerhebung das höchstmögliche Skalenniveau zu erreichen bzw. zu erhalten. Prinzipiell wird in der Praxis zwischen den im Folgenden erläuterten Skalentypen unterschieden.

Die Nominalskala stellt den primitivsten Skalentyp dar. Daten, die auf diesem Niveau erhoben werden, unterliegen keiner Wertung oder Rangordnung, sondern es erfolgt lediglich eine Zuordnung oder Benennung. Nominalskalen sind z. B. das Geschlecht (männlich, weiblich) oder Bundesländer (Niedersachsen, Brandenburg usw.). Um die Verarbeitung mit Computern zu erleichtern, werden die unterschiedlichen Ausprägungen häufig durch Zahlen ausgedrückt, z. B. „männlich“ = 0 und „weiblich“ = 1. Dabei ist es völlig unerheblich, welcher Zahlenwert den einzelnen Ausprägungen zugeordnet werden. Ob „männlich“ mit 0 oder 100 kodiert wird, ist in diesem Sinne inhaltlich irrelevant, da lediglich eine Unterscheidung in gleich und ungleich erfolgt. Existieren nur zwei Merkmalsausprägungen (männlich / weiblich), spricht man von dichotomen oder auch binären Variablen.[22] Für Daten, die auf einer Nominalskala gemessen wurden, lassen sich keine arithmetischen Operationen durchführen, sondern lediglich Häufigkeiten einzelner Kategorien bestimmen.[23]

Auf der nächst höheren Ebene des Messniveaus befindet sich die Ordinalskala. Im Gegensatz zur Nominalskala lassen sich hier Ränge oder Wertigkeiten bilden, d. h. die erhobenen Daten können in eine bestimmten Reihenfolge gebracht werden, wobei dieser Reihenfolge wiederum eine empirische Bedeutung zukommt. Ein typisches Beispiel für eine Ordinalskala ist das Schulnotensystem. Dabei nimmt jede Note einen gewissen Rang ein und es können Aussagen über Unterschiede einzelner Ausprägungen getroffen werden. So ist zum Beispiel die Note 1 (im deutschen Schulnotensystem) besser als die Note 2, die wiederum besser als die Note 3 usw. Jedoch ist zu beachten, dass dem Abstand zweier Werte wie bei einer Nominalskala keine Bedeutung beigemessen wird. So ist z. B. die Note 4 nicht doppelt so schlecht wie die Note 2. Aus diesem Grund ist wie bei einer Nominalskala die Anwendung von arithmetischen Operationen unzulässig. Im Unterschied zu Nominalskalen besteht jedoch bei Ordinalskalen die Möglichkeit, Quantile oder Mediane zu berechnen.[24]

Die metrische Skala bezeichnet das höchste Messniveau, wobei im Unterschied zu den bisher genannten Skalen selbst Differenzen zwischen den betrachteten Daten Informationen enthalten. Metrische Skalen können wiederum in Intervallskalen und Verhältnisskalen unterteilt werden, wobei Ausprägungen der Intervallskalen keinen natürlichen Nullpunkt besitzen. Beispielsweise hat die Temperatur-Skala, wenn die Einteilung in Celsius vorgenommen wird, keinen natürlichen, sondern einen willkürlich gewählten Nullpunkt. 0° Celsius bedeutet in diesem Zusammenhang nicht, dass keine Temperatur vorhanden ist – es besteht durchaus eine Temperatur, da 0° Celsius nicht dem natürlichen Nullpunkt entspricht. Im Gegensatz dazu besitzen Verhältnisskalen auch einen natürlichen Nullpunkt. Zum Beispiel bedeutet ein Gewicht von 0 kg auch tatsächlich, dass kein Gewicht vorhanden ist. Im Bereich der Temperaturmessung stellt die Temperatur-Skala eine Verhältnisskala dar, wenn die Einteilung in Kelvin erfolgt. Dementsprechend bedeutet eine Ausprägung von 0° Kelvin
(-273° C) tatsächlich „keine Temperatur“. Aufgrund dieser Differenzierung sind auch die zulässigen arithmetischen Operationen unterschiedlich. Verhältnisskalierte Daten erlauben die Anwendung aller arithmetischen Operationen, außerdem die Berechnung des arithmetischen Mittels oder des Variationskoeffizienten.[25] Intervallskalierte Daten erlauben zwar wie verhältnisskalierte Daten die Anwendung der Subtraktion, die Berechnung des Mittelwerts sowie der Standardabweichung, jedoch nicht die Anwendung von Multiplikation, Division oder Addition, da die Basis des natürlichen Nullpunktes fehlt.

In der folgenden Tabelle sind noch einmal die unterschiedlichen Skalen mit jeweils einem Beispiel zusammengestellt.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 3: Skalenniveaus mit Beispielen

Abschließend ist zu erwähnen, dass eine Transformation von einem hohen auf ein niedrigeres Skalenniveau u. U. sinnvoll sein kann, wenn dies der Übersichtlichkeit dient und ein durch die Transformation resultierender Informationsverlust in Kauf genommen werden kann. Jedoch ist eine Transformation von einem niedrigen auf ein höheres Skalenniveau nur dann zulässig, wenn zusätzliche Informationen zu diesem Vorgang berechtigen.[26]

2.2.2 Ähnlichkeits- und Distanzmaße

Maße, die eine Quantifizierung der Ähnlichkeit bzw. Distanz zwischen den Objekten ermöglichen, werden allgemein als Proximitätsmaße bezeichnet.[27] Ähnlichkeitsmaße spiegeln die Ähnlichkeit zwischen Objekten wider, d. h. je größer der ermittelte Wert des Ähnlichkeitsmaßes ist, desto ähnlicher sind sich die zwei untersuchten Objekte. Im Gegensatz dazu drückt das Distanzmaß die Unähnlichkeit zwischen zwei Objekten aus, d. h. je größer der ermittelte Wert des Distanzmaßes ist, desto unähnlicher sind sich die zwei untersuchten Objekte. Ähnlichkeits- und Distanzmaße lassen sich durch die Anwendung allgemeiner Formeln ineinander überführen:

Transformation Distanzmaß d in Ähnlichkeitsmaß s: Abbildung in dieser Leseprobe nicht enthalten

Transformation Ähnlichkeitsmaß s in Distanzmaß d: Abbildung in dieser Leseprobe nicht enthalten

Ähnlichkeits- und Distanzmaße beziehen sich auf das Skalenniveau der betrachteten Merkmale, wobei eine Vielzahl von Proximitätsmaßen in Abhängigkeit vom Skalenniveau entwickelt wurden. Die folgende Abbildung gibt einen Überblick über mögliche Proximitätsmaße.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Überblick über ausgewählte Proximitätsmaße[28]

Aus der Abbildung 2 ist zu erkennen, dass eine Einteilung der Proximitätsmaße grundsätzlich in Maße für Nominalskalen und Maße für metrische Skalen vorgenommen wird. Ordinalskalen nehmen in diesem Zusammenhang eine Zwischenstellung ein, denn unter bestimmten Voraussetzungen können die Merkmale der Ordinalskalen wie metrisch skalierte Werte betrachtet werden, im Normalfall jedoch wie nominal skalierte Werte.

Nominale Merkmale können anhand der Anzahl ihrer Ausprägungen charakterisiert werden. Dabei werden Merkmale unterschieden, die lediglich zwei Ausprägungen besitzen (z. B. männlich / weiblich) und Merkmale, die mehr als zwei Ausprägungen besitzen können (z. B. niedriges, mittleres, hohes Einkommen). Erstgenannte Merkmale werden auch als dichotom oder binär bezeichnet und wie bereits im Kapitel 2.2.1 erwähnt oftmals mit 0 (Eigenschaft nicht vorhanden) und 1 (Eigenschaft vorhanden) kodiert, zweitgenannte Merkmale als polytom. Um für polytome Merkmale die Proximitätsmaße der dichotomen Merkmale anwenden zu können, müssen sie in binäre Hilfsvariablen zerlegt werden, wobei z. B. Merkmale mit drei Kategorien durch zwei binäre Dummy-Variablen dargestellt werden können.[29] Wenn man als Beispiel das o. g. Einkommen betrachtet, können die Merkmalsausprägungen „niedrig“, „mittel“, „hoch“ durch zwei binäre Hilfsvariablen wiedergegeben werden:

Abbildung in dieser Leseprobe nicht enthalten und Abbildung in dieser Leseprobe nicht enthalten

In diesem Fall wird die Merkmalsausprägung „niedrig“ durch die Kombination Abbildung in dieser Leseprobe nicht enthaltenund Abbildung in dieser Leseprobe nicht enthalten dargestellt. Es ist jedoch zu beachten, dass es beim Vergleich polytomer Merkmale, die künstlich dichotomisiert wurden, zu erheblichen Verzerrungen kommen kann, da auch ein gemeinsamer Nichtbesitz einer Ausprägung als Gemeinsamkeit interpretiert werden könnte. Werden in Bezug auf das oben aufgeführte Beispiel zwei Objekte verglichen, von denen ein Objekt für das Merkmal „Einkommen“ die Ausprägung „niedrig“ besitzt, ein anderes die Ausprägung „mittel“, dann hätten beide Objekte eine Übereinstimmung in der Merkmalsausprägung „hoch“, was bei beiden nicht vorhanden ist. Aus diesem Grund wurden ebenfalls Proximitätsmaße entwickelt, die den gemeinsamen Nichtbesitz einer Eigenschaft nicht als Ähnlichkeit interpretieren und in Konstellationen, die der oben beschriebenen ähneln, auch angewandt werden sollten. Aus der folgenden Tabelle wird ersichtlich, dass bei einem Vergleich von zwei Merkmalen auf binärer Ebene vier Fälle unterschieden werden können:[30]

- bei beiden Objekten ist die Eigenschaft vorhanden (Feld a)
- nur Objekt 1 weist die Eigenschaft auf (Feld b)
- nur Objekt 2 weist die Eigenschaft auf (Feld c)
- bei beiden Objekten ist die Eigenschaft nicht vorhanden (Feld d)

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 4: Kombinationsmöglichkeiten binärer Variablen

Auf der Basis der in Tabelle 4 dargestellten Vierfeldertafel lassen sich nun unterschiedliche Ähnlichkeitsmaße definieren, die sich teilweise als Spezialfall der allgemeinen Formel

Abbildung in dieser Leseprobe nicht enthalten

ergeben.[31] Dabei definiert Abbildung in dieser Leseprobe nicht enthalten einen Gewichtungsfaktor (0 £Abbildung in dieser Leseprobe nicht enthalten£ 1), der angibt, inwieweit das gemeinsame Fehlen einer Eigenschaft berücksichtigt wird (Abbildung in dieser Leseprobe nicht enthalten= 0 bedeutet keine Berücksichtigung oder Abbildung in dieser Leseprobe nicht enthalten= 1 volle Berücksichtigung). Der Gewichtungsfaktor Abbildung in dieser Leseprobe nicht enthalten (Abbildung in dieser Leseprobe nicht enthalten>0) hingegen gibt an, ob eher Übereinstimmungen oder Nicht-Übereinstimmungen interessieren. Ist Abbildung in dieser Leseprobe nicht enthalten<1, stehen eher übereinstimmende Merkmale im Vordergrund, interessieren eher die Nicht-Übereinstimmungen, ist Abbildung in dieser Leseprobe nicht enthalten>1. Die folgende Tabelle gibt einen Überblick über eine Auswahl von Ähnlichkeitsfunktionen bei binären Variablen, die sich mit Hilfe der o. g. Gewichtungsfaktoren Abbildung in dieser Leseprobe nicht enthalten und Abbildung in dieser Leseprobe nicht enthalten konstruieren lassen.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 5: Auswahl einiger Ähnlichkeitsfunktionen[32]

Tabelle 5 enthält nur einen kleinen Ausschnitt möglicher Ähnlichkeitskoeffizienten. Zugeschnitten auf den jeweiligen Anwendungsfall lassen sich eine Vielzahl unterschiedlicher Ähnlichkeitsfunktionen konstruieren, die dann gewisse Vorteile besitzen könnten.[33]

Im Gegensatz zu nominalen Merkmalen wird die Ähnlichkeit von Objekten bei metrisch skalierten Merkmalsausprägungen üblicherweise mit Hilfe von Distanzmaßen berechnet.[34] Zwei Objekte werden somit als sehr ähnlich bezeichnet, wenn das Distanzmaß sehr klein ist. Zu beachten ist an dieser Stelle, dass unterschiedliche Maßeinheiten und Messgrößen das Ergebnis verzerren können. Aus diesem Grund sollte vor der Berechnung eine Normierung mit Hilfe einer so genannten z-Transformation durchgeführt werden, um die unterschiedlichen Maßeinheiten skaleninvariant und somit vergleichbar zu machen.[35] Normierte Merkmalswerte erhält man durch die Formel

Abbildung in dieser Leseprobe nicht enthalten, wobei Abbildung in dieser Leseprobe nicht enthalten der Mittelwert aller Werte k und Abbildung in dieser Leseprobe nicht enthalten die Standardabweichung

Abbildung in dieser Leseprobe nicht enthalten der Werte k ist.

Neben den Distanzmaßen existieren auch einige Ähnlichkeitsmaße für metrisch skalierte Merkmale, wie z. B. der Q-Korrelationskoeffizient. Letztendlich ist die Entscheidung über die Wahl des Proximitätsmaßes vom konkreten Untersuchungszweck abhängig. Die folgende Tabelle gibt einen Überblick über mögliche Proximitätsmaße für metrisch skalierte Werte.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 6: Übersicht Berechnung metrisch skalierter Proximitätsmaße[36]

In empirischen Studien werden häufig sowohl metrische, als auch nicht-metrische Eigenschaften der zu klassifizierenden Objekte verzeichnet.[37] Daraus ergibt sich die Frage, wie diese gemischt skalierten Variablen behandelt und Ähnlichkeiten bzw. Distanzen berechnet werden sollen. In der Literatur wird zwischen zwei unterschiedlichen Vorgehensweisen unterschieden.[38] Im ersten Fall erfolgt eine Transformation auf das niedrigste Skalenniveau, wobei beachtet werden muss, dass diese Transformation u. U. mit einem großen Informationsverlust verbunden ist. Im zweiten Fall erfolgt eine getrennte Berechnung von Ähnlichkeits- oder Distanzmaßen für gleichartige Merkmalsarten. Dabei ist darauf zu achten, dass eine Merkmalsart aufgrund bestehender Niveauunterschiede nicht zu dominant in die Gesamtberechnung eingeht. Um die Dominanz einer einzelnen Merkmalsart auszuschließen, können wiederum zwei Vorgehensweisen unterschieden werden. Einerseits erfolgt der Ausgleich unterschiedlicher Niveaus durch die Berechnung gewichteter oder ungewichteter Mittelwerte der im ersten Schritt berechneten Größen, andererseits bildet man die als Heterogenitätsanteile bezeichneten normierten Distanzen, indem die im ersten Schritt berechneten Größen auf die merkmalsspezifischen Abstandssummen bezogen werden.[39] Diese Heterogenitätsanteile werden durch die Formel Abbildung in dieser Leseprobe nicht enthalten
berechnet, das Distanzmaß für gemischt skalierte Merkmale ergibt sich dann durch die Summation der Heterogenitätsanteile:[40]

Abbildung in dieser Leseprobe nicht enthalten

Auf eine detaillierte beispielhafte Erläuterung wird an dieser Stelle verzichtet.

2.2.3 Daten- und Distanzmatrix

Bevor mit einer Analyse begonnen werden kann, muss der Anwender eine klare und präzise Fragestellung formulieren, um nach Durchführung einer Analyse für ihn verwertbare Ergebnisse zu erhalten. Ein weiterer Schritt ist die Auswahl der für die Fragestellung relevanten Objekte und Variablen. Nach diesen Vorüberlegungen werden die Daten in eine so genannten Rohdatenmatrix transformiert und gegebenenfalls aufbereitet. Diese Rohdatenmatrix bildet eine Grundlage für die Berechnung von Ähnlichkeiten bzw. Distanzen. U. a. setzt auch das Programmsystem SPSS, welches in Wissenschaft und Praxis eine große Verbreitung gefunden hat, diese Rohdatenmatrix zur Durchführung von Berechnungen voraus.[41] Die Spalten dieser Datenmatrix werden durch die untersuchten Merkmale definiert, die Zeilen hingegen durch die an der Untersuchung beteiligten Objekte. Die folgende Abbildung zeigt eine mögliche Ausprägung der Datenmatrix.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Datenmatrix

Durch die Transformation der vorliegenden Daten in eine Rohdatenmatrix ist es möglich, grundlegende Entscheidungen bezüglich der Wahl des zu verwendenden Ähnlichkeits- bzw. Distanzmaßes zu treffen. Im weiteren Verlauf einer Analyse wird diese Rohdatenmatrix in eine Distanz- bzw. Ähnlichkeitsmatrix überführt, in dem die Ähnlichkeit zwischen den Objekten durch eine statistische Maßzahl quantifiziert wird. Mit der Hilfe des Ähnlichkeits- bzw. Distanzmaßes kann somit erkannt werden, in welcher Art und Weise verschiedene Objekte einander ähnlich sind. Die folgende Abbildung zeigt die auf der Basis der Rohdatenmatrix mit Hilfe der Euklidischen Distanz berechnete Distanzmatrix, aus der die einzelnen Distanzen der untersuchten Objekte zu erkennen sind.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Distanzmatrix

Zur weiteren Betrachtung und Durchführung der Analyse genügt es, den unteren Teil der Distanzmatrix zu berücksichtigen, da die Eigendistanzen stets 0 sind (Unternehmen A – Unternehmen A usw. ) und der obere Teil der Distanzmatrix symmetrisch zum unteren Teil ist. Aus dieser Distanzmatrix ist bereits zu erkennen, dass die Unternehmen B und D die geringste Distanz aufweisen und sich somit am ähnlichsten sind. Im Gegensatz dazu ist die Distanz und somit die Unähnlichkeit der Unternehmen A und B am größten.

3 Benchmarking

Verschärfte Konkurrenzsituationen durch die Globalisierung der Märkte, stetig steigende Erwartungen der Kunden nach qualitativ hochwertigen und maßgeschneiderten Produkten sowie verkürzte Produktlebenszyklen sind nur einige Gründe, die zu stark veränderten Rahmenbedingungen des Wettbewerbs geführt haben. Somit prägen Kostensenkungen, Innovationsförderungen sowie Produktivitäts- und Qualitätssteigerungen mehr und mehr das Management von Unternehmen, um Marktpositionen zu erhalten, zurück zu gewinnen bzw. auszubauen. Ständige Verbesserungen, Flexibilität sowie eine starke Kundenorientierung sind Voraussetzungen, um den Gegebenheiten und Entwicklungen des Marktes gerecht zu werden.[42] Dabei stellt Benchmarking ein wertvolles Instrument zur Leistungssteigerung von Unternehmen dar, welches in letzter Zeit enorme Popularität gewonnen hat.[43]

Dieses Kapitel soll im ersten Abschnitt ein allgemeines Verständnis für das Benchmarking vermitteln. Dabei werden die Grundzüge erläutert sowie Ursprünge und Definitionen aufgezeigt. Des Weiteren wird versucht, den Begriff Benchmarking vom traditionellen Betriebsvergleich abzugrenzen und einen kurzen Überblick über unterschiedliche Einsatzfelder und Nutzen des Benchmarking zu geben. Im zweiten Abschnitt erfolgt eine Einführung in unterschiedliche Prinzipien und Arten des Benchmarking. Dabei werden internes und externes Benchmarking gegenübergestellt sowie unterschiedliche Betrachtungshorizonte erläutert, die sich durch die Wahl des Benchmarking-Partners voneinander abgrenzen lassen. Im Anschluss an die Erläuterung der verschiedenen Betrachtungshorizonte wird auf die jeweiligen Vor- und Nachteile der aus den Betrachtungshorizonten abgeleiteten Benchmarking-Typen eingegangen. Der Benchmarking-Prozess lässt sich in verschiedene Phasen einteilen, wobei in einschlägiger Literatur eine Vielzahl unterschiedlicher Modelle dargestellt sind. Im dritten Abschnitt wird nach einer Vorstellung unterschiedlicher Ansätze der Benchmarking-Prozess beispielhaft anhand des 5-Phasen-Konzeptes erläutert. Im letzen Abschnitt dieses Kapitels erfolgt die Darstellung des klassifizierenden Benchmarking als neue Benchmarking-Methode. Dabei werden kurz die Grundlagen vermittelt und auf das Problem der Unternehmensgruppierung sowie die Anwendung multivariater Analysemethoden in diesem Kontext eingegangen.

3.1 Überblick

Benchmarking gehört zu den aktuellen Themen unserer Tage.[44] Dabei stellt sich die Frage, was Benchmarking genau ist, wo der Begriff seinen Ursprung hat, welchen Nutzen Unternehmen die Anwendung bringt und ob es sich tatsächlich um eine neue Managementmethode handelt oder doch nur um einen neuen Begriff für ein bereits bekanntes Werkzeug, ohne wirklich innovative Vorgehensweisen zu beschreiben. Im Folgenden wird versucht, Antworten auf die gestellten Fragen zu geben.

3.1.1 Ursprünge und Definition

In einschlägiger Literatur ist die Herkunft des Begriffes „Benchmarking“ nicht eindeutig geklärt. Am weitesten verbreitet ist jedoch die Auffassung, dass der Begriff seinen Ursprung im Vermessungswesen hat und dort zur Ermittlung von Höhenunterschieden zwischen festgelegten Punkten eingesetzt wird.[45] Ein „Benchmark“ bezeichnet demnach einen gewählten Referenzpunkt, mit dessen Hilfe die Differenz zu einem weiteren frei wählbaren Punkt exakt berechnet werden kann. Im American Heritage Dictionary ist der Begriff „Benchmark“ folgendermaßen definiert:[46]

Vermessungsmarke auf einem stationären Objekt, das vorher in Position und Höhe bestimmt wurde. Verwendet als Referenzpunkt in der Gezeitenbeobachtung und Vermessung.“

Auch in der Computerindustrie findet der Begriff „Benchmark“ seine Anwendung. Dort bezeichnet er das für ein bestimmtes Anwendungsgebiet leistungsstärkste System, welches durch Geschwindigkeitsvergleiche (z. B. MHz bei Prozessoren) oder Größenangaben (Megabyte für Speicher) ermittelt wurde. Daraus ist zu erkennen, dass in allgemeiner Anwendung ein „Benchmark“ eine gemessene Bestleistung darstellt, nach der gestrebt werden sollte.

Vereinfacht kann somit Benchmarking als Prozess bezeichnet werden, diesen Benchmark zu erreichen.[47] Exemplarisch soll nun eine Auswahl an Definitionen, die in unterschiedlicher Literatur zu finden sind, vorgestellt werden:

„Benchmarking ist der kontinuierliche Prozess, Produkte, Dienstleistungen und Praktiken zu messen gegen den stärksten Mitbewerber oder die Firmen, die als Industrieführer angesehen werden.“[48]

„Benchmarking ist ein kontinuierlicher, systematischer Prozess, um Produkte, Dienstleistungen und Arbeitsprozesse von Unternehmen zu beurteilen und zu verbessern.“[49]

„Benchmarking ist der methodische Vergleich von Prozessen und Produkten mittels Benchmarks von als besser identifizierten Vergleichspartnern. Die Vergleichspartner werden anhand von Ähnlichkeiten in der eigenen oder in anderen Organisationen gefunden. Ziel des Benchmarking ist es, die eigenen Prozesse und Produkte durch das Vorbild des Vergleichspartners entscheidend zu verbessern.“[50]

Auch wenn in der Literatur eine Vielzahl unterschiedlicher Benchmarking-Definitionen zu finden sind, besteht die Kernaussage aller Definitionen darin, dass es sich beim Benchmarking um einen kontinuierlichen Prozess handelt, der mehrmals wiederholt werden muss, um die eigene Leistungsfähigkeit durch den Vergleich mit als besser identifizierten Vergleichsobjekten zu erhöhen.

Der Ursprung des Benchmarking im heutigen Sinne ist in den Anfängen des 20. Jahrhunderts zu finden.[51] Dort ließ sich Henry Ford durch den Besuch bei einer Chicagoer Großschlachterei inspirieren, in der Schweine an Haken hingen und durch ein Hängeschienensystem von Mitarbeiter zu Mitarbeiter gleiten konnten.[52] Diese Idee übertrug Henry Ford auf die Automobilindustrie, was der allgemein gültigen Vorgehensweise beim Benchmarking entspricht. In den 60er und 70er Jahren verfolgten vor allem Unternehmen der japanischen Industrie den Grundgedanken des Benchmarking und adaptierten bzw. verbesserten erfolgreiche Unternehmenspraktiken und Technologien westlicher Unternehmen. Darin ist u. a. auch das rasche Aufstreben japanischer Unternehmen auf dem Weltmarkt begründet, da diese Unternehmen Produkte auf den Markt bringen konnten, deren Verkaufspreis zum Teil unter den Herstellkosten westlicher Konkurrenten lag. Genau vor diesem Problem stand auch der in der Literatur oft dargestellte Fall des Kopierer-Herstellers Xerox, der als Pionier des Benchmarking anzusehen ist.[53] Nachdem der direkte Produktvergleich und der damit verbundenen Analyse der Einzelteile (so genanntes Reverse Engineering) keine entscheidenden Unterschiede aufzeigen konnte, wurde dazu übergegangen, einzelne Arbeitsprozesse unterschiedlicher Standorte zu vergleichen. Durch diesen Vergleich wurden radikale Änderungen und Ziele definiert, die zu einem überwältigenden Erfolg in der Fertigung führten. Aufgrund dieses Erfolges beschloss das Management 1981, Benchmarking auf allen Geschäftsgebieten durchführen zu lassen, ebenfalls mit großem Erfolg.[54] Erste theoretische Grundlagen sowie unterschiedliche Anwendungsempfehlungen, Richtlinien und Vorgehensweisen für das Benchmarking wurden durch einen Mitarbeiter der Firma Xerox, Robert C. Camp, in Form eines einschlägigen Buches veröffentlicht.[55] Die folgende Abbildung gibt noch einmal einen Überblick über die Entwicklung des Benchmarking.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Die Entwicklung des Benchmarking[56]

Vor allem in den USA hat sich das Benchmarking als erfolgsversprechende Methode zur Unternehmensverbesserung und –optimierung durchgesetzt, aber auch in Deutschland findet dieses Managementwerkzeug zunehmend Anwendung, was u. a. auf die Gründung von öffentlichen Benchmarking-Zentren, z. B. das 1998 gegründete Deutsche Benchmarking Zentrum mit Sitz in Berlin, zurückzuführen ist. Hauptaufgaben dieser Zentren sind die Vermittlung von passenden Benchmarking-Partnern sowie die Verbreitung der Methoden insbesondere bei kleinen und mittelständischen Unternehmen (KMU).

[...]


[1] Vgl. Hartung, J. 1995, S. 18.

[2] Vgl. Hartung, J. 1995, S. 3.

[3] Vgl. Backhaus, K. 1996, S. VII.

[4] Vgl. Backhaus, K. 1996, S. XVIII.

[5] Vgl. Kapitel 2.2.1.

[6] Vgl. Backhaus, K. 1996, S. XVIII-XIX.

[7] Vgl. Hartung, J. 1995, S. 15.

[8] Vgl. Eckey, H.-F. 2002, S. 3.

[9] Vgl. Hartung, J. 1995, S. 3.

[10] Vgl. Backhaus, K. 1996, S. XIX.

[11] Vgl. Hartung, J. 1995, S. 143.

[12] Vgl. Eckey, H.-F. 2002, S. 95.

[13] Vgl. Eckey, H.-F. 2002, S. 93.

[14] Vgl. Kockläuner, G. 2000, S. 11-12.

[15] Vgl. Eckey, H.-F. 2002, S. 289.

[16] Vgl. Backhaus, K. 1996, S. XIX.

[17] Vgl. Backhaus, K. 1996, S. XX.

[18] Vgl. Backhaus, K. 1996, S. XXI.

[19] Vgl. Backhaus, K. 1996, S. XXII.

[20] Vgl. Kockläuner, G. 2000, S. 59.

[21] Vgl. Backhaus, K. 1996, S. XXIII.

[22] Vgl. Steinhausen, D. 1977, S. 29.

[23] Vgl. Backhaus, K. 1996, S. XV.

[24] Vgl. Backhaus, K. 1996, S. XVI.

[25] Vgl. Steinhausen, D. 1977, S. 30.

[26] Vgl. Steinhausen, D. 1977, S. 30.

[27] Vgl. Backhaus, K. 1996, S. 264.

[28] Vgl. Backhaus, K. 1996, S. 265.

[29] Vgl. Eckey, H.-F. 2002, S. 223.

[30] Vgl. Backhaus, K. 1996, S. 266.

[31] Vgl. Steinhausen, D. 1977, S. 54.

[32] Vgl. Steinhausen, D. 1977, S. 55.

[33] Vgl. Steinhausen, D. 1977, S. 54.

[34] Vgl. Backhaus, K. 1996, S. 273.

[35] Vgl. Eckey, H.-F. 2002, S. 209.

[36] Vgl. Bortz, J. 1999, S.551.

[37] Vgl. Backhaus, K. 1996, S. 278.

[38] Vgl. Eckey, H.-F. 2002, S. 225.

[39] Vgl. Backhaus, K. 1996, S. 278 u. Eckey, H.-F. 2002, S. 226.

[40] Vgl. Eckey, H.-F. 2002, S. 226.

[41] Vgl. Backhaus, K. 1996, S. XXIII.

[42] Vgl. Siebert, G. 2000, S. 3.

[43] Vgl. Schäfer, S. 1998, S. 365.

[44] Vgl. Benson, R. 2001, S. 31.

[45] Vgl. Schmidt, F. 2000, S. 9.

[46] Vgl. Siebert, G. 2000, S. 9.

[47] Vgl. Siebert, G. 2000, S. 10.

[48] Lasch, R. 1996, S. 697.

[49] Zdrowomyslaw, N. 2002, S. 141.

[50] Siebert, G. 2000, S. 10.

[51] Vgl. Siebert, G. 2000, S. 11.

[52] Vgl. Siebert, G. 2000, S. 11.

[53] Vgl. Sänger, E. 1996, S.56.

[54] Vgl. Siebert, G. 2000, S. 12.

[55] Vgl. Sänger, E. 1996, S. 56.

[56] Vgl. Siebert, G. 2000, S. 11.

Details

Seiten
188
Jahr
2005
ISBN (eBook)
9783638549622
Dateigröße
1.1 MB
Sprache
Deutsch
Katalognummer
v61526
Institution / Hochschule
Hochschule Hannover
Note
1,3
Schlagworte
Entwicklung Prototypen Analyse Daten Bereichen Benchmarking Skillmanagement

Teilen

Zurück

Titel: Entwicklung eines Prototypen zur Analyse multivariater, verteilungsfreier Daten in den Bereichen Benchmarking und Skillmanagement