Homepage > Katalog > Soziologie - Methodologie und Methoden

Reliabilität und Validität der Messung von beruflichem Status

Name: Reliabilität und Validität der Messung von beruflichem Status
Price: 52.95 EUR
Availability: InStock
Author: Marco Schmider
ISBN: 978-3-640-17617-5

Diplomarbeit, 2005

153 Seiten, Note: 2

Marco Schmider (Autor:in)

Leseprobe

Inhaltsverzeichnis

Kapitel 1: Einleitung

Kapitel 2: Messtheoretische Grundlagen
2.1 Einleitung
2.2. Messtheoretische Ansätze
2.2.1. Die Direkte Messung
2.2.2 Die Latent-Trait-Theorie
2.2.3 Klassische Testtheorie (KTT)
2.2.3.1 Klassische „wahre Werte“ und platonische „wahre Werte“
2.2.4 Die Messfehler – Testtheorie
2.2.4.1 Die Reliabilität einer Messung
2.2.4.2 Auswirkungen fehlender Reliabilität
2.2.4.3 Empirische Bestimmung der Reliabilität
2.2.4.4 Arten der Reliabilitätsschätzung:
2.2.4.4.1 Die Test-Retest-Methode: Reliabilität als Stabilität zweier Messungen
2.2.4.4.2 Die Alternatitive-Form Methode: Reliabilität als die Äquivalenz und Stabilität alternativer Testausführungen
2.2.4.4.3 Split-Half-Verfahren: Reliabilität als die Äquivalenz von Testhälften
2.2.4.4.4 Interne-Konsistenz-Methode: Reliabilität als interne Konsistenz
2.2.4.5 Die Validität
2.2.4.5.1 Zufälliger und Systematischer Messfehler
2.2.4.5.2 Zusammenhang zwischen Reliabilität und Validität
2.2.4.5.3 Arten der Validitätsschätzung
2.2.4.5.3.1 Kriteriumsvalidität
2.2.4.5.3.2 Inhaltsvalidität
2.2.4.5.3.3 Konstruktvalidität
2.2.5 Die Test-Retest-Studie zum ALLBUS 1984
2.2.5.1 Ergebnisse der Test-Retest-Studie
2.3 Zusammenfassung

Kapitel 3: Berufsklassifikationen
3.1.Einleitung
3.2 Status – sozialer Status – sozio-ökonomischer Status
3.3 Die Klassifikation von Berufen
3.3.1 Klassifikation nach beruflichen Tätigkeiten
3.3.1.1 International Standard Classification of Occupations (ISCO-88)
3.3.1.1.1 Hintergrund und Struktur
3.3.1.1.2 Zusammenfassung
3.3.1.2 Internationale Berufsprestige-Skala von Treiman (SIOPS)
3.3.1.3 Die internationale Skala des sozio-ökonomischen Status von Ganzeboom et al. (ISEI)
3.3.1.4 Die Magnitude-Prestigeskala (MPS) von Wegener
3.3.4.1 Magnitude-Skalierung
3.3.4.2 Vor- und Nachteile der MPS
3.3.2 Klassifikation nach beruflichen Stellungen
3.3.2.1 Tegtmeyers Skala des sozio-ökonomischen Status (TSES)
3.3.2.2 Tegtmeyers Skala des Berufsprestiges (TGP)
3.3.2.3ndls Skala des sozio-ökonomischen Status (HSES)
3.3.2.4 Mayers Berufsprestigeskala (MBP)
3.4 Zusammenfassung

Kapitel 4 : Das multiple Messformat zur Messung von Berufen
4.1 Offener und geschlossener Fragetypus
4.1.1 geschlossene Fragen
4.1.2 Offene Fragen
4.2 Die Umsetzung des offenen und geschlossenen Frageformats
4.3 Erwartungen über die Güte der Berufsindikatoren

Kapitel 5 Strukturgleichungsmodelle
5.1 Einführung
5.2 Geschichte und Typologie von Strukturgleichungsmodellen
5.2.1 Pfadanalyse
5.2.2 Strukturgleichungsmodelle
5.2.3 Allgemeine Schätzverfahren
5.3 Der Prozess des Statuserwerbs
5.3.1 Das Grundmodell des Statuszuweisungsprozesses bei Blau & Duncan 1967
5.3.2 Quantitativ-empirische Untersuchungen in der Bundesrepublik Deutschland
5.4 Vollständige Strukturgleichungsmodelle
5.4.1 Teile vollständiger Strukturgleichungsmodelle
5.4.1.1 Das Strukturmodell
5.4.1.2 Das Messmodell

Kapitel 6: Empirische Analysen
6.1 Datenbasis
6.1.1 Die Datenquellen
6.1.2 Variablenauswahl
6.1.3 Variablenbildung und -transformation
6.1.3.1 Variablenbildung
6.1.3.1.1 Einkommensvariable
6.1.3.1.2 Bildungsvariablen
6.1.3.1.3 Geschlechtsvariable
6.1.3.1.4 Die Skalierung der Berufsvariablen
6.1.3.2 Die Güte der Indikatoren im zeitlichen Verlauf
6.1.4 Datenanalyse
6.2. Die vollständigen Strukturgleichungsmodelle
6.2.1 Das Messmodell
6.2.2 Messmodelle für die Berufsprestigeindikatoren
6.2.3 Darstellung der vollständigen Modelle
6.2.4 Modellidentifikation und Modellparameter
6.2.4.1 Modellidentifikation
6.2.4.2 Identifikation der Modelle
6.2.5 Die Auswahl des Schätzverfahrens
6.2.6 Beurteilung der Schätzergebnisse
6.2.6.1 Modellanpassung – Gesamtstruktur der Strukturgleichungsmodelle
6.2.6.2 Beurteilung der Teilstrukturen der Strukturgleichungsmodelle
6.2.6.2.1 Beurteilung der Residuen
6.2.6.2.1 Beurteilung des Critical Ratio (C.R)
6.2.6.3 Zusammenfassung der Modellevaluation
6.2.7 Korrelationsanalyse
6.2.7.1 Zusammenfassung der Ergebnisse
6.2.8 Reliabilität der Indikatoren
6.2.8.1 Arten äquivalenter Messungen
6.2.8.2 Die Bestimmung der Reliabilität von Indikatoren .
6.2.8.3 Alternatives Schätzverfahren für die Reliabilität
6.2.8.4 Reliabilität der offenen und geschlossenen Berufsprestigeindikatoren
6.2.8.4.1 Reliabilitäten im Zeitraum 1982 bis 1999
6.2.8.4.2 Entwicklung der Reliabilitäten – Vergleich der 1980er-Jahre mit den 1990er-Jahren
6.2.9 Die Validität von Indikatorvariablen
6.2.9.1 Alternatives Schätzverfahren für die Validität
6.2.9.1.1 Standardisierte bzw. unstandardisierte Pfadkoeffizienten
6.2.9.1.2 Validität der offenen und geschlossenen Berufsprestigeindikatoren
6.2.5.1.1 Validität der Indikatoren im gesamten Zeitraum
6.2.5.1.1 Die Entwicklung der standardisierten Validitätskoeffizienten im zeitlichen Verlauf
6.2.10 Stärke der reproduzierten Zusammenhänge zwischen offenem, geschlossenem und multiplen Modell
6.2.10.1 Bildungs-, Berufsprestige- und Einkommenserwerbsmodelle für die Frauen und Männer im Zeitraum 1982-1999
6.2.10.2 Plausibilität der Strukturgleichungsmodelle
6.2.10.3 Strukturelle Beziehungen zwischen Bildung, Berufsprestige und Einkommen
6.2.10.4 Vergleich der Indikatorenmodelle
6.2.10.5 Zusammenfassung
6.2.11 Zusammenfassung

Anhang

Literaturverzeichnis

Kapitel 1: Einleitung

Seit dem Erscheinen der grundlegenden Studie von Blau und Duncan 1967 ist die Statuszuweisungsforschung ein Forschungsansatz mit dem Mobilitätsprozesse untersucht werden. In diesem Forschungsprogramm wird untersucht, durch welche Prädiktoren die Platzierung von Individuen auf einer abgestuften vertikalen Skala des sozio-ökonomischen Status oder sozialen Prestige am besten vorausgesagt werden können. Ein wichtiges Instrument der Statuserwerbsforschung sind Berufsprestigeskalen auf denen die Individuen eingeordnet werden. Die Einordnung auf solchen Skalen ist Produkt der Bewertung eines Berufes nach höher und tiefer, wichtiger und weniger wichtig, schwer und weniger schwer etc. Daraus ergibt sich eine Wertschätzung, die in Relation zu den anderen Berufen als Prestige des Berufes bezeichnet wird. Berufsprestigeskalen werden neben anderen individuellen Eigenschaften der befragten Person, beispielsweise Herkunftsstatus, Ausbildungsniveau oder Aspiration, als Prädiktoren in verschiedenen multivariaten Regressionsrechnungen (Pfadanalyse, Strukturgleichungsmodelle) angewendet. Im klassischen Statuszuweisungsmodell von Blau und Duncan (1967) wird beispielsweise postuliert, dass die Bildung und das Berufsprestige des Vaters einen Einfluss auf das Bildungsniveau einer Person haben. Das Bildungsniveau wiederum bestimmt zusammen mit den beiden Herkunftsvariablen das Berufsprestige dieser Person. Untersuchungen über den Statuserwerbsprozess wurden auch in Deutschland im Laufe der 1970er-Jahre von Müller 1972, 1975, Müller und Mayer 1976 durchgeführt.

In den letzten Jahren hat die Statuserwerbsforschung für die Schichtungsforschung an Bedeutung verloren. Die Berufsprestigeskalen sind dagegen nach wie vor Bestandteil vieler nationaler und internationaler Bevölkerungsumfragen wie beispielsweise ALLBUS oder ISSP. Standardmäßig werden dort das Berufsprestige auf standardisierten Skalen, z.B. Treimann-Skala, Magnitude-Prestige-Skala nach Wegener oder ISEI, erhoben. Trotz Erhebung und regelmäßiger Verwendung solcher Berufsprestigeskalen in vielerlei empirischen Untersuchungen wurde bislang wenig Augenmerk auf die Qualität, d.h. Reliabilität und Validität, dieses Messinstrumentes gelegt.

Die bisher einzige Untersuchung zur Bestimmung der Güte von sozio-ökonomischen Variablen fand Anfang der 1980er-Jahre statt. Die Test-Retest-Studie zur Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) 1984 untersuchte das Ausmaß, in dem Befragungspersonen eine bestimmte Frage über mehrere Erhebungszeitpunkte hinweg konsistent, also mit dem gleichen Response, beantworteten. Anhand der Messung der Stabilitäten war es möglich, Aussagen über die Messgenauigkeit (Reliabilität) der Fragen zu erhalten.

In den meisten Fällen ist es nicht möglich aufwendige und teure Test-Retest-Verfahren zur Reliabilitätsbestimmung eines Messinstrumentes durchzuführen. Wenn man nicht gänzlich auf die Beurteilung der Messinstrumente verzichten will, dann stellt sich die Frage, nach welchen Kriterien die Instrumente beurteilt werden und mit Hilfe welcher Methode die Kriterien berechnet werden. In dieser Arbeit wird ein Verfahren zur Bestimmung der Güte, bzw. Qualität, von Indikatoren des sozio-ökonomischen Status zu formuliert. Die in dieser Arbeit verfolgte Methode geht auf einen Konferenzbeitrag von Harry Ganzeboom und Jannes de Vries aus dem Jahr 2004 zurück, der während der Tagung der „International Sociological Association Research Committee on Social Stratification and Mobility (RC28)“ in Neuchatel vorgestellt wurde.^[1]

Im Beitrag von Ganzeboom und de Vries (2004) ging es darum ein multiples Indikatorenmodell für den beruflichen Status zu entwickeln und anhand von empirischen Daten zu überprüfen. Dabei wurde zwei Messformate, ein offenes und ein geschlossenes Indikatorenformat, zur Messung des beruflichen Status vorgestellt. Das offene Indikatorenformat bezeichnet dabei eine Berufsskala auf der von einem geschulten Interviewer die detaillierten Berufsbeschreibungen des Befragten klassifiziert werden. Demgegenüber steht das geschlossene Indikatorenformat, bei dem sich der Befragte auf einer Skala mit nur wenigen Kategorien selbst klassifiziert. Eine solche multiple Operationalisierung des beruflichen Status ermöglicht es Aussagen über die Reliabilität und Validität der einzelnen Indikatoren zu treffen, indem die beiden Indikatoren in Bezug miteinander gesetzt werden. Ganzeboom und de Vries kamen zum Ergebnis, dass das weniger detaillierte geschlossene Messformat zu reliableren Messungen des beruflichen Status führt als das offene Messformat.

In dieser Arbeit wird der zur Reliabilitätsbestimmung erforderliche Vergleich zweier Messungen anhand des gerade beschriebenen multiplen Messformats verfolgt. Dabei werden die Messformate anhand innerhalb Deutschlands gängiger Skalen zur Messung des Berufes operationalisiert. Die Beurteilung der Messkriterien Validität und Reliabilität erfolgt dabei anhand von Strukturgleichungsmodellen. Diese ermöglichten es, explizite Annahmen über die Messung des sozio-ökonomischen Status zu formulieren. Die Modelle basieren auf dem sehr gut untersuchten Statuserwerbsmodell von Blau & Duncan (1967), dass wie schon erwähnt auch auf das Gebiet der Bundesrepublik Deutschland angewendet wurde. Die im Pfadmodell formulierten Kausalbeziehungen können als weitestgehend bestätigt gelten. Dies ermöglicht die Messformate hinsichtlich der erwarteten Zusammenhänge auf Messgenauigkeit und Gültigkeit zu untersuchen. In einem weiteren Schritt wurde die Veränderung der Zusammenhänge untersucht, den die Schätzung des beruflichen Status mit Hilfe multipler Indikatoren bewirkt. Somit war es möglich festzustellen, ob das Modell über eine höhere Erklärungskraft im multiplen Fall verfügt, oder ob eine Schätzung auf Basis eines Messindikators ausreichend ist. Zusätzlich wurde untersucht, ob Effekte aufgrund von Geschlecht und Alter des Befragten die Zusammenhänge innerhalb der Strukturgleichungsmodelle beeinflussen.

Die zentralen Forschungsfragen dieser Arbeit waren demnach:

- Wie hoch ist die Qualität der Indikatoren für den beruflichen Status insgesamt
- Wie reliabel und valide sind die Messformate, wenn man sie miteinander vergleicht?
- Ist es sinnvoll den beruflichen Status anhand mehrerer Indikatoren zu bestimmen?

Die vorliegende Arbeit ist in fünf Teile gegliedert. Das zweite Kapitel befasst sich mit den messtheoretischen Grundlagen, die für diese Arbeit benötigt werden. Es wird zunächst bestimmt was unter dem Vorgang des „Messens“ verstanden werden soll. Des weiteren werden Kriterien vorgestellt mit deren Hilfe beurteilt werden kann, wie gut ein Messinstrument ein bestimmtes Phänomen misst. Es handelt sich dabei um die Gütekriterien Reliabilität und Validität. Neben der theoretischen Darstellung der Kriterien werden verschiedene Methoden zur empirischen Bestimmung der Kriterien besprochen.

Das Konzept des sozio-ökonomischen Status soll in dieser Arbeit anhand zweier Indikatoren gemessen werden. Um eine Vorstellung zu bekommen, was genau gemessen werden soll, widmet sich das dritte Kapitel der Bestimmung des Konzepts. Nach der Begriffsbestimmung werden Skalen dargestellt mit denen der berufliche Status einer Person gemessen werden kann. Die Skalen lassen sich unterschieden, in solche die den Beruf nach Tätigkeitsbezeichnungen differenzieren und solchen, die nach sozialrechtlichen Positionen unterscheiden.

Im vierten Kapitel geht es um die Beschreibung von Messformaten, die das Konzept des sozio-ökonomischen Status auf unterschiedliche Weise messen. Mit den Indikatorenformaten sind Vor- und Nachteile verbunden, die für das jeweilige Format beschrieben werden. Anhand der Stärken und Schwächen der Indikatorenformate lassen sich Aussagen treffen, wie die reliabel und valide die Indikatoren den sozio-ökonomischen Status in den empirischen Analysen messen.

Das fünfte Kapitel befasst sich mit dem statistischen Verfahren das in den empirischen Analysen verwendet wird. Es wird ein allgemeiner Überblick über das Verfahren der Strukturgleichungsmodelle gegeben. Die Modelle anhand denen die Indikatoren geprüft werden, gehen auf das Pfadmodell über den Prozess des Statuserwerbs von Blau & Duncan (1967) zurück. Dieses Modell wird daher näher erläutert und anhand von Untersuchungen aus den 1970er-Jahren auf das Gebiet der alten Bundesrepublik Deutschland übertragen. Dazu werden die Ergebnisse der Untersuchungen von Müller 1975 und Handl 1977 vorgestellt. Im empirischen Teil werden die Ergebnisse wieder aufgegriffen, um sie auf Übereinstimmung mit den Ergebnissen dieser Arbeit zu überprüfen. Weiterhin wird das Strukturmodell anhand von Hypothesen, die aus den Statusmodellen von Blau/Duncan abgeleitet wurden, in leicht modifizierter Form dargestellt.

Das letzte Kapitel dieser Arbeit befasst sich mit der empirischen Untersuchung. Es werden die Datenbasis, die verwendeten Variablen und deren Transformationen erläutert. Danach werden die Messmodelle der Strukturgleichungsmodelle spezifiziert und in vollständige Strukturgleichungsmodelle überführt. Im Analysesteil werden zunächst die Strukturen der Modelle bewertet. Anhand von einfachen Korrelationsanalysen wird festgestellt, ob der theoretisch angenommene Zusammenhang auch empirisch nachweisbar ist. Die Indikatoren werden nach dem Grad an Übereinstimmung untereinander wie auch hinsichtlich der zentralen anderen Modellvariablen untersucht. Abschließend werden die Ergebnisse der Reliabilitäts- und Validitätsschätzungen der Berufsprestigeindikatoren dargelegt. Die Schlussdiskussion versucht die Ergebnisse zusammenzufassen und in bezug zu den anderen empirischen Untersuchungen zu setzen.

Kapitel 2: Messtheoretische Grundlagen

2.1 Einleitung

In der folgenden Arbeit sollen Indikatoren zur Messung des beruflichen Status von Befragten nach deren Güte beurteilt werden. Soll die Bewertung der Leistungsfähigkeit dieses Instrumentes nicht willkürlich sein, so muss auch diese Beurteilung in einen theoretischen Rahmen eingebettet werden. Gegenstand einer solchen Theorie ist das Beziehungsverhältnis zwischen dem subjektiven, nicht beobachtbaren Phänomen, das gemessen werden soll, und den beobachtbaren Reaktionen. Die Theorie definiert die Regel, die bestimmt, wie von den Reaktionen auf das latente Konstrukt geschlossen werden soll. Der Messvorgang beinhaltet somit ein zufälliges, dem Geschmack des Forschers überlassenes, Moment, d.h. es könnten auch andere Regeln gewählt werden. Aus diesem Grund ist es notwendig, die für diese Arbeit in Frage kommenden Ansätze zu explizieren und den für diese Arbeit relevanten Ansatz anzugeben.

Von den in Frage kommenden Messansätzen, sollen im Folgenden drei vorgestellt werden. Anhand der drei Ansätze soll verdeutlicht werden, dass verschiedene Zuweisungsregeln existieren und welcher der Ansätze für diese Arbeit verwendet wird. Bei den vorgestellten Paradigmen handelt es sich um die „Messtheorie der direkten Urteilstheorie“, der „Theorie der Latent-Trait-Messung“ und der „Messfehler-Testtheorie“.

2.2. Messtheoretische Ansätze

2.2.1. Die Direkte Messung

Die Wertung oder Antwort, die ein Befragter während eines Experimentes oder Umfrage gibt, muss nicht zwangsläufig mit der „wahren“ Einstellung des Befragten übereinstimmen. Die Einstellung kennt nur derjenige, der sie hat. Der Befragte ist somit die zentrale Skalierungsinstanz. Dies ist ausschließlich dann der Fall, wenn der Befragte seine Empfindungen oder Einstellungen selbst metrisch umsetzen kann und wenn bei dem Resultat nicht die Notwendigkeit einer rechnerischen Weiterverarbeitung besteht, weil die Angaben, die der Befragte gemacht hat selbst informative Skalenwerte sind. Unabhängig vom Skalierungsprozess stellt sich dem Forscher die Frage, welche Bedeutung er den gegebenen Antworten zubilligt. Er könnte beispielsweise der Meinung sein, dass alle Antworten, die von einem Befragten abgegeben werden, prinzipiell mit einem Fehler behaftet sind (Annahme der Messfehler-Testtheorie). Dieses Misstrauen führt den Forscher dazu, die gegebenen Antworten nachträglich von dem erwarteten Fehler zu bereinigen. Es kann aber auch sein, dass die Berichte der Befragten in einen Bezug gestellt werden, der die Gesamtheit einer möglichen Befragtenpopulation involviert und Schlüsse von Häufigkeitsverteilungen von Antwortmustern auf die Verteilung von Einstellungswerten zulässt (Latent-Trait-Messung ).

Bei der direkten Messung wird den Berichten des Befragten eine besonders hohe und verwertbare Qualität zuerkannt. Die Antworten des Befragten sind innerhalb dieses Messansatzes immer „ richtig“ und „bedeutungsvoll“.

Ein Beispiel für ein direktes Skalierungsverfahren ist die „Magnitude-Messung“. Der Befragte übernimmt bei diesem Verfahren die alleinige Initiative bei der Skalierung und stellt anhand von Instruktionen eine Zuordnung von Messwerten zu Objekten her. Es werden dem Befragten nicht wie bei anderen Verfahren Antwortmöglichkeiten vorgegeben, sondern er wird aufgefordert, in bezug auf eine Reizserie implizite Verhältnisurteile abzugeben (Wegener, 1980). Im Bereich der Einstellungsmessung werden vor allem zwei Möglichkeiten zur Angabe eines Verhältnisses (Reaktionsmodalitäten) angewendet: Zahlenangaben und das Zeichnen von Linien. Bei der Angabe von Zahlen wird der Befragte gebeten, eine Zahl zu nennen, deren Höhe die Empfindungsstärke im Vergleich zu einer Vergleichzahl ausdrückt. Bei der Messung durch Linienzeichnen werden die Befragten gebeten, eine Linie zu zeichnen, deren Länge der Empfindungsintensität im Vergleich zu einer Vergleichslinie entsprechen soll. Die Skalenwerte aus den Messungen ergeben sich aus dem Mittelwert der Quotienten zwischen dem vom Befragten abgegebenen Zahlen-/Linienwert und deren Vergleichswerte (-linie).

Das Magnitude-Skalierungsverfahren wird nicht nur im Bereich der Einstellungsmessung verwendet, sondern ist Grundlage für die Konstruktion von anderen sozialwissenschaftlichen Skalen. So hatWegener (1985) die Magnitude-Skalierung für die Konstruktion einer Berufsprestigeskala eingesetzt und Opp u.a. (1984) verwendete die Magnitude-Messungen für erwartete Sanktionsstärken. Die von Wegener vorgeschlagene Berufsprestigeskala wird im weiteren Verlauf dieser Arbeit näher erläutert.

2.2.2 Die Latent-Trait-Theorie

Im Gegensatz zur direkten Messung wird beim Latent-Trait-Ansatz die Metrisierungsleistung nicht auf den Befragten übertragen, sondern die Befragtenreaktionen werden „indirekt“ auf die Skalenwerte übertragen. Die Datenbasis für solche Werte sind dichotome Urteile der Befragten, d.h. dem Befragten werden dichotome Urteilsmöglichkeiten vorgegeben („Ja“ oder „Nein“; „Stimme zu“ oder „Stimme nicht zu“), zwischen denen er wählen kann. Aufgabe der Latent-Trait-Messung ist die Konstruktion einer Skala subjektiver Werte auf Grundlage der angesprochenen Urteile.

Um den dichotomen Befragtenurteilen Skalenwerte zuteilen zu können, macht die Latent-Trait-Theorie drei Annahmen:

1. Das dichotome und diskrete Antwortverhalten eines Befragten hat seine Ursache in den Ausprägungen auf einer und nur einer kontinuierlichen latenten Variable.
2. Die kausale Wirkung ist zufallsabhängig, bzw. nicht deterministisch.
3. Null- bzw. Eins-Antworten können in einer Erhebungsstichprobe durch Häufigkeitsverteilungen angegeben werden.

Die genannten Modellforderungen bestimmen die Gleichung der Latent-Trait-Theorie als:

[Abbildung in dieser Leseprobe nicht enthalten]

wobei:

Abbildung in dieser Leseprobe nicht enthalten

Die Gleichung wird auch als „Item-Charakteristik-Kurve“ bezeichnet bei der die Funktionen [Abbildung in dieser Leseprobe nicht enthalten] so gewählt werden, dass diese für beliebige Items i (i=1,…., n) eines Tests simultan lösbar sind.

Ist die Funktion bestimmt, so können die Skalenwerte [Abbildung in dieser Leseprobe nicht enthalten] für individuelle Befragte j bestimmt werden. Skalenwerte werden demnach dadurch erhalten, dass nicht Einzelindividuen betrachtet werden, sondern eine Population von Befragten. Oder anders ausgedrückt, nicht der einzelne Befragte ist die Skalierungsinstanz, sondern die Gesamtheit der Befragten. Auf Basis der dichotomen Antworten der einzelnen Befragten entsteht auf der kollektiven Ebene die Skala.

Für eine Schätzung der obigen Funktion legt die Latent-Trait-Theorie in der Regel eine logistische oder normalogive Wahrscheinlichkeitsverteilung zugrunde. Ein Beispiel für eine Skala auf Basis der Normalogiven-Funktion ist die Thurstone-Skala.

2.2.3 Klassische Testtheorie (KTT)

Bei der klassischen Testtheorie wie sie von Autoren wie Lord & Novik (1968) vertreten wird, handelt es sich um ein Model, dass es ermöglicht, Messfehler zu bestimmen und zu beschreiben. Die klassische Testtheorie geht vom Vorhandensein von Zufallsfehlern in jeglicher Art von Messung aus. Das bedeutet, dass es trotz erheblicher Anstrengungen und raffiniertester Techniken nicht möglich sein wird, zufällige Messfehler zu vermeiden. Beispielsweise führt eine Geschwindigkeitsmessung mit Hilfe des Radars zwar zu einer recht exakten Angabe der Geschwindigkeit eines Objekts, die Messung kann allerdings nicht als perfekt angesehen werden, da Schwankungen der Radarmechanik, Umwelteinflüsse oder Bedienungsfehler nicht ausgeschlossen werden können. Die Verabschiedung von der Vorstellung einer „perfekten Messung“, d.h. einer exakten und fehlerfreien Messung, führte zur Formulierung von Axiomen über die Eigenschaften von Messfehlern.

Grundmodell der klassischen Testtheorie nimmt an, dass ein realisierter Messwert (X) aus der Summe eines „wahren Wertes“ (t) und eines Zufallsfehlers () besteht, der die Messung beeinflusst:

Abbildung in dieser Leseprobe nicht enthalten

Messfehler sind nach dieser Gleichung Differenzen zwischen „wahren“ Werten und beobachteten Werten und können somit für jede Messung angegeben werden. Der „wahre“ Wert einer Messung existiert für eine Messung nur theoretisch und ist nicht beobachtbar. Er kann nur angegeben werden, indem man den Mittelwert aus unendlich vielen unabhängigen Messungen desselben Objektes bildet. Dieser Vorstellung unterliegt, dass sich die zufälligen Störungen einer Messung symmetrisch um den „wahren“ Wert verteilen. Das heißt, dass bei einer Messung der wahre Wert unterschätzt wird, bei einer anderen Messung dagegen überschätzt wird, in der Summe sich aber alle Zufallstörungen gegenseitig aufheben:

[Abbildung in dieser Leseprobe nicht enthalten]. Der Mittelwert der Messfehler ist Null.

Wäre dies nicht der Fall, so entspräche der Mittelwert der Messung nicht dem Wert einer korrekten Messung. Würde beispielsweise das Radargerät dauerhaft hohe Geschwindigkeiten überschätzen, so wäre auch der Mittelwert der Messfehler ungleich Null.

Im weiteren umfasst die klassische Testtheorie drei weitere Axiome:

Abbildung in dieser Leseprobe nicht enthalten

Die Korrelation zwischen „wahren“ Wert und Fehlerwert ist gleich Null, d.h. die Größe des Messfehlers darf nicht vom „wahren“ Wert abhängig sein. Für unser Radargerät würde dies bedeuten, je höher die Geschwindigkeit des Fahrzeugs ist, desto größer ist auch die Überschätzung der Geschwindigkeit.^[2]

Abbildung in dieser Leseprobe nicht enthalten

Der Messfehler einer Messung korreliert nicht mit dem „wahren“ Wert einer anderen Messung. Die Größe der Überschätzung der Geschwindigkeit durch das Radargerät darf somit nicht mit der tatsächlichen Höchstgeschwindigkeit korreliert sein, die das gemessene Fahrzeug erreichen kann.

Abbildung in dieser Leseprobe nicht enthalten

Der Fehlerwert einer Messung ist nicht mit dem Fehler einer anderen Messung korreliert. Wenn das Radargerät zufällig die Geschwindigkeit überschätzt, so sollte dieser Zufallsfehler nicht mit dem Wagentyp korreliert sein. (Beispielsweise wird die Geschwindigkeit von Automobilen der Marke Daimler-Chrysler vom Radargerät immer höher gemessen als von Automobilen anderer Hersteller).

Aus oben genannten Axiomen lässt sich eine Anzahl von Aussagen über Messgenauigkeit usw. ableiten.

2.2.3.1 Klassische „wahre Werte“ und platonische „wahre Werte“

Die Sichtweise der klassischen Testtheorie des „wahren“ Wertes ist nicht die einzige Interpretationsmöglichkeit dieses Begriffs. Sutcliff (1965) stellte dieser Interpretation die platonische Interpretation „wahren“ Werte gegenüber.

Die platonische Interpretation geht davon aus, dass der „wahre“ Wert fehlerbehaftet sein kann. Somit sind verzerrte (biased) Messungen der interessierenden Variable ti möglich. Daraus folgt, dass nicht ti sondern ti* die platonische Zufallsvariable der „wahren“ Werte ist. Daher ist der Erwartungswert von Xi ungleich dem wahren Wert ti, bzw. [Abbildung in dieser Leseprobe nicht enthalten].

Weiterhin gilt:

Abbildung in dieser Leseprobe nicht enthalten

d.h. dass Fehler und „wahre“ Werte korreliert sind. Zusätzlich ist die Varianz der „wahren Werte“ verzerrt:

Abbildung in dieser Leseprobe nicht enthalten

In diese Arbeit sollen die „wahren“ Werte im Sinne der klassischen Testtheorie interpretiert werden. Dies ist keine Frage des Geschmacks des Autors, sondern eine Tatsache, die uns der Gegenstand sozialwissenschaftlicher Forschung aufzwingt. Die meisten Phänomene, die uns interessieren entziehen sich im Gegensatz zu physikalischen Gegebenheiten oder beobachtbarem Verhalten der Möglichkeit direkter Verifikation. Die klassische Testtheorie liefert uns eine operationale Definition der „wahren“ Werte, indem sie annimmt, dass der „wahre“ Wert als Erwartungswert bestimmt wird. Auf Basis der bereits vorgestellten Axiome lassen sich damit die Ausprägungen von ti herstellen.

Die platonische Interpretationsweise setzt im Gegensatz dazu voraus, dass der „wahre“ Wert einer Variablen verifizierbar ist. Dies ist eine aus den gerade genannten Gründen eine nicht akzeptierbare Annahme.

Mit der Akzeptanz der Annahmen der Klassischen Testtheorie sollte uns aber bewusst sein, dass diese Operationalisierung weitreichende Konsequenzen mit sich bringt. Wir akzeptieren mit der klassischen Testtheorie stillschweigend die Möglichkeit, dass unsere „wahren“ Werte systematisch mit einem Fehler konfundiert sind.

Im nächsten Abschnitt geht es um die Bestimmung der Gültigkeit und Richtigkeit der Werte, die aus einer empirischen Messung resultieren. Es werden dazu zwei Maße zur Bestimmung der Güte von Messungen eingeführt: die Reliabilität und Validität.

2.2.4 Die Messfehler – Testtheorie

2.2.4.1 Die Reliabilität einer Messung

Aus den im vorherigen Abschnitt vorgestellten Axiomen der Klassischen Testtheorie lassen sich Gütekriterien für eine Messung erstellen. Zunächst wollen wir uns mit dem Kriterium der Reliabilität näher befassen. Es soll zunächst der Begriff definiert werden, dann die Herleitung der Reliabilität aus den Axiomen der Testtheorie, sowie auf Probleme eingegangen werden , die durch fehlende Reliabilität entstehen.

Wenn wir davon sprechen, dass ein Messinstrument reliabel ist, so meinen wir, dass das Messinstrument in wiederholten Messungen eines Phänomens, die gleichen Ergebnisse liefert. Hohe Reliabilität bedeutet eine hohe tendenzielle Übereinstimmung der Messergebnisse oder auch geringe Varianz der Messwerte über eine unbestimmte Anzahl an Messwiederholungen hinweg.

Das Kriterium der Reliabilität leitet sich aus den Grundannahmen der klassischen Testtheorie ab. Der in einer Messung beobachtete Wert setzt sich aus einem unbeobachteten „wahren“ Wert und einem Zufallsfehler zusammen:

Abbildung in dieser Leseprobe nicht enthalten

Unter Annahme unendlicher Wiederholungsmessungen entspricht der erwartete Messwert dem „wahren“ Wert. Axiom 1 besagt, dass [Abbildung in dieser Leseprobe nicht enthalten]. Deshalb folgt aus obiger Gleichung:

Abbildung in dieser Leseprobe nicht enthalten

Diese bezieht sich allerdings auf Wiederholungsmessungen einer einzelnen Variable für eine einzige Person. Normalerweise aber interessieren in den Sozialwissenschaften Wiederholungsmessungen von Merkmalen, die in einer bestimmten Gruppe verteilt sind. Dies erfordert die Umformulierung der Ausgangsgleichung in die Varianzschreibweise:

Abbildung in dieser Leseprobe nicht enthalten

Axiom 2 besagt, dass die Korrelation und Kovarianz zwischen „wahrem“ Wert und Fehlerwert Null ist. Daraus ergibt sich:

Abbildung in dieser Leseprobe nicht enthalten

Die Summe der Varianz der wahren Werte und der Fehlervarianz ergibt die Varianz der beobachteten Messwerte. Die Reliabilität ist das Verhältnis der „wahren“ Werte zu den beobachteten Werten:

Abbildung in dieser Leseprobe nicht enthalten

oder in Schreibweise der Fehlervarianz :

Abbildung in dieser Leseprobe nicht enthalten ^[3]

Aus letzter Gleichung ergibt sich, dass die Reliabilität рx zwischen 0 und 1 liegt. Sie ist Null, wenn die erhaltenen Messwerte allein auf Zufallsfehler zurückzuführen sind: 1 – (1/1) = 0

Die Reliabilität ist 1, wenn kein Zufallsfehler die Messung eines Phänomens beeinflusst:

1 – (0/1) = 1. Eine weitere Schlussfolgerung lässt sich aus obigen Gleichungen ableiten. Wenn uns die Reliabilität eines Messinstruments bekannt ist, so können wir anhand der beobachteten Varianz die unbeobachtete Varianz der wahren Werte eines Phänomens errechnen:

Abbildung in dieser Leseprobe nicht enthalten

2.2.4.2 Auswirkungen fehlender Reliabilität

Nach der Klärung des Begriffs Reliabilität gilt es festzustellen, welche Auswirkungen fehlende Reliabilität haben kann. Wir wissen bereits, dass es trotz noch so reliablen Messinstrumenten keine perfekten Messungen geben kann. Deshalb gibt es auch keine perfekten oder perfekt reliablen Messinstrumente. Wir müssen immer ein gewisses Maß an Unreliabilität akzeptieren. Das Wissen um nicht-perfekt reliable Messungen stellt uns vor die Frage, ob der Mangel an Reliabiliät nicht Konsequenzen für die weitere Datenanalyse hat. Ein wichtiger Teil solcher Analysen sind statistische Verfahren wie sie in dieser Arbeit angewendet werden. Somit ist es wichtig zu wissen, ob statistische Maßzahlen, wie beispielsweise Mittelwerte, Kovarianzen, Korrelationskoeffizienten oder Regressionskoeffizienten durch die Größe des Zufallsfehlers beeinflusst werden.

Wenn wir uns zunächst mit den Mittelwerten beschäftigen, so zeigt sich, dass solange die Fehlereinflüsse zufällig sind und E(E) = 0, die Mittelwerte der beobachteten Werte aus X und den „wahren“ Werten aus t gleich sind.^[4]

Somit führen auch Fehler auf dem Individualniveau nicht zu verzerrten Ergebnissen auf dem Aggregationsniveau.

Ein ähnliches Bild zeigt sich bei den Kovarianzen. Die Kovarianzen zweier Variablen X und Y werden nicht durch fehlende Reliabilität bzw. durch die Größe des Zufallsfehlers beeinflusst. Da laut Axiom der klassischen Testtheorie gilt, dass die „wahren“ Werte einer Zufallsvariablen nicht mit den Zufallsfehler einer anderen Zufallsvariablen korreliert sind, lässt sich zeigen, dass

[Abbildung in dieser Leseprobe nicht enthalten]^[5]

Die Kovarianz der wahren Werte lässt sich daher als die Kovarianz der beobachteten Werte darstellen. Somit wird die Schätzung nicht durch das Ausmaß an Zufallsfehler beeinflusst.

Für die entsprechenden Korrelationen zweier Maße zeigt sich, dass die Größe des zufälligen Fehlers die Korrelation beeinflusst. Aus der Korrelationsformel

[[Abbildung in dieser Leseprobe nicht enthalten] lässt sich der Zusammenhang [Abbildung in dieser Leseprobe nicht enthalten] ableiten.

Inhaltlich bedeutet diese Ableitung, dass sich die Korrelation zwischen den „wahren“ Werten zweier Messinstrumente der Korrelation zwischen den beobachteten Werten in dem Maße annähert, in dem die Reliabilitäten der Messinstrumente sich dem Wert 1 nähern. Anders ausgedrückt, sind die Reliabilitäten kleiner als 1, so vermindert sich die geschätzte Korrelation der wahren Werte. Die letzte Gleichung wird auch als „Minderungsformel“ (oder „Attenuations-Formel“) bezeichnet. Sie gibt das Ausmaß an, in dem die Korrelation der wahren Werte zweier Tests durch Messfehler in den beobachteten Variablen verringert wird. (Lord & Novick, 1974: 69-74).

In Bezug auf Regressionskoeffizienten zeigt sich, dass auch hier fehlende Reliabilität diese Koeffizienten beeinflusst. Allerdings muss hier zwischen unabhängiger und abhängiger Variable unterschieden werden. Im Gegensatz zur Reliabilität der abhängigen Variablen beeinflusst nur die Reliabilität der unabhängigen Variablen die Höhe des Regressionskoeffizienten.

Es lässt sich anhand einer bivariaten Regression der unabhängigen Variable X auf die abhängige Variable Y zeigen, dass für die „wahren“ Werte tx auf ty der β-Koeffizient den Wert, βtxty = βxy/рx, hat. Für den Y-Achsenabschnitt hat den Wert:

[Abbildung in dieser Leseprobe nicht enthalten]. An beiden Parametern der bivariaten Regression sieht man, dass diese von den Messfehlern in der abhängigen Variable Y beeinflusst werden. Außerdem sieht man, dass der Regressionskoeffizient der beobachteten Werte immer kleiner ist als der Regressionskoeffizient, der sich in bezug auf die „wahren“ Werte ergibt. (es sei denn, die Reliabilität der unabhängigen Variable ist 1).

Auch bei der multiplen Regression werden die Partialkorrelationen durch fehlende Reliabilität beeinflusst. Allerdings lässt sich die Richtung der Beeinflussung weniger genau angeben wie im bivariaten Fall. In der Regel ist es so, dass die Partialkorrelationen zwischen den wahren Werten von Messungen größer sind als die entsprechenden Korrelationen zwischen den beobachteten Werten. Allerdings gibt es Ausnahmen für bestimmte Werte, bei denen die Partialkorrelationen der wahren Werte kleiner sind als die entsprechenden Korrelationen der beobachteten Werte., d.h. dass sie zu einer Vergrößerung der Korrelation führen. ( vgl. Bohrnstedt, 1983).

Zusammenfassend lässt sich also sagen, dass zwar die Mittelwerte und Kovarianzen nicht von der Höhe der Reliabilität des Messinstrumentes abhängig sind. Die Regressionskoeffizienten und Korrelationen dagegen durch unreliable Messinstrumente beeinflusst werden und somit zu ungenauen Ergebnissen der statistischen Verfahren führen können. Es zeigt sich auch hier, dass die Bewertung der Güte von Messinstrumenten ein nicht zu vernachlässigender Teil der Wissenschaftlichen Methodik ist und deren Vernachlässigung zu Verzerrungen der statistischen Ergebnisse führen kann.

2.2.4.3 Empirische Bestimmung der Reliabilität

Im vorangegangenen Abschnitt wurde gezeigt, wie sich Reliabilität in Form von Varianzen wahrer Werte und Fehlerwerte darstellen lässt. Wie aber lässt sich die Reliabilität eines Messinstrumentes schätzen.

Die Abschätzung der Messfehler kann auf direktem Weg nur erreicht werden, wenn die Möglichkeit vergleichbarer Messungen ein und derselben Eigenschaft T gegeben ist. Das heißt wir können die Reliabilität dann angeben, wenn es uns gelingt zwei äquivalente Messungen zu erzeugen. Wegener (1983, S.49-50) gibt unter Vorraussetzung linear experimenteller Unabhängigkeit^[6] zweier Tests fünf Formen äquivalenter Messungen an. Er unterscheidet zwischen Replikationen, parallelen Tests, [Abbildung in dieser Leseprobe nicht enthalten]-äquivalenten Tests, essentiell[Abbildung in dieser Leseprobe nicht enthalten]-äquivalenten Tests und kongenerischen Test. Diese Arten äquivalenter Messungen unterscheiden sich im Ausmaß oder der Strenge der Äquivalenzforderung. Es muss allerdings angemerkt werden, dass die Bestimmung eines Reliabilitätswertes letztendlich abhängig ist von den experimentellen Randbedingungen und variablen Annahmen. Es ist somit nicht haltbar, dass von der empirischen Reliabilität des Messinstrumentes gesprochen werden kann, sondern nur von einem Wert, der sich für diesen Typus von Reliabilität ergibt. Die Mehrdeutigkeit für die Reliabilität hängt von den genannten Äquivalenzdefinitionen ab. In diesem Kapitel der Arbeit ist die parallele Messung von Bedeutung, da sie es erlaubt die Reliabilität eines Messinstruments relativ einfach zu operationalisieren. In späterem Verlauf dieser Arbeit wird sich zeigen, dass sich die Annahmen der klassischen Testtheorie zu parallelen Messungen nicht aufrechterhalten lassen. Im Kapitel über die Schätzung der Reliabilität innerhalb Strukturgleichungsmodellen werden die anderen Arten äquivalenter Messungen näher besprochen. Für dieses Kapitel entspricht eine äquivalente Messung den Annahmen paralleler Tests und erfüllt somit die Kriterien der klassischen Testtheorie zur Berechnung der Reliabilität. Die Reliabilität kann bestimmt werden, indem zwei parallele Messungen miteinander korreliert werden. Um parallele Messungen handelt es sich dann, wenn zwei Messinstrumente identische wahre Werte aufweisen und die gleichen Varianzen haben. In Gleichungen ausgedrückt bedeutet das:

[Abbildung in dieser Leseprobe nicht enthalten] sind dann parallel, wenn bei [Abbildung in dieser Leseprobe nicht enthalten] und [Abbildung in dieser Leseprobe nicht enthalten] gilt, dass [Abbildung in dieser Leseprobe nicht enthalten] und [Abbildung in dieser Leseprobe nicht enthalten]. Inhaltlich heißt das, dass beide Messungen sich zwar unterscheiden, dass die Messungen sich allerdings in zentralen Aspekten ähneln und vergleichbar sind. Sie unterscheiden sich demnach nur hinsichtlich zufälliger Schwankungen, da die „wahren“ Werte als gleich angenommen werden und die Differenzen allein auf Zufallsfehler bei der Messung zurückgeführt werden können.

Die Korrelation zwischen parallelen Messungen kann durch Fehler-, Beobachtungs- und wahre Werte ausgedrückt werden:

Abbildung in dieser Leseprobe nicht enthalten

Aus den Annahmen der Klassischen Testtheorie, dass wahre Werte und Fehler nicht miteinander korreliert sind, und der Annahme von Parallelmessungen, dass beide Messungen identische Varianzen haben (und somit natürlich auch gleiche Standardabweichungen), reduziert sich die Gleichung auf:

Abbildung in dieser Leseprobe nicht enthalten

Somit entspricht die Korrelation zweier paralleler Messungen der Varianz der „wahren“ Werte dividiert durch die Varianz der beobachteten Werte. Es zeigt sich, dass die Varianz der unbeobachteten „wahre“ Werte [Abbildung in dieser Leseprobe nicht enthalten] und [Abbildung in dieser Leseprobe nicht enthalten] errechnet werden kann:

Abbildung in dieser Leseprobe nicht enthalten

Die Varianz der „wahren“ Werte setzt sich somit aus dem Produkt zwischen der Korrelation paralleler Messinstrumente und der Varianz der empirischen oder beobachteten Werte zusammen. Aus den genannten Gleichungen lässt sich die Schätzformel für die Reliabilität eines Messinstrumentes ableiten:

Abbildung in dieser Leseprobe nicht enthalten

Für die vorliegende Arbeit ergibt sich aus der Schätzformel für die Reliabilität, dass es uns dann möglich sein wird die Reliabilität zu schätzen, wenn wir über mindestens zwei Items ein und desselben Konzeptes oder einem einzelnen Item, dass zu zwei unterschiedlichen Zeitpunkten gemessen wurde, verfügen.(Zeller & Carmines,1979, S.33).

Wir werden im empirischen Teil dieser Arbeit erneut auf den eben angesprochenen Punkt zurückkommen.

Im nächsten Abschnitt werden nun verschiedene Methoden vorgestellt, wie die Reliabilität eines empirischen Messinstruments geschätzt werden kann. Zusätzlich werden wir auf die Vor- und Nachteile jeder dieser Methoden eingehen.

2.2.4.4 Arten der Reliabilitätsschätzung:

2.2.4.4.1 Die Test-Retest-Methode: Reliabilität als Stabilität zweier Messungen

Die einfachste Möglichkeit der Reliabilitätsbestimmung ist das Test-Retest-Verfahren. In diesem Verfahren wird eine latente Variable T durch zwei Messungen X1 und X2 zu zwei unterschiedlichen Zeitpunkten t1 und t2 erhoben. Es wird angenommen, dass beide Messungen das gleiche latente Konstrukt repräsentieren. Die Korrelation beider Messungen ergibt den Wert für die Reliabilität des Konstruktes. Es gilt [Abbildung in dieser Leseprobe nicht enthalten]und [Abbildung in dieser Leseprobe nicht enthalten]. Unter der Annahme, dass die Parallelitätsbedingung, [Abbildung in dieser Leseprobe nicht enthalten], gegeben ist und COV(E1,E2)=0 lautet die Gleichung des Reliabilitätskoeffizienten

Abbildung in dieser Leseprobe nicht enthalten

Erhält man aus beiden Messungen X1 und X2 genau die gleichen Ergebnisse, dann hat der Reliabilitätskoeffizient den Wert 1.00. Dabei handelt es sich allerdings um eine Idealvorstellung einer Reliabilitätmessung. In der Regel wird die Korrelation der Messungen geringere Koeffizientenwerte aufweisen, da Messungen die zu verschiedenen Zeitpunkten gemessen wurden Instabilitäten aufweisen. Erklären lassen sich die instabilen Messergebnisse bei zeitlich versetzten Messungen durch veränderte Bedingungen der Befragungssituation. Es kann beispielsweise sein, dass der Befragte zum ersten Messzeitpunkt andere Berufsprestigewerte angibt als zum zweiten Messzeitpunkten, obwohl die Skala auf der gemessen wird die gleiche ist. Es können vor allem hinsichtlich von Indikatoren, bei denen Urteile vom Befragten verlangt werden, Antworteffekte („response effects“) auftreten. Urteile sind stark vom Kontext abhängig und führen zu unterschiedlichen Interpretationen ein und derselben Frage.^[7] Außerdem kann der Befragte abgelenkt sein, sich gesundheitlich unwohl fühlen, usw. (Bohrnstedt, 1970:85). Jedenfalls können alle diese Einflüsse zur Reduktion der Reliabilität eines empirischen Messinstrumentes führen.

Problematisch am Test-Retest-Verfahren ist, dass es in den meisten Fällen dem Forscher nicht möglich sein wird, zu zwei unterschiedlichen Zeitpunkten die gleichen Befragten zum gleichen Konstrukt zu messen, sei es weil es zu teuer ist oder schlichtweg nicht mehr möglich ist. Schwerwiegender ist allerdings die Tatsache, dass Reliabilitätskoeffizienten aus Test-Retest-Verfahren mit Vorsicht zu behandeln sind. Ein niedriger Reliabilitätskoeffizient muss nicht bedeuten, dass das Messinstrument eine niedrige Reliabilität besitzt. Es kann einfach nur sein, dass sich der unterliegende „wahre“ Wert, d.h. das theoretische Konzept, im Zeitraum zwischen beiden Messungen verändert hat. Beispielsweise könnte sich die Meinung des Befragten zur Bedeutung des Umweltschutzes zwischen den Messungen geändert haben, weil er einen Bericht über die voraussichtliche Klimaveränderung aufgrund des Treibhauseffektes im Fernsehen gesehen hat. Die Schwierigkeit der Interpretation beim Test-Retest-Verfahren ist daher, zwischen Instabilität oder wahrem Wandel zu unterscheiden.

Ein weiteres Problem ergibt sich aus der Tatsache, dass Personen in Erhebungssituationen auf die Art der Fragestellung oder auf den Interviewer reagieren. Diese Reaktivität kann meist nicht von den eigentlichen auf die Frage bezogenen Reaktionen getrennt werden^[8]. Die Messergebnisse der beiden Tests werden somit verfälscht, was zu einer Unterschätzung der Reliabilitätskoeffizienten führen kann. Häufiger allerdings werden die Test-Retest-Korrelationen höher ausfallen als sie tatsächlich sind. Die Erinnerung des Befragten an die im ersten Test gestellte Frage, vor allem dann wenn nur kurze Zeit zwischen den Messungen vergangen ist, beeinflussen die Antworten im zweiten Test. Mit der zeitlichen Nähe zum ersten Test steigt somit die Wahrscheinlichkeit, dass konsistente Antworten gegeben werden, die zu erhöhten Reliabilitätskoeffizienten führen.

Ein weiteres Problem ergibt sich aus der Annahme der klassischen Testtheorie, dass die Messfehler nicht miteinander korreliert sind. Es ist eher zu erwarten, dass im Falle einer Wiederholungsmessung die Messfehler beider Messungen nicht zufällig sind, sondern dass dieselben Störfaktoren bei beiden Messungen wirken. Somit ist auch hier eine fehlerhafte Reliabilitätsschätzung zu erwarten.

Verzerrte Reliabilitätskoeffizienten und die Schwierigkeit tatsächliche Veränderungen von der Ungenauigkeit der Messung zu trennen sind die Schwächen dieses Reliabilitätsschätzverfahrens.

Das Konfundierungsproblem führte zu einer Revision des Test-Retest-Paradigmas (Heise, 1969; Wiley und Wiley, 1970; Werts, Jöreskog und Linn, 1971). Die Neuformulierung behält die Annahmen der klassischen Testtheorie bei und erweitert das Test-Retest-Design, indem Messungen zu drei Zeitpunkten vorgenommen werden. Dadurch gelingt es „wahre“ Veränderung und Unreliabilität zu trennen. Die Modelle für die Reliabilitätsmessung zu drei Messzeitpunkten unterscheiden sich in der Stärke der zusätzlich zur klassischen Testtheorie getroffenen Annahmen. So wird im Modell von Heise (1969) angenommen, dass die Reliabilität der Messungen bei den drei Zeitpunkten gleich ist.^[9] Damit ist es möglich, die gemeinsame Reliabilität und das Ausmaß der wahren Veränderung zu schätzen. Um die Restrikton gleicher Reliabilitäten aufzuheben, veränderten Wiley und Wiley (1970) das Modell von Heise. Dieses Reliabilitätsmodell nimmt an, dass im Pfadmodell nur direkte kausale Effekte der Variable vorliegen, sowie exogene Störvariablen nicht miteinander korreliert sind und dass der Messzeitpunkt auf die Variable eine Eins-zu-Eins-Korrespondez herstellt. Weiterhin wird angenommen, dass zwischen den Messfehlern keine Korrelation besteht. Um die Parameter schätzen zu können, legten Wiley und Wiley fest, das die Fehlervarianzen zu den drei Zeitpunkten identisch sind. Mit diesem Modell ist es somit möglich, die Reliabilität für unterschiedliche Erhebungswellen anzugeben. Dass die Annahme gleicher Fehlervarianzen fallengelassen werden kann zeigten, Jöreskog und Linn (1971) indem sie vier Messzeitpunkte berücksichtigten.

In einem späteren Abschnitt wird die "Test-Retest"-Zusatzstudie zum ALLBUS 1984 vorgestellt. Hier wurden die Reliabilitäten von Einstellungsmaßen sowie die gerade angesprochenen Modelle von Heise, Wiley und Wiley angewendet.

2.2.4.4.2 Die Alternatitive-Form Methode: Reliabilität als die Äquivalenz und Stabilität alternativer Testausführungen

Wie im Test-Retest-Verfahren werden bei dem Alternative-Form-Verfahren Messungen zu zwei Zeitpunkten und an denselben Personen durchgeführt. Dieses Verfahren unterscheidet sich vom Test-Retest-Verfahren dadurch, dass bei der zweiten Messung dem Befragten nicht der gleiche Test wie bei der ersten Messung vorgelegt wird. Der Befragte erhält eine alternative Repräsentation des Testes. Beispielsweise könnte man interessiert sein, bei Befragten die Fähigkeit bezüglich arithmetischen Operationen zu untersuchen. Man konstruiert daher zwei Tests vom gleichen Schwierigkeitsgrad, indem aus einer Anzahl möglicher Aufgaben nach dem Zufallsprinzip die gleiche Anzahl an Aufgaben den beiden Testausführungen zugeordnet wird. Die Korrelation beider Testergebnisse ergibt dann eine Schätzung der Reliabilität.

Das Verfahren der alternativen Testausführung hat gegenüber dem Test-Retest-Verfahren den Vorteil, dass die Erinnerung an die Fragen des ersten Tests nicht das Testergebnis des zweiten Tests beeinflussen können. Es findet keine Unterschätzung der Reliabilität statt. Allerdings bleibt das Problem der Trennung von wahrer Veränderung des theoretischen Konzeptes und Unreliabilität bestehen. Wie beim Test-Retest-Verfahren kann mit Hilfe dieser Methode das Konfundierungsproblem nicht gelöst werden.

Dieses Verfahren ist für die meisten Bereiche der sozialwissenschaftlichen Forschung ungeeignet, da es in den meisten Fällen schwierig sein wird, alternative Befragungsbögen zu konstruieren bzw. die Parallelität solcher Fragebögen zu gewährleisten.

2.2.4.4.3 Split-Half-Verfahren: Reliabilität als die Äquivalenz von Testhälften

Bei den beiden bislang vorgestellten Verfahren konnte das Problem der „wahren“ Veränderung einer latenten Variablen nicht gelöst werden. In den beiden nächsten Verfahren wird dieses Problem umgangen, indem man die Möglichkeit der Veränderung des wahren Wertes nicht zulässt. Dies wird dadurch erreicht, dass man die Items des Messinstrumentes als unabhängige Messwiederholungen interpretiert. Wie bei den vorangegangenen Verfahren wird auch dieses Verfahren bei den gleichen Befragten durchgeführt. Man spricht deshalb auch von Äquivalenz-Reliabilität. Es lassen sich zwei Arten unterscheiden: Halbierungsreliabilität (split-half-Reliabilität) und Reliabilität als interne Konsistenz.

Split-Half-Verfahren:

Grundlage dieses Verfahrens ist wiederum die Annahme, dass für zwei parallele Messinstrumente die Reliabilität als Korrelation ihrer Messwerte ausgedrückt werden kann. Beim Split-Half-Verfahren werden nicht Messwerte zweier Messungen korreliert, sondern es wird die verfügbare Menge von Items, die das latente Konstrukt messen geteilt und die Messwerte beider Hälften miteinander korreliert. Der Reliabilitätskoeffizient ist somit die Korrelation der Testhälften. Vorraussetzung für dieses Verfahren ist allerdings die Annahme von Homogenität der Einzeltest, d.h. dass alle verwendeten Items dieselbe latente Dimension messen. Aus der Korrelation der geteilten Items lässt sich zunächst die Reliabilität der Hälfte des Tests angeben. Um die Reliabilität des gesamten Tests angeben zu können, muss mit Hilfe der Spearman-Brown-Formel „statistisch korrigiert“ werden. In der Regel ist die Länge des Gesamttestes doppelt so lange wie eine der Testhälften. Somit lautet die Formel für die Gesamtreliabilität als spezielle Form der Spearman-Brown-Formel:

Abbildung in dieser Leseprobe nicht enthalten

Die Split-Half-Reliabilität nimmt, wie aus der Formel ersichtlich, Werte zwischen 0 und 1 an. Die Höhe der Koeffizienten der Halbierungs- und Gesamtreliabilität ist abhängig von der Art, wie die Halbierung vorgenommen wird. Eine mögliche Strategie wäre beispielsweise, dass alle Items mit geraden Zahlen der Sequenz der einen Testhälfte und alle Items mit ungeraden Zahlen der anderen Testhälfte zugewiesen werden. Ein anderes Prinzip wäre die Halbierung auf Basis einer Zufallsziehung der Items. Die Schwäche dieses Verfahrens ist somit, dass abhängig vom Prinzip der Itemteilung andere Reliabilitätskoeffizienten angegeben werden können (vgl. Zeller/Carmines(1980): S.42-43).

2.2.4.4.4 Interne-Konsistenz-Methode: Reliabilität als interne Konsistenz

Die Beliebigkeit der Halbierungstechniken und damit die Vielzahl möglicher Reliabilitäten führte zum Versuch, die Reliabilität zusammengesetzter Tests ohne Halbierungen zu bestimmen. Diese Techniken erfordern eine einfache Testausführung und führen zu einer eindeutigen Schätzung der Reliabilität. Dies gelingt, indem nicht alleine eine Korrelation zwischen den Testhälften benutzt wird, sondern gleichzeitig die Gesamtheit der Varianzen und Kovarianzen der Testitems. Die Reliabilität wird somit auf der Grundlage der internen Konsistenz eines zusammengesetzten Tests geschätzt.

Ein gebräuchliches Maß der internen Konsistenz ist der Koeffizient [Abbildung in dieser Leseprobe nicht enthalten] von Cronbach(1951), unter Annahme dass die Items gleiche Varianzen haben:

Abbildung in dieser Leseprobe nicht enthalten

Cronbachs [Abbildung in dieser Leseprobe nicht enthalten] variiert zwischen 0 und 1 und stellt allgemein die untere Schranke der Reliabilität eines zusammengesetzten Tests dar, d.h. [Abbildung in dieser Leseprobe nicht enthalten] (Novick und Lewis, 1967). Dies gilt allerdings nur dann, wenn alle Items eines zusammengesetzten Tests parallele, [Abbildung in dieser Leseprobe nicht enthalten]-äquivalente oder essentiell [Abbildung in dieser Leseprobe nicht enthalten]-äquivalente Messungen sind. Cronbachs [Abbildung in dieser Leseprobe nicht enthalten] hängt von der mittleren Interitem-Korrelation und der Anzahl der Items, die in der Skala benutzt werden ab.^[10] (vgl. Zeller und Carmines, 1980:45). Wenn die durchschnittliche Korrelation zwischen den Items und die Anzahl der Items steigt, dann steigt auch der Wert von [Abbildung in dieser Leseprobe nicht enthalten]. Zeller und Carmines zeigen aber auch, dass der Zuwachs an Reliabilität durch Hinzufügen von weiteren Items seine Grenze hat. Die Größe des Gewinns an Reliabilität nimmt mit jedem neu hinzugefügten Item ab. Daher stellt sich stets die Frage, ob der Aufwand, den das Hinzufügen eines neuen Items verursacht durch den Gewinn an Reliabilität gerechtfertigt werden kann. Der Koeffizient [Abbildung in dieser Leseprobe nicht enthalten] wird bei multiplen Itemskalen verwendet. Um den Koeffizienten zu bestimmen, benötigt man nur eine Testausführung. Der Koeffizient lässt sich einfach aus der Korrelationsmatrix bestimmen. Zeller und Carmines (1980) geben an, dass für allgemein gängige Skalen der Wert von [Abbildung in dieser Leseprobe nicht enthalten] nicht unter 0.8 liegen sollte.

Im nächsten Abschnitt wird das zweite Gütekriterium theoretisch und empirisch bestimmt – die Validität.

2.2.4.5 Die Validität

Neben dem Gütekriterium der Reliabilität stellt die Validität das zweite zentrale Gütekriterium einer Messung dar. Validität kann dabei wie folgt bestimmt werden. Validität ist das Ausmaß, in dem ein Messinstrument das misst, was es vorgibt zu messen oder was es messen soll.

Während Reliabilität sich darauf bezieht , inwiefern ein empirischer Indikator zu konsistenten Ergebnissen bei Wiederholungsmessungen führt, geht es bei der Validität um die grundsätzliche Beziehung zwischen dem theoretischen Konstrukt und dem empirischen Indikator. Oder anders ausgedrückt, wenn man für ein Messinstrument in den Sozialwissenschaften die Validität angeben möchte, dann macht man gleichzeitig Aussagen über das theoretische Konstrukt. Es wird also nicht die Validität des empirischen Indikators untersucht, sondern der Nutzen, den der Indikator bei der Repräsentation des theoretischen Zusammenhangs hat. So kann ein Intelligenztest beispielsweise valide sein für die Bestimmung der schulischen Leistungen von Schülern. Dies bedeutet aber nicht, dass dieser Test auch valide für andere Zwecke ist, zum Beispiel für die Bestimmung des Einkommens der Person.

Eng mit beiden Gütekriterien sind Aussagen verknüpft, wie sich Messfehler verteilen. Wie schon im Abschnitt über die Reliabilität angesprochen, ist mit Reliabilität der Begriff des zufälligen Messfehlers verknüpft. Im Gegensatz dazu ist die Validität mit dem Vorhandensein von systematischen Messfehlern verbunden.

Beide Arten von Messfehlern werden im nächsten Abschnitt behandelt und deren Verbindung zur Validität und Reliabilität.

2.2.4.5.1 Zufälliger und Systematischer Messfehler

Zufallsfehler sind alle zufälligen Faktoren oder Einflüsse, die eine Messung beeinflussen. Das Ausmaß des Zufallsfehlers steht in umgekehrter Beziehung zum Ausmaß an Reliabilität eines Messinstrumentes. Das heißt, je größer die Beeinflussung einer Messung durch zufällige Fehler ist, desto geringer ist die Reliabilität des Messinstrumentes. So ist ein Radarmessgerät nicht reliabel, wenn es bei wiederholten Messungen der Geschwindigkeit eines gleich bleibend schnell fahrenden Autos von der tatsächlichen Geschwindigkeit abweichende Messergebnisse liefern würde. Wie schon im Abschnitt über die klassische Testtheorie behandelt, wird davon ausgegangen, dass jeder Indikator ein gewisses Maß an Zufallsfehler beinhaltet. Es stellt sich nicht die Frage ob, sondern wie viel Zufallsfehler eine Messung beeinflussen. Im Bereich der Umfrageforschung kann der Zufallsfehler beispielsweise auf Codierungsfehler, ungenaue Anweisungen oder Ermüdung des Befragten zurückgeführt werden.Der zweite Typus von Messfehler, der ein empirisches Instrument beeinflussen kann wird als nicht-zufälliger Messfehler bezeichnet. Im Gegensatz zum Zufallsfehler handelt es sich hier um eine systematische Verzerrung der Messung. Ein Radargerät, das die Geschwindigkeit immer um 10km/h niedriger misst als sie tatsächlich ist wäre somit von einem systematischen Messfehler beeinflusst. In Bezug auf die Validität eines Messinstrumentes bedeutet dies, dass je weniger systematische Messfehler die Messung beeinflussen, desto höher die Validität des Messinstrumentes ist. Systematische Messfehler führen dazu, dass der Indikator nicht das repräsentiert, was er soll, nämlich das theoretische Konstrukt.

2.2.4.5.2 Zusammenhang zwischen Reliabilität und Validität

Reliabilität eines Tests [Abbildung in dieser Leseprobe nicht enthalten] mit den Messergebnissen [Abbildung in dieser Leseprobe nicht enthalten]ist, wie bereits erläutert, das Verhältnis der Varianz der wahren Werte zur Varianz der beobachteten Werte:

Abbildung in dieser Leseprobe nicht enthalten

Die theoretische Validität eines Messinstrumentes mit den Beobachtungsergebnissen X ergibt sich aus dem Grad der Übereinstimmung dieser Beobachtungswerte mit der zugrunde liegenden wahren Dimension T. Das Maß dafür ist die Korrelation [Abbildung in dieser Leseprobe nicht enthalten] zwischen den wahren und den beobachteten Werten. Diese ergibt sich aus der Quadratwurzel der Reliabilitätsgleichung:

Abbildung in dieser Leseprobe nicht enthalten

da gilt, dass [Abbildung in dieser Leseprobe nicht enthalten] und [Abbildung in dieser Leseprobe nicht enthalten]

Abbildung in dieser Leseprobe nicht enthalten

und

Abbildung in dieser Leseprobe nicht enthalten

Die theoretische Validität wird von der empirischen Validität unterschieden (Lord und Novick, 1974:261). Die empirische Validität ist die Korrelation von X mit einer anderen beobachteten Variable Y, von der angenommen wird, dass sie in einem bedeutsamen Zusammenhang mit X steht. Die empirische Validität ergibt sich somit aus der Assoziation mit einer Beobachtungsvariablen, die von X unabhängig ist (Lord und Novick, 1974:72):

Abbildung in dieser Leseprobe nicht enthalten

Aus der Gleichung ergeben sich zwei Eigenschaften für die empirische Validität.

(1) Da es unendlich viele mögliche Variablen Y gibt, die unabhängig von X sind, ist nur sinnvoll von der empirischen Validität eines Test in Bezug auf die gewählte Variable Y zu sprechen und nicht von der einen empirischen Validität.
(2) Die obere Schranke der empirischen Validität [Abbildung in dieser Leseprobe nicht enthalten] kann die theoretische Validität [Abbildung in dieser Leseprobe nicht enthalten] bzw. die Quadratwurzel der Reliabilität, nicht überschreiten.

Für die Beziehung zwischen Validität und Reliabilität lässt sich zusätzlich ableiten, dass die Reliabilität die Vorraussetzung für eine valide Messung ist (bezüglich einer Kriteriumsvariablen Y). Allerdings ist eine reliable Messung nicht unbedingt notwendig auch eine (empirisch) valide Messung.

So kann es der Fall sein, dass ein Messinstrument hochreliabel ist, dass es aber hinsichtlich des theoretischen Konstruktes, das es messen soll gänzlich invalide ist. Beispielsweise ist das im vorangegangenen Abschnitt als Beispiel genannte Radargerät, dass immer die Geschwindigkeit 10km/h unterschätzt, hochreliabel. Es misst immer und zwar konstant falsch die Geschwindigkeit. Es ist somit ein sehr zuverlässiges durch keinen Zufallsfehler verzerrtes Messinstrument. Es ist allerdings wenig valide, denn es misst nicht das, was es messen soll, nämlich die exakte Geschwindigkeit eines Objekts.

Für die Vorgehensweise in dieser Arbeit ergibt sich daher, dass zunächst entschieden werden sollte ob das verwendete Messinstrument überhaupt reliabel ist. Wenn es sich nämlich zeigt, dass es völlig unzuverlässig in seinen Messungen ist, so kann die Validität dieses Messinstrumentes auch nur unzureichend sein.

Der Wertebereich der theoretischen oder empirischen Validität als Produkt-Moment-Korrelation lautet:

[Abbildung in dieser Leseprobe nicht enthalten]

2.2.4.5.3 Arten der Validitätsschätzung

Die Validierung eines Messinstrumentes heißt, dass man überprüft, ob ein Messinstrument das misst, was es messen soll. Dabei geht es nicht darum einen bestimmten Test zu validieren, sondern vielmehr um die Validierung einer Interpretation von Daten, die aus einem spezifischen Verfahren gewonnen wurden (Cronbach, 1971:447).

Anders ausgedrückt nicht das Messinstrument an sich wird validiert, sondern das Messinstrument in Bezug zum Zweck, für den es eingesetzt wird. Analog zu der Angabe eines Schätzwertes bei der Reliabilität lassen sich auch für die Validitätsschätzung mehrere Verfahren angeben. In den folgenden Abschnitten werden die grundlegenden Verfahren und deren unterschiedliche Bedeutung, ihre Verwendungsmöglichkeiten und deren Beschränkungen besprochen.

2.2.4.5.3.1 Kriteriumsvalidität

Bei der Angabe der Kriteriumsvalidität werden die empirisch gemessenen Ergebnisse eines Messinstrumentes mit einem anderen empirischen Kriterium in Bezug gebracht. Im vorangegangen Abschnitt wurde bereits unter dem Begriff empirische Validität ein Maß für die Kriteriumsvalidität angegeben. Der Indikator des Grads an Übereinstimmung zwischen Messinstrument und Kriterium wird normalerweise anhand der Größe der Korrelation geschätzt. Der Validitätskoeffizient ergibt sich somit aus der Korrelation der Messergebnisse des Messinstrumentes mit einer anderen empirischen unabhängigen Variablen. Je stärker die Messergebnisse signifikant mit dem Kriterium korrelieren, desto valider ist die Aussagekraft des Tests bezüglich der Kriteriumsvariablen. Beispielweise könnte man sich vorstellen, dass man einen Schuleignungstest validiert, indem man dessen Ergebnisse mit den Leistungen der Personen beim Schulexamen vergleicht. Stimmen die Leistungen des Schuleignungstests mit denen des Examens überein, so kann man den Eignungstest als valides Messinstrument bezüglich der Leistung im Examen bezeichnen.

Die Kriteriumsvalidität kann in zwei Typen unterschieden werden, zum einen in die prädiktive Validität („predictive validity“) und zum anderen in die „gleichzeitige“ Validität („concurrent validity“). Ein Instrument besitzt prädiktive Validität, wenn die Vorhersagen, die auf einer Messung mit dem Instrument beruhen durch spätere Messungen mit einem anderen Instrument bestätigt werden. In unsrem Beispiel hätte somit die Schuleignungsprüfung prädiktive Validität hinsichtlich des Kriteriums der Leistung im Examen. Kann die zu beurteilende Messung und die Messung des Kriteriums zur gleichen Zeit stattfinden, so spricht man von „concurrent validity“.

Die Schwäche der Kriteriumsvalidität liegt darin, dass das einzige Indiz für die Validität allein in der Korrespondenz zur Kriteriumsvariablen begründet ist. Korrelieren beispielsweise die Körpergröße hoch mit der schulischen Leistung, so wäre nach Logik der Kriteriumsvalidität die Körpergröße ein valider Indikator für die schulische Leistung. Natürlich wird die Kriteriumsvariable normalerweise nach einer theoretisch begründeten Auswahl ausgesucht. Allerdings ist diese Auswahl meist willkürlich, da im Normalfall viele mögliche Kriteriumsvariablen zur Auswahl stehen. Somit sind so viele Validitätskoeffizienten denkbar, wie es mögliche Kriteriumsvariablen gibt.

Ein weiteres Problem der Kriteriumsvalidität ist, dass die Validität genauso stark vom zu beurteilenden Messinstrument abhängt wie von der Qualität der Messung der Kriteriumsvariablen. Somit macht es nur dann Sinn, die Validität eines Messinstruments bezüglich einer Kriteriumsvariablen anzugeben, wenn sicher ist, dass auch das Messinstrument, mit dem die Kriteriumsvariable gemessen wurde valide ist.

Das schwerwiegendste Problem der Kriteriumsvalidität ist aber, dass speziell in den Messsituationen in den Sozialwissenschaften nur in den seltensten Fällen relevante Kriteriumsvariablen existieren. So wird umso schwieriger sein eine adäquate Kriteriumsvariable zu finden, je abstrakter das Konzept ist, das mit dem Messinstrument gemessen werden soll.

Es zeigt sich somit, dass mit dieser Validierungstechnik erhebliche Probleme verbunden sind. Ihr Einsatz ist nur dann sinnvoll, wenn eine theoretisch begründete und valide gemessene Kriteriumsvariable angegeben werden kann.

2.2.4.5.3.2 Inhaltsvalidität

Bei diesem Typus der Validierung wird ein Messinstrument danach bewertet, ob alle möglichen Dimensionen eines (theoretischen) Gebietes, das gemessen werden soll berücksichtigt werden. Dieser Validierungsform unterliegt die Logik, dass nur dann von einer gültigen Messung gesprochen werden kann, wenn jeder Aspekt des theoretischen Begriffs einbezogen wird. So wäre beispielsweise ein Test zur Messung der mathematischen Fähigkeiten nicht inhaltsvalide, wenn er nur Aufgaben zur Analysis beinhalten und die Gebiete Geometrie, Algebra oder Numerik außer acht lassen würde. Für die Beurteilung der Inhaltsvalidität existieren keinerlei objektive Kriterien.

Somit ist es schwierig zu beurteilen, ob nun alle für die Messsituation wichtigen Dimensionen erfasst wurden. Speziell in den Sozialwissenschaften sind viele theoretische Konzepte nicht oder nur unzureichend in der notwendigen Exaktheit beschrieben. Es wird daher in fast allen Fällen schwierig sein, sich darüber zu einigen, ob die Variable, die gemessen werden soll alle möglichen Inhalte umfasst. Die Inhaltsvalidität ist aufgrund der angesprochenen Problematik eher bei der Konstruktion eines Messinstruments hilfreich als zur Beurteilung der Güte einer Messung.

2.2.4.5.3.3 Konstruktvalidität

Die Kriteriumsvalidität kann in den meisten Fällen für die praktische Beurteilung der Güte bei Testanwendungen verwendet werden. Eine weitere Form der Validierung ist die Konstruktvalidität. Sie bezieht sich auf die Beurteilung der theoretischen Güte eines Messinstrumentes. Damit ist das Ausmaß gemeint, in dem ein Test diejenige Eigenschaft misst, welche er messen soll. Bevor die Konstruktvalidierung näher beschrieben wird, muss der Begriff Konstrukt näher bestimmt werden. Unter einem Konstrukt kann sowohl eine Eigenschaftsdimension (eine latente Variable) als auch sonst eine Eigenschaft (z.B. eine Qualität) oder auch eine theoretisch relevante psychologische Hypothese verstanden werden. Da dieses Begriffsspektrum sehr undeutlich gefasst ist, wird im Folgenden der Begriff präzisiert und „Konstrukt“ mit „latenter Dimension“ gleichbedeutend verwendet. Deshalb soll auch die Konstruktvalidität als Validität eines Testes oder Messinstrumentes in Bezug auf eine bestimmte latente Eigenschaftsdimension verstanden werden. Konstruktvalidität wird dann als Validierungsform verwendet, wenn „ kein Kriterium oder inhaltliche Gesamtheit („universe of content“) vorhanden ist, das als gänzlich adäquat zur Bestimmung der Qualität einer Messung akzeptiert werden kann (Cronbach und Mehl 1955, S.282).

In diesem Sinne bezieht sich Konstruktvalidität auf das Ausmaß, in dem ein spezifisches Messinstrument mit anderen Messinstrumenten in Beziehung steht, die mit den theoretisch abgeleiteten Hypothesen des (gemessenen) Konstrukts übereinstimmen (Zeller & Carmines, 1979, S.23). Beispielsweise könnte es interessant sein, die Konstruktvalidität einer Berufsprestigeskala zu überprüfen, die theoretisch einen positiven Zusammenhang zwischen Berufsprestige und Einkommen annimmt. Somit würde die Skala theoretisch vorhersagen, dass je höher das Berufsprestige ist, desto höher auch das Einkommen des Befragten ist. Bei der Validierung der Skala werden an einer Gruppe von Befragten Berufsprestige und Einkommen des Befragten erhoben. Durch die Korrelation beider Messinstrumente erhält man eine Schätzung der Stärke der Beziehung zwischen den beiden Gruppen. Ist die Beziehung positiv und bedeutend, so kann dies als ein Teilbeweis für die Konstruktvalidität der Berufsprestigeskala angesehen werden.

Zeller und Carmines (1979) geben drei Stufen an, die zur Konstruktvalidierung eines Messinstrumentes notwendig sind. Zunächst einmal muss die theoretische Beziehung zwischen den Konstrukten spezifiziert werden. In einem zweiten Schritt wird die empirische Beziehung zwischen den Operationalisierungen der Konstrukte untersucht und im dritten Schritt wird bewertet ob der empirische Beweis auf Konstruktvalidität des Messinstrumentes hindeutet.

Die Konstruktvalidität wird anhand von zwei Kriterien beurteilt, „convergent validity“ einerseits und „discriminant validity“ andererseits. „Convergent validity“ besitzt ein Konstrukt dann, wenn verschiedene Operationalisierungen dieses Konstruktes sehr ähnlich und somit prinzipiell austauschbar sind. Kann empirisch gezeigt werden, dass ein Instrument andere Sachverhalte erfasst als andere Instrumente, so besitzt dieses Instrument „discriminant validity“.

Die Prämisse der Diskriminanz eines Konstruktes soll dazu führen, dass Konstrukte nur dann neu eingeführt werden, wenn sie auch tatsächlich Sachverhalte messen, die nicht schon von anderen, bereits existierenden Konstrukten erfasst werden. Ob ein Konstrukt nun „discriminant validity“ aufweist, kann nur empirisch im Vergleich zu bestehenden Konstrukten entschieden werden. Das zweite Kriterium für Konstruktvalidität soll eine Aussage darüber möglich machen, ob der theoretische Begriff erfolgreich operationalisiert wurde, d.h. eine erfolgreich Messanweisung für den Begriff ist. Operationalisierungen desselben Begriffs müssen also vergleichbare Ergebnisse bringen, falls sie „gültige“ Operationalisierungen darstellen. Beispielsweise müssen die Antworten auf ähnliche Fragen vergleichbar sein. Konvergenz bedeutet daher, dass verschiedene Indikatoren desselben Konstruktes austauschbar sein müssen.

Die Überprüfung auf Diskriminanz und Konvergenz erfolgt in der Praxis beispielsweise durch Multitrait-Multimethod-Matritzen (Campbell/Fiske 1959). Die statistische Auswertung von Konstruktvalidierungen erfolgt häufig mit Hilfe von Faktorenanalysen (exploratorische oder konfirmatorische Faktorenanalyse). Die Konstrukte werden dabei als die zugrunde liegenden Faktoren aufgefasst, die die beobachteten Zusammenhänge „erklären“. In dieser Arbeit wird anhand von noch vorzustellenden Strukturgleichungssystemen die Reliabilität und Validität der Berufsprestigeindikatoren bestimmt. Dabei wird die Güte anhand der Regeln der konfirmatorischen Faktorenanalyse untersucht.

Aus der vorangegangenen Ausführung wird deutlich, dass die Validierung einer Messung eines Konstruktes nur dann gelingen kann, wenn dieses Konstrukt in ein theoretisches Netzwerk eingebunden ist. Je genauer das Konstrukt in einen theoretischen Rahmen eingebunden ist, desto besser und vor allem genauer wird es möglich sein, die Konstruktvalidität des empirischen Messinstrumentes anzugeben.

Was ist aber, wenn die Korrelation beider Schätzungen einen negativen Hinweis auf die Konstruktvalidität des Instrumentes liefert? Die einfachste Antwort, die sich aus einem solchen Ergebnis folgern lässt ist, dass das Messinstrument nicht das theoretische Konstrukt misst, das es messen soll. Dies soll aber nicht bedeuteten, dass das Messinstrument prinzipiell unbrauchbar ist. Es lässt sich nur sagen, dass das Instrument sich nicht in der theoretisch vorhergesagten Art und Weise verhält.

Aus einem negativen Validierungsergebnis lassen sich allerdings auch andere Schlussfolgerungen ableiten. Es kann auch durchaus sein, dass der für die Validierung verwendete theoretische Rahmen ungeeignet oder falsch ist. Oder aber es kann sich im Beispiel der Berufsprestigeskala ein negativer Zusammenhang zwischen den Variablen ergeben. Dies muss allerdings nicht heißen, dass die Skala invalide ist. Es kann auch bedeuten, dass an der theoretischen Perspektive gezweifelt werden muss.

Eine weitere Ursache für einen negativen Befund könnte darin liegen, dass die verwendete Methode fehlerhaft oder ungeeignet ist, beispielsweise ein ungeeignetes statistisches Verfahren oder unsachgemäße Anwendung dieses Verfahrens. Zusätzlich beeinflussen die Konstruktvalidität und die Reliabilität der anderen Variablen des Messmodells die Konstruktvalidität des zu beurteilenden Messinstrumentes. Ist beispielsweise das Messinstrument für die Messung des Einkommens nicht reliabel oder nicht konstruktvalide, so beeinflusst dies natürlich auch das Ergebnis der Validierung der Berufsprestigeskala. Im schlimmsten Falle würde eine eigentlich perfekt konstruktvalide Berufsprestigeskala als unvalide bewertet, weil die im Modell verwendeten Messinstrumente völlig unreliabel und/oder unvalide sind.

Zusammenfassend lässt sich somit sagen, dass die Beurteilung der Konstruktvalidität eines Messinstrumentes immer auch mit der Überprüfung des theoretischen Kontextes, bzw. der unterliegenden Theorie, einhergeht. Fällt die Bewertung positiv aus, so wurde der Hinweis erbracht, dass das Instrument valide ist. Im Falle von negativen Ergebnissen müssen zunächst alle anderen Möglichkeiten, wie fehlerhafte theoretische Annahmen, unadäquate Methodik oder nicht reliable oder valide externe Modellvariablen ausgeschlossen werden bevor von der fehlenden Konstruktvalidität des Instrumentes gesprochen werden kann. Die Interpretation der Ergebnisse der Validitätsschätzung ist somit der zentrale Schritt bei der Konstruktvalidierung von Messinstrumenten. Im abschließenden Teil dieses Kapitels soll eine empirische Untersuchung vorgestellt werden, die die Reliabilität von demographischen und Einstellungsvariablen untersucht hat. In Deutschland ist dies die bislang einzige umfassende Studie, in der anhand von Test-Retest-Daten eine Gütebestimmung vorgenommen wurde. Die Test-Retest-Studie zum ALLBUS 1984 umfasste auch Variablen, die in dieser Arbeit von Bedeutung sind. Die Ergebnisse der Studie werden in diesem Kapitel vorgestellt, da die Reliabilitätsbestimmung der Variablen am engsten mit den restriktiven Annahmen der klassischen Testtheorie in Verbindung gebracht werden können. Im Verlauf der Arbeit werden die Ergebnisse dieser Studie immer wieder aufgegriffen und mit den empirischen Ergebnissen dieser Arbeit verglichen.

[...]

^[1] Beitrag kann unter http://www.sidos.ch/method/RC28/abstracts/Harry%20Ganzeboom.pdf heruntergeladen werden.

^[2] In der Realität stimmt dies auch. Für unsere Axiome der Messtheorie lassen wir den Idealfall gelten.

^[3] da [Abbildung in dieser Leseprobe nicht enthalten][3]

^[4] Aus der Grundannahme der klassischen Testtheorie ableitbar: μx= E(X) = E(t) = μt

^[5] mathematische Beweise siehe Wegener,B. (1983), S.44ff.

^[6] [6] Lord & Novick (1974: 44-46) führen noch eine weitere (strengere) Form der Messunabhängigkeit ein, die der experimentellen Unabhängigkeit.

^[7] siehe Survey Methods

^[8] Übersicht und Diskussion zu diesem Punkt siehe Esser (1986)

^[9] Durch die Annahme gleicher Reliabilitäten reduzieren sich die Anzahl unbekannter Parameter. Das zur Bestimmung der Reliabilität verwendete Pfadmodell ist nun gerade identifiziert. (vgl. Jöreskog, 1979).

^[10] in Matrix-Schreibweise: . entspricht der mittleren Interitem-Korrelation

Ende der Leseprobe aus 153 Seiten

Details

Titel: Reliabilität und Validität der Messung von beruflichem Status
Hochschule: Universität Mannheim (Fakultät für Sozialwissenschaften)
Note: 2
Autor: Marco Schmider (Autor:in)
Jahr: 2005
Seiten: 153
Katalognummer: V39317
ISBN (eBook): 9783638381222
ISBN (Buch): 9783640176175
Dateigröße: 1338 KB
Sprache: Deutsch
Anmerkungen: Berufsprestigeskalen sind Bestandteil vieler nationaler und internationaler Bevölkerungsumfragen wie beispielsweise ALLBUS oder ISSP. Standardmäßig werden das Berufsprestige auf standardisierten Skalen, z.B. Treimann-Skala, Magnitude-Prestige-Skala nach Wegener oder ISEI, in diesen Umfragen erhoben. In der vorliegenden Arbeit wird mit Hilfe von Strukturgleichungsmodellen die Validität und Reliabilität solcher Berufsprestigeindikatoren geprüft und bewertet.
Schlagworte: Reliabilität, Validität, Messung, Status

Arbeit zitieren: Marco Schmider (Autor:in), 2005, Reliabilität und Validität der Messung von beruflichem Status, München, GRIN Verlag, https://www.grin.com/document/39317

Kommentare