Lade Inhalt...

Validität als Gütekriterium eines Tests

Das Beispiel der C-Tests

Hausarbeit 2013 20 Seiten

Sprachwissenschaft / Sprachforschung (fachübergreifend)

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Theoretischer Hintergrund
2.1. Hauptgütekriterien und deren Beziehung zueinander
2.2. Validität
2.2.1. Inhaltsvalidität
2.2.2. Kriterienbezogene Validität
2.2.3. Konstruktvalidität
2.3. Validierung

3. C-Test
3.1. Allgemeines über den C-Test
3.2. Konstruktion des C-Tests
3.3. Validierung der C-Tests
3.3.1. Kriterienbezogene Validierung des C-Tests: „Faktorenanalyse“
3.3.2. Konstruktvalidierung des C-Tests: „Multitrait-Multimethoden-Ansatz“
3.3.3. Konstruktirrelevante Varianz am Beispiel eines C-Tests
3.4. Kritische Auseinandersetzung mit Einstufungs-C-Tests

4. Schlussfolgerung/Ausblick

5. Literaturverzeichnis

6. Anhang
Computer C-Test (1. Text)
Papier&Bleistift-C-Test (1. Text)
Tabelle 1
Tabelle 2
Erklärung

1. Einleitung

Auf Grund der Teilnahme am Seminar „Testen, Prüfen, Evaluieren II“ im Sommersemester 2013 an der Ruhr Universität Bochum (RUB) soll mit dieser Hausarbeit das Thema „Validität: Am Beispiel der C-Tests“ vertieft werden. Es geht in meiner Arbeit an erster Stelle um die „Validität“, als eines der Hauptgütekriterien eines Tests. Hierzu werden verschiedene Arten der Validität vorgestellt. Auf Grund der theoretischen Erkenntnisse über die Validität soll dann über den Validierungsprozess der C-Tests mit verschiedenen Methoden berichtet werden, da man den äußerst abstrakten Begriff der Validität mit Hilfe eines Praxisbezugs am besten verdeutlichen kann.

2. Theoretischer Hintergrund

2.1. Hauptgütekriterien und deren Beziehung zueinander

Formelle Tests, die von Textexperten entwickelt worden sind, haben nach Grotjahn (2010: 211) folgende Kriterien zu erfüllen: 1) Erfüllung der klassischen Gütekriterien der Objektivität, Reliabilität und Validität; 2) Ausreichende Standardisierung und Normierung.

Was sind die Hauptgütekriterien eines Tests? Hierzu eine kurze Erläuterung: Unter Objektivität versteht man den Grad, in dem die Ergebnisse eines Tests unabhängig vom Untersucher sind. Unter Reliabilität (Zuverlässigkeit) versteht man den Grad der Genauigkeit, mit dem ein Test ein bestimmtes Merkmal misst, unabhängig davon, ob er dieses Merkmal auch zu messen beansprucht. Unter Validität (Gültigkeit) versteht man das Ausmaß, in dem ein Test das misst, war er zu messen vorgibt. (vgl. Bühner 2006: 34-36). Die Beziehung zwischen den o.g. drei Hauptgütekriterien wird in Grotjahn (2003: 26) wie folgt beschrieben:

„Die Objektivität eines Tests hat einen Einfluss auf die Reliabilität und die Reliabilität bestimmt wiederum die maximal erreichbare empirische Validität eines Tests. Eine geringe Objektivität bei der Durchführung und Auswertung eines Tests führt zu wenig reliablen Testergebnissen. Je weniger reliabel die Testergebnisse sind, d.h. je höher der Messfehler ist, desto geringer ist die Korrelation mit einem Außenkriterium und damit die empirische Validität des Tests, auch dann, wenn Test und Kriterium genau das Gleiche messen. Das bedeutet, dass ein wenig objektiver und wenig reliabler Test nicht gleichzeitig empirisch valide sein kann. Umgekehrt bedeutet eine hohe Objektivität und Reliabilität keineswegs, dass der entsprechende Test auch valide ist.“

Aus der o.g. Aussage ergibt sich, dass Objektivität und Reliabilität notwendige, aber nicht hinreichende Voraussetzungen für eine zufrieden stellende Validität sind (Grotjahn 2003). Von den erwähnten Hauptgütekriterien soll im Folgenden die Validität ausführlicher thematisiert werden.

2.2. Validität

Es wird nach Bühner (2006) generell zwischen drei Validitätsarten unterschieden: Inhaltsvalidität, kriterienbezogene Validität und Konstruktvalidität.

2.2.1. Inhaltsvalidität

Die Inhaltsvalidität bezieht sich darauf, dass ein Test oder ein Testitem das zu messende Merkmal auch wirklich bzw. hinreichend genau erfasst (vgl. Bühner 2006). Die Inhaltsvalidität kann auf folgende Weise erfasst werden: Zuerst wird der Inhalt des Konstruktes (Welche Fähigkeit bzw. Eigenschaft soll gemessen werden?) beschrieben. Daraufhin wird festgelegt, welcher Inhaltsbereich durch welches Item erfasst werden soll. Schließlich wird die Teststruktur mit der Struktur des Konstruktes verglichen.

„Da viele Konstrukte nur vage formuliert sind, ist gerade der erste Schritt nicht einfach. Man behilft sich hier mit Arbeitsdefinitionen oder man betrachtet nur Teilausschnitte eines Konstruktes… Mangelnde Überlegungen am Anfang des Konstruktionsprozesses führen schon in der Entwicklungsphase zu unzureichenden Verfahren“. (Bühner 2006: 37)

Durch die Inhaltsvalidität wird festgestellt, ob ein Schulabschlusstest bzw. Kursabschlusstest in Bezug auf das von Experten entwickelte Curriculum valide ist. In einem Schulabschlusstest wird beispielsweise überprüft, ob die Schüler bestimmte Inhalte gelernt und vorgegebene Ziele erreicht haben.

Kritisiert wird bei dieser Methode allerdings, dass sie meistens von Testentwicklern durchgeführt wird, die das Curriculum bzw. den Test entwickelt haben und somit von Anfang an die Tendenz besteht, ein positives Ergebnis zu erreichen. Außerdem werden bei dieser Methode die Reaktionen der Testteilnehmer (Antwortverhalten, Leistungsunterschiede etc.) auf die Testitems vernachlässigt (vgl. Grotjahn 2003, Kecker 2010).

Ein wichtiger Aspekt, der mit der Inhaltsvalidität eng verbunden ist, ist die sog. Augenscheinvalidität, wobei es sich um die Gültigkeit eines Tests in den Augen der Testabnehmer und -teilnehmer handelt. Eine geringe Augenscheinvalidität kann dazu führen, dass die Lerner den Test nicht hinreichend ernst nehmen und deshalb nicht ihre optimale Leistung zeigen (vgl. Grotjahn 2003: 24).

2.2.2. Kriterienbezogene Validität

Bei einer kriterienbezogenen Validität geht es darum, inwieweit ein Test das Gleiche misst, wie ein anderer Test, der sich schon als valide erwiesen hat. Die kriterienbezogene Validität wird durch das sog. „Korrelationsverfahren“ überprüft. Ein Beispiel dafür wäre die Untersuchung der Zusammenhänge zwischen den Ergebnissen eines neu entwickelten Tests für Deutsch als Fremdsprache und der Beurteilung der Deutschleistung der Schüler durch den Deutschlehrer. Eine hohe Übereinstimmung der beiden Werte gilt als ein Beleg für die kriterienbezogene Validität des neuen Tests.

„Der Grad der Übereinstimmung zwischen Test und Kriterium wird anhand eines Korrelationskoeffizienten[1] gemessen… So würde z.B. eine Korrelation von 0,5 zwischen dem Testteil „Leseverstehen“ des „Zertifikat Deutsch“ und einem deutschen C-Test bedeuten, dass die beiden Tests zu lediglich 25% die gleiche Eigenschaft erfassen (der Korrelationskoeffizient von 0,5 ist zu quadrieren und mit 100 zu multiplizieren). Zugleich zeigt der Wert an, dass man nur ungenau von den Ergebnissen in dem einen Test auf die Ergebnisse in dem anderen Test schließen kann.“ (Grotjahn 2003: 23)

Allerdings sollten Testentwickler bzw. -anwender bei der Verwendung der Korrelationen auf folgende Aspekte achten:

„Der Nachweis kriterienbezogener Validität wird dann schwierig, wenn kein akzeptables Messinstrument (z.B. ein anderer Test) zur Verfügung steht, mit dem das Testergebnis korreliert und auf diese Weise validiert werden kann. Der Vergleich über einen Korrelationskoeffizienten ist nur dann sinnvoll, wenn beide Messinstrumente die gleichen Qualitätsansprüche erfüllen und annähernd das gleiche Kriterium mit entsprechender Reliabilität und Validität messen.“ Kecker (2010: 134)

So ist das oben erwähnte Beispiel aüßerst umstrittig. Denn einerseits differiert die Beurteilung von Deutschleistung von Lehrer zu Lehrer stark, andererseits ist es nicht sichergestellt, dass beide Testverfahren das Gleiche messen, was gemessen werden sollte.

2.2.3. Konstruktvalidität

Viele Autoren fassen unter dem Begriff „Konstruktvalidität“ alle Validitätsarten wie beispielsweise Inhaltsvalidität, kriterienbezogene Validität, konvergente und diskriminante Validität zusammen. Die Konstruktvalidität sagt also etwas darüber aus, ob der Test auch die Eigenschaft oder Fähigkeit misst, die er messen soll (vgl. Bühner 2006: 39). Kecker (2010) erwähnt hierzu ein Beispiel:

„Sprechfähigkeit kann beispielsweise als ein Konstrukt angesehen werden, das die untergeordneten Konstrukte Flüssigkeit und Korrektheit (neben anderen) miteinander in Beziehung setzt. Das Konstrukt Flüssigkeit lässt sich anhand von bestimmten operationalisierbaren und beobachtbaren Variablen definieren (z.B. Sprechgeschwindigkeit, Pausen, Verzögerungen), ebenso wie das Konstrukt Korrektheit (z.B. durch Fehlerhäufigkeit oder Fehlerlosigkeit). Setzt man beide Konstrukte zueinander in Beziehung, so kann man z.B. die Hypothese definieren: je flüssiger die Rede, desto häufiger die Fehler. Diese Hypothese und das damit verbundene Konstrukt lassen sich durch einen Test überprüfen.“

Um die Konstruktvalidität festzustellen, verwendet man verschiedene Methoden. Häufig werden folgende Ansätze gebraucht. Man formuliert bei der Validierung von Anfang an konkrete Erwartungen über den Zusammenhang des Tests mit konstruktverwandten (konvergenten) und konstruktfremden (diskriminanten) Tests. Der Nachteil dieses Ansatzes besteht nach Bühner (2006: 39) nicht selten darin, dass ein Test mit einem oder mehreren anderen Tests verglichen wird, dessen/deren Inhaltsvalidität selbst unzureichend ist.

- Konvergente Validität: Es werden Korrelationen mit Tests gleicher oder ähnlicher Gültigkeitsbereiche ermittelt. Zum Beispiel: die Korrelation eines neu entwickelten Intelligenztests (I-S-T 2000 R) mit einem bereits etablierten Verfahren wie HAWIE-R. Man erwartet hier hohe Zusammenhänge.
- Diskriminante/divergente Validität: Es werden Korrelationen mit Tests anderer Gültigkeitsbereiche ermittelt. Zum Beispiel: die Korrelation eines Konzentrationstests mit einem Arbeitsgedächtnistest. Man erwartet hier niedrigere Zusammenhänge. Denn es geht bei diesem Verfahren darum, festzustellen, dass der Konzentrationstest nur das Konstrukt „Konzentration“ misst und nicht das verwandte Konstrukt „Gedächtnis“.

Es gibt verschiedene Methoden, um konvergente und diskriminante Validität zu bestimmen (ebd. 39-40).

a) Korrelationen: Dabei werden konstruktnahe oder konstruktfremde Inhalte miteinander korreliert.
b) Faktorenanalysen: Damit werden die Zusammenhänge zwischen verschiedenen Tests untersucht. Es geht hier darum, einerseits homogene konstruktnahe Inhaltsbereiche zusammenzufassen und andererseits diese von konstruktfremden Bereichen zu trennen (s. 3.3.1.).
c) Multitrait - Multimethoden-Ansatz: Dabei werden verschiedene Korrelationsmatrixen gebildet (s. 3.3.2.):

- Monotrait-Monomethoden-Matrix: Man geht davon aus, dass Kennwerte einer Fähigkeit (z.B. Intelligenz), die mit den gleichen Methoden (z.B. Tests) erfasst werden, am höchsten miteinander zusammen hängen.
- Monotrait-Heteromethoden-Matrix: Der Zusammenhang zwischen Kennwerten einer Fähigkeit (z.B. Intelligenz) sollte geringer ausfallen, wenn diese mit unterschiedlichen Methoden (Intelligenztest, Verhaltensbeobachtung) erfasst werden.
- Heterotrait-Monomethoden-Matrix: Zwischen den Kennwerten unterschiedlicher Fähigkeiten (z.B. Intelligenz und Konzentration), die mit der gleichen Methode (Test) erhoben wurden, ist ein geringerer Zusammenhang zu erwarten.
- Heterotrait-Heteromethoden-Matrix: Die Zusammenhänge zwischen Kennwerten unterschiedlicher Fähigkeiten (z.B. Intelligenz und Konzentration), die mit verschiedenen Methoden (z.B. Test und Verhaltensbeobachtung) erfasst werden, sollten am geringsten ausfallen.

Bei der Bewertung der Konstruktvalidität eines Tests sind u.a. folgende Aspekte zu berücksichtigen, die zu einer Invalidität führen können (vgl. Grotjahn 2003, Bühner 2006): die Unterrepräsentation des zu messenden Konstruktes und die konstrukt-irrelevante Testvarianz. Bei einer Unterrepräsentation des Konstruktes ist der Test zu eng gefasst und lässt dadurch wichtige Dimensionen des Konstruktes unberücksichtigt. Ein Extrembeispiel dafür ist das Testen kommunikativer Kompetenz mit Hilfe eines reinen Wissenstests im Papier-Bleistift-Format (Grotjahn 2003).

Konstruktirrelevante Varianz liegt vor, wenn bestimmte Merkmale, die nichts mit der zu messenden Fähigkeit zu tun haben, eine Aufgabe für bestimmte Personen im Sinne eines sog. Bias[2] systematisch leichter oder schwerer machen (Grotjahn 2003). Es lassen sich zwei Formen der konstruktirrelevanten Varianz unterscheiden: Die konstruktirrelevante Schwierigkeit liegt vor, wenn Testaufgaben für Testpersonen durch Aspekte, die nichts mit dem Konstrukt zu tun haben, erschwert werden. Beispielsweise: eine unangemessene Lautstärke eines Hörtextes führt die Testkandidaten dazu, dass sie die Aufgabe falsch lösen, weil sie den Text nicht richtig verstanden haben. Das führt zu einer Verzerrung der Messung.

Die konstruktirrelevante Leichtigkeit liegt vor, wenn die Aufgaben des Tests durch Konstruktirrelevante Aspekte leichter zu lösen sind. Beispielsweise: Die Testperson schreibt von einem anderen Testteilnehmer ab.

[...]


[1] Es handelt sich hier um den Korrelationskoeffizienten nach Pearson (r), der Werte zwischen -1 und +1 annehmen kann. Die Höhe der Korrelation charakterisiert das Ausmaß, in dem Test und Kriterium das gleiche Konstrukt messen. r=1 bedeutet starker, positiver Zusammenhang, r=-1 bedeutet starker, negativer Zusammenhang und r=0 bedeutet kein Zusammenhang.

[2] Liegt eine systematische Benachteiligung bestimmter Probanden vor, spricht man von Bias (Grotjahn 2003).

Details

Seiten
20
Jahr
2013
ISBN (eBook)
9783668337183
ISBN (Buch)
9783668337190
Dateigröße
460 KB
Sprache
Deutsch
Katalognummer
v343602
Institution / Hochschule
Ruhr-Universität Bochum – Seminar der Sprachlehrforschung
Note
2.0
Schlagworte
Validität Validierung des C-Tests C-Tests

Autor

Zurück

Titel: Validität als Gütekriterium eines Tests