Homepage > Katalog > Psychologie - Arbeit, Betrieb, Organisation

Kriteriums-, Inhalts- und Konstruktvalidität von Assessment-Center-Verfahren

Name: Kriteriums-, Inhalts- und Konstruktvalidität von Assessment-Center-Verfahren
Price: 0.99 EUR
Availability: InStock
Author: Karin Jaeger
ISBN: 978-3-638-08592-2

Ausarbeitung, 1999

6 Seiten

Karin Jaeger (Autor:in)

Leseprobe

Literatur:

- Fisseni, H.-J. & Fennekels, G.P. 1995. Das Assessment Center: Eine Einführung für Praktiker. Göttingen: Verlag für angewandte Psychologie. Kap. 11
- Fisseni, H.-J. 1990. Lehrbuch der psychologischen Diagnostik. Göttingen: Hogrefe-Verlag. Kap. 16
- Jeserich, W. 1991. Mitarbeiter auswählen und fördern: Assessment-Center-Verfahren. München: Hanser-Verlag. Kap. 8
- Kleinmann, M. & Strauß, B. in: Sarges, W. (Hrsg.). 1996. Weiterentwicklungen der Assessment Center-Methode. Göttingen: Verlag für angewandte Psychologie. Kap. 1
- Lammers, F. 1992. Zur Problematik des Beobachterverhaltens im Assessment Center. Forschungsbericht FB Psychologie Osnabrück, 1992. S. 10-22
- Schuler, H. in: Lattmann, Ch. (Hrsg.). 1989. Das Assessment-Center-Verfahren der Eignungsbeurteilung. Heidelberg: Physica-Verlag. S. 224-250
- Thornton, G.C. & Byham, W.C. 1982. Assessment Centers and Managerial Performance. Orlando, Florida: Academic Press. Kap. 5 & 7

Die Durchführung eines AC ist aufwendig und kostspielig. In das Verfahren werden hohe Erwartungen gesetzt, denn die Auswahl eines ungeeigneten Bewerbers ist für das Unternehmen teuer. Deshalb stellt sich die Frage, was die Aussagen, die ein AC erbringt, leisten können und inwieweit sie für Situationen außerhalb des AC relevant sind. Es stellt sich die Frage nach der Validität des AC. Validität (Gültigkeit) bezeichnet die Angemessenheit, aus Testwerten oder anderen diagnostischen Verfahren Schlüsse zu ziehen. Sie kann in verschiedenen Formen operationalisiert werden, woraus sich verschiedene Bezeichnungen / Arten von Validität ergeben (siehe unten). Validität ist ein Begriff der klassischen Testtheorie. Nun kann man aber kritisieren, daß sich die klassische Testtheorie schlecht auf das AC, das nicht nach der Art eines Tests konzipiert ist, anwenden läßt. Dafür gibt es mehrere Gründe:

- Das AC ist kein wissenschaftliches Routineverfahren, welches auf standardisierte Durchführung angelegt ist. Es kann an die Ziele des Unternehmens, das es einsetzt, angepaßt und für jede Anwendung neu konzipiert werden. Innerhalb des AC sind die meisten Übungen z.B. Gruppendiskussion nicht standardisiert.
- Das AC dient nicht der Erfassung stabiler Persönlichkeitsmerkmale, sondern der Erfassung von Verhaltensverläufen und -prozessen, von Techniken und Verhaltensprogrammen, die der einzelne beherrscht z.B. um Probleme zu lösen, um neue Situationen zu bewältigen, um Erfolg und Mißerfolg zu verarbeiten.
- Im AC wird der einzelne Teilnehmer nicht mit Normen verglichen, die an einer Eichstichprobe gewonnen wurden, sondern am Anforderungsprofil des AC gemessen.
- Das AC dient nicht dazu, Personen zu unterscheiden, sondern es soll für jeden Teilnehmer die Nähe zum Anforderungsprofil bestimmt werden, ohne die Teilnehmer untereinander zu vergleichen.
- Die Aussage des AC läßt sich nicht ähnlich einem Testscore in einem Zahlenwert zusammenfassen. Einzelnoten und deren Zusammenfassung dienen der Übersicht und der leichteren Einordnung der Ereignisse. Die endgültige Stellungnahme wird aber von verbalen Urteilen begründet.

Zusammengefaßt: klassische Testtheorie und AC sind nicht modellkonform. AC-Durchführung und AC-Konstruktion entsprechen mehr der sogenannten kriteriumsorientierten Testtheorie, welche die Leistungen eines Probanden nicht mit stichprobenbezogenen Normen, sondern mit definierten Zielen vergleicht, d.h. den Probanden an den Anforderungen mißt. Leider hat die kriteriumsorientierte Testtheorie zur Beurteilung der Meßqualität keine eigene Meßtheorie entwickelt und greift auf die Konzepte der klassischen Testtheorie zurück. Damit sind wir wieder bei der Validität angelangt. Validität beantwortet die Frage, inwieweit man von Verhalten innerhalb einer Testsituation auf Verhalten außerhalb der Testsituation schließen kann und wie genau ein Testwert die Voraussage eines Zielmerkmals erlaubt. Man unterscheidet drei Arten von Validität:

- Kriteriumsvalidität: es wird überprüft, inwieweit es möglich ist, ein Kriterium (Verhalten außerhalb der Testsituation) durch einen Pädiktor (Verhalten innerhalb der Testsituation) vorauszusagen.
- Inhaltsvalidität: es wird überprüft, inwieweit Teilübungen des AC zur Gesamtvalidität beitragen.
- Konstruktvalidität: es wird überprüft, inwieweit das AC Fähigkeiten, Dispositionen, Persönlichkeitsmerkmale, d.h. Konstrukte mißt.
- Kriteriumsvalidität (empirische, externe Validität)

Dies ist die geläufigste Form der Operationalisierung des Validitätsbegriffs. Es handelt sich dabei um den korrelativen Vergleich zweier Datenreihen, nämlich des Prädiktors und des Kriteriums. Wird das Kriterium (Erfolgsmaß) zu einem späteren Zeitpunkt als der Prädiktor (hier: Beurteilung im AC) erhoben, spricht man von prädiktiver (prognostischer) Validität (Voraussagevalidität); erfolgt die Messung etwa gleichzeitig, spricht man von konkurrenter Validität (Übereinstimmungsvalidität). Weil das AC in der Personalauswahl als Vorhersageinstrument eingesetzt wird, kommt der prädiktiven Validität eine besondere Bedeutung zu. Als eine wichtige Studie zur Kriteriumsvalidität von AC ist die Management Progress Study (Bray & Grant, 1966; Bray, Campbell & Grant, 1974), durchgeführt bei der American Telephone and Telegraph Company (AT&T), zu nennen. Hierbei ging es darum, einzuschätzen, ob der Kandidat innerhalb von 10 Jahren das mittlere Management erreichen würde. Nach 8 Jahren zeigte sich, das für 64% der Kandidaten mit College-Abschluß eine Management- Karriere richtig vorausgesagt wurde, während nur 32% der negativ eingeschätzten Personen erfolgreich waren (40% gegenüber 9% der Teilnehmer ohne College-Abschluß). Als Korrelationskoeffizient der prädiktiven Validität wurde für beide Gruppen r = .46 berechnet. Im Vergleich: von der Personalabteilung nominierte Personen waren zu 48% erfolgreich. Nach 16 Jahren hatten 89% der "richtig positiven" das mittlere Management erreicht, aber auch 66% der negativ bewerteten Kandidaten. Das darf nicht ohne weiteres als nachlassende Validität interpretiert werden. Vielmehr zeigt es die Schwierigkeit an, ein geeignetes Kriterium zu finden. Wenn die Ergebnisse des AC innerhalb des Unternehmens bekannt wären (dies war nicht der Fall in der AT&T-Studie), wäre das Kriterium "Berufserfolg" nicht unabhängig vom Prädiktor (self-fullfilling prophecy, wenn Führungskräfte, die Beurteiler waren, von sich als fähig eingestufte Kandidaten in Zukunft fördern).

Beförderung hängt zudem von anderen Faktoren als der Eignung ab z.B. der Verfügbarkeit von Stellen. Ähnliche Probleme gibt es bei anderen Kriterien wie der Höhe des Gehaltes. In einer Metaanalyse von Thornton et al. (1987) ergab sich für das Kriterium "Beförderung" die geringste prognostische Validität, während das Kriterium "Potentialeinschätzung" wesentlich höhere Validität erzielt. Als mittlere prädiktive Validität eines AC ergab sich r = .37. Validitätskoeffizienten um .60 werden als zufriedenstellen bezeichnet. Zudem zeigte sich, daß es 5 signifikante Einflußbedingungen (Moderatorvariablen) gibt, die den Erwartungswert der Validität erhöhen. Diese sind: der Anteil Frauen unter den Teilnehmern, die Zahl der verwendeten Einzelinstrumente, die Beteiligung von Psychologen als Beurteilern, die gegenseitige Beurteilung der Teilnehmer und die Qualität der Studie.

- Inhaltsvalidität (Kontentvalidität, repräsentative Validität)

Es wird überprüft, inwieweit Teilübungen des AC zur Gesamtvalidität beitragen, indem bestimmt wird, wie stark repräsentativ das Testverhalten innerhalb einzelner Übungen für ein bestimmtes Gesamtverhalten ist. Eine AC-Übung soll so gestaltet sein, daß sie möglichst ähnliche Anforderungen an den Kandidaten stellt, wie sie im späteren Berufsleben auftreten werden. Diese Ähnlichkeit (Repräsentativität) kann man von Experten schätzen lassen, wobei es sich empfiehlt, mehrere Experten heranzuziehen und nur solche Aufgaben einschätzen zu lassen, die ein Großteil der Beurteiler als repräsentativ oder essentiell bezeichnet haben. Es nicht möglich ist, eine Aufgabe aus dem späteren Berufsleben gestalthaft, d.h. in allen ihren Anforderungskomponenten, zu simulieren. Deshalb ist eine weitere Vorgehensweise, um Inhaltsvalidität zu überprüfen, von Experten relevante Anforderungsdimensionen festzulegen und die Nähe der einzelnen Aufgaben zu den verschiedenen Anforderungsdimensionen feststellen zu lassen. Je genauer sich die Anforderung in der späteren Position und die Anforderungen in den Übungen des AC entsprechen, desto höher ist die Inhaltsvalidität. Es erscheint logisch, daß es um so sicherer ist, aus den Ergebnissen des AC Schlüsse zu ziehen hinsichtlich der Bewährung des Bewerbers im späteren Berufsleben, je höher die inhaltliche Validität ist. Jedoch muß prädiktive Validität eigens ermittelt werden, weil eine hohe Kontentvalidität diese nicht verbürgen kann. Ostroff & Schmitt (1987) stellten fest, daß trotz befriedigender Inhaltsvalidität die Vorhersagevalidität sehr gering sein kann. Ein weiterer Grund für die Ermittlung der Kontentvalidität als die Angemessenheit von Schlüssen zu überprüfen, ist die Fairneß gegenüber dem Bewerber. Besonders in Amerika ist der Nachweis, daß ein Auswahlverfahren tatsächlich den Anforderungen der beruflichen Position entspricht, wichtig und wird auch in Europa zunehmend an arbeitsrechtlicher Bedeutung gewinnen. Damit ein Verfahren allgemein akzeptiert wird, muß es Augenscheingültigkeit für den Bewerber haben. Zudem sollen durch die Repräsentativität der Übungen dem Kandidaten realistische Informationen bezüglich seiner künftigen Tätigkeit vermittelt und das AC-Verfahren als Trainings- oder Personalentwicklungsmaßnahme verwendbar gemacht werden. Um die Validität eine AC-Übung einschätzen zu können, ist hohe Reliabilität des Expertenurteils wichtig. Deshalb ist es besser, mehrere Experten zu Rate zu ziehen, zwischen denen eine Beurteilerübereinstimmung berechnet werden kann. Eine Übung sollte im AC nur eingesetzt werden, wenn sie zusätzliche Varianz aufklären kann, was dann der Fall ist, wenn die Übungen untereinander wenig, aber zum Gesamtergebnis hoch korrelieren. Nach einer Studie von Geilhardt & Kurtz (1988) korrelieren AC-Übungen untereinander niedrig bis mittelhoch (r = -.26 bis .30), während die Einzelübungen mit dem Gesamtergebnis mittelhoch bis hoch (r = .33 bis .70) korrelierten.

Demnach sind die Einzelübungen unabhängig von einander (messen nicht das gleiche) und tragen einen eigenen Teil zur Aufklärung der Gesamtvarianz bei. Des weiteren kann zur Einschätzung der inneren Validität die Korrelation der Einzelübung mit einem Erfolgskriterium (z.B. Aufstieg im Unternehmen) betrachtet werden. In verschiedenen Studien ergaben sich folgende Ergebnisse für die folgende Einzelübungen:

- Papier-und-Bleistift-Tests (Selbstbeurteilungen, Inventare): Tests intellektueller Fähigkeiten, von Wahrnehmungsvermögen und Persönlichkeitstests können Führungsqualität nur in mäßigem Umfang voraussagen. Die Validitätskoeffizienten liegen durchschnittlich bei .30 bis .35, d.h.. Papier-und-Bleistift-Tests können nur 10-12% der Varianz im Kriterium voraussagen (Ghiselli, 1966). Campbell et al. (1970) gehen von 30-50% aus, was als obere Grenze der Möglichkeiten dieser Tests angesehen wird.
- Intelligenztests: Die Ergebnisse hierzu sind nicht eindeutig aufgrund der großen Vielfalt der verwendeten Tests, die auf verschiedenen Führungsebenen verwendet wurden. Daher kann kein verallgemeinerndes Urteil zu Intelligenztests abgegeben werden. Jedoch scheint es berechtigt, einige Intelligenztests in AC aufzunehmen, da sie sich in einigen Studien als voraussagekräftig erwiesen (Thornton, 1982).
- Persönlichkeits- und Interessentests: Sie können das Kriterium nur mäßig bis wenig voraussagen. Da Anforderungsanalysen zeigen, daß affektive und interpersonale Charakteristika eine wichtige Rolle in einer Führungsposition spielen, erklärt sich die mangelnde Inhaltsvalidität der Persönlichkeitstest möglicherweise dadurch, daß solche Tests ungeeignete Techniken sind, um diese Konstrukte zu messen. Persönlichkeitstests wurden in den Anfängen des AC häufig verwendet. Nicht nur wegen ihrer geringen Validität, sondern auch wegen der Gefahr, durch sie die Privatsphäre des Bewerbers zu verletzen, werden sie heute nicht mehr verwendet.
- Projektive Tests: Es gibt nicht genug Studien, um eine Aussage über projektive Verfahren zu machen, die sich in einigen AC-Studien als voraussagekräftig erwiesen. Betrachtet man aber den mangelnden Erfolg dieser Verfahren in anderen Studien, die hohen Kosten, den großen Aufwand und die geringe Augenscheinvalidität, so scheint es nicht angemessen, projektive Tests als Übungen in AC-Programme aufzunehmen (Thornton, 1982).
- Interview: Das im AC verwendete Interview, das sich vom normalen Einstellungsgespräch unterscheidet, ist inhaltlich valide. Es wird aber nur selten eingesetzt, weil es Beschreibung von früherem Verhalten liefert, während die anderen AC-Übungen Information aus direkt beobachtbarem Verhalten ziehen (Thornton, 1982).
- Führerlose Gruppendiskussion: Diese Übung trägt substantiell zum Gesamtergebnis des AC bei und kann späteren Berufserfolg voraussagen. Die Forschung empfiehlt, die führerlose Gruppendiskussion in AC für das mittlere und höhere Management einzusetzen (Thornton, 1982).
- Management-Spiele & führerlose Gruppenaufgaben (z.B. Keyboard Problem): In den wenigen Studien, die es zu diesem Thema gibt, zeigte sich diese Übung valide. Da es aber eine Vielzahl von Spielen gibt, sind weitere Untersuchungen notwendig, um zu zeigen, daß es gerechtfertigt ist, diese zeitaufwendige Übung einzusetzen (Thornton, 1982).
- Postkorb: Die wenigen Studien zu dieser Übung zeigen, daß der Postkorb ein valides Verfahren ist, wo seine Anforderungsdimensionen mit den Zieldimensionen übereinstimmen, d.h. er ist nicht für alle Berufsgruppen gleich gut geeignet (Thornton, 1982). Allerdings hat der Postkorb eine hohe Augenscheinvalidität (Meyer, 1970), so daß diese Übung sehr oft eingesetzt wird.
- Signs versus Samples: "Signs" nennt man Tests, Fragebögen etc., während unter "Samples" Beobachtungen des Verhaltens z.B. durch Postkorbübungen zu verstehen sind. Die beiden Typen von Meßinstrumenten korrelieren miteinander wenig, aber beide liefern reliable und valide Meßdaten. Die Frage, welche Art von Instrument besser ist, bleibt ungeklärt, weil sowohl traditionelle Tests als auch situative Übungen einen eigenen Beitrag zum Gesamtergebnis liefern und späteren Berufserfolg vorhersagen können (Thornton, 1982).
- Konstruktvalidität

Beim AC wird vom Verhalten in der Testsituation auf Fähigkeiten, Dispositionen und Persönlichkeitsmerkmale, d.h. auf nicht direkt beobachtbare Konstrukte geschlossen. Ist das AC konstruktvalide, dann wird durch das Verfahren tatsächlich das Konstrukt erfaßt, daß man zu messen beabsichtigt. Das ist besonders wichtig bei Potentialanalysen (individuelle Stärken-/ Schwächenanalysen), wie sie in der Personalentwicklung eingesetzt werden. Das Vorgehen bei der Validierung besteht darin, das Konstrukt, als dessen Indikator das Testverhalten angesehen wird, in ein nomologisches Netz einzubetten. Dabei wird das relevante Konstrukt in Beziehung gesetzt zu theoretisch entfernten und theoretisch verwandten Konstrukten. Dies kann mit verschiedenen Methoden geschehen (LISREL, Faktorenanalyse, Multitrait-Multimethod, Korrelation mit einem Außenkriterium, Untersuchung von Gruppenunterschieden, experimentelle Variationen, Testwiederholung & Itemanalyse). Durch dieses Vorgehen wird die Frage beantwortet, was das Verfahren eigentlich mißt; wie verläßlich erfaßbar und hinlänglich voneinander abgrenzbar die im AC beurteilten Konstrukte sind. Selbst wenn das Verfahren Berufserfolg sehr gut vorhersagen würde, erübrigt sich die Klärung dieser Frage nicht, weil die (vermeintliche) prädiktive Validität auf die gleiche Wirksamkeit eines Stereotyps in Prädiktor und Kriterium ohne tatsächlichen Leistungsbezug verursacht werden könnte. Bisherige Studien zur Konstruktvalidität von AC zeigten, daß diese nicht gegeben ist, d.h. es ist bisher ungeklärt, was den Urteilen der Beobachter zugrunde liegt - diejenigen Eigenschaften, die man eigentlich damit zu erfassen behauptet, sind es allenfalls zum Teil (Schuler, 1987). In einer Arbeit von Bycio, Hahn & Alvares (1987), in der mittels LISREL vier Modelle auf ihre Passung zu den Ergebnissen von AC überprüft wurden, ergab sich für keines der Modelle optimale Passung. Zudem wurde festgestellt, daß die Ratings zu großen Anteilen (wenn nicht sogar vollständig) situationsspezifisch waren und die situationsübergreifenden Fähigkeiten, die gemessen werden sollten, nicht abbildeten. In Korrelationsanalysen von Neubauer (1989) war die Übereinstimmung der Merkmale innerhalb einer Übung immer größer als die Übereinstimmung der Merkmale verschiedener Übungen; in Faktorenanalysen ergaben sich stets Übungsfaktoren und keine Merkmalsfaktoren. Sackett & Dreher (1982) führten Multitrait-Multimethod-Analysen zur Konstruktvalidität des AC durch und ermittelten dabei eine durchschnittliche Korrelation zwischen Eigenschaften der gleichen Bezeichnung (gibt Hinweis auf die konvergente Validität) von .07, während Einstufungen verschiedener Merkmale innerhalb der gleichen Aufgabe (fi diskriminante Validität) zu .64 korrelierten. Dies widerspricht dem Grundgedanken der Multitrait-Multimethod-Matrix, demnach die Messungen des gleichen Merkmals mit verschiedenen Methoden (Konvergenz) hoch, die Messung verschiedener Merkmale mit der gleichen Methode (Diskriminanz) niedrig korreliert sein sollten.

Demnach werden die Anforderungsdimensionen nicht transsituational erfaßt (keine konvergente Validität) und sind auch innerhalb der einzelnen Übungen nicht hinreichend differenzierbar (keine diskriminante Validität). Scholz & Schuler (1993) stellten die Frage, welche Konstrukte das AC mißt, wenn nicht die intendierten Konstrukte. In ihrer Metaanalyse versuchten sie diejenigen Eigenschaften zu identifizieren, die mit dem Ergebnis des AC kovariieren. Sie fanden allgemeine Intelligenz als den besten Prädiktor ( r = .33). Am nächst höchsten korrelierten soziale Kompetenz, Leistungsmotivation, Selbstvertrauen und Dominanz (r = .31 bis .23). Die Metaanalyse kann aber nicht erklären, warum die intendierten Konstrukte vom AC-Verfahren nicht erfaßt werden. Für fehlende Konstruktvalidität des AC werden Beurteilungsprozesse verantwortlich gemacht, die auch die anderen Arten der Validierung beeinflussen. Das AC ist darauf ausgerichtet, Information zu erfassen, die nicht durch Zeugnisse oder ähnliches nachgewiesen werden kann: sogenannte "Faktoren der Verhaltenskompetenz". In verschiedenen Teilübungen werden Verhaltensweisen beobachtet, zu vorher festgelegte Anforderungsdimensionen gebündelt und anschließend bewertet. Dabei kommt es zu Prozessen, die die Validität des Verfahrens ungünstig beeinflussen. In verschiedenen Studien, die sich verschiedener Methoden bedienten (Regressionsanalyse, Faktorenanalyse, Multitrait-Multimethod, LISREL), zeigte es sich, daß die Beobachter trotz ausdrücklicher Aufforderung in der Instruktion und trotz Beobachterschulung nicht in der Lage sind, ausreichend zu differenziert auf den einzelnen Anforderungsdimensionen zu beurteilen. Die Kandidaten wurden eher global als differenziert nach den vorgegebenen Dimensionen beurteilt. Von den vorgegebenen Dimensionen wurde nur ein Teil oder auch gar nichts benutzt oder es wurden einige Dimensionen stärker / schwächer gewichtet als andere (z.B. Führungsqualität, Planung & Organisation werden in der Regel stärker, administrative Fähigkeiten, Streßwiderstandskraft werden schwächer gewichtet). Die Beobachter differenzierten aufgabenspezifisch. D.h. die Beobachter bewerteten die Kandidaten auf verschiedenen Anforderungsdimensionen einer Übung sehr ähnlich und auf identischen Anforderungsdimensionen in verschiedenen Übungen sehr unähnlich. Neidig & Neidig (1984) widersprechen der Interpretation, dies als Gegenargument zur inhaltlichen Validität zu sehen. Nach ihrer Sichtweise stellen die Übungen unterschiedliche Situationen dar, in denen wahre Unterschiede im Verhalten auftreten und somit keine Konstruktions- oder Beobachtungsfehler verkörpern. Silvermann et al. (1986) schlagen vor, die Urteilsvergabe ans Ende des AC zu verlegen, womit sie in ihrer Studie höhere konvergente und diskriminante Validitäten erzielten. Mehr-Rater-Methoden erwiesen sich allgemein dem Einzelurteil überlegen (Funke & Schuler, 1986). Kavanagh et al. (1971) fordern eine radikale Einschränkung der Anzahl der zu bewertenden Eigenschaftsdimensionen. Zur Beantwortung der Frage, warum das AC nicht konstruktvalide (d.h. die intendierten Konstrukte nicht erfaßt) und trotzdem prognostisch valide ist, wurden einige Studien (Kleinmann, 1993, 1994) gemacht. Diese machten die Annahme, daß AC- Verfahren nicht konstruktvalide, aber prognostisch valide sind, weil sich die Teilnehmer nicht an die Vorstellungen und Instruktionen der Konstrukteure dieser Verfahren halten. Den Teilnehmern sind weder die Beurteilungsdimensionen bekannt noch die dafür relevanten Verhaltensweisen. Aus gutem Grund möchten sie möglichst gut bewertet werden und versuchen, dies herbeizuführen: durch Vorerfahrung mit AC, dem Image der Firma, Verhalten der Beobachter etc. wird den Kandidaten ein Eindruck vermittelt, was die Anforderungen an ihr Verhalten darstellen (könnten) und sie verhalten sich entsprechend den von ihnen vermeintlich erkannten "demand characteristics" (impression management). Kleinmann (1993) überprüfte die Transparenz der AC-Dimensionen für die Teilnehmer und stellte dabei fest, daß keine Anforderungsdimension von allen Kandidaten als relevant erkannt worden war. Einige Teilnehmer waren besser in der Lage, die Anforderungen wahrzunehmen und diese Personen schnitten besser im AC ab, was mit den Ergebnissen von Scholz (1992) übereinstimmt, der bei erfolgreichen AC-Teilnehmern ein hohes Maß an sozialer Kompetenz feststellte. Nimmt man an, daß Erfolg im Beruf auch davon beeinflußt wird, daß jemand die beförderungsrelevanten Dimensionen erkennt, erklärt dies, daß erfolgreiche AC-Teilnehmer beruflichen Erfolg haben, d.h. die prognostische Validität des Verfahrens. Für die Konstruktvalidität bedeutsam zeigte es sich, daß sich unter Berücksichtigung der Transparenz der Anforderungen die konvergenten Validitäten erhöhten. Die gleichen Dimensionen wurden über verschiedene Übungen hinweg homogener beurteilt, vorausgesetzt die Teilnehmer hatten die Dimensionen als gleich erkannt. Das bedeutet, daß Beobachter sehr wohl in der Lage sind, Teilnehmerverhalten zu einer Anforderungsdimension über verschiedene Übungen hinweg als konsistent zu beurteilen, wenn die Teilnehmer die bewertete Dimension in den einzelnen Übungen erkannten (Schuler, 1989). Ziel einer zweiten Studie (Kleinmann, 1994) war es, den Einfluß der Bekanntgabe der Anforderungsdimensionen mit den zugehörigen Verhaltensindikatoren auf die Konstruktvalidität zu prüfen. Die Bekanntgabe könnte die Kandidaten zur Schauspielerei veranlassen, so daß wahre Fähigkeiten der Personen nicht mehr meßbar wären. Schauspielerei hat aber ihre Grenze an der maximalen Verhaltensfähigkeit, welche die AC-Anwender besonders interessiert. Zudem würde sich die Akzeptanz des AC-Verfahrens bei den Kandidaten weiter verbessern, weil sie durch die Bekanntgabe der Anforderungsdimensionen ein stärkeres Gefühl der Kontrolle haben würden. Es zeigte sich, daß die Kriteriumsvalidität bei der Bekanntgabe der Anforderungsdimensionen bedeutsam abnimmt. Damit wurde der vermutete Wirkmechanismus - das Erkennen relevanter, weil bewerteter Anforderungsdimensionen und Verhaltensweisen im Prädiktor (AC-Übung) und Kriterium (Berufserfolg) - empirisch belegt werden. Die Konstruktvalidität nahm dagegen zu. Für die Anwendung bedeutet dies, je nach Anwendungsbereich die Optimierung der prognostische gegen die der Konstruktvalidität abgewägt werden muß. Für Personalauswahl sollte die prädiktive Validität maximiert werden, d.h. die Anforderungsdimensionen müssen für die Teilnehmer unbekannt bleiben. Für Personalentwicklungszwecke wäre Transparenz der Dimensionen zu empfehlen, um die Konstruktvalidität zu erhöhen; des weiteren wird das Unterlassen der Beobachterrotation (Lammers, 1994) oder die Optimierung der Rotation durch ein Rotationsschema (Andres & Kleinmann, 1993) empfohlen. Zur Personalauswahl wird vorgeschlagen "soziale Urteilskompetenz" durch einen Test oder eine AC-Übung messen zu lassen, was dazu dienen könnte, die Fähigkeit, demand characteristics zu erkennen, von der Ausprägung der eigentlich zu beobachteten Fertigkeit zu trennen.

- Abschließende Bemerkungen

Zusammengefaßt läßt sich sagen, daß AC-Verfahren eine vergleichsweise hohe prädiktive Validität unter den eignungsdiagnostischen Verfahren (r = .37, s ² = .017) besitzen und Kriterien des Berufserfolgs vergleichsweise gut vorhersagen können (Thornton et al., 1992). Die inhaltliche Validität des AC-Verfahrens ist ebenfalls gegeben, welche nicht durch eine einzelne Übung allein, sondern durch die Addition mehrerer, verschiedenartiger Übungskategorien erzielt wird. Allerdings ist bisher noch nicht geklärt, was das AC wirklich mißt, d.h. es ist nicht konstruktvalide. Dies kann darauf zurückgehen, daß sich die Teilnehmer (Beobachter & Kandidaten) nicht so verhalten, wie es die Konstrukteure des Verfahrens vorgesehen haben. Bei der Darstellung der verschiedenen Validierungsarten zeigt sich, daß es bei den Validierungstechniken Überschneidungen (z.B. Korrelation mit einem Kriterium sowohl zur Kriteriums- als auch Konstruktvalidierung) gibt. Das ist ein Grund, weswegen die konventionelle Unterscheidung der drei Validitätsarten nach Cronbach und Meehl (1955) angezweifelt wird. Es gibt die Meinung, daß nicht eigentlich unterschiedliche im Sinn von bedeutungsverschiedene Arten von Validität getrennt werden können, sondern Validierungsstrategien, d.h. verschiedene Meßoperationen, die geeignet sein sollen, Hinweise auf Validität ( = Sicherheit oder Angemessenheit von Schlußfolgerungen) zu sammeln (Ghiselli, 1964). Üblicherweise wird dennoch von Kriteriums-, Inhalts- oder Konstruktvalidität gesprochen, weil dies eine sprachliche Vereinfachung bedeutet, und weil nicht in allen Fällen von Validierung alle Strategien einsetzbar sind.

Ende der Leseprobe aus 6 Seiten

Details

Titel: Kriteriums-, Inhalts- und Konstruktvalidität von Assessment-Center-Verfahren
Hochschule: Justus-Liebig-Universität Gießen (Fachbereich Psychologie)
Autor: Karin Jaeger (Autor:in)
Jahr: 1999
Seiten: 6
Katalognummer: V95914
ISBN (eBook): 9783638085922
Dateigröße: 345 KB
Sprache: Deutsch
Anmerkungen: Zur Berufseignungsdiagnostik
Schlagworte: Kriteriums-, Inhalts-, Konstruktvalidität, Assessment-Center-Verfahren, Gießen, Fachbereich, Psychologie

Arbeit zitieren: Karin Jaeger (Autor:in), 1999, Kriteriums-, Inhalts- und Konstruktvalidität von Assessment-Center-Verfahren, München, GRIN Verlag, https://www.grin.com/document/95914

Kommentare