Lade Inhalt...

Leistungsbeurteilung / Konstruktion von Behavioral Observation Scales

Ausarbeitung 2000 14 Seiten

Psychologie - Allgemeine Psychologie

Leseprobe

Leistungsbeurteilung

1 Was ist Leistungsbeurteilung

Leistungsbeurteilungen sind ein wichtiges Instrument der Organisations- und Personalentwicklung. Klassischerweise bedeutet Leistungsbeurteilung die formelle Beurteilung der sachlichen Arbeitsleistung (z.B. Produktivität) einer Einzelperson durch einen Vorgesetzten.

Eine offenere Sichtweise der Leistungsbeurteilung umfaßt zusätzlich Selbstbeurteilung, peer-to-peer-Beurteilung, die Beurteilung der Verhaltensergebnisse von Organisationseinheiten (statt Einzelpersonen) sowie die Beurteilung der Verhaltens- oder Ergebnisqualität (statt nur der sachlichen Arbeitsleistung). Weitere Spielarten der Leistungsbeurteilung sind die Beurteilung von Vorgesetzten durch ihre Untergebenen sowie die sogenannten 360°-Beurteilungen, bei denen sich ein Vorgesetzter durch Personen in verschiedenen Positionen beurteilen läßt.

2 Funktionen von Leistungsbeurteilung

Leistungsbeurteilungen werden in unterschiedlichen Einsatzgebieten und mit unterschiedlichen Zielsetzungen vorgenommen. Die gängigsten Einsatzgebiete werden im Folgenden aufgezählt.

- Entlohnung
- Leistungsverbesserung durch Verhaltenssteuerung
- Planung, Auswahl und Gestaltung von Maßnahmen der Personalentwicklung
- Personelle Entscheidungen
- Gestaltung von Arbeitsbedingungen
- Verbesserung der Führungskompetenz der Vorgesetzten
- Evaluation von Selektionskonzepten, personellen Entscheidungen, Maßnahmen der PE, Programmen der OE, Anreiz- und Verstärkungssystemen

Nicht alle dieser Zielsetzungen sind untereinander kompatibel und mittels der gleichen Methoden zu erreichen. Eine gehaltsbezogene Beurteilung wird in der Regel nicht gleichzeitig als Verfahren der Personalentwicklung verwendet werden können: im Zuge eines gehaltsbezogenen Verfahrens liegt es im Interesse der Mitarbeiter, sich als möglichst kompetent darzustellen, während es im Zuge der Personalentwicklung darum gehen kann, den Entwicklungsbedarf der Mitarbeiter herauszustellen, um entsprechende Fördermaßnahmen in die Wege zu leiten.

Es ist daher notwendig, die Zielsetzung(en) der Leistungsbeurteilung im Vorfeld der Implementierung zu explizieren, um das Verfahren für die Mitarbeiter durchsichtiger zu machen und Befürchtungen und Ängsten im Vorfeld möglichst wenig Raum zu geben.

Welche Methode für welchen Zweck?

Welche Zielsetzungen widersprechen sich?

Wirkungen von Leistungsbeurteilung Information über Anforderungen Information über Arbeitsausführung Fehlerkorrektur

Lernen

Reduktion von Unsicherheit Kognitive Reaktionen

Emotionales Reaktionen (Freude, Ärger)

Motivationale Reaktionen (Motivierung, Demotivierung)

3 Einführung von Leistungsbeurteilung in Organisationen

Eine sorgfältig geplante und durchgeführte Einführung eines LeistungsbeurteilungsKonzepts ist entscheidend für seine Akzeptanz bei den Betroffenen. Dabei sollten sowohl die (beurteilenden) Führungskräfte als auch die (beurteilten) Mitarbeiter berücksichtigt werden.

Informationen über ein neues Leistungsbeurteilungs-Konzept können über Firmenzeitschriften, Betriebsversammlungen oder Broschüren vermittelt werden.

Dabei sollten das Beurteilungsverfahren sowie seine Zielsetzung(en) erläutert werden. Die Einführung von Verfahren zur Leistungsbeurteilung ist mit vielfältigen Ängsten auf der Seite der Belegschaft verbunden, denen durch ausreichende Information und Transparenz entgegengewirkt werden sollte. Sonst besteht die Gefahr, daß die Mitarbeiter das neue Verfahren noch vor seiner Implementierung zu boykottieren beschließen und es auf diese Weise nie seinen Bestimmungszweck erfüllen wird.

Nicht nur auf der Seite der Beurteilten gibt es Vorbehalte gegen Leistungsbeurteilung. Auch auf Seiten der Beurteiler, also in der Regel der Vorgesetzten, ist häufig eine Abneigung gegen Leistungsbeurteilungsverfahren vorhanden. Besonders die regelmäßig zu führenden Beurteilungsgespräche mit den Mitarbeitern stellen eine Belastung für die Vorgesetzten dar. Dabei fallen sowohl der zeitliche Aufwand als auch die als unangenehm empfundene Situation des Beurteilungsgesprächs selbst in Gewicht. Aus diesem Grund ist es sinnvoll und notwendig, ausreichende Schulungsmaßnahmen für die Beurteiler einzuplanen, bei denen sie mit dem Beurteilungsinstrument vertraut werden und Beurteilungsgespräche üben können.

4 Formen der Leistungsbeurteilung

4.1 Kriterien der Leistungsbeurteilung

Von großer Bedeutung für die Entwicklung reliabler und valider Verfahren zur Leistungsbeurteilung ist die Definition relevanter Kriterien für die Diagnose angemessenen oder unangemessenen Verhaltens. Als Leistungsmaße kommen in Frage:

- Tätigkeiten
_ Kenntnisse
_ Ziele
_ Ergebnisse
_ Verhalten
_ Fähigkeiten/ Eigenschaften

Im Folgenden soll nur auf die Beurteilung von sind Ergebnissen, Verhalten und Eigenschaften eingegangen werden, da sie besonders wichtige Beschreibungsebenen der Leistungsbeurteilung darstellen.

Ergebnisorientierte Beurteilungen

Ergebnisorientierte Beurteilungsmethoden verwenden objektiv meßbare Ergebniskriterien wie Verkaufs- und Umsatzzahlen, Fluktuationszahlen und Fehlzeiten, Ausschußraten und Reklamationen. Ergebniskriterien orientieren sich meist an den Zielen der Organisation und weniger an konkreten Verhaltensweisen der Beurteilten. Ergebniskriterien werden daher häufig dort eingesetzt, wo konkrete Verhaltensweisen nicht ausschlaggebend sind, da die Ziele auf unterschiedlichen Wegen erreicht werden können.

Vorteilhaft bei ergebnisorientierten Beurteilungen sind die Transparenz der Leistungsanforderungen, der Verhaltensspielraum, welcher den Mitarbeitern zur Erreichung der Ziel bleibt, sowie die Anwendbarkeit auf Gruppen oder Einzelpersonen.

Nachteile liegen in der naheliegenden Überbewertung des zähl- und meßbaren gegenüber weniger leicht zu konkretisierenden Zielen, sowie in der Schwierigkeit die häufig gemeinschaftlich erarbeiteten Ergebnisse einzelnen Personen zuzurechnen, da man den Beitrag des Einzelnen oft nicht kennt. Zusätzlich ist die Gegensteuerung bei Zielabweichungen schwieriger, da der Informationsgehalt einer ergebnisbezogenen Zielsetzung geringer ist als bei einer verhaltensbezogenen Zielsetzung (nur Information darüber, was erreicht werden soll, nicht aber, wie es erreicht werden soll).

Verhaltensbezogene Beurteilungen

Verhaltensbezogene Beurteilungen sind ebenso wie ergebnisorientierte Beurteilungen weit verbreitet. Verhaltensbezogene Beurteilungen setzen voraus, daß man weiß, welche Verhaltensweisen erfolgreich sind.

Verhaltensbezogene Beurteilungen enthalten Informationen über erwünschtes Verhalten und sind daher zur Verhaltenssteuerung und Leistungsverbesserung geeignet. Schwierigkeiten liegen in der notwendigen Beobachtung des Verhaltens, die nicht immer realisierbar ist. Damit in Zusammenhang steht auch das Problem, daß angebliche Verhaltensbeurteilungen häufig tatsächlich nur verkappte Eigenschaftseinschätzungen sind, weil Beurteiler von globalen Eigenschaftseinschätzungen auf konkretes Verhalten schließen, anstatt tatsächliches Verhalten zu beobachten. Ein weiterer Nachteil verhaltensbezogener Beurteilungen ist die Einengung des Verhaltensspielraums der Mitarbeiter durch die Vorgabe erwünschter Verhaltensweisen.

Eigenschaftsbezogene Beurteilungen

Eigenschaftsbezogene Beurteilungen werden überwiegend dann vorgenommen, wenn Verhalten nicht beobachtbar und (Ergebnis-) Ziele nicht erfaßbar sind. Sie beziehen sich häufig auf Fähigkeiten oder andere als relativ stabil geltende Personmerkmale.

Eigenschaftsbezogene Beurteilungen sind meist sehr allgemein und daher für viele verschiedene Anforderungssituationen anwendbar. Gleichzeitig sind die Urteile sehr subjektiv und nicht ausschließlich auf leistungsrelevante Aspekte beschränkt. Als Leistungsfeedback und zur Verhaltenssteuerung sind eigenschaftsbezogene Beurteilungen wenig geeignet.

4.2 Beurteilungsverfahren

4.2.1 Freie Eindrucksschilderungen

Nicht in allen Fällen werden formale Beurteilungsverfahren für die Beurteilung beruflicher Leistung herangezogen. Oftmals stellen formlose Notizen, also freie Eindrucksschilderungen, die Grundlage von Feedback-Gesprächen dar.

Mindestanforderungen an Vergleichbarkeit und Belegbarkeit der Beurteilungen können dann erfüllt werden, wenn durch Absprachen sichergestellt ist, daß in vergleichbaren Fällen auch vergleichbare Urteilsaspekte verwendet werden.

Werden höhere Ansprüche an die Reliabilität und Validität der Beurteilungen gestellt, so verwendet man meist gebundene Urteilstechniken in Form von Skalierungsmethoden.

4.2.2 Einstufungsverfahren

Einstufungsverfahren sind in Wirtschafts- und Verwaltungsorganisationen weit verbreitet, obgleich sie - wie später noch zu sehen sein wird - zum Teil schwerwiegende methodische Mängel aufweisen.

Die Leistungsbeurteilung erfolgt durch Einstufung von Verhaltensmerkmalen, Eigenschaften oder Ergebnissen auf mehreren fünf- bis neunstufigen Skalen. Die Skalenstufen sind dabei gewöhnlich durch Zahlenwerte, Adjektive, Adverbien oder Verhaltensbeschreibungen verankert. Diese Verankerung der Skalenstufen soll zur Verringerung von Urteilstendenzen (Tendenz zur Mitte, Strengeeffekt, Mildeeffekt) beitragen, die bei Einstufungsverfahren besonders häufig sind. Derartige Urteilstendenzen können die Vergleichbarkeit von Beurteilungen völlig zunichte machen. Insgesamt kommen 5 bis 20 derartiger Skalen bei der Beurteilung eines Leistungsbereiches zu Einsatz.

Verhaltensverankerte Einstufungsskalen

Mit Hilfe der verhaltensverankerten Einstufungsskalen von Smith & Kendall versucht man Urteilstendenzen entgegenzuwirken. Den Skalenwerten werden Beispiele für positives, wertneutrales und negatives Verhalten beigefügt, die zumeist aus Anforderungsanalysen stammen. Der Konstruktionsaufwand für verhaltensverankerte Einstufungsskalen ist allerdings vergleichsweise hoch.

Verhaltensbeobachtungsskalen

Die Verhaltensbeobachtungsskalen von Latham & Wexley sind einfacher aufgebaut als die verhaltensverankerten Einstufungsskalen und auch leichter zu handhaben. Es handelt sich um fünfstufige Likert-Skalen, deren Extrempunkte mit adverbialen Häufigkeitsbezeichnungen (,,fast nie", ,,fast immer") markiert sind. Die Skalen werden auf arbeitsanalytischem Weg gewonnen und sollen nur beobachtbares Verhalten erfassen. Verhaltensbeobachtungsskalen sind relativ reliabel, und ihre Akzeptanz ist höher als die der graphischen Einstufungsverfahren.

4.2.3 Kennzeichnungs- und Auswahlverfahren

Bei den Kennzeichnungs- und Auswahlverfahren werden die Verhaltensaussagen nicht nach Beurteilungsdimensionen geordnet, sondern gemischt vorgegeben. Dadurch sollen Halo-Effekte vermieden werden. Zusätzlich sind den Beurteilern die im Vorfeld festgelegten Skalenwerte der einzelnen Aussagen in der Regel unbekannt, was Mittelwerttendenzen vermeiden soll.

Gemischte Aussagenliste mit freier Wahl

Bei den gemischten Aussagelisten mit freier Wahl geben die Beurteiler an, welche der vorliegenden Aussagen auf den zu Beurteilenden zutreffen. Aus den vorgegebenen Skalenwerten der einzelnen Aussagen kann ein Gesamtwert ermittelt werden.

Gruppierte Aussagenliste mit Wahlzwang

Bei der gruppierten Aussagenliste mit Wahlzwang muß der Beurteiler aus zwei oder mehreren anscheinend gleichwertigen Aussagen diejenige auswählen, die für den Beurteilten am ehesten zutrifft. Die Aussagen sind tatsächlich nicht gleichwertig, da sie sich als für den Arbeitserfolg unterschiedlich bedeutsam herausgestellt haben. Der Gesamtwert ergibt sich aus der Gewichtung der einzelnen Aussagen. Die Konstruktion von Wahlzwang-Verfahren ist relativ aufwendig und die Akzeptanz bei Beurteilern und Beurteilten eher gering.

4.2.4 Rangordnungsverfahren

Rangordnungsverfahren dienen in erster Linie zur Differenzierung zwischen Personen oder Gruppen, die bei Einstufungsverfahren nicht gewährleistet ist. Rangordnungen sind relativ reliabel und können Gesamtbewertungen deutlich zum Ausdruck bringen.

Direkte Rangreihenbildung

Die zu beurteilenden Personen / Gruppen / Institutionen werden gemäß einem

vorgegebenen Kriterium (zB Gesamtbeurteilung oder einzelne Leistungsdimensionen) in eine Reihenfolge gebracht.

Paarvergleich

Beim Paarvergleich werden vor der eigentlichen Rangreihenbildung alle möglichen Paare gebildet und bezüglich ihrer Leistung verglichen. Die Rangreihe ergibt sich dann aus der Auswertung aller möglichen Paarvergleiche. Dieses Vorgehen erhöht die Reliabilität der Ergebnisse, ist aber nur bei kleinen Zahlen von Personen möglich, da die Zahl der Paarvergleiche mit steigender Anzahl der zu Beurteilenden rapide ansteigt und somit unpraktikabel wird.

Quotenvorgabe

Bei der Quotenvorgabe wird eine verbindliche Verteilung vorgegeben, an der sich die Beurteilungen orientieren müssen. Es handelt sich zumeist um eine Rangordnung, deren mittlere Rangplätze mehrfach zu vergeben sind. Eine mögliche vorgegebene Verteilung ist die Normalverteilung.

Die Quotenvorgabe soll Urteilstendenzen entgegenwirken. Bei geringer Anzahl der zu beurteilenden Personen findet die Quotenvorgabe jedoch nur geringe Akzeptanz, da die positive Bewertung eine Person zwangsläufig die negative Bewertung einer anderen Person nach sich zieht (Nullsummencharakter).

Verhaltensrangprofil

Das Verhaltensrangprofil (Brandstätter & Schuler, 1974) dient dem direkten Vergleich zwischen Arbeitsanforderungen und Personmerkmalen. Gleichzeitig soll damit einer mangelnden Differenzierung zwischen Urteilsaspekten entgegengewirkt werden (?). Beim Verhaltensrangprofil werden nicht Personen in eine Rangreihe gebracht, sondern Verhaltensweisen, Merkmale oder Ergebnisaspekte jeweils einer Person. Die Anforderungen des Arbeitsplatz werden ebenfalls in eine solche Rangreihe gebracht. Anschließend werden die beiden Rangreihen von Person und Arbeitsplatz mit

einander verglichen. Dieses Instrument eignet sich besonders für den Bereich der Personalentwicklung, da Diskrepanzen zwischen Person und Arbeitsplatzanforderungen festgestellt werden können. Andererseits kann es auch Hinweise für die Umgestaltung von Arbeitsplätzen entsprechend den Fähigkeiten und Interessen der Mitarbeiter liefern.

Die Urteilsaspekte für das Verhaltensrangprofil werden auf arbeitsanalytischem Wege gewonnen.

Sequentielle Prozentrangskala

Die sequentielle Prozentrangskala wurde ebenfalls von Brandstätter & Schuler (1974) als Ergänzung zum Verhaltensrangprofil vorgeschlagen. Sie soll Vergleiche zwischen Personen bezüglich des Höhe des Leistungsniveaus ermöglichen. Die sequentielle Prozentrangskala differenziert im oberen Leistungsbereich genauer als im unteren Leistungsbereich.

4.3 Ebenen der Leistungsbeurteilung

Wie weiter oben schon erwähnt, stellen die verschiedenen Funktionen und Ziele von Leistungsbeurteilung verschiedene Ansprüche an die Methoden der Leistungsbeurteilung. Um die z.T. widersprüchlichen Anforderungen an Leistungsbeurteilung zu entzerren, schlägt Schuler eine Unterscheidung in drei grundsätzliche Ebenen des Beurteilens vor. Er nennt diese Ebenen Day-To-Day- Feedback, Regelbeurteilung und Potentialbeurteilung.

Day-To-Day-Feedback

Das Day-To-Day-Feedback ist nach Schuler die wichtigste Ebene der

Leistungsbeurteilung. Sie befaßt sich mit dem täglich beobachtbaren Arbeitsverhalten. Das Day-To-Day-Feedback soll helfen, Kontingenzen zwischen dem Verhalten und den Ergebnissen zu verdeutlichen. Es spielt besonders für die unmittelbare Verhaltenssteuerung eine große Rolle (auch Coaching).

Für das Day-To-Day-Feedback sind zumeist keine systematischen Verfahren der Leistungsbeurteilung notwendig. Wichtig ist hingegen die Fähigkeit, leistungsrelevantes Verhalten zu erkennen sowie konstruktives Feedback zu geben.

Regelbeurteilung

Die Regelbeurteilung soll längerfristige Ziele setzen. Gleichzeitig ist sie Grundlage für personell Maßnahmen wie Bezahlung, Förderungsplanung etc. Sie bedient sich zur besseren Vergleichbarkeit meist eines der Skalierungsverfahren, die weiter oben vorgestellt wurden. Im Beurteilungsgespräch im Zuge einer Regelbeurteilung orientiert man sich gerne an ,,objektiven,, Zielen wie zB Umsatzzahlen.

Potentialbeurteilung

Die Potentialbeurteilung dient der langfristigen Fähigkeitseinschätzung und Prognose der Leistungen einer Person. Gegenstand der Potentialbeurteilung ist daher weniger das, was bisher geleistet wurde, als das, was in Zukunft von einer Person erwartet werden kann, also ihre Fähigkeiten und andere erfolgsrelevante Eigenschaften. Eine verbreitete Form der Potentialbeurteilung ist das Assessment Center (dann auch Potential-AC oder Potentialanalyse genannt).

Ein vollständiges System der Leistungbeurteilung besteht aus allen drei Ebenen Day- To-Day-Feedback, Regelbeurteilung und Potentialbeurteilung. Dabei sollten die verschiedenen Ebenen nicht miteinander vermengt werden oder gar durch einander ersetzt werden. So kann z.B. eine Regelbeurteilung nicht das vernachlässigte Day-To- Day-Feedback ersetzen.

5 Konstruktion

5.1 Konstruktion von Instrumenten der Leistungsbeurteilung

Schritte der Konstruktion (Schuler, 1991):

1. Bestandsaufnahme: Analyse vorhandener Beurteilungsverfahren und Rahmenbedingungen
2. Zielformulierung: Partizipative Festlegung der wichtigsten angestrebten Funktionen
3. Nutzen-/Kosten-Kalkulation: Investitionsrechnung auf der Basis der geschätzten Validität und Leistungsvarianz; Abschätzung sozialer Wirkungen
4. Zielgruppen: Festlegung der Beurteiler und der zu Beurteilenden; Klärung von Partizipations- und Akzeptanzfragen
5. Arbeitsanalyse: Ermittlung der wichtigen Tätigkeiten und ihrer Verhaltensanforderungen
6. Beurteilungskriterien: Bestimmung der Ebenen und Maße; Ableitung der wichtigsten Kriterien aus der Arbeitsanalyse
7. Skalierungsverfahren: Wahl der Methode(n) entsprechend den Zielsetzungen und Möglichkeiten
8. Skalenkonstruktion: Sammlung und Zuordnung von Einzelaussagen zu Beurteilungskriterien; statistische Überprüfung
9. Probeverwendung: Erprobung an repräsentativen Gruppen; Auswertung und ggf. Modifikation
10. Beurteilertraining: Training bezüglich der Urteilsprozesse, der Verfahrensanwendung, der Gesprächsführung und Zielsetzung

- Individuen werden beobachtet und auf einer 5-Punkte-Skala bewertet, was die Häufigkeit des beschriebenen Verhaltens angeht
- Gesamtergebnis wird aus der Summe der Beurteilerantworten berechnet
- eine Itemanalyse (oder Faktorenanalyse, je nach Größe der Stichprobe) wird durchgeführt, um die am stärksten diskriminierenden Items herauszufinden: die Items, die am höchsten mit dem Gesamtscore der Skala korrelieren, formen ein Verhaltenskriterium.

5.2 Konstruktion von Verhaltensbeobachtungsskalen (VBS bzw. BOS, Behavioral Observation Scales; Latham & Wexley, 1977):

Der Konstruktionsvorgang von VBS basiert auf der CIT (Critical Incidents Technique, Flanagan, 1954). Es handelt sich um ein mehrschrittiges Verfahren: · Personen werden gebeten, je fünf Beispiele effektiven und ineffektiven Verhaltens zu nennen (Effektivität: Verhalten, das die Beobachter in der gegebenen Situation gern von allen Handelnden sehen würden; Ineffektivität: Verhalten, bei dessen wiederholtem Auftreten die Beobachter an der Kompetenz des Beurteilten zweifeln müßten). Zur Stichprobe gehören sowohl die später zu Beurteilenden als auch die späteren Beurteiler.

- ähnliche oder identische Ereignisse werden zu einem Verhaltensitem zusammengefaßt; ähnliche Verhaltensitems werden zu spezifischen Kriterien gruppiert.

- Reklassifikation und Erhebung der Interraterübereinstimmung: die Daten (Items und Kriterien) werden einem zweiten Rater vorgelegt. Dieser ordnet seinerseits die Items erneut den Kriterien zu. Die Übereinstimmung zwischen den beiden so erzeugten Skalen wird durch Auszählen ermittelt; Latham & Wexley schlagen eine apriori - Entscheidung vor, daß die Übereinstimmung bei .80 liegen muß; falls niedriger (d.h. falls die beiden Rater in weniger als 80% der Fälle die einzelnen Items den gleichen Skalen zugeordet haben): Überprüfen der Items, ob sie anderen Kriterien zugeordnet werden müßten

- Inhaltsvalidität: betrifft die Frage, ob ein Instrument eine repräsentative Stichprobe des interessierenden Verhaltens abdeckt. Zwei Möglichkeiten:

- vor der Kategorisierung 10% der Ereignisse beiseitelegen, nach Abschluß der Kategorisierung überprüfen, ob irgendein beschriebenes Verhalten noch nicht durch die Kategorien abgedeckt ist. Falls diese Untersuchung die Entwicklung eines neuen Kriteriums notwendig macht, muß die Hypothese verworfen werden, daß eine ausreichende Anzahl an Ereignissen gesammelt worden sei.

- Aufzeichnen, wie stark die Zahl der Verhaltensitems gegenüber der Zahl der klassifizierten Ereignisse ansteigt, also: wie sehr die (künstlich gebildeten) Items die (bei der Befragung genannten) Ereignisse erfassen; Kriterium: wenn 80% der Items auftauchen, sobald 75% der Ereignisse kategorisiert worden sind, ist das Instrument inhaltsvalide.

- Instrument wird konstruiert, indem an jedes Verhaltensitem eine fünfstufige LikertSkala gehängt wird, mit der die Beurteiler die Häufigkeit einschätzen, mit der das betreffende Verhalten von den Beurteilten gezeigt wird, z.B.:

Geht sofort auf Fragen aus dem Auditorium ein fast nie 1 2 3 4 5 fast immer

- bei Latham et al.: Beurteiler bekommen eine Beurteilerschulung, um Beurteilerfehler zu reduzieren (Halo, Strenge-/Milde-Effekt, Tendenz zur Mitte, Erster Eindruck, Kontrast)

- weiterführende Verbesserung bei Latham et al.:

- Eliminieren von Items, die nicht ausreichend zwischen gutem und schlechten Leistungen unterscheiden; konkret: Median <3.0 oder >4.0 (Median: es liegen gleich viele Beurteilungen über wie unter diesem Wert)

- Reliabilität: niedriges Alpha bei Skalen mit kleiner Itemanzahl, daher:

Reduktion der Skalen und Neuzuordnen der jetzt freien Iems, dadurch

Erhöhung von Alpha

- Zensurenanalogie: der Mittelwert über alle Skalen wird zur Beurteilung der Gesamteffektivität des beobachteten Verhaltens herangezogen

6 Qualität von Leistungsbeurteilungen

6.1 Gütekriterien

VBS sind sowohl reliabel als auch relevant/valide (Latham & Wexley, 1977).

Reliabilit ä t

Die Reliabilit ä t eines Tests ist definiert als die Genauigkeit, mit der ein Test das mißt, was er faktisch mißt, ohne Rücksicht darauf, was dieses ist (Eckmann, 1955, in W. Michel et al., 1982)

Die Reliabilität wird über Intra - und Inter raterübereinstimmung gemessen:

- Ronan & Latham (1974): Intra raterübereinstimmung (Übereinstimmung der

Bewertung durch einen Beurteiler im Abstand von einem Monat) >.5 bei 98,71% (Stichprobe 1) bzw. 82,05% (Stichprobe 2) der Beurteiler => Intraraterübereinstimmung wird als ausreichend angesehen

- Inter raterübereinstimmung: relativ niedrig für die einzelnen Verhaltensitems; für die Gesamtskalen: zwischen .43 und .67 bzw. zwischen .44 und .65

Ü bereinstimmungsvalidit ä t

Validit ä t: Grad der Genauigkeit, mit der der Test seinen Zweck erfüllt (Cronbach, 1971, in W. Michel et al., 1982)

Ü bereinstimmungsvalidit ä t: Der Grad der Genauigkeit, mit der aus den Ergebnissen eines Tests X die Ergebnisse einer Kriterienvariable Y geschätzt werden können, ist die Korrelation zwischen Test und Kriterium und wird als prognostische bzw. Übereinstimmungsvalidität bezeichnet.

Frage nach der Übereinstimmung der Beurteilung von Personen mit einem Instrument und der zeitgleichen Beurteilung z.B. durch direkte Vorgesetzte. Ronan & Latham

(1974): Beziehung zwischen Verhaltensitems und Maßen der Produktivität, der Fluktuation des Personals, der Abwesenheit und der Unfälle liegen zwischen .16 und .27 bzw. .19 und .31 (zwei Stichproben; p<.001); bei höherer methodischer Sorgfalt (multiple Regressionen und Doppel-Kreuzvalidierungsdesign): Koeffizienten zwischen .31 udh & Gerpott (1985):

- es ist nicht sicher, daß der angenommene lineare Zusammenhang zwischen Häufigkeit und (In)Effektivität eines Tätigkeit tatsächlich besteht

- zweifelhaft: ,,all the rater is to do [on BOS] is to indicate the frequency with which he has observed the behavior" - wahrnehmungspsychologisch: Vielzahl von Einzelbeurteilungen,die über die kognitiven Schemata der Beurteiler aggregiert worden sind; liegen nicht in der Rohform vor => hier fliessen allgemeine Personeindrücke mit ein und werden in Verhaltensbeobachtungsaussagen ,,umformuliert" => die häufig postulierte Überlegenheit von VBS muß hiermit infragegestellt werden 6.1.1 Quantitative vs. qualitative Konstruktion Durch quantitative statt qualitativer Konstruktion (Latham & Wexley, 1977) von VBS läßt sich die Anzahl der Items reduzieren, ohne dabei an Testgüte zu verlieren; dies ist wichtig für die Durchführung und die Akzeptanz des Instruments. Der Einsatz der Faktorenanalyse statt subjektiver Clusterung ergibt Skalen mit größerer innerer Konsistenz und höherer Reliabilität, die mindestens genauso viel Varianz aufklären wie qualitativ erzeugte VBS. Dies liegt wahrscheinlich daran, daß die Faktorenanalyse die vorliegende Information besser nutzt.

Nachteile der quantitativen Konstruktion:

- Konstruktion ist nicht unmittelbar nach Itemsammlung möglich - lange Wege:
- Itemsammlung geht an zukünftige Benutzer
- diese nutzen es im Feld
- das Instrument geht zurück zur statistischen Auswertung
- großes N nötig (mehrere 100 Vpn)

Bei kleinen Stichproben bietet sich daher ein qualitatives Vorgehen an.

6.2 Beurteilungsfehler

Beim Einsatz von VBS können folgende Beurteilungsfehler auftreten:

- Halo: alle anderen Eigenschaften einer Person werden durch einen vorherrschenden positiven oder negativen Gesamteindruck überstraht
- Strenge-/Milde-Effekt / Tendenz zur Mitte: Tendenz, besonders streng (hoher Maßstab) oder besonders mild (niedriger Maßstab) zu beurteilen bzw. Extreme ganz zu vermeiden
- Erster Eindruck: der erste Eindruck einer Person beeinflußt die spätere Gesamtbeurteilung maßgeblich
- Kontrast: die Bewertung einer Person wird durch die Bewertung der vorigen Person beeinflußt

7 Literatur

- Bernardin, H.J. (1977). Behavioral expectation scales versus summated scales: a fairer comparison. Journal of Applied Psychology, 62, 4, 422-427. _ Breisig, Th. ( ). Betriebliche Sozialtechniken. Handbuch für Betriebsrat und Personalwesen.

- Domsch, M. & Gerpott, T.J. (1985). Verhaltensorientierte Beurteilungsskalen. Die Betriebswirtschaft, 45, 6.

- Latham, G.P. & Wexley, K.N. (1977). Behavioral observation scales for performance appraisal purposes. Personnel Psychology, 30.

- Latham, G.P., Fay, Ch. H., & Saari, L.M. (1979). The development of behavioral observation scales for appraising the performance of foremen. Personnel Psychology, 32.

- Schuler, H. (1991). Leistungsbeurteilung - Funktionen, Formen und Wirkungen. In H. Schuler (Hrsg.), Beurteilung und F ö rderung beruflicher Leistung. Göttingen: Hogrefe Verlag für Angewandte Psychologie, S. 11-39.

- Schuler, H. & Funke, U. (1995). Diagnose beruflicher Eignung und Leistung. In H. Schuler (Hrsg.), Lehrbuch Organisationspsychologie. 2., korrigierte Auflage. Bern: Verlag Hans Huber, S. 235-283.

Details

Seiten
14
Jahr
2000
Dateigröße
421 KB
Sprache
Deutsch
Katalognummer
v97657
Note
Schlagworte
Leistungsbeurteilung Konstruktion Behavioral Observation Scales

Autor

Teilen

Zurück

Titel: Leistungsbeurteilung / Konstruktion von Behavioral Observation Scales