Vergleichsarbeiten als Instrument externer Evaluation - Ein Baustein zur Qualitätsentwicklung der Grundschule?


Examination Thesis, 2006

132 Pages, Grade: 1,0


Excerpt


Inhaltsverzeichnis

1 Einleitung

2 Überblick: Die Qualitätsdiskussion im deutschen Bildungssystem
2.1 Hintergründe und Gegenstandsbereiche der Diskussion
2.2 Was ist unter (Schul)Qualität zu verstehen?
2.3 Qualitätsentwicklung und Qualitätssicherung
2.4 Komponenten der Qualitätsentwicklung und Qualitätssicherung
2.4.1 Die sieben Handlungsfelder der KMK
2.4.2 Schulentwicklung
2.4.3 Die Einführung bundeseinheitlicher Bildungsstandards
2.4.4 Evaluation im Bildungswesen
2.4.4.1 Allgemeine Begriffsbestimmung
2.4.4.2 Interne Evaluation (Selbstevaluation)
2.4.4.3 Externe Evaluation (Fremdevaluation)
2.5 Ausblick

3 Komponenten der Schulleistung
3.1 Leistung und Schulleistung
3.2 Begriffsabgrenzungen: Leistungsfeststellung, Leistungsbewertung und Leistungsmessung
3.3 Bezugsnormen
3.4 Gütekriterien für die Leistungsbeurteilung und Tests
3.4.1 Objektivität
3.4.2 Reliabilität
3.4.3 Validität
3.5 Exkurs: Schulleistungstests
3.6 Ausblick

4 Vergleichsarbeiten als Baustein zur Qualitätsentwicklung der Grundschule
4.1 Begriffsabgrenzungen
4.2 Charakteristika von Vergleichsarbeiten
4.3 Funktionen und Ziele von Vergleichsarbeiten
4.4 Kompetenzmodelle im Rahmen von Vergleichsarbeiten
4.5 Ergebnisrückmeldung – Umgang und Nutzen
4.5.1 Allgemeine Anmerkungen zur Ergebnisrückmeldung
4.5.2 Pädagogischer Nutzen der zurückgemeldeten Ergebnisse
4.6 Erfassung und Verbesserung der diagnostischen Kompetenz von Lehrkräften
4.6.1 Begriffsklärung: Diagnostische Kompetenz
4.6.2 Umsetzung im Rahmen von Vergleichsarbeiten
4.7 Grenzen von Vergleichsarbeiten
4.8 Fazit

5 Uneinheitliche Konzepte von Vergleichsarbeiten auf Bundesländerebene
5.1 Überblick
5.2 Orientierungsarbeiten
5.3 Diagnosearbeiten
5.4 Kompetenzen und Einstellungen von Schülerinnen und Schülern – Jahrgangsstufe 4 (KESS 4)
5.5 Fazit

6 Durchgang einer Vergleichsarbeit am Beispiel des Projektes VERA im Jahre 2004
6.1 Vorstellung des Projektes VERA
6.2 Entwicklung der Aufgaben
6.3 Normierungsstudie
6.4 Vorbereitungen zur Durchführung
6.5 Zentralstichprobe und die Bildung von Kontextgruppen
6.6 Auswertungs- und Rückmeldeverfahren
6.7 Formative Evaluation des Gesamtvorhabens
6.8 Fazit und Ausblick

7 Vergleichsarbeiten in der Diskussion
7.1 Überblick
7.2 Argumentationen für den Einsatz von Vergleichsarbeiten
7.3 Kritiken an Vergleichsarbeiten
7.3.1 Allgemeine Kritik
7.3.2 Die Gefahr des Einsetzens eines ‚Teaching-to-the-test’
7.3.3 Kritik an der Datenerhebung
7.3.4 Kritik an den verwendeten Aufgaben
7.3.5 Stellungnahme zur geübten Kritik
7.4 Fazit

8 Resümee

Literaturverzeichnis

Anhang

Abbildungs- und Tabellenverzeichnis

1 Einleitung

In der Bundesrepublik Deutschland ist die Frage nach der Leistungsfähigkeit von Schülerinnen und Schülern seit Beginn der 90er Jahre des letzten Jahrhunderts zunehmend Gegenstand der öffentlichen bildungspolitischen Debatte geworden. Die Kultusministerkonferenz (KMK) hat die Qualitätssicherung von Schule mit ihrem so genannten „Konstanzer Beschluss" vom Oktober 1997 (KMK, 280. Plenarsitzung, 1997), der eine regelmäßige Beteiligung Deutschlands an internationalen und nationalen Vergleichsuntersuchungen vorsieht, zu einer wichtigen Aufgabe der Bildungspolitik gemacht. Gleichzeitig betonte die KMK, dass eine wesentliche Voraussetzung für die Qualitätsentwicklung der Wettbewerb zwischen den Bundesländern sei. Regelmäßig und systematisch angelegte Schulleistungsuntersuchungen sollen Stärken und Schwächen des Bildungswesens erfassen und Hinweise für gezielte Maßnahmen zur Qualitätsverbesserung geben. Zusammen mit der Gesamtstrategie der KMK zum Bildungsmonitoring soll die Qualität des deutschen Bildungswesens langfristig gesichert werden (KMK, 2006, S. 1). Dazu gehören auch die zunehmende Autorität der Einzelschule und die damit einhergehende Forderung nach mehr Rechenschaftspflicht der Schulen über ihre Arbeit gegenüber der Öffentlichkeit, wobei die externe Evaluation – auch in Form externer Schulleistungsmessungen – an Bedeutung zunehmen wird, da „die Mehrzahl der Schulklassen in Deutschland … bei Kompetenz- oder Leistungsanalysen kaum über zuverlässige Vergleichsdaten zur Beurteilung der eigenen Arbeit“ (Weinert, 2001a, S. 30f) verfügt: „Kein Zweifel: Leistungsmessungen in Schulen werden künftig eine größere Rolle als bisher spielen. Ihren Ergebnissen kommt für die Fundierung und Überprüfung bildungspolitischer Entscheidungen wie für die Qualitätsentwicklung der einzelnen Schulen und des Unterrichts eine wachsende Bedeutung zu“ (Weinert, 2001a, S. 30). Die Ergebnisse der Tests sollen sowohl als Indikatoren für die Qualität der Arbeit auf der Ebene der Einzelschule als auch auf der Ebene des gesamten Schulsystems gelten, um daraus Erkenntnisse für die Schul- und Unterrichtsentwicklung sowie für die Qualitätsverbesserung zu gewinnen.

Die beiden Fragen „Was sollen Schüler können? Und was können sie wirklich?“ (Hovestadt, 2004, S. 38) sind in Bezug auf die Grundschule eng mit der Qualitätsdiskussion verknüpft: Die seit dem Schuljahr 2005/06 verbindlich eingeführten Bildungsstandards für die Primarstufe der KMK definieren den Anforderungsbereich – die in den Bundesländern durchgeführten Vergleichsarbeiten (zentrale Lernstandserhebungen) sollen das Erreichen der Bildungsstandards überprüfen. Deren Entwicklung und Durchführung lässt die KMK allerdings offen.

In der vorliegenden Arbeit steht die Frage im Mittelpunkt, ob das Konzept der Vergleichsarbeiten als externes Evaluationsinstrument die von der KMK angestrebte Qualitätsentwicklung und Qualitätssicherung in der Grundschule unterstützen kann und wenn ja, welche Bedeutung ihm dabei zukommt. Die Themenbereiche zur Qualität von Schule und ihrer Entwicklung im Bildungssystem insgesamt sind äußerst komplex und können daher im Rahmen der vorliegenden Arbeit nur an ihrer Oberfläche dargestellt werden. Ihre Skizzierung im zweiten Kapitel ist jedoch wichtig in Bezug auf die Einordnung des Themas der Arbeit in den Gesamtzusammenhang.

Bevor explizit auf das Konzept der Vergleichsarbeiten als ein Baustein der Qualitätsentwicklung in der Grundschule eingegangen wird, werden im dritten Kapitel wichtige Aspekte und Begriffe der Schulleistung geklärt, die im Zusammenhang mit Vergleichsarbeiten bedeutsam sind. Im vierten Kapitel wird das allgemeine Konzept der Vergleichsarbeiten in einer Weise vorgestellt, wie es im Idealfall aussehen könnte, um einen Beitrag zur Qualitätsentwicklung der Grundschule zu leisten. Ebenso werden bestehende Grenzen aufgezeigt.

Zwar führt jedes Bundesland schulische Leistungsmessungen im Sinne von Vergleichsarbeiten in der Grundschule durch. Jedoch sind diese nicht bundeseinheitlich, sondern variieren hinsichtlich ihrer Bezeichnung, ihres Durchführungszeitpunktes und damit zum Teil auch in ihrer Zielsetzung. Daher werden diese Unterschiede in Kapitel fünf aufgezeigt, um ihnen im Gegensatz zum allgemeinen Konzept Rechnung zu tragen. Bestehende Kooperationen zwischen den Bundesländern werden ebenfalls genannt.

Die bisher umfassendste Kooperation im Rahmen von Vergleichsarbeiten ist das Projekt VERA (VERgleichsArbeiten in der 4. Klassenstufe in Deutsch und Mathematik), an dem sich im Jahre 2004 sieben Bundesländer beteiligt haben und dies noch tun. Daher wird dieses Konzept im sechsten Kapitel als Beispiel dafür, wie ein Durchgang einer Vergleichsarbeit aussehen kann, ausführlich vorgestellt.

Aufgrund der Tatsache, dass Konzepte von Vergleichsarbeiten gewisse Kritikpunkte aufweise und insbesondere das Projekt VERA (Durchgang 2004) kontrovers diskutiert und kritisiert wurde, behandelt das siebte Kapitel diese Aspekte, bevor das Resümee diese Arbeit abrundet.

2 Überblick: Die Qualitätsdiskussion im deutschen Bildungssystem

2.1 Hintergründe und Gegenstandsbereiche der Diskussion

Die Debatte um den Zustand des deutschen Bildungssystems, Schulqualität, Schul- und Qualitätsentwicklung sowie vergleichender Leistungsmessungen steht zunehmend im Mittelpunkt der Bildungspolitik, der Wissenschaft, der pädagogischen Praxis und der Öffentlichkeit. Zentraler Auslöser für Diskussion und eine „empirische Wende“ (Helmke & Schrader, 2001, S. 595) in der deutschen Bildungspolitik waren die Ergebnisse der TIMS-Studie (Third International Mathematics and Science Studies; Baumert, Lehmann, Lehrke & al., 1997; Baumert, Bos, & Lehmann, 2000a & b) Anfang der 1990er Jahre, die den deutschen Schülern in Mathematik und naturwissenschaftlichen Fächern im Vergleich zu den anderen Teilnehmerstaaten nur mittelmäßige Leistungen bestätigen konnten. Daraufhin beschloss die KMK die Teilnahme an der PISA-Studie (Program for International Student Assesment; OECD, 2001; Baumert, Klieme, Neubrand, Prenzel, Schiefele, Schneider, Stanat, Tillmann & Weiß, 2001), deren Ergebnisse ebenfalls nicht besser ausfielen. Tschegg (2001, S. 159) spricht in diesem Zusammenhang sogar von der Auslösung einer „Bildungskrise“. Dass das Aufsehen über die Ergebnisse so groß war und noch ist, liege wohl auch daran, dass „sich Deutschland seit 1975 (Six Subjects Study) bis zur Beteiligung an der 1990/91 durchgeführten Reading Literacy Study aus den großen internationalen Evaluationsstudien weitgehend herausgehalten“ (Peek, 2002, S. 327, erste Fußnote) hat.

Die Ergebnisse beider internationaler Vergleichsstudien haben u.a. aufgezeigt, dass das deutsche Bildungssystem im Vergleich zu anderen Teilnehmerstaaten insbesondere Mängel in seiner Struktur aufweist. D.h. dass eine große Leistungsstreuung bei durchschnittlich mittelmäßigen Leistungen in den überprüften Bereichen vorhanden ist, dass der Schulerfolg stark von der sozialen Herkunft und einem Migrationshintergrund abhängig ist sowie von der Tatsache, dass Lehrkräfte in erheblichem Maße Leistungen unterschiedlich beurteilen (Steinert & Klieme, 2004).

Des Weiteren sei durch die Vergleichsstudien deutlich geworden, dass eine Input-Steuerung alleine für ein leistungsfähiges System nicht ausreiche, d.h., dass zu einer reinen Zielfestlegung immer auch eine Überprüfung dieser gehöre, was die Erfahrungen aus anderen Ländern gezeigt hätten, die bei den Studien besser abgeschnitten haben. Daher werde in der Bildungspolitik auch ein Wechsel von der bisherigen Input-Steuerung zu einer Output-Steuerung diskutiert, welcher durch die sieben Handlungsfelder der KMK im Jahre 2001 eingeleitet worden sei (Hofmann-Götting, Eschemann & Daumen, 2005, S. 33; Kapitel 2.4.1). Zu den Input-Faktoren gehören vor allem Investitionen in die Lehrerbildung und Lehrmaterialien sowie staatliche Vorgaben und Vorschriften wie zum Beispiel „Haushaltspläne, Lehrpläne und Rahmenrichtlinien, Ausbildungsbestimmungen für Lehrpersonen, Prüfungsrichtlinien“ (Klieme, Avenarius, Blum, Döbrich, Gruber, Prenzel, Reiss, Riquarts, Rost, Tenorth, & Vollmer, 2003, S. 11). Um die Effizienz des Einsatzes dieser Ressourcen zu überprüfen, „benötigt man Indikatoren für den Erfolg, den Ertrag oder die Wirksamkeit des Bildungssystems“ (Helmke & Schrader, 2001, S. 596). Eine Orientierung am Output fasse in diesem Sinne vor allem die Lern- und Leistungsergebnisse der Schüler in den Blick, aber auch die Entwicklung von Persönlichkeitsmerkmalen für das lebenslange Lernen wie beispielsweise „den Aufbau von Kompetenzen, Qualifikationen, Wissensstrukturen, Einstellungen, Überzeugungen, Werthaltungen. … Der Output wird somit zum entscheidenden Bezugspunkt für die Beurteilung des Schulsystems und für Maßnahmen zur Verbesserung und Weiterentwicklung“ (Klieme et al., 2003, S. 12).

Neben der flächendeckenden und regelmäßigen Überprüfung der Schülerleistungen im Grund- und Sekundarschulbereich durch die Teilnahme an nationalen und internationalen Vergleichsstudien zu den Leistungs- und Lernständen der Schülerinnen und Schüler[1] wird ferner die Qualitätsentwicklung sowie die Standardsicherung seitens der KMK genannt. Letztere sollten nicht Aufgabe der Einzelschule sein, „sondern mit Hilfe geeigneter Instrumente … auch die Ergebnisse des gesamten Bildungssystems in den Blick“ (KMK, 2006, S. 1) nehmen. Auf diese Weise betont die KMK, „dass Verfahren des Bildungsmonitorings mit Maßnahmen zur Unterrichts- und Qualitätsentwicklung sowie Unterstützung der Schulen verknüpft werden muss“ (KMK, 2006, S. 3). Es werde also deutlich, dass Qualitätsentwicklung auf verschiedenen Ebenen des gesamten Systems ansetzen und stattfinden muss und dass ein systematischer Gesamtüberblick notwendig ist. Aufgrund dieser Notwendigkeiten „hat die Kultusministerkonferenz beschlossen, künftig über wichtige Daten und Entwicklungen im deutschen Bildungswesen regelmäßig Bericht zu erstatten“ (Avenarius, Ditton, Döbert, Klemm, Klieme, Rürup, Tenorth, Weishaupt & Weiß, 2003, S. 3) und dies erstmals durch den Bildungsbericht für Deutschland im Jahre 2003.

Zusätzlich haben viele Bundesländer verschiedene Leistungsvergleichsuntersuchungen und Evaluationsprojekte durchführen lassen, auf die mit Ausnahme der Vergleichsarbeiten im Verlaufe dieser Arbeit nicht näher eingegangen wird. Die wichtigsten seien der Vollständigkeit halber aber genannt: Das Hamburger Projekt LAU (Aspekte der Lernausgangslage und der Lernentwicklung; 5., 7. und 9. Klasse; Lehmann & Peek, 1997; Lehmann, Gänsefuß & Peek, 1999), das Brandenburger Projekt QuaSUM (Qualitätsuntersuchung an Schulen zum Unterricht in Mathematik; 5. und 9. Klasse; Lehmann, 1999; Lehmann, Gänsefuß & Peek, 2000), das rheinland-pfälzische Projekt MARKUS (Mathematik-Gesamterhebung Rheinland-Pfalz: Kompetenzen, Unterrichtsbedingungen, schulischer Kontext; 8. Klasse; Helmke & Jäger, 2001) sowie das KMK-Projekt DESI (Deutsch Englisch Schülerleistungen International; Helmke, Lehmann, Nold, Rolff, Schröder & Willenberg, 2000) (Aufzählung in Anlehnung an Helmke & Schrader, 2001, S. 595).

Weitere Reaktionen auf TIMSS und PISA seitens der KMK waren u.a. die im Jahre 2001 beschlossenen sieben Handlungsfelder der KMK zur Qualitätsentwicklung und Qualitätssicherung (Kapitel 2.4.1), die Konzentration auf die Entwicklung der Einzelschule u.a. durch ein Schulprogramm (Kapitel 2.4.2), die Beschlüsse zur Einführung nationaler Bildungsstandards für den Mittleren Schulabschluss im Jahre 2003 ebenso für den Grundschulbereich und den Hauptschulabschluss im Jahre 2004 (Kapitel 2.4.3) sowie verschiedene Ansatzpunkte der Evaluation (Kapitel 2.4.4).

Diese Bereiche sind zentral für das angestrebte systematische Qualitätsmanagement und werden im Anschluss an die Beschreibung des Qualitätsbegriffes kurz anhand ihrer Aufgaben, Funktionen und Ziele dargestellt. Dies erfolgt jedoch ohne die ausführliche Darstellung bzw. Diskussion ihrer Kritiken, Chancen, Grenzen und Folgen, da sie insgesamt der Einordnung des Themas der Arbeit in den Gesamtzusammenhang dienen und nicht in ihrem Mittelpunkt stehen.

2.2 Was ist unter (Schul)Qualität zu verstehen?

„Die Qualitätsfrage ist bislang in weiten Bereichen ungeklärt, nicht nur in der Schulpraxis. Wer Schulqualität bestimmen oder messen will, begibt sich auf ein kompliziertes und kontroverses Feld“ (Holtappels, 2003, S. 36). Qualität ist somit ein komplexes Thema mit vielen Handlungsbereichen und möglichen Herangehensweisen zu ihrer Entwicklung und Verbesserung. Gerade deshalb, weil sie ein fortlaufender Prozess ist, könne sie nicht eindeutig definiert werden.

Das Begriffsverständnis von Qualität orientiert sich mit Bezug zur Wirtschaft eher an einer sehr guten Beschaffenheit eines Produktes, was für den Schulbereich die „erworbenen Fähigkeiten, Kenntnisse und Einstellungen“ (Brügelmann, 2004, S. 8) der Schülerinnen und Schüler wären. Dies habe sich jedoch im Rahmen der pädagogischen Qualitätsdiskussion insofern gewandelt, dass der Begriff der Schulqualität nun an Prozessen und Rahmenbedingungen orientiert sei. „Modernes Qualitätsmanagement wird verstanden als kontinuierlicher Verbesserungs- und damit als Lern-Prozess“ (Kempfert & Rolff, 1999, S. 14). Qualitätskonzepte aus der Wirtschaft könnten jedoch nicht direkt und unreflektiert auf die Schule übertragen werden, denn die Qualität der Wirtschaft sei der einer Schule nicht gleichzusetzen (Tschegg, 2002, S.162). Die drei Faktoren des wirtschaftlichen Konzepts von Qualitätsmanagement – Input, Prozess und Output – müssten in ihren wechselseitigen Zusammenhängen gesehen werden, wenn sie in abgewandelter Form auf den Schulbereich übertragen werden sollen (Kempfert & Rolff, 1999, S. 14f), um sie dann „als Steuerungselemente zu einer besseren Qualitätsentwicklung zu nutzen“ (Knödler, 2002, S. 9). Würden nur die Ergebnisse (Output) fixiert und die Prozesse, die zu ihnen geführt haben, vernachlässigt, dann würde auch außer Acht gelassen, dass der Input immer den Output beeinflusst.

Des Weiteren bedeutet wirtschaftliche Qualität „die völlige Übereinstimmung mit den Anforderungen der Kunden“ (Tschegg, 2002, S.162). Aber Schülerinnen und Schüler seien nicht nur als Kunden im Lernprozess, sondern als Mitarbeiterinnen und Mitarbeiter, d.h. „Koproduzenten des Lernens oder Lernpartner zu verstehen“ (Kempfert & Rolff, 1999, S. 29). Daher zähle neben dem Unterrichten und Erziehen durch die Lehrpersonen auch das gesamte „Schulsystem, die sozialen und personellen Beziehungen und Ressourcen, das bildungspolitische Umfeld sowie die Finanzen, die einer Schule zur Verfügung stehen“ (Weibel, 2002, S. 142) zur Qualität einer Schule. Aus diesen Gründen dürfe nach Brügelmann (2004, S. 19) die Schule in einer Demokratie „nicht als bloße Produktionsstätte fachlicher Leistungen verstanden werden“. Wichtig sei es ebenso, innerhalb der Diskussion im Blick zu behalten, dass sich die Qualität „nicht nur an der Leistung der Schüler (bemisst; Vf.), sondern auch an dem, was die Einzelschule den Lernenden anbietet“ (Kempfert & Rolff, 1999, S. 14). Daher stünde die Frage nach dem Gegenstandsbereich der Qualität von Schule in der Literatur in der Regel immer im Zusammenhang mit der Diskussion um die Frage, was eine gute Schule bzw. guten Unterricht und somit den Gegenstandsbereich der Schulqualität ausmache (Fend, 1986b, zit. n. Fend, 1998, S. 203; Tschegg, 2002, S. 161; Weibel, 2002, S. 142) und diese „ist nicht eindeutig geklärt“ (Weibel, 2002, S. 142). Hinzu komme, dass sich Qualität nicht nur auf Schul- bzw. Unterrichtsebene beschränken lasse, sondern dass auch die Qualität des gesamten Schulsystems bedeutsam sei, zumal von letzterer Ebene die Vorgaben für Schule und damit für Unterricht ausgehen (Fend, 1998, S.172). Somit ist „Qualität im Bildungsbereich … komplex und zugleich spezifisch … und der Qualitätsbegriff selbst bleibt inhaltlich diffus“ (Heckt, 2002, S. 10).

Würde Schulqualität nur als Fachqualität verstanden, greife dieses Verständnis zu kurz und birgt nach Kempfert & Rolff (2005, S. 24) „die Gefahr eines pädagogischen Reduktionismus“ insbesondere dann, wenn sich Standards nur auf die Hauptfächer beziehen und diese mittels Tests abgeprüft werden. In diesem Zusammenhang fragt Holtappels (2003, S. 37) nach möglichen Qualitätsmerkmalen, die ein „ganzheitlicher Qualitätsbegriff“ umfassen müsste und nennt neben der Kompetenz- und Wissensvermittlung in der Schule die Bedeutung des Erwerbs von fächerübergreifenden „Schlüsselqualifikationen und metakognitive(n) Fähigkeiten“ sowie Methoden-, Sozial- und Persönlichkeitskompetenzen. Diese Betrachtungsweise vom Output der Schule, also der Wirkungsfaktoren, werde ergänzt durch Struktur- und Prozessfaktoren wie beispielsweise die Gestaltung der Lehr-Lernprozesse, formale Leistungsanforderungen und Sozialformen (Holtappels, 2003, S. 37f). Schulqualität umfasse also wesentlich mehr als nur kognitive Leistungen, die anhand von Tests abgeprüft werden können (KMK, 2005, S. 6f).

Folgendes Zitat von Fend (1998, S. 383) soll die Begriffsbestimmung von Qualität zusammenfassend abrunden und verdeutlichen, dass ihre Entwicklung und Sicherung auf unterschiedlichen Ebenen des Gesamtsystems ansetzen muss:

Die Qualität beginnt bei bildungspolitischen Vorgaben, bei strukturellen Rahmenbedingungen, bei Lehrplänen und Lehrwerken, sie setzt sich fort bei Schulgestaltungen auf lokaler Ebene und mündet in das Lehr-Lerngeschehen im Klassenzimmer und endet bei den Schülern und ihren Leistungen und Lebenshaltungen. Von hier steigt sie wiederum zum Ganzen auf und verweist auf die umgebende Kultur, in die Lernen eingebettet ist.

2.3 Qualitätsentwicklung und Qualitätssicherung

Die Begriffe Qualitätsentwicklung und Qualitätssicherung werden – ebenso wie bereits dargestellt der Qualitätsbegriff an sich – in der Literatur und in der öffentlichen Diskussion unklar und uneinheitlich verwendet, was das Verständnis dieses Themenbereiches erschwere (Weibel, 2002, S. 143; Heckt, 2002, S. 9ff).

Nach Arnold & Faber (2001, S. VIII des Glossars) ist die Qualitätssicherung der ältere und weit verbreiterte Begriff, zu dem die Bereiche Evaluation, finanzielle Ausstattung der Schule, Lehrpläne sowie Lehreraus- und -fortbildung gehören. „Er unterstellt, Qualität existiere schon und muss lediglich gesichert werden. Für den Bildungsbereich ist der Begriff der Qualitätsentwicklung demzufolge passender, … (da dieser; Vf.) mehr die ständige Auseinandersetzung, Selbstvergewisserung und damit letztendlich die kontinuierliche Entwicklung von Qualität“ betont. Weibel (2002, S. 146) bezeichnet Qualitätsentwicklung zusammenfassend als „die Gesamtheit aller Maßnahmen, die primär darauf abzielen, das bestehende Qualitätsniveau in systematischer und umfassender Weise anzuheben“.

Kempfert & Rolff (1999, S. 16) fassen die Bereiche der Qualitätsentwicklung und Qualitätssicherung unter dem Begriff „Qualitätsmanagement“ zusammen und betonen, dass es „einer zentralen Steuerung bedarf; denn Qualität der Bildung ist schließlich eine Angelegenheit der gesamten Gesellschaft“. Gleichzeitig heben sie auch die Bedeutung der Einzelschule in Bezug auf die Schulentwicklung hervor, indem sie in diesem Zusammenhang die „Einzelschule als Dreh- und Angelpunkt“ sowie als „Basis für Qualität (bezeichnen; Vf.), weil man Qualität von Schule nicht anordnen und auch nicht konservieren kann“ (Kempfert & Rolff, 1999, S. 18). Daher sei die Qualitätsentwicklung „das dominierende Motiv und damit eine zentrale Herausforderung der Schulpolitik“ (Kempfert & Rolff, 1999, S. 10). Die Diskussion um Qualität müsse jedoch pädagogischer geführt werden und dürfe sich nicht nur auf Wettbewerbsfähigkeit und Leistungsvergleiche konzentrieren. Pädagogischer meint insbesondere den Aspekt der Entwicklung zu berücksichtigen, „weil Qualität nicht nur geprüft, sondern vor allem erzeugt werden muss“ (Kempfert & Rolff, 1999, S. 13).

Nach Fend sind die „Qualitätsmerkmale des Bildungssystems“ (1998, S. 357) „ mehrebenenanalytisch “ (1998, S. 200) zu betrachten, damit die Komplexität der darin vorhandenen Beziehungen überhaupt greifbar gemacht werden könne. Daher bezögen sich Maßnahmen und Methoden zur Entwicklung von Qualität im Wesentlichen auf drei hierarchisch angeordnete Gestaltungsebenen, die in Wechselwirkung zueinander stehen: Auf die politisch-administrative Ebene (Makro- bzw. Systemebene), auf die lokale Schulebene (Mesoebene) und die Unterrichtsebene bzw. das Lehrerhandeln (Mikroebene) (Fend, 1998, S. 199ff). Diese Handlungsebenen müssten „in einem ganzheitlichen systemischen Zusammenhang gesehen werden. Bildungspolitisch gestaltete rechtliche und administrative Rahmenbedingungen konstituieren den Handlungsraum auf der Schulebene und diese beiden interagieren mit der pädagogisch bedeutsamen Ebene des unterrichtlichen Handelns des Lehrens in der Schulklasse“ (Fend, 1998, S. 14).

Des Weiteren werde Qualitätsentwicklung häufig nur als „das Erheben, Auswerten und Rückspiegeln von Daten verstanden, also mit Evaluation gleichgesetzt“ (Arnold & Faber, 2001, S. 93). Zwar komme der Evaluation in der Qualitätsentwicklung eine große Bedeutung zu (Kapitel 2.4.3), jedoch sollte die Qualitätsentwicklung weiter gefasst und daher auch als Teil der Schulentwicklung verstanden werden (Weibel, 2002, S. 145). Kempfert & Rolff (1999, S. 18) sehen im Maße der Übernahme von Qualitätsentwicklung und Qualitätssicherung – als Aufgabe jeder Schule – die Verschmelzung von Schulentwicklung und Qualitätsentwicklung, wobei die Schulentwicklung als Komponente des Qualitätsmanagements verstanden werden soll.

2.4 Komponenten der Qualitätsentwicklung und Qualitätssicherung

In ihren Erläuterungen zur Konzeption und Entwicklung der Bildungsstandards macht die KMK (2005, S. 5) u.a. deutlich, dass die Sicherung der „Qualität schulischer Bildung, die Vergleichbarkeit schulischer Abschlüsse sowie die Durchlässigkeit des Bildungssystems“ ihre zentralen Aufgaben sind. Dabei sind die Bildungsstandards „Bestandteile eines umfassendes Systems der Qualitätssicherung, das auch Schulentwicklung, interne und externe Evaluation umfasst“. Im Folgenden wird nach der Darstellung der sieben Handlungsfelder der KMK auf diese Bereiche eingegangen.

2.4.1 Die sieben Handlungsfelder der KMK

In ihrem Beschluss vom Dezember 2001 hat die KMK als Reaktion auf die PISA-Ergebnisse des Jahres 2000 Maßnahmen zur Qualitätsentwicklung und Qualitätssicherung des deutschen Bildungswesens in sieben Handlungsfeldern für das allgemein bildende Schulwesen beschlossen, an denen sie ihre Arbeit ausrichten wird:

1.) Maßnahmen zur Verbesserung der Sprachkompetenz bereits im vorschulischen Bereich,
2.) Maßnahmen zur besseren Verzahnung von vorschulischem Bereich und Grundschule mit dem Ziel einer vorzeitigen Einschulung,
3.) Maßnahmen zur Verbesserung der Grundschulbildung und durchgängige Verbesserung der Lesekompetenz und des grundlegenden Verständnisses mathematischer und naturwissenschaftlicher Zusammenhänge,
4.) Maßnahmen zur wirksamen Förderung bildungsbenachteiligter Kinder, insbesondere auch der Kinder und Jugendlichen mit Migrationshintergrund,
5.) Maßnahmen zur konsequenten Weiterentwicklung und Sicherung der Qualität von Unterricht und Schule auf der Grundlage verbindlicher Standards sowie einer ergebnisorientierten Evaluation,
6.) Maßnahmen zur Verbesserung der Professionalität der Lehrertätigkeit, insbesondere im Hinblick auf diagnostische und methodische Kompetenz als Bestandteil systematischer Schulentwicklung,
7.) Maßnahmen zum Ausbau von schulischen und außerschulischen Ganztagsangeboten mit dem Ziel erweiterter Bildungs- und Förderungsmöglichkeiten, insbesondere für Schülerinnen und Schüler mit Bildungsdefiziten und mit besonderen Begabungen (Avenarius et al., 2003, S. 258f).

Die genaue Beschreibung dieser Maßnahmen sowie ihre Umsetzung in den Ländern sind im Bildungsbericht 2003 sehr ausführlich erläutert. Sie sind an dieser Stelle genannt, weil insbesondere die Handlungsfelder fünf und sechs für die vorliegende Arbeit von Bedeutung sind, weswegen auf die Bereiche Schulentwicklung, Bildungsstandards und Evaluation sowie explizit auf Vergleichsarbeiten genauer eingegangen wird. Jedes Bundesland hat unterschiedliche Maßnahmen in den Handlungsfeldern ergriffen, wozu auch die Vergleichsarbeiten als Instrument der ergebnisorientierten Evaluation gehören. „Die Fülle der Einzelmaßnahmen, ihre Konkretion und die Zahl der beteiligten Länder geben Hinweis darauf, dass dieses Handlungsfeld nach PISA einen zentralen Stellenwert hat“ (Hovestadt, 2003, S. 15). Weitere ausführliche Darstellungen zu den Maßnahmen der Bundesländer in allen Handlungsfeldern finden sich auch bei Hovestadt & Keßler (2004) sowie speziell für die Vergleichsarbeiten in den Kapiteln vier, fünf und sechs.

Innerhalb der Vorgaben der KMK sollen folgende Verfahren „als Hauptinstrumente der Sicherung von Unterrichts- und Schulqualität“ (Hovestadt, 2003, S. 12) in den Gesamtstrategien der Bundesländern umgesetzt werden, wozu auch die verstärkte Eigenverantwortlichkeit der Einzelschule sowie die Schulprogrammentwicklung gehört:

- „Die Neufassung bzw. Weiterentwicklung von Rahmenlehrplänen,
- Schulübergreifende Vergleichsarbeiten, vor allem in den Kernfächern,
- Ausbau der externen Evaluation,
- die Erarbeitung von Standards und
- Qualitätsmanagement an Schulen“ (Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland, 2006, S. 227).

2.4.2 Schulentwicklung

Schulentwicklung wird nach Holtappels (2003, S. 7) erforderlich, weil „gewandelte Sozialisationsbedingungen einerseits und veränderte Bildungsanforderungen andererseits … Anpassungen und Innovationen unumgänglich“ machen, da die Schulen vor neue Herausforderungen gestellt werden, auf die reagiert werden müsse. Daher benötigten Schulen „ein wirksames System von Qualitätsentwicklung und Qualitätssicherung, was sowohl innerhalb der Einzelschule die Arbeitskultur bestimmen müsste als auch die Arbeit regionaler Unterstützung und Schulaufsicht“ (Holtappels, 2003, S. 14), wobei eine Entwicklung immer als Prozess zu verstehen sei und nicht an einem bestimmten Termin als abgeschlossen.

„Schulentwicklung bedeutet, dass an den Schulen selbst eine Verständigung über Ziele, Verantwortlichkeit, Zusammenarbeit und über Rechenschaft sowie über den Umgang mit Rückmeldungen erfolgen muss“ (Klieme et al., 2003, S. 52) und dabei tragen alle am Bildungsprozess Beteiligten eine gewisse Verantwortung: „Die Schulleitung, das Kollegium, aber auch die Schülerinnen und Schüler sowie Eltern. Denn die Schülerinnen und Schüler sind als Koproduzenten des Lernens oder Lernpartner zu verstehen. … Sie haben also ein eigenes Interesse an der kontinuierlichen Verbesserung der Qualität des Unterrichts“ (Kempfert & Rolff, 2005, S. 55). Des Weiteren sei es für die Qualität einer Schule förderlich, wenn ein anregungsreiches kulturelles Umfeld vorhanden wäre, die Familien Interesse am Lernerfolg ihrer Kinder zeigen und sie beim Lernen unterstützen würden (Kempfert & Rolff, 1999, S. 15).

Zudem komme der Professionalität der Schulleitungen und Lehrkräfte eine besondere Bedeutung im Schulentwicklungsprozess zu, da diese „die Bildungsprozesse in der Schule und im Unterricht in besonderer Weise“ (Avenarius et al., 2003, S. 272) beeinflussen. Daran wird deutlich, dass Schulentwicklung ein interner Prozess ist, für dessen Verlauf nicht einfach ein bereits fertiges Konzept übernommen werden kann, sondern ein passendes Schulprogramm ausgearbeitet werden muss. Koordiniert werde ein Schulentwicklungsprozess in der Regel von einem Projektteam, dem Vertreter aller beteiligten Gruppen angehören, wobei die Leitung vom Schulleiter selbst übernommen werden sollte (u.a. Kempfert & Rolff, 1999, S. 160ff; Holtappels, 2003, S. 162ff). Die Erarbeitung eines Schulprogramms sei dabei „das zentrale Medium, in dem Stärken und Problembereiche benannt, Entwicklungsziele formuliert und Maßnahmen geplant werden“ (Klieme et al., 2003, S. 52). Allerdings verweisen Hovestadt & Keßler (2004, S. 43) darauf, „dass in der Schulpolitik gegenwärtig verschiedene Ansatzpunkte verfolgt werden, die nicht unter dem Etikett ‚Schul-/ Unterrichtsentwicklung’ firmieren, sie aber zentral beabsichtigen“. Das betreffe vor allem den verstärkten Trend zur Eigenverantwortlichkeit der Schulen und der Betonung von Schulprogrammen in manchen Bundesländern sowie die „Weiterentwicklung der Lehreraus- und -fortbildung“.

Auch Holtappels (2003, S. 162) benennt konkret das „Schulprogramm als Instrument der Schulentwicklung“ und erläutert die dazugehörigen Kriterien und Ziele sowie dessen Nutzen, Chancen und Probleme (Holtappels, 2003, S. 162-202). Ein Schulprogramm sei für die Schulentwicklung und ihre Qualität darüber hinaus unabdingbar, da sie „ohne klare Zielvorstellungen, anhand derer evaluiert und entwickelt werden kann, schlechthin nicht möglich“ (Kempfert & Rolff, 1999, S. 61) sei. Wie systematische Schul- und Qualitätsentwicklung konkret aussehen kann, beschreiben auch Schratz, Iby & Radnitzky (2000, S. 10ff) anhand von zwölf Verfahrensvorschlägen, die am „Zyklus der Qualitätsentwicklung“ aufgespannt werden.

Des Weiteren gehe Schulentwicklung einher mit einem „Trend zur größeren Selbständigkeit der Schulen“ (Arnold & Faber, 2001, S. 4), d.h. die Übertragung von mehr Verantwortung und Kompetenzen auf die Einzelschule und somit ein Wechsel von den bisherigen zentralen zu dezentralen Steuerungssystemen. Holtappels (2003, S. 103) nennt diese Entwicklung auch „eine neue Balance in der Steuerung und Entwicklung des Schulwesens, (d.h.; Vf.) zwischen den Aufgaben von Bildungspolitik und Schuladministration auf der Gesamtsystemebene und den Eigenverantwortlichkeiten und Selbstentwicklungsaufgaben der einzelnen Schule“.

Schulentwicklung finde zudem in einem „Systemzusammenhang von Organisations-, Unterrichts- und Personalentwicklung“ (Kempfert & Rolff, 1999, S. 19) statt, da sie sich auf die ganze Schule und nicht ausschließlich auf den Unterricht und dessen Verbesserung beziehe. „Unterrichtsentwicklung ist Zentrum und Bezugspunkt von Schulentwicklung. Ihr Ziel ist, das selbstständige Lernen der Schüler(innen) und die dazu notwendige Arbeit der Lehrenden zu unterstützen“ (Madelung & Weisker, 2006, S. 16). Dem Unterricht bzw. der Unterrichtsentwicklung komme deswegen eine wichtige Bedeutung zu, da es auf dieser Ebene um die „Förderung nachhaltiger Bildungsprozesse“ (Arnold & Faber, 2001, S. 95) der Schülerinnen und Schüler gehe.

Insgesamt „lehnt sich der Schulentwicklungsprozess … einem Qualitätszyklus an, der die Phasen Planung, Entwicklung, Durchführung, Kontrolle und Verbesserung durchläuft“ (Arnold & Faber, 2001, S. 99). Aufgrund der Tatsache, dass sich der Entwicklungszyklus auf kontinuierliches Erheben von Daten und ihrer Rückmeldung beziehe, leite sich Evaluation direkt aus dem aufgestellten Schulprogramm ab (siehe Kapitel 2.4.4).

2.4.3 Die Einführung bundeseinheitlicher Bildungsstandards

Nachdem die KMK im Juni 2002 die Einführung bundesweiter Bildungsstandards als Konsequenz aus TIMSS und PISA beschlossen hatte, wurden diese in den Jahren 2003 und 2004 für den Mittleren Schulabschluss sowie für den Grundschulbereich und den Hauptschulabschluss verabschiedet und mit Wirkung zu Beginn des Schuljahres 2005/2006 verbindlich eingeführt. Initiiert wurde die Entwicklung der Bildungsstandards insbesondere durch das fünfte der 2001 beschlossenen sieben Handlungsfelder der KMK (siehe Kapitel 2.3.1). Das Verständnis von Bildungsstandards definieren Klieme et al. (2003, S. 9) wie folgt:[2]

Nationale Bildungsstandards formulieren verbindliche Anforderungen an das Lehren und Lernen in der Schule. … Bildungsstandards benennen präzise, verständlich und fokussiert die wesentlichen Ziele der pädagogischen Arbeit, ausgedrückt als erwünschte Lernergebnisse der Schülerinnen und Schüler. Damit konkretisieren sie den Bildungsauftrag, den Schulen zu erfüllen haben. …

Bildungsstandards greifen allgemeine Bildungsziele auf. Sie legen fest, welche Kompetenzen die Kinder oder Jugendlichen bis zu einer bestimmten Jahrgangsstufe mindestens erworben haben sollen. Die Kompetenzen werden so konkret beschrieben, dass sie in Aufgabenstellungen umgesetzt und prinzipiell mit Hilfe von Testverfahren erfasst werden können. … Kompetenzmodelle konkretisieren Inhalte und Stufen der allgemeinen Bildung.

Die Bildungsstandards wurden jedoch auf eine bestimmte Auswahl von Fächern begrenzt, wobei für alle Schulstufen die Fächer Deutsch und Mathematik sowie für die Sekundarstufe I auch die erste Fremdsprache betroffen sind. „Nur für die Hochschulreife kommen weitere Sprachen und naturwissenschaftlich-technische Fächer hinzu. Für musische und sozialwissenschaftlich geprägte Fächer wurden bisher in keinem Bereich bundesweite Normierungen vereinbart oder angestrebt“ (Hovestadt & Keßler, 2004, S. 38).

Die Bildungsstandards sollten nicht als Mindeststandards – die die Gefahr bergen könnten, Schülerinnen und Schüler zu über- bzw. zu unterfordern – sondern als Regelstandards verstanden werden, die „ein mittleres Anforderungsniveau (definieren; Vf.), das vor dem Hintergrund der Einschätzungen der Praktiker aus Schule und Unterricht gesetzt wurde“ (Artelt & Riecke-Baulecke, 2004, S. 13). Nach Brügelmann (2004, S. 14) solle allerdings eher von „ Leistungs standards“ die Rede sein, weil „sich die Vorgaben und die Tests zu ihrer Kontrolle … auf wenige Leistungsbereiche aus ausgewählten Fächern“ beschränken würden[3].

Da zudem die Ergebnisse der nationalen Zusatzstudie PISA-E (Baumert, Artelt, Klieme, Neubrand, Prenzel, Schiefele, Schneider, Schümer, Stanat, Tillmann, & Weiß, 2002; Prenzel, Baumert, Blum, Lehmann, Leutner, Neubrand, Pekrun, Rost & Schiefele, 2005) nach PISA 2000 und 2003 ebenfalls belegt haben, dass im deutschen Bildungssystem große Differenzen zwischen einzelnen Regionen, Bundesländern und sozialen Gruppen vorhanden sind, soll Ziel der Bildungsstandards sein, „vergleichbare Bildungsqualität in allen Ländern herzustellen und damit zur Gleichheit der Chancen auf Bildung bundesweit beizutragen“ (Klieme et al., 2003, S. 54), um diese Unterschiede zu verringern. Daher haben sich die Länder verpflichtet, „die Standards zu implementieren und anzuwenden, … was insbesondere die Lehrplanarbeit, die Schulentwicklung und die Lehreraus- und -fortbildung“ (KMK, 2004, S. 1) betreffe. Des Weiteren wurde im Jahre 2004 das „Institut zur Qualitätsentwicklung im Bildungswesen (IQB)“ (KMK, 2006, S. 4) von der KMK unter der Prämisse gegründet, dass eine Vergleichbarkeit innerhalb des Bildungswesens erreicht werden solle. Das IQB entwickelt zentrale Testverfahren, die das Erreichen der Bildungsstandards ab dem Jahre 2009 überprüfen soll. Wesentliche Aufgabe des IQB wird „die Normierung, Überprüfung und Weiterentwicklung von Bildungsstandards“ (Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland, 2006, S. 233) sein.

Für Schule und Lehrkräfte komme den Bildungsstandards im Sinne von „output-bezogenen Standards“ (Klieme, 2005, S. 7) neben der Orientierungsfunktion an verbindlichen gemeinsamen Zielen eine Rückmeldefunktion über die eigene Arbeit zu. Somit könne überprüft werden, „ob die angestrebten Kompetenzen tatsächlich erworben wurden“ (Klieme et al., 2003, S. 10), was wiederum die „Qualitätsentwicklung auf der institutionellen Ebene“ unterstütze (Klieme et al., 2003, S. 47). Es gibt also verbindliche länderübergreifende Kriterien. Wie diese jedoch von den Schulen erreicht werden sollen, das müsse im Rahmen des jeweiligen individuellen Schulprogramms festgelegt werden. Oder anders ausgedrückt: „Standards geben den Schulen Zielmarken vor, indem sie erwartete Schülerkompetenzen möglichst klar benennen und überprüfbar machen, lassen aber den Weg der Reform und die Gestaltung der Unterrichtspraxis offen“ (Klieme, 2005, S. 7).

„Zur Überprüfung (der Bildungsstandards; Vf.) sind landesweite Orientierungs- und Vergleichsarbeiten vorgesehen“ (Klieme et al., 2003, S. 14), auf die im Einzelnen unter Kapitel vier bis sechs eingegangen wird. Zwischen den Bildungsstandards und Maßnahmen der externen Evaluation – speziell mit Vergleichsarbeiten – bestünde also ein enger Zusammenhang (Avenarius et al., 2003, S. 267f). Nach Helmke & Hosenfeld (2004b, S. 70) müssen jedoch „Vergleichsarbeiten einerseits und die Überprüfung der Standards andererseits … unbedingt voneinander unterschieden werden“, da sich die Bildungsstandards auf die Kompetenzen der Schülerinnen und Schüler am Ende der 4. Klasse beziehen, Vergleichsarbeiten aber je nach Konzept am Ende der zweiten, dritten oder vierten Klasse oder am Anfang der dritten und vierten Klasse geschrieben werden (siehe dazu Kapitel 5.1, Tabelle 1, S. 65). Daher erfolge eine Orientierung an den Standards (Helmke & Hosenfeld, 2004b, S. 71).

2.4.4 Evaluation im Bildungswesen

2.4.4.1 Allgemeine Begriffsbestimmung

Die Debatte über Evaluationsmaßnahmen im deutschen Bildungswesen, „d.h. die systematische Beurteilung von Organisationsstrukturen, Lehr- und Lernprozessen und Leistungsmerkmalen mit der Zielsetzung der Qualitätsverbesserung, hat in der Bundesrepublik Deutschland erst Ende der 80er Jahre und damit später als in anderen europäischen Staaten eingesetzt“ (Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland, 2006, S. 224). Auch dieser Begriff ist aufgrund seiner Vielfalt und unterschiedlichen Verwendung in Bildungspolitik und Öffentlichkeit nicht genau definierbar, weswegen an dieser Stelle lediglich eine Annäherung an diesen vorgenommen werden kann.[4]

Nach Arnold & Faber (2001, S. 105) soll Evaluation im Rahmen der Schul- bzw. Qualitätsentwicklung als dauerhafter Prozess verstanden werden, der systematisch Daten sammelt sowie analysiert und mehrere Funktionen wahrnimmt. Dazu gehören beispielsweise Kontrolle und Rechenschaftslegung, Überprüfung und Sicherung von Standards und Vergleichbarkeit, Selbstreflexion und Standortbestimmung. Zudem diene Evaluation als Basis zur Begleitung des Schulentwicklungsprozesses. „Die Daten werden in der Regel über die vier klassischen Methoden der empirischen Sozialforschung Befragung, Beobachtung, Test und Materialanalyse erfasst“ (Staatsinstitut für Schulqualität und Bildungsforschung München (ISB), 2005, S. 20). Evaluation sei zudem eine Form der Bewertung und in Bezug auf eine Qualitätsanalyse unabdingbar, weil der Schulentwicklungsprozess nur dann zielgerichtet verlaufen könne, wenn „Informationen darüber vorliegen, ob bzw. in welchem Ausmaß angestrebte Ziele erreicht und aufgewendete Ressourcen wirkungsvoll eingesetzt“ (Kohler, 2005, S. 49) wurden. Auf diese Weise überprüfe Evaluation die Effektivität und Effizienz der gesetzten Ziele und „verweist in ihren Ergebnisse immer auf Schule als System. Sie macht nur Sinn, wenn sie in alle Bereiche schulischer Arbeit eingebunden wird … und wenn sie der Weiterentwicklung und Sicherung der Qualität schulischer Arbeit nutzt“ (Babbe, Ipsen-Wittenbecher, Meiering, Schnier, Sebold, Peters & Hackenberger, 2004, S. 1).

Damit Evaluation erfolgreich und nachhaltig verlaufen kann, um zur Qualitätssicherung beizutragen, müssten sich die Beteiligten im Klaren darüber sein, welche Funktionen die angewandte Evaluation für sie selbst und die Schule hat und vor allem, was sie genau bei wem bewirken soll (Burkhard & Eikenbusch, 2000, S. 44). „Neben ihrem primären Ziel – der Standortbestimmung, Verortung und Rechenschaftslegung – muss Evaluation ein zweites Ziel anstreben: die Verbesserung … des Lehrens und Lernens, die Steigerung der Unterrichtsqualität und damit auch die Förderung der Professionalisierung der Lehrerschaft“ (Helmke, 2004, S. 1). Zudem dürfe Evaluation „nicht in der Beliebigkeit der einzelnen Schule verbleiben, sondern muss zum Regelbestandteil professioneller pädagogischer Arbeit werden“ (Burkhard & Eikenbusch, 2000, S. 46), damit im Zuge der vermehrten Selbstständigkeit der Schulen die Nachweispflicht der Umsetzung staatlicher Vorgaben und eine Vergleichbarkeit untereinander gewährleistet werden kann. Da hierbei interne Evaluation allein „die Qualität nicht hinreichend sichern“ (Kempfert & Rolff, 1999, S. 25) könne, bedürfe sie anschließend einer Ergänzung durch externe Evaluation. Für jeden Evaluationsprozess gelte, dass an seinem Abschluss „ Empfehlungen zur Qualitätsverbesserung “ (Weibel, 2002, S. 144) für die Schule bzw. den evaluierten Bereich in einem Evaluationsbericht stehen sollten.

Neben den beiden Ansatzpunkten für Evaluation – der internen und der externen, auf die im Folgenden näher eingegangen wird – sind als Formen der Evaluation die formative und die summative Evaluation zu nennen. Diese Differenzierung wird nach den verschiedenen Funktionen der Evaluation im Arbeitsprozess vorgenommen: „Die formative Evaluation hat den Prozess selbst im Auge und verfolgt seine Optimierung; die summative schaut auf das Produkt, also auf das Ergebnis“ (ISB, 2003, S. 10).

2.4.4.2 Interne Evaluation (Selbstevaluation)

„Interne Evaluation kann als integraler Bestandteil schulischen Qualitätsmanagements und als Notwendigkeit für (teil-)autonom handelnde Schulen betrachtet werden. … Bei allen Verfahren der internen Evaluation definiert die Schule die Kriterien und Prozesse der Beurteilung selbst“ (Kohler, 2005, S. 50). Selbstevaluation leite jede Schule selbst bewusst und systematisch ein, damit anhand von Daten und Informationen der Erfolg der eigenen Arbeit regelmäßig analysiert werden kann. Im Mittelpunkt der zu evaluierenden Faktoren stehen zum Beispiel die bereits genannten Input-Faktoren wie Lehrpläne, Unterrichtsmaterialien, Professionalität des Lehrpersonals sowie personale und sachliche Ressourcen. Selbstevaluation ist demnach das Kernelement im Entwicklungsprozess einer Schule, „weil Prozess- und Ergebnisverantwortung dort übernommen werden sollen, wo alltäglich die Prozesse stattfinden, um deren Willen die Schule organisiert wird“ (Weibel, 2002, S. 145). Auf diese Weise werde nicht nur die eigene Arbeit reflektiert, sondern auch Stärken und Schwächen aufgezeigt, die den Ausgangspunkt für schulinterne Entwicklungen bilden können. Primäre Ziele der internen Evaluation sind die „Standortbestimmung und (die; Vf.) Optimierung von Handlungen“ (ISB, 2005, S. 20).

Methoden interner Evaluation könnten sowohl den Unterricht durch Lehrer- und Schülerselbstevaluation, Video- und Audioaufnahmen des Unterrichts, Portfolios sowie kollegiale Unterrichtshospitation betreffen (Kempfert & Rolff, 2005, S. 115-173) als auch die Schule durch die Überprüfung der erreichten Ziele des Schulprogramms, die Rückmeldung an die Schulleitung bezüglich ihrer Führungsqualitäten sowie Eltern- und Schülerbefragungen (Kempfert & Rolff, 2005, S. 175-193). Wie bereits erwähnt, bedarf die Selbstevaluation jedoch wegen der Gefahr einer „Betriebsblindheit“ (Burkhard & Eikenbusch, 2000, S. 68) die Ergänzung einer externen Evaluation.

2.4.4.3 Externe Evaluation (Fremdevaluation)

Die Notwendigkeit externer Evaluation leitet sich nach Kempfert & Rolff (1999, S. 137) aus zwei Gründen ab: Einerseits haben „Selbstbeobachtungen immer ihren blinden Fleck, … sind nahezu zwangsläufig einseitig und möglicherweise zu wenig selbstkritisch … wenn (sie; Vf.) nicht durch einen fremden Blick ergänzt werden“. Andererseits kostet das Bildungssystem den Staat eine Menge Geld und gerät „angesichts leerer Staatskassen … zunehmend unter Rechtfertigungszwang“.

Externe Evaluation (Fremdevaluation) (ist; Vf.) die Überprüfung und Bewertung schulischer Ergebnisse und Prozesse durch unabhängige Institutionen, Gremien oder Experten auf der Grundlage allgemein akzeptierter, offen gelegter und überprüfbarer Kriterien und Verfahren. Die Unvoreingenommenheit der externen Begutachter soll dazu beitragen, dass Aspekte und Probleme gesehen werden, die dem internen Prüfer verborgen bleiben.

Externe Evaluation kann u.a. in Form standardisierter Tests, als Peer-Review, durch die Schulaufsicht oder durch externe Teams durchgeführt werden (Babbe et al., 2004, S.2).

Zu den Typen der standardisierten Tests zählt auch das Konzept der Vergleichsarbeiten (siehe Kapitel 4.2), denn „die Vergleichsarbeit ist das Evaluationsinstrument, das von allen Bundesländern eingesetzt wird“ (Hovestadt & Keßler, 2004, S. 40).

Fremdevaluation könne auf verschiedenen Ebenen mit entsprechenden Verfahren geschehen, wobei nach Kohler (2005, S. 72) drei Kategorien zu unterscheiden sind: Erstens das Systemmonitoring, um unterschiedliche Gesichtspunkte und Problemfelder auf der Systemebene erfassen zu können. Zweitens die Durchführung zentraler Abschlussprüfungen, Schulleistungsstudien und Vergleichsarbeiten, damit ein vergleichbares Leistungs- und Anforderungsniveau der Schulen gewährleistet werden kann und drittens die Evaluation der Einzelschulen zur Feststellung des Ist-Zustandes, des Aufzeigens der Stärken und möglicher Schwächen in bestimmten Bereichen, um schließlich entsprechende Impulse zur Verbesserung der Qualitätsentwicklung geben zu können. Auf letzterer Ebene reflektiert und überprüft die Schule zunächst in Eigenverantwortung ihre Arbeit. „Dann ist es Aufgabe einer externen Evaluation, Ergebnisse der internen Evaluation einer Außenbewertung zu unterziehen und Schulen Rückmeldungen über die Qualität ihrer Arbeit aus externer Sicht zu geben“ (Burkhard & Eikenbusch, 2000, S. 53). Sie könne jedoch nur unterstützend sein, wenn sie auf die konkreten Bedingungen der Schule abgestimmt ist, in deren Gesamtkonzept eingebunden wird, die Beteiligten hinreichend mit dem Umgang mit den Ergebnissen vertraut gemacht werden und wenn sie von den Lehrkräften als Unterstützung und nicht als Kontrolle akzeptiert wird (Kempfert & Rolff, 1999, S. 25). All dies „ist an ein vertrauensvolles Klima gebunden, das es ermöglicht, Schritt für Schritt eine Evaluationskultur aufzubauen“ (Nietzschmann & Vieluf, 2006, S. 34), denn bisher bestünden „massive Bedenken gegen externe Evaluation. … Befragungen haben gezeigt, daß ein Teil der Lehrerschaft externe Evaluation schlichtweg ablehnt, ein anderer Teil … sie aber nötig und nützlich findet“ (Helmke & Schrader, 2001, S. 597).

Durch die aufgezeigten Veränderungen zur Qualitätsentwicklung im Bildungssystem werde auch die Fremdevaluation „weitreichende Veränderungen erfahren. Die bisherige Schulaufsicht war aufgebaut auf Kontrolle und Beurteilung des Einzellehrers in seiner Unterrichtslektion“ (Weibel, 2002, S. 145) ohne dabei die gesamte Leistung der Schule zu berücksichtigen. Damit die Schulaufsicht den Schulen insgesamt mehr Unterstützung geben kann, werden Schulinspektorate als „Fachstellen der externen Evaluation“ (Weibel, 2002, S. 145) eingerichtet.

2.5 Ausblick

Wie sich die Qualitätsdiskussion in ihren unterschiedlichen Facetten in Zukunft entwickeln wird, kann an dieser Stelle nicht prognostiziert werden. Festzuhalten ist, dass der Lehrer sein Dasein als bisheriger „Einzelkämpfer“ (Lohmann, 2002, S. 18), dem niemand bei der Arbeit zuschaut, vor dem Hintergrund der Autonomie von Schule, Bildungsstandards und ständiger Kontrolle von außen sowohl durch Vergleichstests aller Art als auch Schulinspektoren ablegen muss. Er wird vielmehr mit den Kollegen zusammenarbeiten müssen, damit nicht nur Dialoge über Verständigungen bezüglich Schulentwicklungsprozessen stattfinden können, sondern auch Prozesse der Arbeitserleichterung. Denn „nur externe Evaluation (ist; Vf.) geeignet, eine rationale, schulübergreifende Bezugsnorm bzw. Standards zu setzen und damit eine Grundlage für Rechenschaft gegenüber der Öffentlichkeit zu liefern. Das begründet auch die besondere Bedeutung von vergleichender Messung von Schulleistungen“ (Rolff, 2002, S. 342).

Brügelmann (2004, S. 19) schlägt vor, die Schulaufsicht durch eine Schulinspektion zu ergänzen, „die den Unterrichtsbetrieb nicht rechtlich kontrolliert, sondern fachliche Rückmeldung gibt. Die Schulen sollten den ‚Fremdblick’ durch eine interne Bestandsaufnahme vorbereiten. … Ohne Sanktionsbefugnisse kann die Inspektion nur durch ihre Kompetenz und durch den sozialen Druck, den die Berichterstattung bedeutet, wirken“. Zudem dürfe die Rechenschaftspflicht nicht nur auf die Systemebene begrenzt werden, denn wenn die Lernkultur verändert werden solle, müsse sich Evaluation vermehrt auf Unterrichts- und Lernprozesse beziehen und dabei die Evaluationskompetenz auf Seiten der Lehrkräfte und Schüler stärken, „statt sie auf ExpertInnen nach außen zu verlagern“ (Brügelmann, 2004, S. 24).

„Insgesamt bezieht sich ein großer Teil der schulpolitischen Interventionen nach PISA auf den Primar- und auch auf den Elementarbereich. Die größere Wertschätzung der frühen Bildungs- und Förderphasen und Konzentration der Anstrengungen auf diesen Bereich ist ein wesentlicher Schritt“ (Hovestadt, 2003, S. 30). Des Weiteren ist festzuhalten, dass die im Bildungsbereich tätigen Personen im Umgang mit den Ergebnisrückmeldungen aus Evaluationsverfahren und dem Bildungsmonitoring herausgefordert werden und lernen müssen, mit ihnen umzugehen. „Wenn Bildungsstandards eine output-orientierte Steuerung des Schulsystems implizieren, werden Schulen regelmäßig … ihre Stärken und Schwächen analysieren und dabei als zentrales, wenn auch nicht einziges Kriterium die erreichten Kompetenzen der Schülerinnen und Schüler zur Kenntnis nehmen“ (Klieme et al., 2003, S. 53). Ernst & Döbert (2006, S. 55) stellen fest, dass der Wechselprozess der Systemsteuerung zeitintensiv ist und dessen langfristige Nachwirkungen nicht genau vorhersehbar sind. Es würde sich jedoch bereits ein Spannungsverhältnis herauskristallisieren: „Auf der einen Seite erzeugen Vergleiche einen Druck auf die Leistungen der Schule in der Öffentlichkeit, setzen aber auf der anderen Seite auch die Erwartungshaltung frei, notwendige Unterstützung zu erhalten“.

Die hier aufgezeigten Handlungsbereiche können für ein systematisches Qualitätsmanagement nur einen Orientierungsrahmen aufzeigen, da es abhängig vom jeweiligen Kontext der Einzelschule ist. „Es gibt dafür kein allgemein gültiges Erfolgsmodell“ (Heckt, 2002, S. 10). Sie dienen – wie bereits eingangs erwähnt – vornehmlich dem Überblick und der Einordnung des Themas der Arbeit in den Gesamtzusammenhang. Enger gefasst wird dieser Rahmen im nächsten Kapitel, in dem die zentralen Begriffe im Zusammenhang mit Leistung und deren Messung (Bezugsnormen und Gütekriterien) erläutert werden, bevor explizit die Vergleichsarbeiten behandelt werden.

3 Komponenten der Schulleistung

3.1 Leistung und Schulleistung

Der Begriff der „Leistung“ ist in nahezu jedem Lebensbereich mit unterschiedlichen Zuschreibungen allgegenwärtig und wird in der Literatur und in der öffentlichen Diskussion in Bezug auf Schule kontrovers und mehrdeutig definiert, sodass hier nur wesentliche Aspekte dargestellt werden können.[5]

Gleiches gelte in der Literatur für den Begriff der „Schulleistung“, da dort ebenfalls keine einheitliche Definition vorhanden sei und er „demnach in der Praxis auch nicht einheitlich verwendet werden kann“ (Sauer & Gamsjäger, 1996, S. 70). Die mit dieser Problematik einhergehenden Zusammenhänge und Diskussionen, insbesondere auch bezüglich des Problems des pädagogischen und gesellschaftlichen Leistungsbegriffes, werden an dieser Stelle jedoch nicht weiter vertieft (Aspekte dazu siehe u.a. Sauer & Gamsjäger (1996) sowie Ziegenspeck (1999)).

Nach von Saldern (1999, S. 9) wird der Leistungsbegriff zum Beispiel in Schulordnungen und Verwaltungsvorschriften relativ offen gelassen, „denn Schulleistung kann außerordentlich heterogen definiert werden: Es können Leistungen einzelner Schüler oder ganzer Schulklassen sein, es kann sich um prozedurales oder deklaratives Wissen handeln … (sowie; Vf.) um fachliches oder übergreifendes Wissen“. Weinert (2002b, S. 85) fragt in einem Aufsatz bereits in der Überschrift danach, ob Schulleistungen Leistungen der Schülerinnen und Schüler oder der Schule selbst sind und kommt zu dem Schluss, dass Schulleistungen „stets Leistungen der Schüler (sind; Vf.), die durch die Schule begünstigt oder erschwert werden“. D. h., dass sowohl die Schulkinder als auch die Schule gemeinsam die Schulleistungen und damit einhergehend auch deren Unterschiede bestimmen, wobei die Schule verantwortlich für die Schaffung entsprechender Lernangebote sei (Weinert, 2002b, S. 78). Zu berücksichtigen sei allerdings, dass diese Interaktion nicht nur ausschlaggebend für die Leistung eines Individuums ist, da Letztere eine „aktive menschliche Verarbeitung des Angebots und die individuelle Konstruktion von Bedeutung (ist; Vf.), die sich in der handelnden Auseinandersetzung mit der sozialen oder natürlichen Umwelt, vor allem aber im Umgang mit Symbolsystemen, vollzieht“ (Baumert, 2006, S. 40). Daher sei Schulleistung ein Persönlichkeitsmerkmal, dass bei jedem Individuum anders ausgeprägt ist (Heller & Hany, 2002, S. 89) – insbesondere, weil „das Leistungsniveau ... stärker von den bereits erworbenen Vorkenntnissen als vom aktuellen Unterrichtsgeschehen ab(hängt)“ (Weinert, 2002c, S. 361f).

Ein Verständnis von Leistung im schulischen Bereich sollte nicht nur die fachbezogene Perspektive oder das Endprodukt einer Leistung, was sich in der Regel in einer Zeugnisnote widerspiegelt, berücksichtigen, sondern insbesondere die vorausgehenden und zum Produkt gehörigen Lernprozesse sowie alle erdenklichen Leistungen, die von einem Kind im Zusammenhang mit der Schule erbracht werden (Sauer & Gamsjäger, 1996, S. 66). „Die kognitive Komponente schließt Aneignung von Wissen, Fähigkeiten, bestimmten Fertigkeiten oder Erkenntnissen mit ein, die soziale und emotionale Komponente macht deutlich, dass Lernen nicht losgelöst stattfindet“ (ISB, 2005, S. 34). Würde der Prozess als dynamische und das Produkt als statische Komponente für gleichwertig erachtet, dann werde der „Mehrdimensionalität des Begriffes Schulleistung“ (Sauer & Gamsjäger, 1996, S. 70) Rechnung getragen.

Folgendes zusammenfassendes Zitat soll die Darstellungen zur Begriffsbestimmungen abrunden:

Schulleistung im Sinne von beobachtbarem Schulleistungsverhalten wird verstanden als die einem gesellschaftlichen Auftrag folgende, durch die Institution Schule initiierte, sich in Prozeß und Produktmerkmal aufgliedernde, von Unterrichtsmaßnahmen (Lehrer), von Interaktionen (Lehrer-Schüler, Schüler-Schüler, Eltern-Schüler) und von persönlichen Aktivitäten und verschiedenen Fähigkeiten (Schüler) getragene Lernleistung eines Schülers, die nach unterschiedlichen Normen (individuelle, gruppenbezogen oder lehrziel- bzw. kriteriumsorientiert) bewertet werden kann (Sauer & Gamsjäger, 1996, S. 73).

3.2 Begriffsabgrenzungen: Leistungsfeststellung, Leistungsbewertung und Leistungsmessung

Zwar würden in der Fachliteratur und im Schulalltag die Begriffe Leistungsfeststellung, Leistungsbewertung und Leistungsmessung für die Ermittlung und Benotung einzelner Schülerleistungen parallel verwendet (ISB, 2005, S.35). Da zwischen ihnen jedoch Bedeutungsunterschiede bestehen, werden sie im Folgenden gegeneinander abgegrenzt.

Mit Verfahren der Leistungsmessung, wie beispielsweise mündlichen und schriftlichen Leistungskontrollen, Klassenarbeiten oder Klausuren, findet eine Kontrolle des Lernerfolges bzw. des Lern- und Leistungszuwachses bei den Schülerinnen und Schülern statt. Schulische Leistungsmessungen sollten aber auch feststellen, „welchen Umfang, welches Niveau und welche Qualität an Wissen, Fertigkeiten, Einsichten, Werthaltungen, Kompetenzen etc. ein Schüler in einem bestimmten Sach- oder Lebensbereich erworben hat“ (Heller & Hany, 2002, S. 89). Diese Vorgänge „sind an rechtliche Grundlagen und Rahmenvorgaben gebunden, wie sie im Schulgesetz, in Schulordnungen, Lehrplänen, Bildungsstandards und Beschlüssen der Kultusministerkonferenz verankert sind“ (Comenius-Institut, 2005, S. 3). Daraus werde ersichtlich, wie komplex ein Messvorgang ist, bei dem der Lehrer die Aufgabe habe, „die Ergebnisse der Leistungsmessung zu bewerten“ (Ziegenspeck, 1999, S. 130). Neben dem Messcharakter komme der Leistungsmessung aber auch gleichzeitig die Funktion von „Belohnung und/oder Strafe“ (von Saldern, 1999, S. 163) zu.

„‚Leistungserhebung’ und ‚Leistungsfeststellung’ werden synonym verwandt und fokussieren eher den Akt des Festhaltens, des Feststellens von Schülerleistungen (im Sinne einer; Vf.) Dokumentation“ (ISB, 2005, S. 35), d.h. es wird festgestellt, was eine Schülerin bzw. ein Schüler tatsächlich beherrscht und was nicht. Dieser Vorgang müsse nach von Saldern (1999, S. 190ff) ebenso als Prozess mit mehreren Phasen gesehen werden wie die „Leistungsbeurteilung“ bzw. „Leistungsbewertung“. Die Leistungsfeststellung solle über die Leistungen der Schülerinnen und Schüler vor allem objektive Angaben machen, wobei jedoch die Gefahr bestünde, dass „Effekte erzielt würden, die man eigentlich gar nicht will, weil sie z.B. kontraproduktiv sind“ (von Saldern, 1999, S. 163).

Diese beiden Begriffe der Leistungsbeurteilung und Leistungsbewertung würden in der Literatur ebenfalls vermischt, wobei sie an dieser Stelle insofern abgegrenzt werden sollen, dass „Bewertung das Einordnen in einen Bewertungsmaßstab ist, Beurteilung hingegen … die Einordnung in einen größeren Zusammenhang“ (von Saldern, 1999, S. 176). Die Bewertung liefere also Aussagen darüber, wie die festgestellte Leistung in Bezug auf das Lehrziel oder andere Kriterien einzuordnen ist. „Grundlage der Leistungsbewertung in einem Unterrichtsfach sind alle von einem Schüler in einem Unterrichtsfach erbrachten Leistungen (schriftliche, mündliche und praktische Leistungen)“ (KMK, 1983, S. 4).

Im Kreislauf des ständigen Beobachtens und Beurteilens von Schülerleistungen setze sich die gesamte Leistungsfähigkeit aus vielen Einzelleistungen zusammen (von Saldern, 1999, S. 177), wobei die die Beurteilung an sich seitens der Lehrperson von unterschiedlichen Faktoren beeinflusst werden könne (wie eine Leistungsbeurteilung im Alltag aussehen kann und was dabei alles von Bedeutung ist, beschreiben u.a. Schrader & Helmke, 2002, S. 45-58).

Schülerleistungen werden in Form einer Note (ab Ende Klasse 2) oder eines Berichts (Klasse 1 und 2) von der Lehrkraft bewertet, was sich letztendlich in Aussagen über die zukünftige Entwicklung des Kindes bzw. in „Empfehlungen für die weitere Schullaufbahn“ (ISB, 2005, S. 35) niederschlage. Bewertungen fänden immer in Bezug auf Normen statt (siehe Kapitel 3.3) und gäben sowohl der Lehrperson und den Eltern als auch dem einzelnen Schulkind Rückmeldung bezüglich seines Lernfortschrittes und seinem individuellen Leistungsstand. Darüber hinaus diene sie „der Lehrkraft als Orientierungshilfe und als Qualitätsindikator ihres Unterrichts“ (ISB, 2005, S. 36), vor deren Hintergrund Maßnahmen für individuelle Förderungen getroffen werden könnten. Weitere Funktionen der Leistungsfeststellung und Leistungsbewertung seien zudem, dass sie „die Methoden- und Sozialkompetenz von Schülerinnen und Schülern berücksichtigen und fördern (sowie; Vf.) die Beiträge des einzelnen für die Gruppe angemessen berücksichtigen“ (von Saldern, 1999, S. 219). Keinesfalls sollten sie als „Disziplinierungsmittel“ (von Saldern, 1999, S. 219) verwendet werden.

Um Leistungen zu messen und zu bewerten, bedürfe es sowohl entsprechender Standards bzw. Vergleichsmaßstäbe, wozu ein spezifisches Leistungsergebnis in Relation gesetzt werden kann, als auch Gütekriterien, nach denen sich die Bewertung oder ein Testverfahren richtet, damit Leistungsmessungen „testtheoretisch fundiert“ (ISB, 2005, S. 35) sind. Im Folgenden wird zunächst auf die Bezugsnormen und dann auf die Gütekriterien genauer eingegangen.

3.3 Bezugsnormen

Wenn Schülerleistungen bewertet werden, so liegen dabei in der gängigen Praxis drei Bezugsnormen zugrunde: Die individuelle, die soziale und die kriteriale Bezugsnorm. „In der Praxis der Leistungsbewertung werden die Bezugsnormen in der Regel kombiniert. Der Bewertungsmaßstab ist im Falle von Noten in den Schulordnungen definiert, bei anderen Formen der Leistungsbewertung ist er gemeinsam mit Kollegen und/oder Schülern zu vereinbaren“ (Comenius-Institut, 2005, S. 3). Im Nachfolgenden werden die drei genannten Bezugsnormen für das weitere Verständnis der Arbeit kurz begrifflich erläutert. Gleiches gilt anschließend für die Darstellung der Gütekriterien.

Werde der Leistungsbeurteilung eine individuelle Bezugsnorm zugrunde gelegt, so „wird im zeitlichen Längsschnitt ein jetzt erzieltes Ergebnis daran gemessen, was der Schüler auf diesem Gebiet zuvor erreicht hat. Damit geht der individuelle Lernzuwachs direkt in die Leistungsbeurteilung mit ein und wird besonders deutlich gemacht“ (Rheinberg, 2002, S. 65). D.h. das Schulkind wird mit sich selbst bzw. seinen Leistungen an zwei oder mehreren Zeitpunkten verglichen, indem festgestellt wird, ob es sich verbessert oder verschlechtert hat. Auf diese Weise bekomme jedes Kind eine Rückmeldung bezüglich des Zusammenhangs der eigenen Anstrengung und deren Erfolg im Zeitverlauf, also über seinen Lernfortschritt (Rheinberg, 2002, S. 65).

Im Schulalltag würden Schülerleistungen – meist innerhalb der Klasse – miteinander verglichen. In diesem Fall handelt es sich um die soziale Bezugsnorm: „‚Gut’ ist das, was über dem Durchschnitt liegt, ‚schlecht’ ist das, was darunter liegt“ (Rheinberg, 2002, S. 61). Diese gruppenbezogene Einordnung sei im Gegensatz zum individuellen Vergleich u.a. dazu geeignet, dass die Schülerinnen und Schüler lernen, ihre eigenen Fähigkeiten im Vergleich zu den Mitschülerinnen und Mitschülern realistischer einzuschätzen (Rheinberg, 2002, S. 65).

Die kriteriale Bezugsnorm gibt auf der verbindlichen Grundlage des Lehrplans durch klar formulierte inhaltliche Maßstäbe an, was ein Schulkind von den verlangten Standards geleistet hat. Dies werde in Form von erreichter bzw. „lehrplangeforderter Kompetenzgrade“ (Rheinberg, 2002, S. 66) ausgedrückt. Andere Bezeichnungen seien daher auch curriculare, sachliche oder lehrzielorientierte Bezugsnorm (Rheinberg, 2002, S. 66). Hierbei wird also das Ergebnis der Schülerin/des Schülers unabhängig von der Bezugsgruppe und deren Leistung mit sachlichen Vorgaben unter der Prämisse verglichen, ob ein gesetztes Ziel erreicht wurde oder nicht.

3.4 Gütekriterien für die Leistungsbeurteilung und Tests

In der pädagogischen Diagnostik sei es wichtig, die Qualität eines Messergebnisses zu erkennen, was anhand der Kriterien Objektivität, Reliabilität und Validität geschehe. Daher müsse „die gesamte Leistungsfeststellung … wie jede andere Messung auch den drei klassischen Gütekriterien unterworfen werden“ (von Saldern, 1999, S. 178), weil sie aufgrund des hohen Grades an Subjektivität seitens des Lehrers beeinflusst werden könne. „Die Beurteilungskriterien (schwanken; Vf.) von Lehrer zu Lehrer, von Klasse zu Klasse und von Schule zu Schule. Damit werden Leistungsfeststellungen höchst angreifbar“ (Ziegenspeck, 1999, S. 173)[6]. Standardisierte Schulleistungsmessungen versuchten, die Gütekriterien im Gegensatz zu alltäglichen Einschätzungen von Schulleistungen möglichst zu optimieren (Heller & Hany, 2002, S. 90).

3.4.1 Objektivität

Eine Messung ist dann objektiv, wenn sie „von der Person des Untersuchers (z.B. der Lehrkraft) unabhängig“ (Heler & Hany, 2002, S. 90) ist bzw. wenn verschiedene Beurteiler bei einer Leistungsmessung zum selben Ergebnis kommen. Objektivität werde demnach anhand der Übereinstimmung der Ergebnisse verschiedener Beurteiler gemessen, wobei deren subjektiver Einfluss möglichst minimiert werden sollte. Dazu bedürfe es genauer Vorgaben, beispielsweise „welche Aufgaben vorzugeben sind, welche Anweisungen die Schüler erhalten sollen und wie die Ergebnisse, die die Schüler liefern, ausgewertet und interpretiert werden“ (Heller & Hany, 2001, S. 90). Es sind also drei Arten von Objektivität zu unterscheiden: Durchführungs-, Auswertungs- und Interpretationsobjektivität.

Durchführungsobjektivität bedeutet, „dass die Bearbeitung des Tests und deren Instruktion unabhängig vom Testanwender ist“ (Schwippert, 2005, S. 15) und dass Aufgabenstellung, Bearbeitungszeit, Hilfsmittel usw. für alle Schülerinnen und Schüler gleich sind. Auswertungsobjektivität wäre dann gegeben, wenn „unterschiedliche Lehrkräfte bei der Korrektur bzw. Auswertung der Arbeit zu gleichen Ergebnissen kämen“ (Schwippert, 2005, S. 15). Dies sei im Regelfall bei Tests gegeben, denen bei der Auswertung klar definierte Auswertungskriterien zugrunde gelegt werden. Ein maximaler Grad an Auswertungsobjektivität könne bei Multiple-Choice-Aufgaben aufgrund der klaren Bewertung „entweder richtig oder falsch“ erreicht werden (Lukesch, 1998, S. 41). Bei der Interpretationsobjektivität müssen mehrere Beurteiler das gleiche Auswertungsergebnis auch gleich interpretieren, d.h. in einen sinnvollen Zusammenhang einordnen. „Aus den ausgewerteten Ergebnissen sollten auch die gleichen diagnostischen Schlüsse gezogen werden“ (Lukesch, 1998, S. 43). Insgesamt gelte für die Objektivität, dass es umso schwieriger wird, sie einzuhalten, „je komplexer die zu verarbeitende diagnostische Information ist“ (Lukesch, 1998, S. 43) und dass sie die Voraussetzung für Reliabilität und Validität ist.

3.4.2 Reliabilität

Die Reliabilität stellt den Grad der Genauigkeit bzw. Zuverlässigkeit dar, mit der ein bestimmtes Merkmal gemessen wird oder anders ausgedrückt, die Reliabilität ist die „Genauigkeit und Zuverlässigkeit, mit der der Test das misst, was er misst“ (ISB, 2005, S. 54). „Die klassische Testtheorie geht allerdings davon aus, dass praktisch jede Messung mit einem gewissen Messfehler behaftet ist“ (Heller & Hany, 2002, S. 91), also wahre und verfälschte Anteile enthalte. Mit Hilfe verschiedener Methoden sei jedoch abschätzbar, „wie stark der Einfluss von Messfehlern, d.h. wie groß die Zuverlässigkeit des Messverfahrens ist“ (Heller & Hany, 2002, S. 91). Um die Messgenauigkeit eines diagnostischen Verfahrens zu überprüfen, könne die Wiederholungs-, Parallel- und Halbierungsmethode angewendet und eine Konsistenzanalyse durchgeführt werden. Die Reliabilität eines Messverfahrens gäbe es allerdings aufgrund der „verschiedenen inhaltlichen Zugänge“ (Lukesch, 1998, S. 47) nicht.

Bei der Wiederholungsmethode wird zunächst der Test wiederholt und das Ergebnis dahingehend überprüft, wie groß der Unterschied zwischen den beiden Messungen ist, um diese anschließend miteinander in Beziehung zu setzen (ausführlicher dazu siehe Lukesch, 1998, S. 47ff). Der dadurch erhaltene Reliabilitätskoeffizient gibt an, „wie konstant die Messwerte über die Zeit ausfallen“ (Lukesch, 1998, S. 47). Werden zwei oder mehrere äquivalente Tests konstruiert und angewendet, dann seien Angaben in Bezug auf die Gleichwertigkeit beider Tests möglich (Parallelmethode) (Lukesch, 1998, S. 49f). Bei Anwendung der Halbierungsmethode „wird der einmalig angewandte Test nach verschiedenen Kriterien in zwei Aufgabenhälften geteilt, wobei die Korrelation zwischen beiden Testhälften Hinweise darauf gibt, wie sehr sich beide Testhälften entsprechen“ (Ziegenspeck, 1999, S. 363). Eine weitere Unterteilung des Tests bis hin zu den einzelnen Items (kleinste Aufgabeneinheit) führe schließlich zu einer Konsistenzanalyse, die jedoch nur dann Sinn mache, „wenn alle Items dieselbe (faktorielle) Struktur aufweisen, d.h. die gleichen Fähigkeiten messen“ (Lukesch, 1998, S. 51).

3.4.3 Validität

Die Validität beschreibt die Gültigkeit eines Messverfahrens und dessen Grad an Genauigkeit, denn „ein Messverfahren soll genau dasjenige Schülermerkmal erfassen, das es zu erfassen beansprucht“ (Heller & Hany, 2002, S. 91). Um die Validität eines diagnostischen Verfahrens festzustellen, werden in der Regel drei Kriterien unterschieden: Die Inhaltsvalidität (curriculare Validität), die empirische Validität (Übereinstimmungs- und Vorhersagevalidität) sowie die Konstruktvalidität.

[...]


[1] Ein ausführlicher Überblick zur Rhythmisierung der Ländervergleiche findet sich im Anhang der Gesamtstrategie der KMK zum Bildungsmonitoring (Beschluss der KMK vom 02.06.2006) sowie nähere Erläuterungen zur deren Durchführung.

[2] An dieser Stelle sei für ausführliche Darstellungen zu den Bildungsstandards u.a. auf das Klieme-Gutachten (Klieme et al., 2003) verwiesen, in dem umfassende Vorschläge für die Gestaltung der Bildungsstandards formuliert wurden sowie auf die Erläuterungen zur Konzeption und Entwicklung der Bildungsstandards (2005), in der die KMK auf häufig gestellte Fragen zu den Standards eingeht. Die Bildungsstandards für die jeweilige Schulform sind im Internet auf der Homepage der KMK unter der Adresse www.kmk.org/doc/beschl/aschulw.htm zu finden (Stand vom 01.11.2006).

[3] Für ausführliche kritische Anmerkungen zu den Bildungsstandards sei u.a. auf Bartnitzky & Brügelmann (2004), Brügelmann (2004, S. 10-26), das 8. Beiheft der Zeitschrift „Die Deutsche Schule“ (2004), die 2. und 3. GEW-Stellungnahme (2004a & b), sowie Herrmann (2004) verwiesen.

[4] An dieser Stelle sei für ausführliche Darstellungen in Theorie und Praxis u.a. auf Kempfert & Rolff (2005); Burkard & Eikenbusch (2000) sowie auf Kotthoff (2003) bezüglich internationaler Beispiele verwiesen. Wie ein Evaluationskreislauf bzw. Evaluationsprozess aussehen kann, erläutern auch Holtappels (2003, S. 212ff) sowie Kempfert & Rolff (1999, S. 141ff).

[5] Zum historischen Entstehungshintergrund und einer ausführlichen Bestimmung des Begriffes sowie den verschiedenen Wirklichkeitsfeldern der Leistung siehe Ziegenspeck (1999, S. 29-64).

[6] Ausführliche Erläuterungen zu Beurteilungsfehlern siehe u.a. von Saldern (1999, S. 183-190) und Ziegenspeck (1999, S. 173-180). Bei Letzterem finden sich ebenfalls Maßnahmen zur Vermeidung systematischer Beurteilungsfehler (S. 181-186).

Excerpt out of 132 pages

Details

Title
Vergleichsarbeiten als Instrument externer Evaluation - Ein Baustein zur Qualitätsentwicklung der Grundschule?
College
Leuphana Universität Lüneburg  (Pädagogik)
Grade
1,0
Author
Year
2006
Pages
132
Catalog Number
V82665
ISBN (eBook)
9783638859387
ISBN (Book)
9783638855846
File size
876 KB
Language
German
Keywords
Vergleichsarbeiten, Instrument, Evaluation, Baustein, Qualitätsentwicklung, Grundschule
Quote paper
Nina Bücker (Author), 2006, Vergleichsarbeiten als Instrument externer Evaluation - Ein Baustein zur Qualitätsentwicklung der Grundschule?, Munich, GRIN Verlag, https://www.grin.com/document/82665

Comments

  • No comments yet.
Look inside the ebook
Title: Vergleichsarbeiten als Instrument externer Evaluation - Ein Baustein zur Qualitätsentwicklung der Grundschule?



Upload papers

Your term paper / thesis:

- Publication as eBook and book
- High royalties for the sales
- Completely free - with ISBN
- It only takes five minutes
- Every paper finds readers

Publish now - it's free