Lade Inhalt...

Evaluating the Employment Effects of Public Sector Sponsored Training in East Germany

Eine Revaluation der Evaluation

Hausarbeit 2011 27 Seiten

Politik - Methoden, Forschung

Leseprobe

Inhaltsangabe

1. Einleitung

2. Die Methoden der Evaluationsforschung
2.1. Matching Verfahren
2.2. Difference-in-Differences Modell

3. Datensätze und Durchführung der Forschungsarbeit
3.1. Grundlegendes zur Studie
3.2. Verwendete Schätzmodelle und Evaluierungsmethoden
3.2.1. Beschäftigungsmodell und Ashenfelter’s Dip
3.2.2. Selektion beobachtbarer Variablen und Matching
3.2.3. Konditionaler Difference-in-Differences Schätzer
3.2.4. Mehrfachteilnahme und Karusselleffekt
3.3. Datensatz
3.4. Implementierung des Schätzmodells
3.5. Spezifikation der Outcome Gleichung

4. Die Ergebnisse der Forschungsarbeit

5. Fazit

Literaturverzeichnis

1. Einleitung

Die Evaluation oder genauer gesagt die Evaluationsforschung, also die Bewertung von bestimmten Maßnahmen hinsichtlich ihrer Wirkung, stellt in der Politikwissenschaft bis dato leider immer noch einen recht unterbesetzten Forschungszweig dar. Selbst die bekanntesten Methoden der Evaluationsforschung wie etwa Matching Verfahren, Difference-in-Differences Modelle oder Regression Disconituity sind dort nur selten vorzufinden. Und in der Tat musste leider auch ich bei meinen Vorbereitungen zu dieser Arbeit feststellen, dass die meisten Texte die sich dieser Methoden bedienen, meist im medizinischen oder wirtschaftswissenschaftlichen Forschungssektor angesiedelt sind.

Dabei können solche Evaluationsverfahren auch, oder gerade in der Politikforschung, sowie der Politikberatung von immensem Interesse sein. Schließlich kann nur mit Hilfe von ihnen die Qualität sowie die Effektivität von bestimmten Maßnahmen bestimmt und dadurch auch verbessert werden. Aber auch die Auswirkung bestimmter Ereignisse, wie etwa die des Elbhochwassers auf die Bundestagswahlen (s. Bechtel & Heinmueller 2010) oder die Auswirkungen eines Amtsinhaberbonus auf den Wahlausgang (s. Lee 2001).

Leider ist es eben dieser relativ geringen Verfügbarkeit von politikwissenschaftlichen Studien die mit Methoden der Evaluationsforschung arbeiten geschuldet, dass ich mich auch im Folgenden mit einem Text aus dem ökonomischen Bereich befassen werde. Dabei handelt es sich um eine Studie von Bergemann et al. über die Auswirkungen von Schulungsmaßnahmen durch die Bundesagentur für Arbeit. Dabei bedienen sie sich eines Difference-in-Differences Verfahrens in Verbindung mit einem Matching Modell.

Da die Intension der vorliegenden Arbeit nicht darin besteht die Evaluationsforschung dem Bereich der Politikwissenschaft näherzubringen, sondern lediglich darin die möglichen Vor- und Nachteile sowie die Stärken und Schwächen einer Evaluationsstudie aufzuzeigen, genügt die hier ausgewählte Studie völlig dem eben genannten Zweck.

Um die eben genannten Fragen zu klären, werde ich zunächst in Teil 2. dieser Arbeit allgemein auf die Grundidee und mögliche Verfahren der Evaluationsforschung und ihre Eigenschaften eingehen, wobei das Hauptaugenmerk auf die in der Studie verwendetet Verfahren liegen wird. Anschließend werde ich in Teil 3. auf die Studie selbst und die ihr zugrunde liegenden Datensätze sowie ihre Durchführung eingehen. In Teil 4. werde ich dann auf die Ergebnisse der Studie von Bergemann et al. zu kommen um zu guter Letzt in Teil 5. die oben genannten Fragestellungen mit Hilfe der in den vorherigen Teilen erlangten Erkenntnisse zu beantworten.

2. Die Methoden der Evaluationsforschung

Bei dem, den Methoden der Evaluationsforschung zugrunde liegendem Kausalitätsmodell handelt es sich um das so genannte Kausalitätsmodell von Rubin. Dieses basiert auf der Idee potenziell möglicher Ergebnisse und den Zuweisungsmechanismen zu Maßnahmen für Individuen (vgl. Heckmann 2005: 26 f.) Dabei ist das mögliche Ergebnis für jedes Individuum unterschiedlich und hängt nur von deren Zuweisung zu einer Bedingung beziehungsweise Maßnahme ab. So könnte Beispielsweise der Gesundheitszustand eines Menschen davon abhängig sein, ob er privat oder gesetzlich versichert ist. Der kausale Effekt einer Mitgliedschaft bei einer privaten oder gesetzlichen Krankenversicherung wird dabei durch den Unterschied des späteren Gesundheitszustandes bestimmt, wenn ein und dieselbe Person beide Alternativen genossen hätte. Das ist genau der Ansatz, nach dem auch richtige Zufallsexperimente arbeiten. Bei ihnen würden Personen zufällig einer öffentlichen oder privaten Schule zugewiesenen. Diese zufällige Zuweisung stellt sicher, dass die Gruppen im Durchschnitt gleich sind, was ihre Eigenschaften anbelangt und somit die Unterschiede im Gesundheitszustand eindeutig dem Umstand der Versicherungsart zugerechnet werden können.

Die tatsächliche Wirkung einer Maßnahme resultiert also aus der Differenz der möglichen Ergebnisse bei einer Teilnahme oder Nicht-Teilnahme. Allerdings lassen sich in der Realität nie alle möglichen Ergebnisse für eine einzelne Person beobachtbar, auch verbietet es die Ethik oftmals in den Sozialforschungen richtige Zufallsexperimente durchzuführen. So lässt sich in etwa der Zustand der Obdachlosigkeit schlecht per Zufallsvergabe einer Personengruppe zuweisen. Aus genau diesem Grund aber ist die direkte Beobachtung kausaler Effekte unmöglich. Dieses Problem versucht die heutige Evaluationsforschung zu umgehen, indem sie sich auf die durchschnittlichen kausalen Effekte von Maßnahmen konzentriert. Dabei wird zwischen dem durchschnittlichen Treatment Effekt (ATE), dem durchschnittliche Treatment Effekt der Getreateten (ATT) und dem durchschnittlichen Effekt innerhalb der Gruppe von Personen die die Maßnahme nicht genossen haben unterschieden. Während der ATE der oben bereits erwähnten Differenz für den Besuch einer Maßnahme und der Nichtteilnahme recht ähnlich ist, für die Gesamte Population gilt und den durchschnittlichen kausalen Effekt eines einer Maßnahme auf das Ergebnis schätzt, bezieht sich der ATT nur darauf diesen durchschnittlichen Effekt für die Gruppe der getreatete Personen zu bestimmen. Beim letzten Fall wird, wie bereits erwähnt, der durchschnittliche Kausaleffekt für Personen die nicht an einer Maßnahme teilgenommen haben bestimmt (vgl. Gangl & DiPrete 2004: 8).

Allerdings bringt diese Vorgehensweise auch einige Problem mit sich. So kann es durchaus vorkommen, dass der gesamte durchschnittliche Kausaleffekt, also der Effekt für die Gesamtpopulation, im Falle eines Maßnahmenbesuchs, nicht mit dem durchschnittlichem Kausaleffekt der durch das Treatment bestimmt wird übereinstimmt. Dies gilt natürlich auch für den Fall, wenn kein Maßnahmenbesuch vorliegt (vgl. Imbens & Wooldfrifge 2008: 12 f.). Hier liegt des Pudels Kern darin, dass sich beide Gruppen möglicherweise bereits vor Beginn der Maßnahme in ihren Eigenschaften unterschieden haben. Ein tatsächliches oder wirkliches Zufallsexperiment umgeht diese Problematik einfach indem es, wie der Name ja bereits vermuten lässt, die Personen einfach zufällig den beiden Gruppen, also derjenigen, die an der Maßnahme teilnehmen und diejenigen die nicht daran teilnehmen, zuteilt. Dadurch wird sichergestellt, dass sich die Gruppen ihren Grundausstattungen an Eigenschaften nicht unterscheiden, da diese durch die zufällige Zuteilung gleichmäßig verteilt sind. Erfolgt nun keine Maßnahme wäre auch das Ergebnis für beide Gruppen exakt dasselbe. Nichtexperimentelle Methoden mit Hilfe von Daten und dem Wissen über die Eigenschaften der Personen eine sozusagen künstliche Vergleichsgruppe erstellen. Diese Ergebnisse dieser Gruppe bilden somit die kontrafaktischen Ergebnisse für die Teilnehmer an einer Maßnahme. Diese konditionale Verteilung des durchschnittlichen Kausaleffekts wird durch das Treatment und einem Vektor von konditionalen Variablen bestimmt. Selbiges gilt natürlich auch für den durchschnittlichen Kausaleffekt im Falle der Nicht-Teilnahme

Damit diese Methoden jedoch auch angewandt werden können müssen zunächst einige Grundannahmen erfüllt werden. Zum einen muss die Zuweisung zum Experimentalstatus unter Kontrolle der Kovariablen konditional unabhängig - also unabhängig davon, dass das Eintreten eines bestimmten Ereignisses bereits bekannt ist - vom Ergebnis erfolgen, dabei handelt es sich um die sogenannte Annahme der konditionalen Unabhängigkeit (vgl. Gangl & DiPrete 2004: 7 f.). Des Weiteren muss die Wahrscheinlichkeit für die Zuweisung zur Experimentalgruppe unter Kontrolle der Kovariablen zwischen null und eins liegen. Dies bedeutet nichts anderes als das die Wahrscheinlichkeit für Teilnahme an einem Programm ist in jedem Falle positiv sein muss. Sollten diese Bedingungen tatsächlich erfüllt sein messen experimentelle und nicht-experimentelle Studien dieselben Parameter. Die zu Grunde liegende Idee hinter dieser Lösung des Inferenzproblems ist also die Kontrolle für einen Vektor von Kovariaten. Dadurch werden getreatete und nicht-getreatete Gruppen vergleichbar, falls sie in ihren Kovariaten, also ihren grundlegenden Eigenschaften, übereinstimmen.

Soweit so gut. Damit aber nun wirklich auch kausale Schlüsse aus dem Besuch einer Maßnahme gezogen werden können, müssen noch weiter Bedingungen erfüllt sein. Eine der wichtigsten aber sicherlich auch intuitivsten Bedingungen ist die Tatsache, dass die Ursache der Wirkung in ihrem zeitlichen Verlauf vorausgehen muss. Des Weiteren muss auch die Kovarianz von Ursache und Wirkung gegeben sein, das heißt bei einer Änderung der Ursache muss auch eine Änderung der Wirkung erfolgen und alternative Erklärungsmöglichkeiten müssen ausgeschlossen werden können. Genau hier allerdings liegt die Problematik bei Quasi-Experimentellen Designs. Durch die nicht zufällige Zuteilung zu den Gruppen können in diesem Fall alternative Erklärungsmöglichkeiten nicht zweifelsfrei ausgeschlossen werden. Dieser Problematik kann nur durch die Anwendung von geeigneten Methoden entgegengewirkt werden. Hier setzten Shadish, Cock und Campbell an und entwickelten drei Maßnahmen um das Problem der internen Validität bei Quasi-Experimenten meistern zu können: Erstens gilt es die möglichen Gefahren für die interne Validität einer Studie genau zu identifizieren und zu analysieren. Zweitens sollte das Hauptaugenmerk auf der Kontrolle der Ausführung liegen und drittens sollte ein kohärenter Mustervergleich der Regressionslinien der beiden Gruppen durchgeführt werden (vgl. Shadish et al. 2002: 105)

Der zweiten Maßnahme kann entsprochen werden, indem eine größere Kontrolle der Untersuchungsdesigns und eine statistische Kontrolle stattfindet. Das Untersuchungsdesign kann unter anderem dadurch verbessert werden, dass Beobachtungen zu mehr Zeitpunkten vor Beginn der Maßnahme stattfinden und / oder zusätzliche Kontrollgruppen verwendet werden. Die dritte Maßnahme kann durch die Herstellung komplexer Vorhersagemodelle bei denen alternative Erklärungsansätze nicht mithalten können gelöst werden. Dies ist allerdings oftmals äußerst schwierig, da es nichtäquivalenter abhängiger Variablen und einer genauen Vorhersage der möglichen Interaktionen bedarf.

Darauf basierend erstellten Shadish, Cock & Campbell eine Liste von etwa zwanzig verschiedenen Arten von Quasi-Experimenten. Diese lassen sich zu drei Kategorien zusammenfassen. Zum einen Nicht-Äquivalente Kontrollgruppen Designs mit oder ohne Vortest (vgl. Shadish et al. 2002: 106 ff.) Des Weiteren unterbrochene Zeitreihen Designs sowie Regression Discontinuity Designs auf die ich aber im Rahmen dieser Arbeit nicht weiter eingehen werde.

Nicht-Äquivalenz bedeutet in diesem Zusammenhang nichts anderes, als dass die Gruppenzuweisung nicht zufällig stattfand. Dadurch besteht die Möglichkeit, dass Experimental- sowie Kontrollgruppen sich bereits vor der Zuweisung in ihren Eigenschaften unterschieden haben, und somit das Ergebnis einer Studie nicht mehr eindeutig auf die eigentliche Maßnahme zurückzuführen ist.

Welche Möglichkeiten und Methoden es gibt, um mit dem Problem dieser nicht zufälligen Zuweisung zurechtzukommen, wird bei der nun folgenden Vorstellung von zwei der am weitesten verbreiteten Evaluationsverfahren die auch in der Studie von Bergemann et al. verwendet werden, erläutert werden.

2.1. Matching Verfahren

Um die Gefahr durch die nicht zufällige Verteilung der Personen auf Maßnahmengruppe und Kontrollgruppen bei Quasi-Experimenten zu reduzieren gibt es in der Evaluationsforschung diverse Verfahren. Eines davon ist zum Beispiel das so genannte Matching Verfahren.

Bei diesem wird eine zufällige Zuweisung zu den Gruppen durch die Entwicklung einer kontrafaktischen Vergleichsgruppe imitiert, die in Bezug auf die beobachtbaren Eigenschaften möglichst identisch zur Experimentalgruppe ist. Die Grundidee bei Matching Verfahren besteht also darin, Individuen zu finden, die nicht bei einer Maßnahme teilgenommen haben und die in Bezug auf die Kovariaten, also ihrer grundlegenden Eigenschaften, identisch zu Personen sind, die an einer Maßnahme teilgenommen haben (vgl. Imbens & Wooldfrifge 2008: 35 ff.).

Zu den grundlegenden Annahmen bei Matchingverfahren, geht man deshalb davon aus, dass es eine Reihe von konditionalen Variablen gibt, für die die Zuweisung zum Experimentalstatus unter Kontrolle der Kovariablen konditional unabhängig vom Ergebnis erfolgt. Also nichts anderes als das die Anfangs bereits besprochene konditionale Unabhängigkeit erfüllt ist. Des Weiteren muss, wie ebenfalls bereits besprochen, die Wahrscheinlichkeit für die Teilnahme an einem Programm positiv ausfallen und es müssen für die Beobachtungen identische Gegenstücke bestehen. Diese Annahme impliziert, dass für alle Personen die an einer Maßnahme teilgenommen haben ein passendes Gegenstück, ein sogenannter Match, gefunden werden kann. Wenn beide Annahmen haltbar sind, kann die beobachtbare Verteilung des Ergebnisses bei Personen die nicht an einer Maßnahme teilgenommen haben für das nicht beobachtbare Ergebnis, also für den Fall der Nichtteilnahme der Experimentalgruppe verwendet beziehungsweise ausgetauscht werden.

Im richtigen Zufallsexperiment werden beide Annahmen automatisch durch die zufällige Zuweisung zu den Gruppen erfüllt. Bei nichtexperimentelle Daten kann eine Reihe von beobachtbaren konditionalen Variablen bestehen, für die die Annahmen haltbar sind allerdings ist auch das Gegenteil denkbar. Wenn für einen Teil der Personen die an einer Maßnahme teilgenommen habe kein passendes Gegenstück, also kein Match, gefunden werden kann, ist das Matching Verfahren nur zulässig wenn es über den Bereich des Common Supports, also eines Bereichs für den dieselben Kovariaten sowohl in der Kontroll(Matching)- als auch in der Experimentalgruppe vorhanden sind, durchgeführt wird. Umso mehr Kovariaten es zu beachten gilt, umso schwieriger und komplexer wird natürlich in diesem Fall die Durchführung eines Matchingvefahrens.

Um der Problematik des Bedarfs an großen Datenmengen bei Matchingverfahren entgegenzuwirken entwickelten Rosenbaum & Rubin den sogenannten Propensity Score. Dieser ist nichts anderes als die konditionierte Teilnahmewahrscheinlichkeit. Sie kann mit Hilfe von parametrischen Regressionsmodellen wie etwa Logit- und Probit-Modelle geschätzt werden. Somit wird das Problem der Größe, bzw. der Menge an Kovariaten in einem Matchingverfahren darauf reduziert, dass lediglich noch mit dem univariaten Propensitiy Score gematcht werden muss (vgl. Rosenbaum & Rubin 1983: 49f).

Ist dieser erst berechnet können die Personen die an einer Maßnahme teilgenommen haben mit denen die nicht teilgenommen haben hinsichtlich ihrer Kovariaten verglichen werden. Zu diesem Zweck stehen einem diverse Algorithmen oder die Anwendung eines Difference-in-Differences Verfahrens zur Verfügung. Zu den wohl bekanntesten Algorithmen zählen das Nearest-Neighbor-Matching sowie das Kernel Matching. Auf die Unterschiede der einzelnen Matchingalgorithmus möchte ich zu diesem Zeitpunkt noch nicht weiter eingehen. Jedoch wird es im späteren Verlauf dieser Arbeit bei der genaueren Betrachtung der Studie von Bergemann et al. zu einem groben Überblick über zwei Matchingalgorithmen kommen. Jedoch sei hier bereits erwähnt, dass sich die Algorithmen in ihren Ergebnissen, wie bereits von Gangl und DiPrete gezeigt wurde (s. Gangl & DiPrete 2004), nur marginal unterscheiden.

Anders verhält es sich allerdings mit der Möglichkeit der Anwendung eines Difference-in-Differences Modell. Da es bei der zu analysierenden Arbeit von Bergemann et al. ebenfalls eine bedeutenden Rolle spielt, möchte ich im Folgenden etwas genauer darauf eingehen.

2.2. Difference-in-Differences Modell

Wie bereits gezeigt wurde, kann die Evaluation von Effekten durch die Teilnahme an einer Maßnahme in Quasi-Experimenten durch den Einfluss verschiedener anderer Variablen auf das Ergebnis erschwert, wenn nicht sogar verhindert werden. Wenn allerdings nur ein gewisser Teil einer Population der Maßnahme ausgesetzt wurde kann eine Vergleichsgruppe die nicht daran teilgenommen hat herangezogen werden, um die Variation des Ergebnisses zu bestimmen, das nicht durch die eigentliche Teilnahme ausgelöst wurde. Dies ist auch die Grundidee hinter einer Difference-in-Differences Schätzung (vgl. Abadie 2005: 1)

Allerdings ist die Anwendung des Difference-in-Differences Verfahrens mit strengen Annahmen verbunden. Zum einen muss die Schätzung korrekt spezifiziert werden und der Fehlerterm darf nicht mit anderen Variablen der Gleichung korreliert sein. Ebenfalls müssen im Fall der Abwesenheit einer Maßnahmenteilnahme die durchschnittlichen Ergebnisse der Experimental und Vergleichsgruppe über die Zeit parallel verlaufen (vgl. Abadie 2005: 7 ff.). Das heißt, sollte keine Maßnahme stattfinden, haben die Regressionsgeraden der Experimental- und der Kontrollgruppe dieselbe Steigung.

Eine Difference-in-Differences-Schätzung läuft im einfachsten Fall ähnlich ab, wie wir gleich beschreiben wollen. Bei zwei verschiedene Gruppen, also Experimental- und Vergleichsgruppe, lassen sich über verschiedene Zeiträume für die verschiedenen Individuen bestimmte Ergebnisse beobachten. Bei der ersten Beobachtung, also zum ersten Zeitpunkt, war noch kein Individuum der Maßnahme ausgesetzt. Nur Personen einer Gruppe, also der Experimentalgruppe, werden nach dem ersten Zeitraum einer Maßnahme ausgesetzt. Der Effekt dieser Maßnahme ergibt sich somit also aus der Differenz zwischen der durchschnittlichen Steigung über die Zeit der Experimentalgruppe und der durchschnittlichen Steigung über die Zeit der Gruppe der Personen die nicht an einer Maßnahme teilgenommen hatten. Somit wird mit Hilfe des Difference-in-Differences Schätzers, der Unterschied in der Steigung über die Zeit, also der eigentlichen Treatment Effekt, in einer Art Vorher-Nachher-Vergleich bestimmt.

[...]

Details

Seiten
27
Jahr
2011
ISBN (eBook)
9783656065029
ISBN (Buch)
9783656065524
Dateigröße
586 KB
Sprache
Deutsch
Katalognummer
v182462
Institution / Hochschule
Johannes Gutenberg-Universität Mainz
Note
2,3
Schlagworte
Statistik Wahlforschung Ökonometrie Evaluation

Autor

Teilen

Zurück

Titel: Evaluating the Employment Effects of Public Sector Sponsored Training in East Germany