Lade Inhalt...

Ein experimenteller Vergleich zwischen einer telefonischen, schriftlichen und webbasierten Befragung unter jungen Frauen zum Thema Kontrazeptiva

Diplomarbeit 2004 110 Seiten

Psychologie - Methoden

Leseprobe

Inhaltsverzeichnis

Einleitung

Teil I - Theoretischer Teil

1 Mixed-Mode-Surveys
1.1 Sozialwissenschaftliche Befragungsmethoden
1.2 Mixed-Mode-Situationen
1.2.1 Erhebung derselben Daten von unterschiedlichen Personen in einer Stichprobe
1.2.2 Erhebung von Panel-Daten von denselben Personen zu unterschiedlichen Zeitpunkten
1.2.3 Erhebung unterschiedlicher Daten von denselben Personen während eines einzelnen Datenerhebungszeitraumes
1.2.4 Erhebung von Vergleichsdaten aus verschiedenen Populationen
1.2.5 Verwendung einer Methode, um zur Teilnahme mittels einer anderen Methode aufzufordern
1.2.6 Zusammenfassung

2 Das Fehlerkonzept in der Umfrageforschung

3 Unterschiede zwischen den Befragungsmethoden
3.1 Charakteristiken der verschiedenen Befragungsmethoden
3.2 Moderierende psychologische Variablen
3.2.1 Anonymität der Befragungssituation
3.2.1.1 Soziale Erwünschtheit
3.2.1.2 Threat/Distress Modell
3.2.1.3 Verletzung der Privatsphäre
3.2.1.4 Risiko der Weitergabe von Informationen an Dritte
3.2.1.5 Computerunterstützung und Anonymität
3.2.1.6 Motivierende Funktion des Interviewers
3.2.1.7 Zusammenfassung
3.2.2 Legitimität der Befragungssituation
3.2.2.1 Zusammenfassung
3.2.3 Kognitive Belastung
3.2.3.1 Kognitive Belastung und Literacy
3.2.3.2 Layout und Format
3.2.3.3 Auditive vs. visuelle Administration der Fragen
3.2.3.4 Zusammenfassung
3.3 Schlussfolgerungen

Teil II - Empirischer Teil

4 Methode
4.1 Befragungsinstrument
4.1.1 Herkunft der Fragen
4.1.2 Layout und technische Implementation
4.2 Versuchspersonen
4.3 Durchführung der Befragung
4.4 Statistische Analyse der Befragungsergebnisse

5 Hypothesen

6 Ergebnisse
6.1 Rücklaufquote und Stichprobenbeschreibung
6.2 Dauer der Befragung
6.3 Anteil fehlender Daten
6.4 Anzahl genannter Aspekte bei offenen Fragen
6.5 Bevorzugung extremer Antwortkategorien im WHOQOL-Bref
6.6 Bewertung der Befragungssituation
6.6 Antwortverteilungen bei sensitiven Fragen
6.7 Vergleich der Antwortverteilungen bei geschlossenen Fragen
6.8 Vergleich von Cronbachs Alpha-Koeffizienten bei WHOQOL-Bref-Skalen

7 Diskussion
7.1 Effekte der Sozialen Erwünschtheit
7.2 Effekte der visuellen gegenüber der auditiven Fragendarbietung
7.3 Unterschiede durch „Antwortzwang"
7.4 Weitere Ergebnisse
7.5 Schlussfolgerungen

Literaturverzeichnis

Anhang

Danksagung

Zunächst möchte ich mich herzlich bei meinem Betreuer Christian Rietz , für seine Unterstützung bedanken. Ohne ihn wäre diese Arbeit gar nicht möglich gewesen. Mein besonderer Dank gilt auch Kristina Heidemann, Thomas Krüger und Norbert Hilger, die mich als Korrekturleser und unerschöpfliche sowie vor allem geduldige Informationsquellen bei allerlei kleineren und größeren Fragen vom Layout bis zu inhaltlichen Aspekten meiner Arbeit unterstützt haben. Bedanken möchte ich mich auch beim gesamten ZEM-Team, das mir immer mit motivierenden Anstößen durch die Diplomarbeitszeit geholfen hat.

Vor allem möchte ich mich aber bei meinen Eltern bedanken!

Zusammenfassung

In der vorliegenden Diplomarbeit wird eine Web-Befragung experimentell mit einer computergestützten telefonischen Befragung und einer schriftlich-postalischen Befragung zum Thema „Verhütung" verglichen. Ziel der Arbeit ist es zu untersuchen, ob bei einer Kombination dieser drei Befragungsmethoden in einem Mixed-Mode-Ansatz mit erheblichen Antwortverzerrungen in Abhängigkeit von der Befragungsmethode zu rechnen ist. Befragt wurden 327 junge Frauen im Alter zwischen 18 und 30 Jahren, die mit Fachhochschulreife bzw. Hochschulreife über höhere Bildung verfügten. Insgesamt finden sich nur schwache Unterschiede zwischen den Befragungsmethoden, so dass grundsätzlich eine Kombination dieser Methoden möglich erscheint. Die gefundenen Unterschiede beruhen einerseits auf einer stärkeren Tendenz zu sozial erwünschten Antworten in der telefonischen Untersuchungsbedingung. Andererseits finden sich Unterschiede zwischen der schriftlich-postalischen Bedingung und den anderen beiden Bedingungen hinsichtlich der Anzahl fehlender Werte und der Antworthäufigkeiten bei Mehrfachwahlfragen, obwohl diese in ein Single-Forced-Choice-Format umgewandelt wurden. Die Ursache für diese Unterschiede liegt vermutlich in der mangelnden Kontrolle bei fehlenden Angaben in der schriftlich-postalischen Befragung. In der telefonischen Untersuchungsbedingung war diese Kontrolle durch die Interviewerinnen und unter der Web-Bedingung durch die verwendeten Erinnerungsmeldungen bei fehlenden Antworten („Soft-Reminder") gewährleistet.

Abbildungsverzeichnis

Abb. 3.1: Modell der Effekte unterschiedlicher Befragungsmethoden auf die gewonnenen Daten

Abb. 6.1: Mittlere Befragungsdauer in Minuten bei Web und CATI

Abb. 6.2: Mittlere Häufigkeit der Wahl der positiven Extremkategorie bei WHOQOL-Bref

Abb. 6.3: Mittlere Bewertung der Befragungssituation

Abb. 6.4: Mittlere Anzahl der Geschlechtspartner insgesamt im Leben

Abb. 6.5: Mittlere Anzahl der Geschlechtspartner im letzten Jahr

Abb. 6.6: Mittleres Alter des ersten Geschlechtsverkehrs

Abb. 6.7: Mittlere Anzahl der als genutzt angegeben Informationsquellen

Abb. 6.8: Mittlere Anzahl der bevorzugten Informationsquellen

Tabellenverzeichnis

Tab. 1.1: Formen sozialwissenschaftlicher Befragungsmethoden

Tab. 1.2: Mixed-Mode-Situationen nach verfolgten Zielen und möglichen unerwünschten Konsequenzen

Tab. 6.1: Anzahl kontaktierter Personen, Response Rate und Zahl der analysierten Datensätze

Tab. 6.2: Altersverteilung

Tab. 6.3: Anteil der Datensätze mit ein oder mehr fehlenden Werten

Tab. 6.4: Mittlere Anzahl genannter Aspekte bei offenen Fragen

Tab. 6.5: Bevorzugte Befragungsmethode

Tab. 6.6: Mittelwertsunterschiede bei WHOQOL-Bref-Items

Tab. 6.7: Antwortverteilung bei der Frage „Wie gut fühlen Sie sich über den Bereich Empfängnisverhütung informiert?"

Tab. 6.8: Antwortverteilung bei der Frage „Würden Sie sagen, dass Sie normalerweise sehr, etwas, kaum oder überhaupt nicht auf Ihre Gesundheit achten?"

Tab. 6.9: Antwortverteilung bei der Frage "Würden Sie sich weitere Informationen über das Thema Empfängnisverhütung wünschen?"

Tab. 6.10: Antwortverteilungen bei Fragen nach genutzten und bevorzugten Informationsquellen zu Empfängnisverhütung

Tab 6.11: Cronbachs Alpha-Koeffizienten bei WHOQOL-Bref-Skalen

Einleitung

Das Internet gewinnt als Mittel der Datenerhebung zunehmend an Bedeutung. Die Zahl der von Befragungsinstituten durchgeführten Web surveys (Web-Befragungen) nimmt in Deutschland kontinuierlich zu. So stieg der Anteil der Web-Befragungen an der Gesamtzahl durchgeführter Befragungen an Instituten des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute (ADM) rapide von 1% im Jahre 1998 auf 10% im Jahre 2003 an (ADM, 2004). Geringe Kosten im Verhältnis zu den realisierbaren Stichprobengrößen, geographische Unabhängigkeit, Effizienz und multimediale Gestaltungsmöglichkeiten machen Web-Befragungen an vielen Stellen als alternative zu traditionellen Befragungs­methoden wie telefonische oder schriftlich-postalische Befragungen attraktiv. Couper (2000, S. 464) beschreibt diese Entwicklung folgendermaßen:

As we enter the twenty-first century, the Internet is having a profound effect on the survey research industry, as it is on almost every area of human enterprise. The rapid development of surveys on the WorldWideWeb (WWW) is leading some to argue that soon Internet (and, in particular, Web) surveys will replace traditional methods of survey data collection. Others are urging caution or even voicing skepticism about the future role Web surveys will play. Clearly, we stand at the threshold of a new era for survey research, but how this will play out is not yet clear. Whatever one's views about the likely future for survey research, the current impact of the Web on survey data collection is worthy of serious research attention.

Web-Befragungen müssen jedoch nicht notwendigerweise traditionelle Befragungsmethoden ersetzen, sondern sie lassen sich mit anderen Befragungsmethoden in sog. Mixed-Mode- Ansätzen kombinieren (Dillman, 2000). Solche Mixed-Mode Befragungen versuchen, die Vorteile verschiedener Befragungsmethoden gleichzeitig zu nutzen und werden nach Dillman (2000) in Zukunft an Bedeutung gewinnen. Möglichkeiten für eine Kombination von Web-Befragungen und telefonischen Befragungen in Mixed-Mode-Ansätzen sind z.B. die telefonische Rekrutierung von Teilnehmern für Web-Befragungen, wie von Faulbaum und Deutschmann (2001) durchgeführt. Couper (2000) nennt einige Beispiele von Mixed-Mode- Ansätzen unter Einsatz von Web-Befragungen im Bereich von Unternehmensbefragungen.

Seiner Auffassung nach bieten sich solche Ansätze insbesondere für regelmäßige Befragungen (sog. Panels) im Unternehmensbereich an, da dort meist die notwendige Infrastruktur in Form von Arbeitsplatzrechner mit Internetzugang vorhanden ist.

Solche Kombinationen mehrerer Befragungsmethoden, seien es Web-Befragungen oder andere, werfen jedoch Fragen hinsichtlich der Vergleichbarkeit der gewonnenen Daten auf. Es ist schon lange bekannt, dass unterschiedliche Befragungsmethoden zu verschiedenen Ergebnisse führen können (Dillman, 2000, S. 217). Diese Problematik von möglichen Antwortverzerrungen auf Grund der verwendeten Befragungsmethoden werden in der Umfrageforschung im Kontext des sog. „Survey Errors" diskutiert (Groves, 1989). Aus dieser Perspektive werden verschiedene mögliche Fehlerquellen definiert, welche die Qualität von Befragungsprojekten und den daraus abgeleiteten Schlussfolgerungen gefährden können. Unterschiede zwischen einzelnen Befragungsmethoden sind eine dieser möglichen Quellen.

Ziel der vorliegenden Arbeit ist es, solche Effekte zu untersuchen. Dadurch soll die Frage beantwortet werden, ob sich insbesondere Web-Befragungen in einem Mixed-Mode-Ansatz mit anderen Befragungsmethoden kombinieren lassen, oder ob mit erheblichen Antwort­verzerrungen in Abhängigkeit von den verwendeten Befragungsmethoden zu rechnen ist. Um diese Fragestellung zu untersuchen, wurde eine experimentelle Herangehensweise gewählt. Dabei wurde eine Web-Befragung mit einer telefonischen und einer schriftlich­postalischen Befragungsmethode verglichen. Als Thema der Befragung wurde mit dem Verhaltensbereich „Verhütung" ein sensitiver Themenkomplex ausgewählt, bei welchem auf Grund von vorherigen Untersuchungen mit Effekten der Befragungsmethode zu rechnen war (vgl. Kapitel 3.2.1). Die befragte Stichprobe setzte sich aus jungen Frauen im Alter zwischen 18 und 30 Jahren mit höherer Bildung zusammen und war somit in soziodemographischer Hinsicht relativ homogen. Die Befragten wurden zuerst rekrutiert und erst anschließend, nachdem sie sich zur Teilnahme bereit erklärt hatten, den Untersuchungsbedingungen randomisiert zugewiesen. Gleichzeitig wurde bei der Durchführung der Befragung versucht, möglichst realistische Bedingungen ähnlich der gängigen Umfragepraxis zu schaffen.

Die vorliegende Arbeit ist grob in zwei Teile aufgegliedert: Im theoretischen Teil der Arbeit werden in Kapitel 1 zunächst die verschiedenen verfügbaren sozialwissenschaftlichen Befragungsmethoden und die unterschiedlichen Situationen, in denen die Kombination dieser Methoden in einem Mixed-Mode-Ansatz sinnvoll sein kann, dargestellt. In Kapitel 2 wird dann das Fehlerkonzept der Umfrageforschung mit dem bereits erwähnten „Survey Error" erläutert. Kapitel 3 widmet sich schließlich den unterschiedlichen Charakteristiken der dargestellten Befragungsmethoden sowie den Folgen, welche diese Unterschiede möglicherweise für die in einem Befragungsprojekt erhobenen Daten haben können.

Im empirischen Teil der vorliegenden Arbeit werden dann Planung, Durchführung und Ergebnisse der experimentellen Vergleichsuntersuchung berichtet. Im Anschluss werden diese Ergebnisse diskutiert und Schlussfolgerungen für den Einsatz von Web-Befragungen in Mixed-Mode-Ansätzen gezogen.

Teil I - Theoretischer Teil
1 Mixed-Mode-Surveys

Unter einem Mixed-Mode-Survey ist ein Befragungsdesign zu verstehen, bei dem verschiedene Datenerhebungsmethoden zeitgleich oder sequenziell zum Einsatz kommen. In der vorwiegend englischsprachigen Literatur wird in diesem Zusammenhang von unterschiedlichen „Data Collection Modes" oder „Data Collection Methods" (Dillman, 2000) gesprochen. In dieser Arbeit wird als deutsche Übersetzung einheitlich der Begriff „Befragungsmethode" gewählt. Die verschiedenen Befragungsmethoden, die in einem solchen Design mit einander kombinierbar sind, werden in Abschnitt 1.1 dargestellt. Im Rahmen der vorliegenden Arbeit wird ein Mixed-Mode-Survey somit definiert als eine Kombination aus zwei oder mehr der aufgeführten Befragungsmethoden und nicht eine Kombination von unterschiedlichen Varianten dieser Methoden, wie z.B. die Kombination unterschiedlich formatierter Papier-und-Bleistift-Fragebögen.

Das Ziel von Mixed-Mode-Surveys ist in erster Linie Kosteneinsparung und eine höhere Response Rate (Dillman, 2000). Es können mehrere Situationen unterschieden werden, in denen die Kombination verschiedener Befragungsmethoden vorkommt. Diese sog. Mixed- Mode-Situationen (Dillman, 2000) werden in Abschnitt 1.2 dargestellt. Darunter fallen zum einen Befragungsdesigns, die verschiedene Methoden im Erhebungsprozess einsetzen, also Mixed-Mode-Surveys im oben beschriebenen Sinne. Zum anderen werden auch solche Situationen als Mixed-Mode bezeichnet, bei denen verschiedene Methoden nur zur Kontaktierung, nicht aber zur Datenerhebung selber eingesetzt werden. Weiterhin werden unter Mixed-Mode-Situationen auch solche gefasst, in denen es nur um die Analyse von mit unterschiedlichen Methoden gewonnenen Daten geht (Dillman, 2000).

Zunächst werden aber die vorhandenen sozialwissenschaftlichen Befragungsmethoden vorgestellt.

1.1 Sozialwissenschaftliche Befragungsmethoden

Die empirischen Sozialwissenschaften bieten ein breites Repertoire an Datenerhebungs­methoden an, von denen die standardisierte, quantitative Befragung nur einen Teil ausmacht. Da sich jedoch der Gegenstand der vorliegenden Arbeit auf die quantitativen Befragungsmethoden beschränkt, wird auf eine Darstellung anderer Methoden, wie halb­oder unstandardisierte Interviews oder nicht-reaktive Erhebungsmethoden verzichtet und auf die einschlägige Literatur verwiesen (z.B. Diekmann, 2002; Schnell, Hill & Esser, 1999).

Befragungen lassen sich grundsätzlich in zwei Klassen unterteilen (Fowler, 1993): von einem Interviewer durchgeführte Befragungen (interviewer-administriert) sowie vom Befragten selbst ausgefüllte Befragungsinstrumente (selbst-administriert). Darüber hinaus lassen sie sich nach Befragungsmethoden differenzieren, die eine Computerunterstützung während des Befragungsprozesses erfordern und solche, bei denen keine Computerunterstützung erforderlich ist.

In Tabelle 1.1 sind die verfügbaren sozialwissenschaftlichen Befragungsmethoden in Anlehnung an Bosnjak (2003) und ergänzt nach Weeks (1992), getrennt nach Computer­unterstützung und Interviewer-Administration aufgeführt. Es werden die in der Umfrage­forschung gebräuchlichen, englischsprachigen Bezeichnungen angegeben.

Tab. 1.1: Formen sozialwissenschaftlicher Befragungsmethoden in Anlehnung an Bosnjak (2003)

Abbildung in dieser Leseprobe nicht enthalten

Lange Zeit stellten persönlich-mündliche Befragungen auf Papier-und-Bleistift-Basis (Paper- and-Pencil-Interview; PAPI) den Standard der Umfrageforschung dar (Dillman, 1978). Seit Mitte der 90er Jahre hat ihre Zahl jedoch zugunsten anderer Befragungsverfahren abgenommen. So berichtet der Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. (ADM, 2004), der den Einsatz quantitativer Befragungen seiner Mitglieder seit einigen

Jahren beobachtet, dass der Anteil von persönlich-mündlichen Befragungen im Jahre 1990 noch 65%, im Jahre 2003 jedoch nur noch 28% betrug. Etwa ein Drittel davon werden inzwischen mit Computerunterstützung durchgeführt (Computer Assisted Personal Interview; CAPI). Postalisch-schriftliche Befragungen (Mailsurvey) stellen das klassische Beispiele für selbstadministrierte Befragungen auf Papier-und-Bleistift-Basis dar (Self- Administered Questionaire; SAQ) dar. Ihre Zahl lag 1990 noch bei 13%, stieg in 2001 kurzfristig auf 28% an und fiel dann wieder bis 2003 auf 19% ab. Telefonische Interviews werden heutzutage fast nur noch mit Computerunterstützung durchgeführt, daher bezeichnet man sie als Computer Assisted Telephone Interviews (CATI). Sie stellen heute die häufigste Datenerhebungsmethode dar, ihr Anteil stieg von 22% im Jahre 1990 auf 43% im Jahre 2002. Die computerunterstützte selbstadministrierte Befragung (Computer Assisted Self-Administered Interview; CASI) wird häufig im Kontext von CAPI eingesetzt. Der Interviewer überlässt dabei dem Befragten den Computer, so dass dieser einen Teil der Befragung selber ausfüllen kann. Dieses Verfahren wird z.B. erfolgreich im Rahmen von Befragungen zum Thema Sexualität eingesetzt (z.B. Couper, Singer & Tourangeau, 2003; Gribble, Miller, Rogers & Turner, 1999; Turner et al., 1998). Eine spezielle CASI-Form ist Disk-by-Mail (DBM; Rubenstein, 1995). Dabei wird den Respondenten der elektronische Fragebogen auf Diskette postalisch zugesandt. Die Befragten füllen den Fragebogen auf Ihrem Heimcomputer aus und senden die Diskette mit den Daten zurück. In einer anderen Form wird der Fragebogen als E-Mail Anhang verschickt (Schaefer & Dillman, 1998), vom Respondenten ausgefüllt und ebenfalls per E-Mail zurück gesandt. Weiterhin gibt es noch als relativ neue Form die Web-Befragung (Websurvey), welche in verschiedenen Varianten auftritt, deren Gemeinsamkeit aber ist, dass der Fragebogen auf einem zentralen Server liegt und über WWW von den Befragten aufgerufen und ausgefüllt wird (Eine Übersicht über die verschiedenen Formen von Web-Befragungen liefert z.B. Couper, 2000). Die Daten werden dabei im Unterschied zu DBM und E-Mail-Survey sofort zentral gespeichert. Den drei genannten CASI-Formen ist gemeinsam, dass die Fragen in erster Linie visuell dargeboten werden. Auditive CASI-Varianten sind ACASI (Audio Computer Assisted Selfadministered Interview), das ebenfalls im Rahmen von CAPI verwendet wird sowie als telefonische Varianten Touchtone Data Entry (TDE) und Voice Recognition Entry (VRE). Bei diesen drei Methoden werden vorher aufgezeichnete Fragen von einem Computer abgespielt. Der Befragte gibt anschließend seine Antwort direkt in den Computer ein (ACASI) oder mündlich über Telefon (VRE) bzw. über die Tastatur des Telefons (TDE). Diese letzten beiden Befragungsmethoden werden in Deutschland jedoch kaum, in den USA hingegen häufiger eingesetzt (siehe Weeks, 1992 für einige Beispiele). Auf Grund der technischen Begrenztheit bisheriger sprachgesteuerter Computersysteme und der Eingeschränktheit der Telefontastatur als Eingabeschnittstelle lassen sich in beiden Befragungsmethoden nur sehr einfach strukturierte Fragebögen verwenden. Zu der Einsatzhäufigkeit dieser noch relativ neuen Befragungsmethoden liegen mit Ausnahme der Web-Befragungen keine Daten des ADM vor. Deren Anteil stieg rapide von 1% im Jahre 1998 auf 10% im Jahre 2003 an (ADM, 2004).

Diese Vielfalt der aufgezählten sozialwissenschaftlichen Befragungsmethoden ist nicht nur das Ergebnis einer fortschreitenden technologischen Entwicklung, sondern auch Ausdruck einer zunehmenden Pluralität der gesellschaftlichen Kommunikations- und Lebens­gewohnheiten (Dillman, 2000). Es wird zunehmend schwieriger, alle Gruppen der Gesellschaft mit ein- und derselben Methode zu befragen. Die Entscheidung für eine einzige Befragungsmethode begrenzt somit den Zugang zu bestimmten Populationen sowie die Möglichkeiten der Stichprobenziehung und Kontaktierung der Teilnehmer. Dieser Zusammenhang lässt sich an dem Beispiel von CATI, der zur Zeit am häufigsten angewandten Befragungsmethode illustrieren. Bisher ist es üblich, die Gesamtheit aller Telefonnummern im Festnetz als Auswahlgesamtheit für bevölkerungsrepräsentative telefonische Befragungen anzusehen. Dies beruht auf der Annahme, dass in Deutschland eine annährende Vollversorgung mit Telefonanschlüssen existiert und (fast) jede Person über eine Festnetznummer erreichbar ist. Die Verbreitung neuer Kommunikationstechnologien stellt diese Annahme jedoch in Frage, so führt zum einen ISDN dazu, dass manche Haushalte über drei bis sogar zehn Telefonnummern verfügen und somit eine höhere Auswahlwahrscheinlichkeit haben. Zum anderen verfügen manche Mobilfunknutzer gar nicht mehr über einen Festnetzanschluss. Laut einer Studie der Münchener Beratungsfirma PbS kommen inzwischen 8% der deutschen Mobilfunknutzer ohne Festnetzanschluss aus (PbS, 2001). Dies wirft besonders dann Probleme auf, wenn sich diese Gruppen in ihren demographischen Merkmalen von der Gesamtbevölkerung unterscheiden.

Auch für den Einsatz von Web-Befragungen wirft die sog. „Undercoverage" Probleme auf (Couper, 2002). So verfügen laut einer Pilotstudie des Statistischen Bundesamtes im Jahre 2002 nur etwa 43% der deutschen Haushalte und etwa 46% der Bevölkerung über 10 Jahren über einen Internetzugang. Diese Gruppe unterscheidet sich dabei in relevanten demographischen Merkmalen (Bildungsgrad, Geschlecht, Alter) deutlich von der Gesamtbevölkerung (Statistisches Bundesamt, 2003).

Andererseits ermöglicht die fortschreitende technische Entwicklung, bisher schwer zugängliche Zielgruppen zu befragen. Zum Beispiel zeigen Gerich, Lehner, Fellinger und Holzinger (2003), wie gehörlose Menschen, deren Lesekompetenz unter derjenigen der Durchschnittsbevölkerung liegt, mittels CASI eine gebärdensprachliche Variante eines sonst schriftlichen Befragungsinstruments ausfüllen können.

Die Kombination mehrerer Befragungsmethoden in einem Mixed-Mode-Ansatz bieten eine Möglichkeit, die Vor- und Nachteile der verschiedenen Befragungsmethoden auszugleichen, die Befragungssituation auf die Bedingungen der Zielgruppen anzupassen und dabei Kosten- und Nutzenaspekte zu berücksichtigen.

1.2 Mixed-Mode-Situationen

Es sind grundsätzlich alle Kombinationen der genannten Befragungsmethoden als Mixed­Mode Design denkbar. Dillman (2000) nennt fünf Situationen, die man als Mixed-Mode bezeichnen kann. In Tabelle 1.2 sind diese Situationen und die mit diesem Ansatz verfolgten Ziele (Typical Objective) sowie mögliche, unerwünschte Konsequenzen (Potential Error Consequence) aufgeführt.

Dillman (2000) spricht bei diesen unerwünschten Konsequenzen von „Measurement differences", also Messunterschieden auf Grund der Befragungsmethode. Die Folge des Zusammenführens von mittels verschiedener Befragungsmethoden erhobenen Daten wäre, falls solche Unterschiede in großem Maße auftreten, dass die Daten anstatt der zu messenden Konstrukte bzw. der zu schätzenden Parameter zu einem gewichtigen Teil die verwendete Befragungsmethode repräsentieren. Dies wiederum würde die Schlüssigkeit, den „Wahrheitsgehalt" und die Generalisierbarkeit der gewonnenen Daten in Frage stellen. Der Autor stellt diese mögliche Konsequenz unter den Oberbegriff einer potentiellen Fehlerquelle („Potential Error Consequence") für die gewonnenen Daten. Leider existiert für den Begriff „Fehler" in den empirischen Sozialwissenschaften keine einheitliche Definition (Groves, 1989, S. 6). In der Psychologie wird der Begriff des „Fehler" in erster Linie im Kontext der klassischen Testtheorie nach Lord und Novick (1968) und des Konzepts der Reliabilität verwendet. Hier ist aber mit Fehler etwas anderes gemeint. Um das Konzept des Fehlers in der Umfrageforschung zu klären, ist es notwendig, diesem Problem ein eigenes Kapitel zu widmen. Daher soll an dieser Stelle nicht weiter darauf eingegangen werden. Es reicht zunächst aus, darzustellen, welche Situationen grundsätzlich Probleme aufwerfen können. Für eine detailliertere Auseinandersetzung mit dem Begriff des Fehlers sei auf Kapitel 2 verwiesen. Im Folgenden werden die einzelnen Mixed-Mode-Situationen erläutert.

Tab. 1.2: Mixed-Mode-Situationen nach verfolgten Zielen und möglichen unerwünschten Konsequenzen nach Dillman (2000), S. 219

Abbildung in dieser Leseprobe nicht enthalten

1.2.1 Erhebung derselben Daten von unterschiedlichen Personen in einer Stichprobe

Diese Form des Mixed-Mode-Ansatzes stellt nach Dillman (2000) den häufigsten Fall dar. Begründet wird er in der Regel mit dem Wunsch, Kosten zu reduzieren, ohne gleichzeitig geringere Response Raten zu erhalten. Dies wird erreicht, indem die kostengünstigste Befragungsmethode zuerst zum Einsatz kommt. Bei denjenigen, die auf diesen Modus nicht antworten oder nicht antworten können, weil ihnen die Voraussetzungen fehlen (z.B. kein Internetanschluss bei einem Mixed-Mode Design mit Web-Befragung), kommt dann eine zweite oder sogar dritte Befragungsmethode zum Einsatz. Die mögliche Folge eines solchen Mixed-Mode-Ansatzes sind Unterschiede in den Antworten der Befragten in Abhängigkeit der verwendeten Befragungsmethode.

Als Beispiel für eine solche Mixed-Mode Situation nennt der Autor eine Befragung von College Absolventen durch das Census Bureau for the National Science Foundation aus dem Jahre 1992. Zunächst wurde versucht, als kostengünstigste Alternative von allen Personen in der Stichprobe Daten auf postalischem Weg zu erhalten. Die Adressen entstammten dem 1990er Decennial Census. Anschließend wurde versucht, von allen Personen, die nicht antworteten oder deren Postanschrift nicht mehr gültig war, Telefonnummern ausfindig zu machen und sie telefonisch zu interviewen. Schließlich wurde versucht, die verbleibenden Personen persönlich aufzusuchen und zu befragen. Dieses Verfahren führte zu einer Mail Response Rate von 68%. Durch die telefonischen Kontakte der Non-Respondenten wurde die Response Rate auf 81% erhöht und durch persönliches Aufsuchen der verbleibenden Personen stieg die endgültige Response Rate auf 88% (Mooney, Giesbrecht & Shettle, 1993).

Über mögliche Kostenvorteile hinaus besteht auch die Hoffnung, dass die Kombination mehrerer Befragungsmethoden allein zu einer Steigerung der Response Raten beiträgt. So scheint eine sequenzielle Strategie mit mehreren Kontakten in einer Methode und einem anschließenden Wechsel auf eine andere Methode geeignet zu sein, Nonresponse zu reduzieren (Dillman et al., 2000; Shettle & Mooney, 1999). Die einfache Wahlmöglichkeit zwischen mehreren Befragungsmethoden scheint dagegen keinen positiven Effekt auf die Response Raten zu haben (Dillman, Clark & West, 1995; Lozar Manfreda, Vehovar & Batagelj, 2001).

1.2.2 Erhebung von Panel-Daten von denselben Personen zu unterschiedlichen Zeitpunkten

Die Befragungsmethode für eine erste Befragungswelle bei Panels ist häufig nicht frei wählbar, sondern abhängig von dem Stichprobenrahmen. So können z.B. Adressen und Telefonnummern vorliegen, nicht aber E-Mail-Adressen. In anderen Fällen können angemessene Stichproben nur über Area Probability Samples1 oder Random Digit Dialing (RDD)2 gewonnen werden. Im Rahmen der ersten Befragungswelle ist es dann aber möglich, die fehlenden Informationen zu erfassen, so dass sich eine Follow-Up Befragung mittels anderer Methoden durchführen lässt, die kostengünstiger sind und/oder die Response Raten verbessern (Dillman, 2000). Ein anderer Fall tritt auf, wenn sich die Befragungssituation zwischen dem ersten Zeitpunkt der Datenerhebung und den darauf folgenden verändert. Dies ist z.B. der Fall, wenn eine Gruppe von Personen Monate oder sogar Jahre nach einem ersten persönlichen Interview wieder befragt werden soll und nun geographisch stark verstreut ist. Eine persönliche Befragung kommt in diesem Fall unter Umständen aus Kostengründen nicht mehr in Frage (Dillman, 2000).

Da das Ziel von Panel Befragungen in der Regel das Messen von Veränderung über die Zeit ist (Taris, 2000), stellt ein Wechsel der Befragungsmethode zwischen Zeitpunkt 1 und Zeitpunkt 2 ein besonderes Problem dar. Denn falls Messunterschiede in Abhängigkeit von den Befragungsmethoden zu erwarten sind, können vorhandene Unterschiede zwischen den zu verschiedenen Zeitpunkten erhobenen Daten sowohl auf die Befragungsmethoden als auch auf Veränderungen in den zu messenden Konstrukten zurück zu führen sein.

1.2.3 Erhebung unterschiedlicher Daten von denselben Personen während eines einzelnen Datenerhebungszeitraumes

Diese Form des Mixed-Mode-Ansatzes ist vor allem im Rahmen persönlicher Interviews zu finden. Im Anschluss an das Interview wird dem Befragten zusätzlich ein Fragebogen vorgelegt, den er selber ausfüllen soll. Dieses Vorgehen findet sich häufig bei Befragungen zu sehr intimen Themen, wie z.B. sexuellen Aktivitäten und Vorlieben (Fenton, Johnson, McManus & Erens, 2000). Ziel ist es, den Einfluss des Interviewers auf den Befragten zu reduzieren in der Hoffnung, dass dies zu weniger sozial erwünschten Antworten führt (siehe Abschnitt 3.2.1 für eine detailliertere Ausführung). Es werden bei dieser Mixed-Mode Situation nicht dieselben Daten mittels verschiedener Methoden erhoben, sondern verschiedene Daten mit unterschiedlichen Methoden. Solange diese Daten nicht im Auswertungsprozess zusammengefasst werden, wirft diese Form des Mixed-Mode-Ansatzes keine Probleme auf.

1.2.4 Erhebung von Vergleichsdaten aus verschiedenen Populationen

Durch die schnelle Entwicklung moderner Computersysteme ist die Arbeit mit großen Datensätzen durchführbar geworden. Dies ermöglicht Forschern, Daten für eine umfangreiche Analyse zusammenzuführen, die zu verschiedenen Zeiten mittels unterschiedlicher Methoden an möglicherweise unterschiedlichen Populationen gewonnen wurden, obwohl ein solches Zusammenführen der Daten nicht das ursprüngliche Ziel der jeweiligen Befragung gewesen ist. Daher spielten Unterschiede zwischen den Befragungsmethoden bei der Datenerhebung keine Rolle und es wurden somit auch keine Maßnahmen unternommen, einen möglichen Methodeneffekt zu minimieren. Daher wirft dieses Vorgehen ebenfalls, wie die beiden ersten Mixed-Mode-Situationen, das Problem der Vergleichbarkeit der verarbeiteten Daten auf (Dillman, 2000).

1.2.5 Verwendung einer Methode, um zur Teilnahme mittels einer anderen Methode aufzufordern

Die Wahl einer Befragungsmethode bedeutet, wie bereits oben erwähnt, gewisse Grenzen für die der Stichprobenziehung zugrunde liegende Auswahlgesamtheit. Nicht jede Person ist über jede Befragungsmethode erreichbar (vgl. Mixed-Mode Situation 2). Die hier beschriebene Variante des Mixed-Mode-Ansatzes kann diese Begrenzung aufheben. Es wird eine Methode ausschließlich dazu benutzt, um im Sinne eines Screenings Informationen von Personen in einer Stichprobe einzuholen, die dann die Durchführung der Befragung mit einer anderen Methode ermöglichen. Zum Beispiel lassen sich mittels CATI-Screening Personen für ein Online-Access-Panel rekrutieren (Faulbaum & Deutschmann, 2001). Auf diese Weise unterliegt die Auswahlgesamtheit des Panels nicht mehr den demographischen Begrenzungen eines allein über Web-Befragungen rekrutierten Panels (siehe Faas, 2004 zu Unterschieden zwischen Online und Offline rekrutierten Access-Panels). Weiterhin hat sich gezeigt, dass bei wiederholten Aufforderungen zur Teilnahme an einer Befragung (sog. Reminder) ein Methodenwechsel zu besseren Response Raten führen kann (Dillman, 2000).

Diese Form des Mixed-Mode verursacht ebenfalls, wie Situation 3, keine Probleme hinsichtlich der Vergleichbarkeit der erhobenen Daten.

1.2.6 Zusammenfassung

Zusammenfassend ist festzuhalten, dass eine große Differenzierung in Bezug auf die verfügbaren sozialwissenschaftlichen Befragungsmethoden existiert. Ein Forscher kann heute zwischen deutlich mehr Methoden wählen, als dies noch vor einigen Jahren der Fall war. Dies ist eine Folge fortschreitender technologischer und gesellschaftlicher Ent­wicklungen. Mit dieser Entwicklung einher geht eine zunehmender kombinierter Einsatz verschiedener Befragungmethoden in einem Mixed-Mode-Ansatz. Dies bringt gewisse Vorteil mit sich, wirft aber auch neu Probleme auf. Umfrageforscher und -praktiker erhoffen sich von einem Mixed-Mode-Ansatz die folgenden Vorteile:

- Reduzierung von Kosten
- Reduzierung von Nonresponse
- Bessere Erreichbarkeit schwer zugänglicher Populationen

Mögliches Folge sind jedoch Messunterschiede in Abhängigkeit von der Befragungs­methode.

2 Das Fehlerkonzept in der Umfrageforschung

Wenn in der Umfrageforschung von Fehlern die Rede ist, welche die Qualität eines Befragungsprojektes in Frage stellen, dann sind damit oft sehr unterschiedliche Probleme angesprochen. Einen guten Überblick über die Terminologie des Fehlers in der Umfrage­forschung liefert Groves (1989). Im Folgenden wird diese Terminologie auszugsweise erläutert.

Es werden in der Umfrageforschung vier potentielle Fehlerquellen unterschieden, welche die inferenzielle Güte, also die Generalisierbarkeit von mittels Zufallsstichproben gewonnenen Daten auf die angestrebte Zielpopulation sowie die Schlüssigkeit und den „Wahrheitsgehalt" der in einer Befragung erhobenen Angaben gefährden. Diese vier Fehlerquellen werden bezeichnet als Coverage Error, Sampling Error, Nonresponse Error und Measurement Error.

Der Coverage Error ergibt sich daraus, dass eine Auswahlgesamtheit, welche der Stichprobenziehung eines Befragungsprojektes zugrunde liegt, zumindest teilweise nicht mit der angestrebten Zielpopulation übereinstimmt. Dadurch ist die inferenzielle Güte der Befragungsergebnisse gefährdet. Sind bestimmte Segmente einer Grundgesamtheit nicht oder in zu geringem Ausmaß in einer Auswahlgesamtheit enthalten, spricht man von Undercoverage. Im gegenteiligen Fall, der Überrepräsentation einer bestimmten Gruppe in der Auswahlgesamtheit, spricht man von Overcoverage (Schnell, Hill & Esser, 1999).

Werden nicht alle Elemente einer Auswahlgesamtheit befragt, sondern nur eine zufällig daraus gezogene Stichprobe, so muss davon ausgegangen werden, dass diese die Charakteristiken der Auswahlgesamtheit nur ungenau wieder gibt. Diese Ungenauigkeit von mittels Zufallsstichproben geschätzten Populationsparametern wird als Sampling Error bezeichnet. Er ist zum einen abhängig von der Größe der Stichprobe: Je größer die Zufallsstichprobe, desto geringer der Sampling Error (Bortz, 1993). Zum anderen hängt er auch von der Technik der Stichprobenziehung ab (Bortz & Döring, 1995).

Unabhängig davon, wie sorgfältig die Auswahlgesamtheit definiert oder die Stichprobe gezogen wurde, antworten einige Mitglieder der Stichprobe häufig nicht auf die Aufforderung, an einer Befragung teilzunehmen. Wenn sich diese Nonrespondenten in den gemessenen Merkmalen von den Befragungsteilnehmern unterscheiden, wird dies zu einem Problem, das als Nonresponse Error bezeichnet wird. Eine niedrige Response Rate führt also nicht zwangsläufig zu einem hohen Nonresponse Error, sondern dieser ist eine Funktion von Response Rate und der Unterschiedlichkeit in den gemessenen Werten zwischen Respondenten und Nonrespondenten.

Diese drei genannten Fehlerquellen resultieren alle daraus, dass bestimmte Elemente der Grundgesamtheit nicht befragt wurden. Daher werden sie auch als Errors of Nonobservation bezeichnet. Measurement Errors dagegen resultieren daraus, dass Angaben der Befragten, also die beobachteten Werte, von den angenommenen wahren Werten der Personen abweichen. Daher werden sie auch als Observational Errors bezeichnet. Dabei umfasst dieses Konzept nicht nur, wie in der klassischen Testtheorie, unsystematische Messfehler, die sich über alle Probanden betrachtet bzw. bei wiederholten Messungen ausmitteln würden, sondern es umfasst gerade systematische Antwortverzerrungen oder Biases. Groves (1989) nennt vier verschiedene Quellen von Measurement Errors: Den Interviewer, das Instrument, den Respondenten und die Befragungsmethode. Fehler durch den Interviewer resultieren z.B. daraus, dass Interviewer durch ihre Intonation beim Vorlesen den Befragten beeinflussen oder die Angaben fehlerhaft registrieren. Fehler aufgrund des Instruments haben ihre Ursache z.B. im Layout des Fragebogens oder den verwendeten Formulierungen. Respondenten wiederum unterscheiden sich z.B. in ihrer Motivation oder in ihren kognitiven Fähigkeiten und können so eine Fehlerquelle darstellen. Schließlich weisen verschiedene Befragungsmethoden bestimmte Charakteristiken auf, welche die Angaben der Befragten beeinflussen können (vgl. Kapitel 3). Wenn Dillman (2000) von Messunterschieden als Fehlerquelle spricht, dann sind damit Measurement Errors auf Grund der Befragungsmethode gemeint. Im Kontext von Mixed-Mode Befragungen stellen diese in soweit ein Problem dar, als die verschiedenen Befragungsmethoden den Befragungsprozess unterschiedlich beeinflussen können, dies zu einer Vergrößerung des Measurement Errors führt und somit die Aussagefähigkeit der gewonnenen Daten verringert wird. Auch das Fehlen einzelner Angaben, also Nonresponse Error, ist in diesem Kontext von Bedeutung, wie im folgenden Kapitel gezeigt wird.

Die Beispiele zu den vier Quellen von Measurement Error zeigen, dass diese nicht als unabhängig von einander angenommen werden können. So erscheint es plausibel, dass z.B. die Einflüsse des Layouts eines Fragebogens oder auch bestimmter Charakteristiken der Befragungsmethoden nicht unabhängig von den kognitiven Fähigkeiten oder der Motivation des Respondenten wirken. Es muss dabei auch beachtet werden, dass der Measurement Error konzeptueller Natur ist und eine Modellierung und Messung der verschiedenen Fehlerquellen sehr schwierig erscheint. Versuche, diese zu modellieren und zu messen, erfordern oft sehr restriktive Annahmen (Biemer & Stokes, 1991). Measurement Errors wurden definiert als Abweichungen der gewonnenen Daten von angenommenen wahren Werten. Diese sind aber in sozialwissenschaftlichen Befragungen in der Regel nicht bekannt, schon gar nicht, wenn es sich um subjektive Phänomene handelt, die erfasst werden sollen. Möglich ist jedoch, die Effekte der Befragungsmethode auf die Daten zu untersuchen, indem diese experimentell verglichen werden. Dies ermöglicht zumindest eine Beurteilung der praktischen Relevanz des mit dem Einsatz von Mixed-Mode Befragungen assoziierten Measurement Errors sowie der anderen Fehlerquellen.

Wie im folgenden Kapitel gezeigt wird, basieren die bisherigen Kenntnisse über die Effekte der Befragungsmethoden auf die gewonnenen Daten zu einem Großteil auf solchen Vergleichen.

3 Unterschiede zwischen den Befragungsmethoden

Die unterschiedlichen Charakteristiken der in Tabelle 1.1 aufgeführten Befragungsmethoden sowie deren mögliche Auswirkungen auf den Befragungsprozess und die gewonnenen Daten sind Gegenstand dieses Kapitels. Eine detaillierte Auflistung der einzelnen Vor- und Nachteile der Befragungsmethoden in Bezug auf bestimmte Anwendungsfelder, Zielpopulationen, Methoden der Stichprobenziehungen, Nonresponse, mögliche Komplexität und Art der zu stellenden Fragen sowie Kosten würde den Rahmen dieser Arbeit jedoch sprengen und sind auch nicht unmittelbar von Bedeutung für deren Gegenstand. Ausführungen dazu finden sich z.B. in Dillman (2000), Groves (1989) und Lyberg et al. (1997) sowie für ausschließlich computerunterstützte Methoden bei de Leeuw und Nichols (1996) und Weeks (1992).

Der Fokus der folgenden Betrachtung liegt auf Unterschieden zwischen den Befragungsmethoden, die nichts mit der Coverage-Problematik zu tun haben. Es wurde bereits oben erwähnt, dass es Subpopulationen gibt, die sich nicht mit bestimmten Befragungsmethoden erreichen lassen (vgl. Abschnitt 1.1). Führt man nun eine Befragung mit mehreren Methoden in einer solch heterogenen Population durch und überlässt die Wahl der Methode den Respondenten, so kann es durch diese Selbstselektion zu Unterschieden in den Antwortverteilungen kommen, die nur mit der Befragungsmethode konfundiert sind, nicht jedoch ursächlich auf diese zurückzuführen sind. Ein Beispiel dafür findet sich bei Bandilla, Bosnjak und Altdorfer (2001). Sie vergleichen einen standardisierten Fragebogen (Umwelteinstellungsmodul des Internationalen Social Survey Programme, ISSP) in einer webbasierten Version (Websurvey) mit einer schriftlich-postalischen Version (Mailsurvey). Die Stichprobe für den Websurvey entstammt dabei einem Online-Access- Panel, während es sich bei den schriftlich Befragten um eine bevölkerungsrepräsentative Stichprobe handelt. Bei einem einfachen Vergleich finden sich sowohl demographische als auch Mittelwertsunterschiede: in dem Websurvey finden sich deutlich mehr Personen mit höherer Bildung. Betrachtet man ausschließlich diese High-Coverage Gruppe von Personen mit hoher Bildung, verschwinden die Mittelwertsunterschiede zwischen beiden Befragungsmethoden. Offensichtlich handelt es sich hier um einen Effekt der vom Bevölkerungsdurchschnitt abweichenden demographischen Zusammensetzung des Online- Access-Panels (vgl. auch Abschnitt 1.1), nicht aber um einen Methodeneffekt.

Es existieren verschiedene Herangehensweisen, die Unterschiede zwischen den einzelnen Befragungsmethoden zu charakterisieren (z.B. de Leeuw, 1992; Dillman et al., 2000; Tourangeau et al., 2000). Die systematischere der drei genannten Herangehensweise findet sich bei Tourangeau et al. (2000, S. 293-312), da die Autoren zunächst fünf objektive Charakteristiken der Befragungsmethoden unterscheiden. Auf dieser Basis bieten sie ein Modell an, das die Effekte dieser Charakteristiken auf die gewonnenen Daten mittels dreier vermittelnder psychologischer Variablen beschreibt. Dieses Modell listet nicht alle möglichen Einflüsse auf die erhobenen Daten auf, sondern beschränkt sich auf die, welche im Kontext von unterschiedlichen Befragungsmethoden relevant sind. Das Modell ist weiterhin heuristischer Natur, da die aus diesem Modell ableitbaren hypothetischen Beziehungen bisher keiner systematischen Prüfung unterzogen wurden. Weil es aber einen großen Teil der in der Literatur berichteten Unterschiede zwischen verschiedenen Befragungsmethoden zusammenfasst, wird es hier in abgewandelter Form dargestellt. Die Abwandlung besteht darin, dass die Konsequenzen, die sich aus den Charakteristiken der Befragungsmethoden für die Daten ergeben, in die Terminologie des in Kapitel 2 dargestellten Fehlerkonzepts eingebettet wurden. Die unterschiedlichen Charakteristiken der Befragungsmethoden und deren Einfluss auf die bei einer Befragung erhobenen Daten werden im Kontext dieses Modells diskutiert und wenn nötig werden Ergänzungen vorgenommen.

3.1 Charakteristiken der verschiedenen Befragungsmethoden

Die Autoren unterscheiden fünf Charakteristiken der Befragungsmethoden:

- Methode des Kontakts (telefonisch, persönlich, postalisch, per E-Mail etc.)
- Medium (Papier vs. Computer)
- Methode der Fragendarbietung (Interviewer-administriert vs. Selbst-administriert)
- Kommunikationskanal der Fragendarbietung (auditiv vs. visuell)
- Antwortmodus (mündlich, schriftlich oder elektronisch)

Alle in Tabelle 1.1 auf geführten Methoden lassen sich durch diese Charakteristiken beschreiben. So gilt z.B. für die gängigen CATI-Befragungen, dass der Kontakt telefonisch erfolgt und die Fragen dem Respondenten durch einen Interviewer vorgelesen werden. Der Respondent gibt seine Antworten mündlich, diese werden umgehend von dem Interviewer in den Computer eingegeben. Die Beschreibung der Befragungsmethoden anhand der genannten Charakteristiken ist allerdings nicht erschöpfend. Insbesondere CASI- Befragungen lassen sich auf recht unterschiedliche Weise durchführen. In einer Web­Befragung können z.B. alle Fragen auf einer einzigen Seite oder aber auf mehreren Seiten (sog. Screen-by-Screen-Design) dargeboten werden. Wenn im Kontext des Screen-by-Screen- Designs mehrere Items auf einer Seite in einer Matrix dargestellt sind, können die Antworten anders ausfallen, als wenn diese Matrix in einen Fragenbogen eingebettet ist, der aus einer einzigen Seite besteht (Reips, 2002). Erklärt wird dieser Unterschied damit, dass die gemeinsame Darstellung im Kontrast zum Screen-by-Screen-Design im restlichen Fragebogen dazu führt, dass die Items als stärker auf einander bezogen wahrgenommen werden. Das wird auch von Couper, Traugott und Lamias (2000) bestätigt, die im Screen-by­Screen-Design bei solchen Matrixfragen eine höhere Korrelation zwischen den Items fanden. Bei diesem Unterschied zwischen zwei CASI-Varianten handelt es sich jedoch nicht um grundsätzlich mit dieser Befragungsmethode verbundene Effekte, sondern um das Ergebnis unterschiedlicher Implementationen dieser Methode. Daher ist er für eine Betrachtungen der generellen Methodeneffekten zunächst nebensächlich, obwohl es für einen Vergleich zwischen Web-Befragungen mit anderen Befragungsmethoden wichtig ist, auch solche Design-Effekte bei der Planung der Untersuchung und der Interpretation der Ergebnisse zu berücksichtigen.

3.2 Moderierende psychologische Variablen

Die Effekte der fünf genannten Eigenschaften der Befragungsmethoden auf den Befragungsprozess und die damit gewonnenen Daten werden nach Tourangeau et al. (2000) durch drei zentrale psychologische Variablen moderiert. Diese drei Variablen sind:

- Die wahrgenommene Anonymität der Befragungssituation (Impersonality)
- Die wahrgenommene Legitimität der Befragung (Legitimacy)
- Das Ausmaß der kognitiven Belastung (Cognitive Burden)

Es werden in der vorliegenden Arbeit die folgenden drei Konsequenzen, die sich für die Daten ergeben, unterschieden:

- Systematische Antwortverzerrungen, insbesondere bei sensitiven Fragen (Response Bias)
- Unsystematischen Antwortverzerrungen (Response Variance)
- Der Anteil fehlender Daten (Rate of Missing Data/Nonresponse)

Response Bias und Response Variance lassen sich dabei unter dem Oberbegriff des Measurement Errors zusammenfassen (vgl. Kapitel 2). Der Unterschied zwischen systematischen und unsystematischen Antwortverzerrungen ist, das erstere als stabil über wiederholte Durchführungen einer Befragung angenommen werden, während letztere als variabel angenommen werden. Diese Unterscheidung ist dabei konzeptuell, es spielt keine Rolle, ob eine Befragung tatsächlich wiederholt wird (Groves, 1989).

In Abbildung 3.1 sind die wichtigsten angenommenen Beziehungen zwischen den Charakteristiken der Befragungsmethoden, den drei vermittelnden Variablen sowie den resultierenden Konsequenzen für die gewonnenen Daten abgebildet. Die gestrichelte Linie stellt ebenfalls eine Ergänzung des Modells dar. Diese hypothetische Beziehung zwischen computerunterstützter Administration und der wahrgenommenen Anonymität der Befragungssituation taucht in dem ursprünglichen Modell nicht auf. Im Folgenden werden diese Beziehungen genauer betrachtet.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3.1: Modell der Effekte unterschiedlicher Befragungsmethoden auf die gewonnenen Daten in Anlehnung an Tourangeau et al. (2000), S. 306

3.2.1 Anonymität der Befragungssituation

Die Anonymität der Befragungssituation spielt insbesondere im Kontext sog. „sensitiver Fragen" („sensitive questions" oder „threatening questions") eine Rolle. Das können z.B. Fragen zu Einkommen, sexuellen Aktivitäten und Gewohnheiten oder auch illegalem Verhalten sein. In einer Vielzahl von Studien finden sich bei solchen Themen Unterschiede in den Antwortverteilungen zwischen selbst-administrierten und interviewer-administrierten Befragungen. So erhöht die Selbstadministrierung einer Befragungen z.B. den berichteten Alkoholkonsum (Aquilino & LoScuito, 1990; Hochstim, 1967), den berichteten Konsum illegaler Drogen (Aquilino, 1994; Aquilino & LoScuito, 1990; Schober, Caces, Pergamit & Branden, 1992; Turner, Lessler & DeVore, 1992), die Anzahl berichteter Abtreibungen (London & Williams, 1990; Mott, 1985) und die berichtete Häufigkeit von ungeschütztem Geschlechtsverkehr und Geschlechtskrankheiten (Boekeloo et al., 1994). Die Effekte zu illegalem Drogenkonsum fallen dabei stärker aus, wenn es sich um kürzlich zurückliegenden Konsum und um „härtere" Drogen handelt (z.B. stärkerer Effekt bei Kokain als bei Cannabis).

Eine Standarddefinition, welche Art von Fragen bzw. welche Thematiken als sensitiv zu bezeichnen sind, existiert dabei nicht (Lee & Renzetti, 1993). Es handelt sich dabei aber nach übereinstimmender Auffassung um Fragen, die unter Anonymität zu anderen Antworten führen, als wenn andere, insbesondere fremde Personen zugegen sind (Ong & Weiss, 2000). Es lassen sich jedoch mehrere voneinander abgrenzbare Aspekte der Sensitivität unterscheiden. Tourangeau et al. (2000) nennen die folgenden drei Aspekte: Soziale Erwünschtheit, die Verletzung der Privatsphäre und das Risiko der Weitergabe von Informationen an Dritte. Über diese drei Aspekte hinaus wird in der vorliegenden Arbeit noch auf das Threat/Distress Modell eingegangen (Catania, 1999), weil es ebenfalls in diesem Kontext von Bedeutung ist.

3.2.1.1 Soziale Erwünschtheit

Dem Konstrukt der Sozialen Erwünschtheit liegt die Annahme zu Grunde, dass Personen an die Existenz von sozialen Normen glauben, welche das jeweils akzeptable (erwünschte) Verhalten für die oben angesprochenen Aktivitäten, aber auch für andere soziale Aktivitäten, Eigenschaften und Einstellungen vorgeben. Werden Personen nun zu diesen Themen befragt, geraten sie, sofern ihr Verhalten oder ihre Einstellung etc. von diesen Normen abweicht, in einen Konflikt, weil sie befürchten müssen, dass eine ehrliche Antwort negative Konsequenzen für das eigene soziale Image hat. Sudman und Bradburn (1974) nehmen an, dass Befragte in einem Interview zumindest zum Teil diesen Konflikt lösen, indem sie Ihre Antworten in sozial erwünschter Richtung verändern. Dies kann bei Fragen zu dem Verhalten von Personen sowohl zu einem sog. „Overreporting" sozial erwünschter, als auch einem „Underreporting" sozial unerwünschter Verhaltensweisen führen. Sudman und Bradburn (1974) sprechen in diesem Kontext von Self-Presentation-Effekten, einem Begriff der ursprünglich aus dem Bereich der Sozialen Kognitionsforschung stammt (Baumeister, 1995) und auf die besondere soziale Interaktionssituation der Befragung angewandt wird. Soziale Erwünschtheit stellt in dieser Sichtweise eine situativ bedingte Variable dar. Sie ist abhängig von der Anwesenheit eines Interviewers, dem Thema der Frage, den salienten Normen und Werten und dem tatsächlichen Verhalten des Befragten. Wenn eine dieser Bedingungen verändert wird, z.B. die Anwesenheit eines Interviewers, verändert sich auch die Soziale Erwünschtheit. Das Modell sagt also voraus, das unter hoher Anonymität weniger sozial erwünschte Antworten erfolgen als unter geringer Anonymität. Dies wird bestätigt durch eine Meta-Analyse von de Leeuw (1994) über Vergleiche zwischen telefonischen und persönlichen Interviews sowie Mailsurveys. Es finden sich geringfügig weniger sozial erwünschte Antworten sowie weniger fehlende Daten bei sensitiven Themen in selbst-administrierten als in interviewer-administrierten Befragungen, während sich zwischen telefonischen und persönlichen Interviews keine Unterschiede finden. In diese Analyse gingen 52 Studien aus den Jahren 1940 bis 1990 ein.

Andere Autoren betrachten sozial erwünschte Antworttendenzen als Persönlichkeitsmerkmal: Befragte verzerren Ihre Antworten aus dem Bedürfnis nach sozialer Anerkennung oder dem Bedürfnis nach Konformität zu sozialen Standards (vgl. DeMaio, 1984 zu dieser Debatte). Crowne und Marlowe entwickelten einen Test, um dieses Merkmal zu messen (Crowne & Marlowe, 1964). Allerdings schließen sich beide Sichtweisen nicht notwendigerweise aus, wie das Zwei-Komponenten-Modell Sozialer Erwünschtheit zeigt (Paulhus, 1984; Meston , Heimann, Trapnell & Paulhus, 1998). Dabei werden sowohl eine Persönlichkeitskomponente (Self-Deceptive Enhancement; SDE), als auch eine stärker situative Komponente (Impression Management; IM) unterschieden. Impression Management wird dabei als bewusste Verzerrung der Selbst-Präsentation durch den Befragten angesehen, während es sich bei Self-Deceptive Enhancement um eine unbewusste Selbsttäuschung handelt.

Da der Effekt der Sozialen Erwünschtheit von den salienten sozialen Normen abhängt, ist eine Vorhersage der Richtung des Effektes nicht immer von vorn herein möglich. In unterschiedlichen (Sub-)Populationen können verschiedene Normen gelten und somit dasselbe Verhalten als sozial erwünscht oder auch unerwünscht erscheinen. Ein Beispiel dafür stellt die Zahl berichteter Sex-Partner von Männern und Frauen dar, welche Smith (1992) in verschiedenen US-amerikanischen Stichproben vergleicht. In soweit diese Stichproben geschlossenen Populationen darstellen, sollten Männer und Frauen insgesamt die selbe Zahl an gegengeschlechtlichen Sex-Partnern berichten3. Jedoch berichten Männer, konsistent mehr Partner gehabt zu haben. Dies wird damit erklärt, dass Männer übertreiben, während Frauen untertreiben, da ein hohes Maß an sexueller Aktivität für Männer als sozial erwünscht und für Frauen als unerwünscht gilt (Tourangeau et al., 2000, S. 276). Dieser Unterschied fällt in selbst-administrierten Befragungen stärker aus, als in interviewer­administrierten Befragungen (Tourangeau & Smith, 1996).

3.2.1.2 Threat/Distress Modell

Dieses Modell stellt im Kontext dieser Arbeit eine Ergänzung zu dem Modell der Sozialen Erwünschtheit dar. Der Fokus liegt hier nicht auf dem Aspekt der Selbst-Präsentation, sondern auf der Vermeidung negativer Emotionen, die durch bestimmte Fragen ausgelöst werden, wenn sie in einem öffentlichen Kontext, also z.B. gegenüber einem fremden Interviewer, beantwortet werden sollen. Also eher ein „Ich will nicht darüber reden!" als ein „Ich will gut da stehen!" (Catania, 1999, S. 26). Das Modell besagt, dass durch solche Fragen negative Gefühle wie Scham, Schuld oder Angst ausgelöst werden, es entsteht emotionaler Stress oder eine Bedrohung des Selbstwertgefühls (Catania et al., 1996; Sudman & Bradburn, 1982). Um dies zu vermeiden, so das Modell, verfälscht der Befragte seine Antwort oder verweigert sie vollständig. Hier zeigt sich ein wichtiger Unterschied zum Modell der Sozialen Erwünschtheit: eine Antwortverweigerung ist im Kontext einer Befragung keine sozial erwünschte Antwort, denn in dieser Situation wird von dem Befragten eine Antwort erwartet. Daher werden Antwortverweigerungen bei sensitiven Themen nicht von dem Modell der Sozialen Erwünschtheit berücksichtigt.

Das Threat/Distress Modell spielt insbesondere bei sexuellen Themen eine Rolle (Catania, 1999). Ursache für die negativen Emotionen können z.B. Lernerfahrungen sein oder auch die gesellschaftliche Sanktionierung von ungewöhnlichen Sexualpraktiken. An dieser Stelle zeigt sich wiederum die Verwandtschaft zum Modell der Sozialen Erwünschtheit. Daher ist der Versuch naheliegend, solche negativen Effekte durch eine Verschiebung der subjektiven Norm zu vermeiden, indem den sensitiven Fragen eine Passage vorangestellt wird, in der das in Frage stehende Verhalten als gar nicht so ungewöhnlich oder als „normal" bezeichnet wird (Sudman & Bradburn, 1982). Zum Beispiel führte ein solches Vorgehen in der Untersuchung von Catania et al. (1996) zu mehr Berichten von außerehelichem Geschlechtsverkehr und sexuellen Problemen. Eine andere Möglichkeit, die ebenfalls von Catania et al. (1996) untersucht wurde, ist eine emotional unterstützende Sprache.

3.2.1.3 Verletzung der Privatsphäre

Neben Sozialer Erwünschtheit und der Vermeidung negativer Gefühle existiert noch ein weiterer Aspekt der Sensitivität von Fragen, nämlich dass solche Fragen die Privatsphäre verletzen. So gelten bestimmte Themen, wie Religiosität, die eigene finanzielle Situation, Sex und bestimmte Körperfunktionen in Alltagsgesprächen als tabuisiert (Tourangeau et al., 2000, S. 258). Bei diesem Aspekt sind es weniger normabweichende Antworten auf Fragen, die sensitiv sind, als vielmehr das Thema selbst (Schaeffer, 1999; Willis, 1997). Die Umstände, unter denen die Frage gestellt wird, sind hier zweitrangig.

3.2.1.4 Risiko der Weitergabe von Informationen an Dritte

Zwar geben sich Umfrageforscher die größte Mühe, Befragten die Vertraulichkeit aller mitgeteilten Informationen zu versichern und unternehmen zum Teil aufwendige Maßnahmen, um dies auch sicherzustellen (Anonymisierung, getrennte Aufbewahrung von Befragungsdaten und persönlichen Daten etc., vgl. Kaase, 1999), aber dennoch ist insbesondere im Kontext illegaler Aktivitäten diese Zusicherung der Vertraulichkeit möglicherweise nicht ausreichend, um Personen zu einer wahrheitsgemäßen Preisgabe von Informationen zu bewegen. Ein Beispiel dafür, dass die Zusicherung der Vertraulichkeit allein nicht ausreicht, Antwortverzerrungen zu vermeiden, zeigt sich in einer Untersuchung von Ong und Weiss (2000). Die studentischen Teilnehmer dieses Experiments konnten zunächst an einem Vokabeltest teilnehmen, in dem sie die Möglichkeit zum Betrügen hatten. Dies wurde ohne ihr Wissen aufgezeichnet und anschließend wurde Ihnen ein Fragebogen mit verschiedenen vermeintlich sensitiven Fragen dargeboten, darunter auch Fragen dazu, ob sie im letzten Jahr bei Tests oder Prüfungen jemals geschummelt hatten. Das Ergebnis war eindeutig: nur 25% derjenigen, die im Test geschummelt hatten, gaben dies unter der Vertraulichkeitsbedingung auch zu, während es in der Anonymitätsbedingung 74% waren. Allerdings ist es möglich, dass der Effekt hier so stark ausfällt, weil die Betroffenen tatsächlich der Vertraulichkeitserklärung nicht trauten. Schließlich handelte es sich hier um ein universitäres Setting und das Risiko, dass die Daten doch zu ihrem Nachteil verwendet werden, war den Teilnehmern vielleicht zu hoch. Insofern ist das Ergebnis dieses Laborexperiments nicht unbedingt auf die Situation bei tatsächlichen Befragungen übertragbar.

Bisher wurden lediglich die Unterschiede zwischen selbst-administrierten und interviewer­administrierten Befragungsmethoden dargestellt, aber auch die Computerunterstützung einer Befragung hat möglicherweise Einfluss auf die wahrgenommene Anonymität der Befragungssituation.

3.2.1.5 Computerunterstützung und Anonymität

Die Forschung zu Computervermittelter Kommunikation (Computer-Mediated Communcation; CMC) legt nahe, dass sich das Verhalten in einer Online-Umgebung von dem im „normalen" Leben unterscheidet (Joinson, 1998; Kiesler, Siegal & McGuire, 1984). Kiesler et al. (1984) bezeichnen das Verhalten von Online-Nutzern als enthemmt. Sie seien eher bereit als im normalen Leben, sich feindselig zu zeigen (Kiesler et al., 1984), persönliche Informationen auszutauschen (Parks & Floyd, 1995) bzw. preiszugeben (Joinson, 1998) und potentiell gefährliche Informationen zu suchen (Joinson & Harris, 1995). Dieses enthemmte Verhalten erklären Kiesler et al. (1984) durch einen Prozess der De-Individuation auf Grund der Anonymität der Situation, der Fokussierung auf die Aufgabe und der reduzierten sozialen Hinweisreize. Diese De-Individuation führt zu geringerer Selbst-Regulation und dadurch zu mehr Feindseligkeit und Aggression (Zimbardo, 1969).

Lea und Spears (1991) sowie Matheson und Zanna (1988) dagegen erklären das enthemmte Verhalten mit einer gesteigerten Self-Awareness und einer reduzierten Public-Awareness in CMC. Die stärkere Self-Awareness könnte erklären, warum Personen verstärkt über persönliche Aspekte in Online-Umgebungen kommunizieren (Parks & Floyd, 1996). Die reduzierte Public-Awareness führt dazu, dass sie sich dabei weniger um die Meinung anderer kümmern. Beiden Erklärungsansätzen ist aber gemeinsam, dass aus ihnen eine geringere Soziale Erwünschtheit in selbst-administrierten, computerunterstützten Befragungen folgen sollte.

Eine Reihe von Studien legen tatsächlich nahe, dass allein die computerunterstützte Administration eines Fragebogens zu einem geringeren Effekt der Sozialen Erwünschtheit führt (z.B. Kiesler & Sproull, 1986; O'Reilly, Hubbard, Lessler, Biemer & Turner, 1994; Turner et al., 1998). Allerdings zeigen die Ergebnisse anderer Untersuchungen kein konsistentes Bild. So konnte eine Reihe von Studien diesen Effekt nicht replizieren (z.B. Booth-Kewley, Edwards & Rosenfeld, 1992; Hancock & Flowers, 2001; Tourangeau, & Smith, 1996). Andere Autoren berichten sogar den gegenteiligen Effekt, der in einer höheren Sozialen Erwünschtheit in computerunterstützten, selbst-administrierten Befragungen besteht (z.B. Lautenschlager & Flaherty, 1990). Eine Meta-Analyse von Richman, Kiesler, Weisband und Drasgow (1999), die Soziale-Erwünschtheits-Effekte in computeradministrierten Befragungen mit Papier-und-Bleistift-Verfahren vergleicht, kommt zu dem Ergebnis, dass es keinen generellen Effekt der Computerunterstützung gibt. In diese Analyse ist die Literatur zwischen 1967 und 1997 eingegangen. Werden außerdem Moderator-Variablen berücksichtigt, so zeigt sich, dass computerunterstützte, selbstadministrierte Befragungen bei direkten Maßen der Sozialen Erwünschtheit4 zu geringeren Werten führen, wenn die Befragten alleine sind und in dem Instrument vor- und zurücknavigieren und somit frühere Antworten ändern können. Bei anderen nicht-kognitiven Instrumenten5 finden sich im Gegenteil höhere Verzerrungen durch Soziale Erwünschtheit in computerunterstützten, selbst-administrierten Befragungen, wobei dieser Effekt geringer ausfällt, wenn die Befragten alleine sind, die Befragung anonym ist und eine freie Navigation ermöglicht. Bei interviewer-administrierten Befragungen finden sich geringere Verzerrungen in computerunterstützten Verfahren (Richman et al., 1999). Obwohl sowohl bei CAPI als auch PAPI ein Interviewer zugegen ist, scheinen die Befragten die Situation als anonymer einzuschätzen. Dies bestätigen auch die Ergebnisse von Beckenbach (1995). In seiner Untersuchung beschreiben die Befragten sowohl in der CASI- als auch in der CAPI- Bedingung die Befragung als anonymer und haben weniger Probleme mit der Beantwortung sensitiver Fragen, als die Befragten in der PAPI-Bedingung.

Diese widersprüchlichen Ergebnisse zeigen, dass, anders als z.B. von Kiesler und Sproull (1986) angenommen, keine lineare Beziehung zwischen Computerunterstützung und Sozialer Erwünschtheit besteht. Sie ist vielmehr abhängig von den spezifischen Eigenheiten der jeweiligen Mensch-Maschine-Interaktion. Ein weiterer Faktor, der in der bisherigen Forschung zu wenig Beachtung gefunden hat, ist die Wahrnehmung der Situationsmerkmale durch den Respondenten. Es sind nicht die objektiven Merkmale der Situation, die für den Effekt der Sozialen Erwünschtheit relevant sind, sondern wie die Situation durch den Befragten wahrgenommen wird (Richman et al, 1999). So kann, wie oben beschrieben, Computerunterstützung zu einer stärkeren wahrgenommenen Anonymität und somit zu geringeren Effekten der Sozialen Erwünschtheit führen. Andererseits kann Misstrauen gegenüber einer elektronischen Speicherung von Daten und ein Sicherheitsbedenken gegenüber der Datenübertragung im Internet möglicherweise zu einer geringeren wahrgenommenen Anonymität führen (Rosenfeld, Booth-Kewley, Edwards & Thomas, 1996). Ob dies nun zu mehr oder weniger Sozialer Erwünschtheit führt, hängt wiederum möglicherweise von dem Kontext der Untersuchung (z.B. Mitarbeiterbefragungen in Unternehmen, wo bestimmte Informationen negative Konsequenzen für den Betroffenen haben können, wenn sie bekannt werden; vgl. Abschnitt 3.2.1.3) oder den Möglichkeiten, die Angaben zu überprüfen, ab. Denn Personen neigen eher dann zu Impression Management, wenn sie nicht befürchten müssen, dass ihre Angaben überprüft werden (Schlenker, 1980). Die Anwesenheit eines Interviewers kann auch ein Gefühl der Verantwortlichkeit für die eigenen Angaben bei den Befragten erzeugen. Dies führt dazu, dass die Befragten sorgfältiger abwägen bei ihren Antworten, weil sie die explizite oder implizite Erwartung haben, Rechenschaft über ihre Meinungen oder Handlungen ablegen zu müssen (Lerner & Tetlock, 1999).

Das zunehmende Bewusstsein von Computernutzern, dass sie beobachtet werden können und dass einmal gespeicherte Informationen auf unbegrenzte Zeit gespeichert und von nicht autorisierten Personen genutzt werden könnten, haben Martin und Nagao (1989) als „Big Brother Syndrome" bezeichnet. Dies könnte besonders bei Web-Befragungen eine Rolle spielen.

3.2.1.6 Motivierende Funktion des Interviewers

Bisher war nur von den möglichen negativen Effekten der Interviewer auf die Befragungssituation die Rede. Eine mögliche positive Auswirkung hat die motivierende Funktion des Interviewers. Obwohl die Interaktionsmöglichkeiten insbesondere bei CATI- Befragungen in der Regel eingeschränkt sind durch die Anweisung, die Fragen exakt vorzulesen und die Befragten nicht zu beeinflussen, können die Interviewer trotzdem positives Feedback geben und so das Involvement der Befragten in den Befragungsprozess erhöhen (Cannell, Miller & Oksenberg, 1981). Außerdem können sie bei unklaren oder knappen Antworten nachfragen und so vollständigere Aussagen, insbesondere bei offenen Fragen, produzieren (de Leeuw, 1992).

3.2.1.7 Zusammenfassung

Zusammenfassend lässt sich festhalten dass Selbstadministrierung einer Befragung zu einer höheren wahrgenommenen Anonymität der Befragungssituation führt. Für Computerunterstützung lässt sich dies nicht ohne weiteres aufrechterhalten, die Befunde hierzu sind zu uneinheitlich. Es Bedarf weiterer Forschung zu den Bedingungen, unter denen es zu einer größeren wahrgenommenen Anonymität kommen kann. Eine höhere wahrgenommene Anonymität wiederum führt dazu, dass die Befragten eher bereitwillig sind, Aussagen zu sensitiven Themen zu machen (Rate of Missing Data, vgl. Abbildung x) sowie weniger verzerrte Angaben zu machen (Response-Bias). Dieser Unterschied zwischen selbst-administrierten und interviewer-administrierten Befragungen stellt den best­untersuchten Methodeneffekt mit den konsistentesten Befunden dar. Trotzdem sind die berichteten Effekte im Mittel bei Vergleichen zwischen telefonischen Befragungen und Mailsurveys relativ gering in der Ausprägung, wie die Meta-Analyse von de Leeuw (1992) zeigt. Die mittlere Effektstärke liegt bei r=.06 (95%-KI: .04 bis .17) für Soziale Erwünschtheit, sowie bei r=.06 (95%-KI: .03 bis .09) für fehlende Werte bei sensitiven Fragen. Eine Vorhersage, wie sich ein Soziale-Erwünschtheits-Effekt in den Daten auswirkt ist dabei auf Grund der Abhängigkeit dieses Effekts von den Merkmalen der Person und der Situation nicht immer möglich. Eine mögliche positive Folge der Interviewer-administration ist ein stärkeres Involvement des Respondenten durch positives Feedback des Interviewers. Außerdem besteht die Möglichkeit, insbesondere bei offenen Fragen nachzufragen und so vollständigere Antworten zu erhalten.

3.2.2 Legitimität der Befragungssituation

Die zweite psychologische Variable, die nach Tourangeau et al. (2000) den Einfluss der Befragungsmethode auf die Daten moderiert, ist die wahrgenommene Legitimität und Wichtigkeit der Befragung. Eine hohe Legitimität ist z.B. gegeben, wenn eine Befragung einen offensichtlichen gesellschaftlichen Nutzen hat oder durch eine öffentliche Einrichtung durchgeführt oder gefördert wird (Brunner & Carroll, 1669). In seinem Standardwerk zur Planung und Durchführung von selbstadministrierten Befragungen sieht Dillman (2000) die Vermittlung der Legitimität und Wichtigkeit der Befragung als eine wichtige Determinante der Teilnahmebereitschaft an. Ein wichtiger Aspekt, der dabei eine Rolle spielt, ist beispielsweise der „Survey-Sponsor", also der Auftraggeber einer Befragung. Behörden und Universitäten als Sponsoren einer Befragung werden im Allgemeinen als förderlich für die Response Raten angesehen (McCarthy, Johnson & Ott, 1999). Zum Beispiel erhielten Brunner und Carroll (1969) deutlich höhere Response Raten, wenn sie eine Universität als Sponsor nannten im Gegensatz zu einer Marktforschungsfirma. Zu einem ähnlichen Ergebnis kamen auch Snijkers, Hox und de Leeuw (1999). Die Erwähnung von Statistics Netherlands als Sponsor ihrer Untersuchung stellte sich als sehr effektiver Weg heraus, eine Teilnahme zu erreichen. Heberlein and Baumgartner (1978) verglichen Response Raten in 98 Studien und fanden höhere Response Raten bei von Behörden gesponserten Befragungen.

Tourangeau et al. (2000) vermuten, dass Legitimität und Wichtigkeit einer Befragung nicht nur die generelle Teilnahmebereitschaft beeinflussen, sondern auch die erhobenen Daten. So wie die wahrgenommene Wichtigkeit eines Themas die Tiefe der Verarbeitung von persuasiven Botschaften beeinflusst (Petty & Cacioppo, 1984), könnte sie auch die Beantwortung einer Frage beeinflussen. Der Sponsor einer Befragung scheint aber, mit wenigen Ausnahmen (z.B. Presser, Blair & Triplet, 1992), keinen Effekt auf die Daten zu haben.

Die Befragungsmethode kann laut Tourangeau et al. (2000) auf zwei Arten die wahrgenommene Legitimität und Wichtigkeit einer Befragung beeinflussen. Zunächst über die Art des Kontakts. Schriftlicher oder persönlicher Kontakt machen es einfacher, die Seriosität einer Befragung zu vermitteln. Ein schriftlicher Kontakt ermöglicht es, einen offiziellen Briefkopf, eine gültige Rückantwort-Adresse und andere visuelle Maßnahmen zu verwenden, um Vertrauen zu erwecken und die Bedeutung der Befragung zu kommunizieren. Bei persönlichem Kontakt kann ein Interviewer seinen Ausweis vorzeigen, der mit den gleichen visuellen Möglichkeiten ausgestattet ist, wie formale Briefe (de Leeuw, 1992). Ein Kontakt via E-Mail kann einen Link auf die Website der befragenden Institution enthalten und so über den Hintergrund der Befragung informieren. Am Telefon ist all das jedoch nicht möglich, der Interviewer muss allein durch seine Worte den Befragten von der Legitimität der Befragung überzeugen. Tourangeau et al. (2000) vermuten, dass dies zu einer geringeren wahrgenommenen Legitimität bei telefonischen Befragungen führt und dass dies ein weiterer Grund für die in Abschnitt 2.2.1 berichteten Unterschiede zwischen Mailsurveys und telefonischen Befragungen ist (de Leeuw, 1992). Als weiteren Aspekt, welcher die Legitimität einer Befragung beeinflussen kann, nennen Tourangeau et al. (2000) die Computerunterstützung, welche ihrer Auffassung nach für viele Respondenten noch eine Neuheit darstellt und so die Befragten mit der Bedeutung und Objektivität der Befragung beeindruckt (Tourangeau et al., 2000, S. 308). Zum Beispiel berichtet Baker (1992), dass Respondenten die elektronische Variante eines Interviews als professioneller bezeichnen als die Papier-und-Bleistift-Variante. Dies könnte ebenfalls ein Faktor dafür sein, das CAPI- Befragungen zu weniger sozial erwünschten Antworten führen als PAPI-Befragungen (Baker et al., 1995; Beckenbach, 1995; O'Reilly et al., 1994; Turner et al., 1998). Allerdings dürfte dieser Effekt stark von der Erfahrung der Befragten im Umgang mit Computern abhängen. Es ist allerdings auch zu erwarten, dass mit einer zunehmenden Verbreitung der Computernutzung solche positiven Technologieeffekte verschwinden, und an ihre Stelle neue Bedenken treten, z.B. hinsichtlich der Vertraulichkeit der Daten (vgl. Abschnitt 3.2.1.5).

3.2.2.1 Zusammenfassung

Tourangeau et al. (2000) gehen davon aus, dass Computerunterstützung und ein nicht­telefonischer Kontakt der Befragten zu einer höheren Einschätzung von Legitimität und Wichtigkeit der Befragung durch die Respondenten führt. Dies hat eine generell höhere Teilnahmebereitschaft und seltenere Antwortverweigerung bei Sensitiven Daten (Rate of Missing Data; Nonresponse, vgl. Abbildung 3.1) zur Folge sowie eine höhere Bereit­willigkeit, korrekte Angaben bei solchen Fragen zu machen (Response-Bias). Möglicherweise hat die mit den Befragten wahrnehmbare Einbindung eines Computers in den Befragungs­prozess eine steigernde Wirkung auf die wahrgenommene Legitimität der Befragung.

3.2.3 Kognitive Belastung

Die verschiedenen Befragungsmethoden stellen unterschiedliche kognitive Anforderungen an die Befragten, indem sie die kognitive Verarbeitungskapazität des Befragten in unterschiedlichem Ausmaß beanspruchen und dem Befragten ein bestimmtes Maß an Literacy, also der Fähigkeit, mit dem jeweiligen Medium umzugehen, abverlangen. Diese Belastung wiederum wirkt sich auf den Measurement Error und auf die Rate fehlender Daten aus (vgl. Abbildung 3.1).

Die Beantwortung einer Frage verlangt von dem Respondenten die Lösung mehrerer Aufgaben, welchen Strack und Martin (1987) in die folgenden Handlungsschritte aufgliedern:

- Interpretation der Frage
- Generierung eines Urteils
- Formatierung einer Antwort
- Editierung der Antwort

Die Autoren verwenden hier den Begriff „Urteil" („Judgement" im Original), weil sie sich insbesondere auf Meinungsumfragen z.B. zur Beurteilung eines Politikers beziehen. Die aufgeführten Prozesse sind aber für jegliche Art von Fragen in sozialwissenschaftlichen Befragungen relevant. Die Generierung eines Urteils kann dabei aus dem Gedächtnis erfolgen, falls eine vorherige Beurteilung des Befragungsgegenstands stattfand. Falls dies nicht der Fall ist, müssen die für die Beantwortung der Frage relevanten Informationen aus dem Gedächtnis abgerufen und als Basis für eine Urteilsbildung herangezogen werden. Weiterhin muss das Urteil an das vorgegebene Antwortformat angepasst werden, was in standardisierten Befragungen meist die Wahl einer vorgegebenen Antwortalternative bedeutet. Schließlich wird der Befragte seine Antwort möglicherweise noch hinsichtlich dessen editieren, was er in der jeweiligen Befragungssituation als angemessen ansieht. Dabei müssen diese Prozesse nicht notwendigerweise sequenziell ablaufen, sondern sie können auch parallel oder in anderer Reihenfolge vonstatten gehen. So kann der Prozess der Urteilsgenerierung den Erinnerungsprozess begleiten, wenn bei der Beantwortung einer Einstellungsfrage das Urteil kontinuierlich verändert wird, sobald neue, bisher nicht bedachte Aspekte eines Gegenstands aus dem Gedächtnis abgerufen werden. Darüber hinaus können auch einzelne Handlungsschritte, wie z.B. die Editierung der Antworten vollständig übersprungen werden (Tourangeau et al., 2000, Kapitel 1).

Die Editierung von Antworten hängt weniger von der kognitiven Belastung als von der wahrgenommenen Anonymität der Befragungssituation ab. Dieser Aspekt wurde bereits in Abschnitt 3.2.1 behandelt. Die anderen drei Handlungsschritte dagegen werden unter anderem von der kognitiven Belastung und Literacy des Befragten beeinflusst. Diese Belastungen sind abhängig von dem Kommunikationskanal, dem Antwortmodus, ob die Befragung selbst-administriert stattfindet und ob Computerunterstützung vorliegt.

Im Falle einer interviewer-administrierten Befragung spielt die Computerunterstützung ebenfalls eine Rolle für die kognitive Belastung des Interviewers, dessen Aufgabe es ist, die Befragung zu steuern, die jeweils relevanten Fragen vorzutragen und die Antworten des Befragten zu registrieren.

3.2.3.1 Kognitive Belastung und Literacy

Eine auditive Fragendarbietung verbunden mit mündlichem Antwortmodus stellt die geringsten Anforderungen an die Literacy des Befragten. Der Befragte muss ausschließlich die Sprache, in welcher die Fragen vorgetragen werden, ausreichend beherrschen. Die meisten Anforderungen stellt dagegen eine Befragung, in welcher die Fragen nur visuell dargeboten werden und vom Befragten selbst über Keyboard in einen Computer eingegeben werden müssen. Der Befragte muss lesen und das Keyboard korrekt bedienen können (Tourangeau et al., 2000). Das Problem der Lesekompetenz mag auf den ersten Blick trivial erscheinen, ist es jedoch nicht mehr, wenn man die PISA-Ergebnisse zur Lesefertigkeit insbesondere bei sozial schwächeren Gruppen betrachtet. So erreichen 23,7% der untersuchten Hauptschüler in der Skala „Informationen ermitteln" nicht die Stufe I. Das heißt, sie sind nicht in der Lage, eine oder mehreren Informationen in einem kurzen Text zu lokalisieren, obwohl diese Informationen dort explizit genannt sind (Deutsches PISA­Konsortium, 2001, Kapitel 2). Die mangelnde Vertrautheit mit dem Computer lässt sich durch die Anwesenheit eines Interviewers, der den Befragten unterstützt, auffangen (Beckenback, 1995). Auch wenn die Befragten alleine einen Fragebogen ausfüllen, lässt sich eine mangelnde Computer-Literacy durch die Beachtung bestimmter Design-Aspekte, wie z.B. Hilfefunktionen, Fehlertoleranz, die Möglichkeit vorherige Antworten zu ändern etc. (Couper, 1994), vermutlich zumindest teilweise ausgleichen, da diese die Belastung des Respondenten reduzieren sollten.

3.2.3.2 Layout und Format

Layout und Format eines Fragebogens, wie z.B. die Platzierung der Fragen oder typografische Eigenschaften (wie Schriftgröße, Font, Farbe), können einen Einfluss auf die Prozesse der Interpretation von Fragen und Formatierung der Antworten haben. Dies gilt für alle Befragungsmethoden, sowohl für Mailsurveys (Sudman, Bradburn & Schwarz, 1996; Dillman, 2000) als auch für Webbefragungen (Couper et al., 2000; Dillman, Tortora, Conradt & Bowker, 1998) oder interviewer-administrierte Befragungen (Smith, 1995). Ein Respondent verwendet sowohl die verbalen wie auch visuellen Elemente eines Fragebogens, um die für die Beantwortung der Fragen notwendigen Informationen zu erhalten (Ware, 2000). Besonders CASI-Methoden bieten eine große Vielfalt an einfach zu implementierenden Design-Möglichkeiten, die von einer beliebigen Anordnung der Fragebogenelemente über eine Variation von Farben bis hin zur Einbindung von multimedialen Inhalten wie Bilder oder sogar Filmsequenzen reichen. Die Effekte verschiedener Designaspekte bei CASI- Befragungen sind bisher jedoch noch wenig untersucht. Beispiele für Untersuchungen, die sich damit beschäftigen, sind Couper, Traugott und Lamias (2001) und Bowker und Dillman (2001). Eine neuere Arbeit legt nahe, das bei Webbefragungen ähnliche Design-Effekte auftreten wie bei Papier-und-Bleistift-Befragungen (Christian, 2003). Die untersuchten Design-Effekte betrafen die Anordnung von Antwortkategorien ordinaler Skalen (vertikal vs. horizontal) sowie die verbale Verankerung aller Skalenstufen einer Ratingskala gegenüber einer Beschränkung der Verankerung auf die Skalenpole.

Die Ausnutzung der Vielfalt an Designmöglichkeiten von Webbefragungen kann zu einer von der Absicht des Untersuchers abweichenden Darstellung des Fragebogens auf dem System des Befragten führen. Dies liegt an den sehr unterschiedlichen technischen Ausstattungen gängiger Heimcomputer (Dillman, Tortora & Bowker, 1998). Diesen Problemen lässt sich aber begegnen, indem bei der Programmierung von Befragungen nur Minimalanforderungen an das System des Befragten gestellt werden. Aus diesem Grund sind diese Designeinflüsse für die Diskussion der generellen Methodeneffekte nebensächlich.

Weiterhin stellen Mailsurveys höhere Anforderungen an die Respondenten als interviewer­administrierte Befragungen oder computerunterstützte, selbst-administrierte Befragungen, wenn die Beantwortung einzelner Fragen von den Antworten auf vorherige Fragen abhängt. In einem solchen Fall muss der Respondent selber entscheiden, welche Fragen zu beantworten sind und welche nicht und die entsprechenden Fragen zu überspringen. Das Folgen solcher sog. „Skip-Anweisungen" kann je nach Komplexität der Fragebogen-Logik insbesondere Befragte mit geringer Lesekompetenz (siehe oben) belasten, was zu häufigeren Skip-Fehlern führt. Gleichzeitig können auch einzelne Fragen insbesondere bei Batterien von Fragen in einem Tabellen-Format (sog. „Matrix-Format") leichter übersehen werden. Beides führt zu mehr fehlenden Werten in Mailsurveys gegenüber interviewer-administrierten Befragungen (de Leeuw, 1992), zumindest wenn es sich um nicht-sensitive Items handelt (vgl. Abschnitt 3.2.1). Interviewer sind in der Regel geübter im Umgang mit Fragebögen und auch vertraut mit dem jeweiligen Fragebogen, weshalb ihnen solche Fehler seltener unterlaufen. Allerdings machen auch Interviewer Skip-Fehler (Lepkowski, Sadosky & Weiss, 1998) . Computerunterstützung dagegen schließt diese Skip-Fehler grundsätzlich aus, solange die Fragebögen korrekt programmiert sind. Zusätzlich bieten Computerunterstützte Befragungen die Möglichkeit, die Eingaben von Interviewern oder Befragten zu prüfen, sodass ein zufälliges Übersehen einer Fragen ebenfalls ausgeschlossen werden kann. Weiterhin können unzulässige Werte verhindert werden. Durch die richtige Anwendung bestimmter Design-Prinzipien lässt sich das Problem der Navigation durch den Fragebogen aber auch bei Papier-und-Bleistift-Verfahren reduzieren (Dillman, 2000; Jenkins & Dillman, 1997), auch wenn diese Prinzipien so vage formuliert sind, dass die Anwendung eine gewisse Erfahrung erfordert (Tourangeau et al., 2000, S. 310). Auf eine Darstellung dieser Prinzipien wird hier verzichtet, weil sie für die Diskussion der Methodeneffekte nicht weiter relevant sind.

3.2.3.3 Auditive vs. visuelle Administration der Fragen

Es wurde oben dargestellt, dass eine auditive Fragendarbietung weniger Anforderungen an die Literacy des Respondenten stellt als eine visuelle Darbietung, sie kann aber aus anderen Gründen die kognitiven Ressourcen des Respondenten stärker belasten, insbesondere wenn die Fragen komplex sind oder lange Antwortlisten enthalten. Eine rein auditive Darbietung kann das Arbeitsgedächtnis (Working Memory; Baddeley, 1997) stark beanspruchen und somit zu schlechterem Verständnis von Fragen und Antwortalternativen führen als eine visuelle Darbietung (Chaiken & Eagly, 1976). Dies ist insbesondere bei telefonischen Befragungen auf Grund des bei dieser Art der Befragung entstehenden Zeitdrucks zu erwarten. Bei telefonischen Gesprächen gelten längere Pausen als unangemessen und unhöflich (de Leeuw, 1992, S. 15), was Interviewer dazu bewegen kann, den Fragebogen schnell durchzugehen. In persönlich-mündlichen Befragungen ist es dagegen möglich, solche Pausen durch nonverbale Kommunikation zu überbrücken, wodurch der Befragte dem Interviewer z.B. zu verstehen geben kann, dass er sich noch mit der Frage beschäftigt (Ball, 1968; Groves & Kahn, 1979). Bei selbst-administrierten Befragungen hat der Respondent die Kontrolle über die Befragung und somit die Freiheit, den Fragebogen in einem selbst gewählten Tempo auszufüllen.

Es ist bekannt, dass Genauigkeit und Umfang von aus dem Gedächtnis abgerufenen Informationen umso besser sind, je mehr Zeit für den Erinnerungsprozess zur Verfügung steht (Anderson, 1980). Die durch Zeitdruck verursachte kognitive Belastung kann diesen Erinnerungsprozess beeinträchtigen und dazu führen, dass der Befragte sich stärker auf das verlässt und beschränkt, was ihm als erstes einfällt („Top of the Head"-Phänomen, siehe Bodenhausen & Wyer, 1987; Kruglanski, 1980). Darüber hinaus können auch Beurteilungsprozesse beeinflusst werden, indem Personen zur Verwendung von heuristischen Verarbeitungsstrategien (Kahnemann, Slovic & Tversky, 1982) auf Kosten systematischer Verarbeitungsstrategien (Strack, Erber & Wicklund, 1983) veranlasst werden.

Nach Schwarz, Strack, Hippler und Bishop (1991) beeinflusst die kognitive Belastung in der Befragungssituation auch das Auftreten von Response-Order-Effekten. Es werden dabei Primacy-Effekte und Recency-Effekte unterschieden. Unter Primacy versteht man die häufigere Wahl der ersten, unter Recency die häufigere Wahl der letzten dargebotenen Antwortkategorie. Fragen mit einer Ratingskala als Antwortformat, die eine Dimension oder ein Kontinuum repräsentieren (z.B. Items einer Likert-Skala; Likert, 1932) werden im Folgenden getrennt betrachtet von Kategorialfragen, bei denen die einzelnen Antwortalternativen kein Kontinuum darstellen und die Befragten gebeten werden, diejenige Antwortalternative zu wählen, welche ihre Position bzw. Einstellung am besten repräsentiert. Die folgenden Ausführungen beziehen sich zunächst auf die letztgenannte Art von Fragen.

Schwarz et al. (1991) betrachten die Antwortalternativen einer Kategorialfrage als „single persuasive argument" (Schwarz et al., 1991, S. 202). Basierend auf der Arbeit von Petty und Cacioppo (1986) nehmen sie an, dass die Auswahl einer Antwortalternative durch den Respondenten von der Plausiblität und der kognitiven Verarbeitungstiefe dieser Alternative abhängt. Sie argumentieren, dass bei einer visuellen Administration der Fragen die ersten Alternativen in einer Liste von Antwortalternativen tiefer verarbeitet werden können und so mit einer höheren Wahrscheinlichkeit ausgewählt werden, vorausgesetzt, dass sie dem Befragten plausibel erscheinen. Unplausible Alternativen sollten eher abgelehnt werden, wenn sie zu Anfang der Liste stehen. Die Ursache für die tiefere Verarbeitung der frühen Alternativen sehen die Autoren darin, dass zu dem Zeitpunkt, da der Respondent das Ende einer Liste liest, sein Arbeitsgedächtnis bereits mit Gedanken zu den ersten Alternativen belastet ist und so die verbleibende Verarbeitungskapazität für spätere Alternativen reduziert ist. Bei einer auditiven Administration der Fragen dagegen hat der Befragte wenig Gelegenheit, sich Gedanken zu den einzelnen Alternativen zu machen, bevor der Interviewer alle Alternativen vorgetragen hat, da er damit beschäftigt ist, die Antwortalternativen zu verstehen und zu speichern. Insbesondere bei telefonischen Befragungen, in denen Interviewer dazu neigen, die Fragen schnell vorzutragen (siehe oben), steht dem Befragte nur wenig Zeit zur Verfügung, die Antwortalternativen im Langzeitgedächtnis zu speichern. Daher wird erwartet, dass der Befragte sich eher an die letzten Alternativen erinnert, diese tiefer verarbeiten kann und so eher auswählt, wieder unter der Voraussetzung, dass diese plausibel erscheinen. Zusammengefasst nehmen sie also an, dass das Auftreten eines Response-Order-Effekts von der Position der Antwortalternative, von der Plausibilität und der Methode des Fragendarbietung abhängt.

Eine einfachere Erklärung für das Auftreten von Response-Order-Effekten, die ohne die Annahme eines „persuasive arguments" auskommt, liefern Krosnick und Alwin (1987). Sie nehmen an, dass Befragte häufig wenig kognitiven Aufwand für die Beantwortung von Fragebögen betreiben. Dies kann an mangelnden kognitiven Fähigkeiten liegen (Krosnick, 1999) , aber auch an mangelndem Wissen oder Interesse (McClendon, 1991). Krosnick und Alwin (1987; siehe auch Krosnick 1991) sprechen bei einem generell geringen kognitiven Aufwand in der Urteilsgenerierung von einem Satisficing-Kriterium als Grundlage der Beantwortung von Fragen, d.h. der Respondent beendet den Prozess der Urteilsgenerierung, sobald eine ausreichend plausible Antwortalternative gefunden ist. Dies ist vergleichbar mit einer heuristischen, unsystematischen Informationsverarbeitung (vgl. die Ausführung zu dem Effekt des Zeitdrucks oben). Im Gegensatz dazu steht ein Optimizing-Kriterium, d.h. der Prozess der Urteilsgenerierung wird solange unter kognitiven Aufwand fortgesetzt, bis eine optimale Antwort gefunden ist, was einer systematischen Informationsverarbeitung gleichkommt. Das Verfolgen einer Satisficing-Strategie (sog. „Satisficing"; Krosnick, 1999) mit dem Ziel, den kognitiven Aufwand niedrig zu halten, führt nach Krosnick und Alwin (1987) dazu, dass die erstbeste, plausible Antwortalternative gewählt wird. Bei visuell dargebotenen Fragen ist dies eher eine Antwortalternative am Anfang der Liste, da die Befragten in der Regel mit der ersten Alternative beginnen. Daher kann ein Primacy-Effekt auftreten. Bei auditiver Darbietung dagegen entstammt die gewählte Antwortalternative eher dem Ende der Liste, weil sie noch im Kurzzeitgedächtnis gespeichert ist, nachdem der Interviewer das Vorlesen der Antwortliste beendet hat. Folglich tritt eher ein Recency-Effekt auf.

Allerdings sind die Hinweise für die Existenz reiner Primacy- bzw. Recency-Effekte nicht so eindeutig, wie von Schwarz et al. (1991) und Krosnick und Alwin (1987) angenommen. Eine Analyse von 82 Experimenten aus 12 Studien in 7 Staaten, zusammengetragen durch Dillman et al. (1995), zeigt, dass Primacy- und Recency-Effekte gleichermaßen in Mail- und Telefonbefragungen auftreten können. Eine sichere Vorhersage des Auftretens dieser Effekte in Abhängigkeit von visueller gegenüber auditiver Fragenadministration ist also nicht möglich, auch wenn die Zahl der Studien, welche Primacy-Effekte bei visuell dargebotenen Fragen und Recency-Effekte bei auditiv dargebotenen Fragen berichten, zu überwiegen scheint (Krosnick, 1999).

Bisher wurde geschildert, welche Bedeutung die kognitive Belastung durch eine auditive gegenüber einer visuellen Administration der Fragen für das Auftreten von Response-Order- Effekten bei Kategorialfragen haben kann, bei denen der Respondent eine oder mehrere Antwortalternativen aus einer Liste auswählt. Bei Fragen im Ratingskalen-Format ist die Aufgabe des Respondenten eine andere, er soll seine Position zu einem Gegenstand (häufig eine Einstellung) auf einem durch eine mehrstufige Skala repräsentierten Kontinuum bestimmen. Die einzelnen Stufen der Skala sind dabei manchmal numerisch, manchmal verbal verankert. Bei numerisch verankerten Skalenpunkten sind die Endpunkte in der Regel zusätzlich verbal verankert. Das Vorlesen verbal verankerter Skalenpunkte bei telefonischen Interviews über mehrere Fragen oder ganze Batterien von Fragen ist mühsam für die Interviewer und kann die kognitiven Kapazitäten der Befragten stark beanspruchen, da die einzelnen Skalenstufen genauso wie die Antwortalternativen von Kategorialfragen verstanden und erinnert werden müssen (siehe die Ausführungen zu Kategorialfragen oben). Organisationen wie z.B. die Gallup Organization sind daher mit zunehmender Verbreitung telefonische Interviews dazu übergegangen, häufiger numerische Ratingskalen zu verwenden, deren Endpunkte verbal verankert sind, anstatt Skalen zu verwenden, bei denen jeder Punkt verbal verankert ist. Die Fragen werden dann z.B. in folgender oder ähnlicher Form gestellt: „Wie zufrieden sind Sie insgesamt mit ...? Bitte geben Sie Ihre Antwort auf einer Skala von eins bis fünf. Eins steht dabei für überhaupt nicht zufrieden und fünf für sehr zufrieden. Sie können jede Zahl zwischen eins und fünf verwenden." (Dillman et al., 2000). Dies sollte die kognitive Belastung der Respondenten reduzieren, da weniger Antwortalternativen verstanden und erinnert werden müssen, insbesondere wenn dieselbe Skala über eine Batterie von Fragen hinweg wiederholt angewandt wird. Dennoch können sich auch bei dieser Form von Ratingskalen Reponse-Order-Effekte finden, allerdings eher in einer telefonischen Befragung als einer schriftlich-postalischen Befragung. Dillman et al. (2000) berichtet von einer Tendenz zur Wahl der positiven Extremkategorie von fünfstufigen Ratingskalen bei auditiver gegenüber visueller Fragenadministration, unabhängig von der Polung der Skalen. Bei den Fragen handelte es sich um Einschätzungen der Zufriedenheit mit Telekommunikationsanbietern, daher erwarteten die Autoren hier keine Effekte der Sozialen Erwünschtheit. Anders als bei Kategorialfragen oder vollständig verbal verankerten Ratingskalen erscheint es hier weniger plausibel, dass diese Tendenz zur Bevorzugung der positiven Extremkategorie durch Gedächtniseffekte beeinflusst ist, da sonst die Umpolung der Skalen einen Effekt hätte hervorbringen müssen. Als alternative Erklärung käme jedoch in Frage, dass die Präsenz der Skala bei visueller Administration zu einer höheren kognitiven Verfügbarkeit der einzelnen Skalenpunkte führt, welche wiederum eine Verteilung der Antworten über die gesamte Skala wahrscheinlicher macht (Dillman et al., 2000) . Bei einer auditiven Darbietung dagegen muss die Skala vor dem geistigen Auge vergegenwärtigt werden. Diese mögliche Erklärung ist aber bisher nicht systematisch untersucht worden.

Dillman et al. (2000) gehen davon aus, dass sich der Einfluss der kognitiven Belastung stärker auf die gewonnenen Daten bei Fragen mit vagen Antwortalternativen auswirkt, bei denen der Befragte überlegen muss, welche Kategorie er auswählen soll. Weiterhin sollte er eher bei Fragen auftreten, deren Antworten der Respondent nicht ohne weiteren kognitiven Aufwand aus dem Gedächtnis abrufen kann. Das ist z.B. der Fall bei nicht-faktischen Fragen, die eine Selbsteinschätzung des Respondenten verlangen oder eine Einstellung erfassen. Hat der Respondent bisher keine Einstellung zu dem Gegenstand der Frage, dann sind mehr kognitive Ressourcen für die Beantwortung dieser Frage notwendig und zusätzliche Belastungen können, wie oben dargestellt, mit dem Antwortprozess interferieren. Gleichzeitig erscheint es plausibel, dass sich Satisficing bei solchen Fragen ebenfalls stärker auswirkt.

3.2.3.4 Zusammenfassung

Die verschiedenen Charakteristiken der Befragungsmethoden unterscheiden sich in dem Ausmaß kognitiver Belastung, die sie bei den Respondenten verursachen sowie der Literacy, die sie ihnen abverlangen. Auditive Fragendarbietung verlangt eine geringere Literacy als eine visuelle Fragendarbietung, verursacht aber eine stärkere kognitive Belastung. Eine höhere kognitive Belastung wiederum führt zu einem höheren Measurement Error. Computerunterstützung kann die Belastung reduzieren, weil sie sowohl Respondent als auch Interviewern das Überspringen nicht zutreffender Fragen abnimmt, was zu weniger fehlenden Werten führt. Außerdem ist eine Überprüfung der Eingaben möglich, was ebenfalls fehlende Daten, aber auch unzulässige Werte verhindern kann.

Die kognitive Belastung hängt allerdings nicht allein von Administrationskanal und Antwortmodus ab, sondern auch von Design und Layout eines Fragebogens.

3.3 Schlussfolgerungen

In diesem Kapitel wurden die unterschiedlichen Charakteristiken der Befragungsmethoden dargestellt, mit psychologischen Theorien in Verbindung gebracht und es wurden empirische Befunde dazu berichtet. Das vorgestellte heuristische Modell, welches die Effekte der Charakteristiken der Befragungsmethoden mittels dreier psychologischer Variablen systematisiert, bezeichnet als Konsequenz dieser Effekte mögliche Measurement und Nonresponse Errors. Es wurde in Kapitel 2 bereits auf die Schwierigkeit der Messung dieser Fehlerkonzepte hingewiesen. Eine Alternative dazu stellen Vergleiche der Antwortverteilung in den verschiedenen Befragungsmethoden dar, um die praktische Relevanz dieser Fehlerquellen im Kontext von Mixed-Mode Befragungen einzuschätzen. Aus den berichteten Befunden und den theoretischen Überlegung ergibt sich die Annahme, dass diese möglichen Fehlerquellen mit den Befragungsmethoden in Beziehung stehen.

Um diese Effekte zu untersuchen, sind experimentelle Vergleiche zwischen den Befragungsmethoden in einem Mixed-Mode-Ansatz nötig. Es lassen sich dabei unterschiedliche methodische Herangehensweisen je nach dem Grad der experimentellen Kontrolle unterscheiden. Zum einen können die Befragungsmethoden als vollständige „data collection systems" (Lyberg & Kasprzyk, 1991) in einem realen Befragungsprojekt eingesetzt werden, in denen die jeweiligen Design-Parameter der Befragungsmethoden so optimiert sind, wie sie sich als besonders effizient in bisherigen Untersuchungen herausgestellt haben. Unter solchen Parametern sind z.B. Art und Häufigkeit von Remindern bzw. wiederholten Kontaktversuchen oder Auswahlkriterien und Trainingsmaßnahmen für Interviewer zu verstehen (Groves, 1989, S. 506). Beispiele für diesen Ansatz sind die Untersuchungen von de Leeuw (1992) und Dillman et al. (2000). Die experimentelle Manipulation besteht darin, dass die Befragten zur Teilnahme in einer bestimmten Befragungsmethode aufgefordert werden. Anschließend werden die Antwortverteilungen und Response Raten verglichen. Problematisch an diesem Ansatz ist, dass die Teilnahmebereitschaft der befragten Personen vorher nicht bekannt ist. Insofern findet ein Selbstselektionsprozess statt, der mit der Befragungsmethode konfundiert sein kann. Häufig finden sich dann in solchen Untersuchungen demographische Unterschiede in den Untersuchungsgruppen. Diese selektive Nonresponse stellt selbstverständlich auch einen Effekt des jeweiligen „data collection systems" dar. Die Unterschiede in den Antwortverteilungen lassen sich dann aber nicht mehr ohne weiteres auf Charakteristiken der Befragungsmethode wie die Methode der Fragendarbietung oder den Kommunikationskanal zurückführen, da die Antworten mit Unterschieden zwischen Respondenten und Nonrespondenten konfundiert sein können. Eine andere Herangehensweise ist, nur einzelne Charakteristiken der Befragungsmethoden zu untersuchen und alle anderen Parameter konstant zu halten. Dies ermöglicht, marginale Methodeneffekte zu ermitteln. Allerdings ist bei einem solchen Vorgehen die Übertragbarkeit auf reale Befragungsszenarien in Frage gestellt, da die Bedingungen, unter denen diese Vergleiche durchgeführt werden, für reale Befragungssituationen unrealistisch sein können (Lyberg & Kasprzyk, 1991). In der vorliegenden Arbeit wurde, wie im folgenden Kapitel gezeigt wird, ein Mittelweg gewählt.

Teil II - Empirischer Teil

Forschungsleitende Fragestellung der vorliegenden Arbeit ist, ob sich Webbefragungen mit schriftlich-postalischen und telefonischen Befragungsmethoden sinnvoll in einem Mixed- Mode-Ansatz kombinieren lassen. Dazu war notwendig, die mögliche Konsequenz von Antwortverzerrungen auf Grund der Befragungsmethode zu untersuchen und auf ihre Relevanz für den Einsatz in der Umfragepraxis einzuschätzen. Es wurde bereits oben erläutert, das sich diese Frage nur durch einen experimentellen Vergleich der Befragungsmethoden zufriedenstellend beantworten lässt. Daher wurde eine experimentelle Vergleichsstudie unter möglichst realistischen Befragungsbedingungen (in Bezug auf die in Abschnitt 3.3 erwähnten Parameter einer Befragungsmethode) durchgeführt, in der eine Webbefragung (im Folgenden mit „Web" abgekürzt) mit einer schriftlich-postalischen Befragung („Mail") sowie einer computerunterstützten, telefonischen Befragung („CATI") verglichen wurde. Gleichzeitig wurden mögliche Selbstselektionseffekte ausgeschlossen, indem nur Personen unter den drei Versuchsbedingungen befragt wurden, die bereits vorher einer Teilnahme zugestimmt hatten und einer eng umschriebenen, homogenen Stichprobe angehörten (vgl. Abschnitt 4.2). Somit stellt dieser Untersuchungsaufbau einen Mittelweg zwischen den in Abschnitt 3.3 skizzierten Herangehensweisen dar. Dadurch bleibt der Befragungsprozess realistisch und eine Übertragung der Ergebnisse auf andere Befragungssituation ist möglich. Gleichzeitig bleibt die Menge konfundierender Einflussvariablen durch die Einschränkung auf eine homogene Stichprobe begrenzt.

Untersucht wurde, ob die Antwortverteilungen unter den drei Befragungsmethoden äquivalent waren. Weiterhin wurden noch die folgenden Aspekte gesondert verglichen:

- Die Dauer der Befragung
- Der Anteil fehlender Werte
- Die Anzahl von genannten Aspekten bei offenen Fragen
- Die Bevorzugung extremer Antwortkategorien in Ratingskalen
- Die Bewertung der Befragungssituation durch die Befragten
- Die Antwortverteilungen bei sensitiven Fragen

Darüber hinaus wurde noch untersucht, wie sich unterschiedlichen Befragungsmethoden auf psychometrische Maße, wie die interne Konsistenz der Skalen eines Instruments zur Erfassung der Lebensqualität, auswirken (vgl. Abschnitt 4.1.1). Als inhaltliches Thema der Befragung wurde der Verhaltensbereich „Verhütung" und damit ein sensitives Thema gewählt. Da es bisher noch keine Untersuchung dieser Art im deutschsprachigen Raum gibt, ist diese Arbeit als explorativ anzusehen. Dennoch lassen sich aus den in Teil 1 dargestellten Theorien und Befunden Hypothesen über die Effekte der Befragungsmethoden auf die oben aufgeführten Aspekte ableiten. Zunächst sollen aber der verwendete Fragebogen und das methodische Vorgehen in dieser Studie dargestellt werden, da sich nur vor diesem Hintergrund die konkreten Hypothesen erläutern lassen.

4 Methode

Im Folgenden werden das verwendete Befragungsinstrument, die rekrutierte Stichprobe und die verwendeten statistischen Auswertungsverfahren erläutert.

4.1 Befragungsinstrument

In diesem Unterkapitel werden die Konstruktion und technische die Implementation des verwendeten Fragebogens und die Anpassung an die spezifischen Anforderungen der drei Untersuchungsbedingungen dargestellt. Zunächst werden Herkunft, Inhalt und Art der verwendeten Fragen erläutert. Im Anschluss wird auf das Layout und die technische Implementation der Befragung eingegangen.

4.1.1 Herkunft der Fragen

Der vollständige Fragebogen ist in der Mail-Variante im Anhang einsehbar. Er setzt sich hauptsächlich aus drei Teilen zusammen. Etwa die Hälfte der Fragen wurde einer telefonischen Bevölkerungsumfrage zum Thema „ Kontr azeptionsverhalten junger Erwachsener" entnommen, welche kürzlich von forsa Gesellschaft für Sozialforschung und statistische Analyse mbH deutschlandweit im Auftrag der Bundeszentrale für Gesund­heitliche Aufklärung (BZgA) durchgeführten wurde (Bundeszentrale für Gesundheitliche Aufklärung, 2003). Dadurch sollte sicher gestellt werden, dass es sich bei den Fragen zwar um solche aus dem sensitiven Themenkomplex Sexualität handelt, nicht aber um Fragen, die so sensitiv sind, dass eine interviewer-administrierte Durchführung der Befragung gegenüber einer selbst-administrierten Durchführung übermäßig benachteiligt wäre, was die Übertragbarkeit der Ergebnisse auf andere, realistische Befragungssituationen unmöglich gemacht hätte. Dass die gewählten Fragen nicht übermäßig sensitiv waren, kann aus der Tatsache geschlussfolgert werden, dass die von forsa organisierte Befragung problemlos telefonisch durchgeführt wurde. Die folgende Liste gibt Aufschluss über die Inhalte der ausgewählten Fragen:

- Die Subjektive Informiertheit über den Bereich Empfängnisverhütung
- Die Informationsquellen zu diesem Bereich
- Die Anwendung von Empfängnisverhütungsmitteln und -methoden
- Die Subjektive Informiertheit über die angewandte Methode
- Die Gründe für die Wahl der angewandten Verhütungsmethode
- Personen, welche die angewandte Verhütungsmethode empfohlen haben
- Weiterer Informationsbedarf zum Thema Empfängnisverhütung
- Die präferierten Informationsquellen
- Kenntnis und Anwendung der „Pille danach"

Alle diese Fragen wurden mit einer Ausnahme in geschlossenem Format mit zwei bis maximal fünf Antwortkategorien gestellt, von denen nur eine ausgewählt werden konnte. Die Ausnahme stellt die Frage nach den verwendeten Verhütungsmethoden dar. Sie wurde in der telefonischen Befragungsbedingung offen gestellt, da es sich bei einem Pretest mit einigen wenigen Teilnehmerinnen als äußerst unpraktikabel herausgestellt hatte, die gesamte Liste von Verhütungsmethoden vorzulesen. In der Web- und Mailbedingung wurde diese Frage als Mehrfachwahlfrage gestellt, bei welcher die Befragten alle zutreffenden Antwortalternativen ankreuzen sollten. Weil es sich bei dieser Frage um eine Fakten-Frage handelt, deren Beantwortung für die befragten Frauen keinerlei kognitive Belastung darstellen sollte, wurde nicht damit gerechnet, dass sich dieser Formatwechsel auf die Antworten auswirken würde. Dennoch muss dieser zusätzliche Unterschied bei der Interpretation der Ergebnisse berücksichtigt werden.

Ein zweiter Teil des Fragebogens bestand aus drei Subskalen der Kurzfassung des von einer Arbeitsgruppe der Weltgesundheitsorganisation WHO entwickelten Fragebogens zur internationalen Erfassung der Lebensqualität WHOQOL-Bref. Dabei handelt es sich um ein etabliertes und testtheoretisch gut abgesichertes Instrument zur bereichsunspezifischen Erfassung der Lebensqualität (Angermeyer, Kilian & Matschinger, 2000). Es wurden die Subskalen „Physische Lebensqualität", „Psychische Lebensqualität" und „Soziale Beziehungen" mit insgesamt 15 Fragen sowie zwei Fragen zur Globaleinschätzung der Lebensqualität und Zufriedenheit mit der eigenen Gesundheit aufgenommen. Die einzelnen Fragen bestanden aus fünfstufigen Ratingskalen. Anders als in der Vorlage wurden hier nur die Endpunkte der Skalen verbal verankert. Außerdem wurden alle Stufen numerisch verankert. Dieses Vorgehen entspricht dem Standard bei telefonischen Befragungen (Dillman, 2000) und wurde für die anderen beiden Untersuchungsbedingungen übernommen, um vergleichbare Stimulusqualitäten herzustellen. Das von Dillmann (2000) vorgeschlagene Uni-Mode Design, welches darin besteht, in Mixed-Mode Befragungen mit schriftlichen und telefonischen Befragungen auf eine visuelle Darbietung der Skala im schriftlichen Fragebogen zu verzichten und statt dessen die Antwort des Befragten als Zahl (die gewählte Stufe auf der Skala) in ein Feld eintragen zu lassen, wurde bewusst nicht gewählt, weil der Effekt der visuellen Skalendarbietung gegenüber der auditiven Darbietung ein Untersuchungsgegenstand der vorliegenden Arbeit war. Wie im theoretischen Teil der Arbeit erläutert (vgl. Abschnitt 3.2.3.3), wird bei Ratingskalen in einer visuellen Fragendarbietung eine stärkere Verteilung der Antworten über die Skalen gegenüber einer auditiven Fragendarbietung erwartet. Anhand der Daten aus den Fragen des WHOQOL-Bref sollten die Hypothesen zu diesem Effekt geprüft werden.

Der Fragebogen bietet aber darüber hinaus noch die Möglichkeit, die internen Konsistenzen der Subskalen zu vergleichen. Thematisch weichen die Fragen des WHOQOL-Bref zwar leicht vom Themenkomplex Verhütung ab, jedoch nicht so sehr, dass eine Störung im Ablauf der Befragung erwartet werden musste. Um die Wahrscheinlichkeit einer solchen Störung dennoch gering zu halten, wurden die Fragen zum Ende des Fragebogens gestellt.

Als dritter Teil des Fragebogens wurden noch einige Fragen aus anderen Methodenuntersuchungen aufgenommen. Von einigen dieser Fragen wurde erwartet, dass sie sensitiver sind als die Fragen aus der BZgA-Befragung. Anhand dieser Fragen sollten mögliche Effekte der Sozialen Erwünschtheit unter den drei Befragungsmethoden geprüft werden. Es handelt sich dabei um Fragen zu den folgenden Themen:

- Das Alter des ersten Geschlechtsverkehrs
- Die Zahl der Geschlechtspartner im letzten Jahr
- Die Zahl der Geschlechtspartner insgesamt im Leben

Für die Fragen nach der Zahl der Geschlechtspartner lässt sich in bisherigen Untersuchungen der im theoretischen Teil der Arbeit beschriebene Effekt des Administrationsmodus nachweisen (Tourangeau & Smith, 1996; Tourangeau, Rasinski, Jobe, Smith & Pratt, 1997; vgl. Abschnitt 3.2.1). Dieser Effekt besteht in einer geringeren berichteten Zahl der Geschlechtspartner durch Frauen bei interviewer-administrierten gegenüber selbst-administrierten Befragungen.

Für die Frage nach dem Alter des ersten Geschlechtsverkehrs liegt keine Voruntersuchung zu einem möglichen Effekt des Administrationsmodus vor. Catania et al. (1996) zeigen jedoch, dass diese Frage durch eine „normalisierende" Formulierung der Frage beeinflussbar ist. In einer telefonischen Befragung wurde dieser Frage in einer Untersuchungsbedingung folgender Einleitungstext vorangestellt: „People start having sexual intercourse at different ages. For instance, some people start having sexual intercourse when they are very young, others during their teen years, some people not until they are adults, and others decide not to have sexual intercourse at all" (Catania et al., 1996, S. 352). Ziel dieser Formulierung war es, den Respondeten das Gefühl zu geben, dass ihr eigenes Verhalten, in welchem Alter sie auch immer ihre erste Erfahrung gemacht hatten, normal und keineswegs unmoralisch oder sozial unerwünscht sei. Diese Manipulation führte dazu, dass das berichtete Alter des ersten Geschlechtsverkehrs bei Frauen sank und bei Männern anstieg (Catania et al., 1996). Dies wird, ebenso wie der berichtete Effekt der unterschiedlichen Zahl der Geschlechtspartner bei Männern und Frauen (vgl. Abschnitt 3.2.1), als Reduzierung der Sozialen Erwünschtheit in den Antworten interpretiert. Diese Frage wurde aufgenommen, um zu untersuchen, ob der

Administrationsmodus ebenfalls einen Effekt auf die Beantwortung dieser Frage hat. Die drei genannten Fragen wurden alle offen gestellt.

Die Formulierung der Fragen wurde in der Regel aus den Originalen übernommen. Bei einigen Fragen wurde aber zusätzliche Erklärungen eingefügt, um Missverständnisse zu vermeiden. Zum Beispiel kann die Frage nach der Zahl der Partner, mit denen es zum Geschlechtsverkehr kam, zu Unklarheit darüber führen, ob es sich um feste Partner, Gelegenheitspartner oder beides handelt. Daher wurde in Anlehnung an Johnson, Wadsworth, Wellings & Field (1994, Kapitel 2) eine kurze Erläuterung an die Fragen angefügt, wo dies notwendig erschien.

Insgesamt beinhaltete das Befragungsinstrument Fragen mit den folgenden Antwort­formaten:

- Geschlossene Fragen mit zwei bis fünf Antwortalternativen
- Offene Fragen, die mit einem kurzen Text beantwortet werden sollten
- Offen Fragen nach der Häufigkeit eines bestimmten Ereignisses oder zeitlichen Angaben
- Ratingskalen mit fünf bis sechs Stufen, deren Endpole verbal verankert waren und deren einzelne Stufen zusätzlich numerisch verankert waren
- Eine Mehrfachwahlfrage

Die Fragen waren unter den drei Befragungsbedingungen identisch formuliert. Die Antwortalternativen wurden in der CATI-Bedingung, wie bei dieser Befragungsmethode üblich (Dillman, 2000), in den Fragentext integriert, während sie in den anderen beiden Bedingungen unterhalb der Fragen angeordnet waren. Dies soll an einen Beispiel aus der Fragebatterie des WHOQOL-Bref illustriert werden. Eine Frage z.B. lautete in der Web- und Mail-Bedingung: „In den folgenden Fragen geht es darum, wie stark Sie während der vergangenen zwei Wochen bestimmte Dinge erlebt haben". Darunter waren mehrere Items im Matrix-Format mit der Antwortskala rechts daneben angeordnet (vgl. Fragen F26 bis F31 im Papier-und-Bleistift-Fragebogen, siehe Anhang). In der CATI-Bedingung dagegen wurde die Frage folgendermaßen vorgelesen: „In den folgenden Fragen geht es darum, wie stark Sie während der vergangenen zwei Wochen bestimmte Dinge erlebt haben. Bitte geben Sie Ihre Antwort wieder auf einer Skala von 1 bis 5, wobei 1 für überhaupt nicht steht und 5 für äußerst.". Daran anschließend wurden die jeweiligen Items vorgelesen und gegebenenfalls wurde die Skala wiederholt.

4.1.2 Layout und technische Implementation

Bei dem Layout der Fragebögen wurde versucht, den einschlägigen Layoutempfehlungen von Jenkins und Dillman (1997) für Papier-und-Bleistift-Fragebögen sowie von Couper (1994) für computerunterstützte Befragungen und Dillman, Tortora und Bowker (1998) speziell für Webbefragungen zu folgen. Diese Prinzipien weisen deutliche Über­schneidungen auf. Ihre gemeinsame Kernaussage ist, die kognitive Belastung für den Respondenten möglichst gering zu halten. Dies kann z.B. erreicht werden durch einen gezielten Einsatz von Kontrasten (wie fettem oder farbigem Text) zur klaren Gliederung des Fragebogens, Gruppierung von zusammengehörigen Elementen, klaren Navigations­elementen bei Filterfragen und insgesamt einer hohen Konsistenz und angemessenen Komplexität über den gesamten Verlauf des Fragebogens.

Die Papier-und-Bleistift-Version des Fragebogens wurde beidseitig auf zwei DinA-4 Seiten mit jeweils zwei Spalten gedruckt. Die einzelnen Fragen sowie die Navigationsanweisungen waren farblich und durch einen fetten Font von den Antwortkategorien abgehoben. Weiterhin waren die Fragen nummeriert.

Es wurde im theoretischen Teil der vorliegenden Arbeit darauf hingewiesen, dass bei Webbefragungen Design und Layout auf Grund der vielen Möglichkeiten, die sich für die Implementation dieser Befragungsmethode bieten, besondere Beachtung finden sollten. Damit möglichst transparent ist, wie die Befragung in der vorliegenden Arbeit implementiert wurde, wird an dieser Stelle etwas ausführlicher auf die technische Umsetzung der Webbefragung eingegangen. Weiterhin wurden einige Screenshots zur Veranschaulichung in den Anhang aufgenommen. Es wurden mit Ausnahme der WHOQOL-Bref-Items alle Fragen jeweils einzeln auf einer Seite angezeigt. Bei den Items des WHOQOL-Bref wurden die Fragen, welche dieselbe Antwortskala verwendeten, gemeinsam auf einer Seite im Matrix-Format dargestellt. Technisch wurde die Webbefragung mit der Software SPSS MrInterview 1.2 realisiert. Der Fragebogen liegt dabei auf einem zentralen Webserver und kann mit jedem gängigen Browserprogramm aufgerufen werden. Die Angaben der Befragten werden jeweils nach jeder abgeschickten Seite gespeichert, so dass Befragungsabbrüche registriert werden können. Der Zugang zu der Befragung wurde durch ein zufälliges Passwort, welches allen Befragten zugeteilt wurde, kontrolliert. Dadurch war es ausgeschlossen, dass Personen außerhalb der Stichprobe auf den Fragebogen zugreifen konnten. Innerhalb des Fragebogens war es den Befragten jederzeit möglich, zu vorherigen Fragen zurückzukehren und Änderungen vorzunehmen. Grundsätzlich war es auch möglich, den Fragebogen bis zum Ende durchzugehen, ohne die einzelnen Fragen zu beantworten. Es wurde aber eine Fehlermeldung angezeigt, wenn eine Frage nicht beantwortet wurde. Diese sog. „Soft-Reminder" verhindern zum einen, dass Fragen übersehen und deshalb nicht beantwortet werden, was ein wichtiger Vorteil computerunterstützter Befragungen ist (vgl. Abschnitt 3.2.3.1). Zum anderen zwingen sie aber den Befragten nicht zu einer Antwort. Das Erzwingen einer Antwort, was gelegentlich als Vorteil von Webbefragungen angeführt wird (Dillman, Tortora & Bowker, 1998), erfordert, dass Ausweichkategorien wie „Keine Angabe" angeboten werden, wenn die Befragten nicht am Fortsetzen der Befragung vollständig gehindert werden sollen, falls sie eine Frage einmal nicht beantworten möchten. Solche Ausweichkategorien werden jedoch in telefonischen Befragungen nicht vorgelesen und nur registriert, falls die Befragten keine andere Antwort angeben (Dillman, 2000, S. 233). Eine Aufnahme einer solchen Antwortalternative in die Webversion des Fragebogens hätte die Äquivalenz der Fragen in den drei Untersuchungsbedingungen gefährdet. Der Einsatz eines „Soft-Reminders" dagegen vermeidet diese Probleme, ohne dabei auf den Vorteil der Reduzierung von fehlenden Antworten zu verzichten.

Die telefonische Befragung wurde computerunterstützt mit der Software Quancept CATI, ebenfalls aus dem Hause SPSS, durchgeführt. Es wurden drei weibliche Interviewer für diese Befragung rekrutiert, die über eine große Erfahrung in telefonischen Befragungen verfügten. Die Beschränkung auf weibliche Interviewer war notwendig, weil bisherige Untersuchungen zeigen, dass das Geschlecht des Interviewers bei Fragen zur Sexualität einen Einfluss auf die Befragungsergebnisse haben kann (Catania, 1999). Die experimentelle Manipulation des Faktors Geschlecht des Interviewers hätte jedoch eine deutlich größere Stichprobe verlangt, die aus ökonomischen Gründen nicht zu erbringen war. Die Durchführung entsprach dem üblichen standardisierten Vorgehen bei telefonischen Befragungen (Groves et al., 2001): Die Interviewerinnen wurden in dem Umgang mit dem Instrument und auf Inter-Rater­Übereinstimmung geschult. Weiterhin wurden ihnen noch schriftlichen Interviewer­anweisungen ausgehändigt. Darin wurden sie aufgefordert, die Fragen und Antwort­alternativen exakt vorzulesen und wenn nötig teilweise oder vollständig zu wiederholen. Während der Befragungen standen die Interviewerinnen unter regelmäßiger Supervision. Die Interviews wurden im Telefonstudio des Zentrums für Evaluation und Methoden (ZEM) der Universität Bonn durchgeführt.

4.2 Versuchspersonen

Als Versuchspersonen wurden für die vorliegende Arbeit junge Frauen im Alter zwischen 18 und maximal 30 Jahren ausgewählt, die mit Fachhochschul- oder Hochschulreife über höhere Bildung verfügten. Die Einschränkung auf diese Personengruppe wurde vorgenommen, um eine in Bezug auf Bildungsniveau, Geschlecht und Alter möglichst homogene Stichprobe zu erhalten, welche aber gleichzeitig nicht so eingeschränkt war, dass das Gewinnen einer genügend großen Stichprobe übermäßig schwierig geworden wäre. Gleichzeitig sollte gewährleistet sein, dass die Befragten über grundlegende Kenntnisse im Umgang mit dem Computer und dem Internet verfügten (Computer-Literacy). Dies wurde erreicht, indem alle potentiellen Teilnehmerinnen per E-Mail kontaktiert wurden und somit zumindest regelmäßige E-Mail-Nutzerinnen waren. Als Stichprobengröße wurden 100 Frauen pro Versuchsbedingung angestrebt, also mindestens 300 Teilnehmerinnen. Die Rekrutierung der Befragungsteilnehmerinnen erfolgte in zwei Phasen. Zunächst wurden in einer ersten Phase möglichst viele E-Mail-Adressen von potentiellen Teilnehmerinnen gesammelt. Dies erfolgte über verschiedene Wege. Zum Teil wurden Frauen über Aushänge geworben. Daneben wurden junge Frauen vor mehreren Bonner Mensen von einer Studentin angesprochen und um ihre Teilnahme gebeten. Schließlich wurden auch durch das Schneeball-System über bereits rekrutierte Teilnehmerinnen weitere E-Mail-Adressen gewonnen. Alle diese Personen wurden nur darüber informiert, dass es sich bei der Befragung um eine Diplomarbeit zum Thema „Kontrazeptiva" handele und sie wurden gebeten, ihre E-Mail-Adresse anzugeben. Sie sollten dann alle weiteren Informationen per E­Mail erhalten. Auf diese Weise konnten 368 Frauen für die Teilnahme gewonnen werden.

In einer zweiten Phase wurden alle Frauen über ihre E-Mail-Adressen angeschrieben, um bei den über verschiedene Wege gewonnenen potentiellen Teilnehmerinnen einen gleichen Informationsstand zu erreichen. Außerdem musste von allen Teilnehmerinnen zusätzlich zu der E-Mail-Adresse noch eine Telefonnummer und Post-Adresse erfragt werden. Es wurde noch einmal auf den Hintergrund und das Thema der Befragung hingewiesen, es wurde dabei aber nicht erwähnt, dass es sich um ein Methoden-Experiment handelte. Für die Person des Diplomanden wurde ein weibliches Alias verwendet. Dieses Vorgehen wurde gewählt, weil aus methodischen Gründe, wie oben erwähnt, nur weibliche Interviewer für die telefonische Befragung eingesetzt werden sollten. Da nun in dieser Bedingung die Befragten mit einer Frau Kontakt haben würden, in den anderen Bedingungen aber als einzige Kontaktperson eine männliche Person in Erscheinung getreten wäre, wurde befürchtet, dass dieser Unterschied einen Einfluss auf die Teilnahmebereitschaft und die gewonnenen Daten haben könnte. Es wurde weiterhin explizit in dem Anschreiben darauf hingewiesen, dass alle Daten streng vertraulich behandelt und die in der Befragung gemachten Angaben anonymisiert gespeichert würden. In dieser Phase der Rekrutierung wurden noch weitere Studierende angeschrieben, die in einem öffentlichen E-Mail- Verzeichnis der Universität Bonn (dem X500-E-Mail-Verzeichnis) registriert waren. Das in dieser Phase verwendete Anschreiben ist im Anhang einsehbar.

4.3 Durchführung der Befragung

Die Befragung erfolgte zwischen Februar und April 2004. Die 368 Frauen, die sich zu Beginn der Rekrutierungsphase E-Mail zur Teilnahme bereit erklärt hatten und die notwendigen Angaben gemacht hatten, wurden randomisiert den drei Untersuchungsbedingungen zugewiesen. Anschließend erhielten sie noch einmal eine E-Mail, in welcher sie darüber informiert wurden, wie die jeweilige Befragung ablaufen solle. In der Web-Bedingung war in der entsprechenden E-Mail der Link auf die Befragung und das Zugangspasswort enthalten. In der Mail- und CATI-Bedingung wurde angekündigt, dass die Befragten in nächster Zeit angerufen würden bzw. einen Fragebogen inkl. eines frankierten Rückantwortumschlags per Post zugesandt bekämen. Drei Wochen nach Beginn des Befragungszeitraumes wurden in der Mail- und Web-Bedingung noch einmal Reminder verschickt mit der Bitte, den Fragebogen auszufüllen, falls dies noch nicht geschehen sei. Nach fünf Wochen war die Befragungszeit abgeschlossen.

Es wurde kein Incentive außer einer Rückmeldung über die Ergebnisse der Befragung in Aussicht gestellt. Zu Beginn der Befragung wurden alle Teilnehmerinnen darauf hingewiesen, dass sie eine Frage nicht beantworten mussten, wenn sie dies nicht wollten. Weiterhin wurden sie noch einmal auf die anonyme Speicherung aller Angaben hingewiesen. Schließlich wurden die Befragten noch gebeten, erst mit anderen Personen, welche ebenfalls an dieser Befragung teilnahmen, über den Inhalte zu sprechen, wenn diese bereits die Befragung abgeschlossen hatten. Diese Bitte sollte verhindern, dass die Frauen mit einem unterschiedlichen Informationsstand an der Befragung teilnahmen.

4.4 Statistische Analyse der Befragungsergebnisse

Grundlage der Analyse stellten als abhängige Variablen die Antwortverteilungen der Befragten dar sowie weitere daraus abgeleitete Werte, wie z.B. die Anzahl der genannten Aspekte in offenen Fragen. Die unabhängige Variable war die Untersuchungsbedingung mit den drei Befragungsmethoden Web, Mail und CATI. Es wurde bei allen ungerichteten Vergleichen zwischen diesen drei Befragungsmethoden dieselbe Auswertungsstrategie verfolgt: Zunächst wurde ein Overall-Test über die drei Gruppen berechnet. Anschließend wurden, falls dieser signifikant ausfiel, multiple Einzelvergleiche durchgeführt. Dabei wurde das Alpha-Niveau adjustiert, damit es das Niveau des Overall-Tests nicht überschreiten konnte. Das Alpha-Niveau wurde für alle Overall-Tests und gruppierten Einzelvergleiche auf a=.05 festgesetzt.

Die Daten, für welche ein Intervallskalenniveau angenommen werden konnte, wurden zunächst mittels Varianzanalyse auf Mittelwertsgleichheit in den drei Versuchsbedingungen überprüft (Bortz, 1993). Dies waren alle Zeit- und Altersangaben, Häufigkeitsangaben sowie die Skalenwerte des WHOQOL-Bref. Fiel dieser Overall-Test signifikant aus, wurden Einzelvergleiche mit nach Bonferoni korrigiertem Alpha-Niveau durchgeführt (Bortz, 1993). Bei nicht-intervallskalierten Daten wurde ein Chi2 -Test für unabhängige Stichproben verwendet (Bortz, 1993). Falls dieser einen signifikanten Gruppenunterschied anzeigte, wurden Einzelvergleiche mit der multiplen Testprozedur nach Holm (1979) durchgeführt. Dieser Test nach Holm stellt einen ungerichteten Signifikanztest über die standardisierten Residuen einer Kontingenztafel dar. Um die internen Konsistenzen der drei Subskalen des WHOQOL-Bref zu vergleichen, wurden zunächst Cronbachs Alpha-Koeffizienten berechnet. Im Anschluss wurden diese mittels eines multiplen Signifikanztests für unabhängige Alphakoeffizienten nach Hakstian und Whalen (1976) verglichen. Falls dieser signifikant ausfiel, kamen paarweise Einzelvergleiche nach Feldt (1969) zum Einsatz.

Wurden gerichtete Alternativhypothesen über Unterschiede zwischen den Befragungsmethoden formuliert, so wurden diese mittels mehrerer Einzelvergleiche überprüft. Dabei wurden T-Tests und Chi2 -Verfahren mit einem Freiheitsgrad eingesetzt. Das Signifikanzniveau wurde dabei ebenfalls auf a=.05 festgesetzt. In einigen Fällen wurden auch Hypothesen über die Gleichheit der Daten unter zwei Befragungsbedingungen formuliert. Da in diesen Fällen keine Effektstärken aus der Literatur abgeleitet werden konnten, war es nicht möglich, Alternativhypothesen zu formulieren und so die Tests im Sinne von Neyman und Pearson (Willmes, 1996) zu optimieren. Aus diesem Grunde musste hier von dem Alpha-Niveau von a=.05 abgewichen und ein höheres Alpha-Niveau gewählt werden, um dadurch indirekt den Beta-Fehler möglichst gering zu halten (Bortz, 1993). Das jeweilige Alpha-Niveau für diese Tests wurde in einer Kompromiss-Power-Analyse mit dem Programm G-Power (Erdfelder, Faul & Buchner, 1996) berechnet. Dabei wurden die als Konvention angegebenen geringen Effektstärken von d=.2 bzw. w=.1 zu Grunde gelegt. Das kalkulierte Alpha-Niveau wird im Ergebnisteil bei den jeweiligen Einzelvergleichen, welche eine Hypothese der Gleichheit der Befragungsmethoden bestätigen sollten, berichtet. Diese Tests wurden zweiseitig durchgeführt.

Im Ergebnisteil der vorliegenden Arbeit werden für die durchgeführten Signifikanztests die exakten p-Werte berichtet. Liegen diese unterhalb von p=.001, so werden diese der Übersichtlichkeit wegen mit p<.001 abgekürzt. Weiterhin werden Schätzer der Effektstärken berichtet.

5 Hypothesen

Aufgrund vorhergehender Studien und der dargestellten theoretischen Überlegungen wurden die folgenden Hypothesen über Unterschiede zwischen den Befragungsmethoden aufgestellt. Es handelt sich dabei um die Forschungshypothesen (H1).

Hypothese 1: Dauer der Befragung

Es ist zu erwarten, dass die durchschnittliche Befragungsdauer in der Web-Bedingung länger ist, als in der CATI-Bedingung, da die Befragten hier die alleinige Kontrolle über den zeitlichen Ablauf der Befragung haben, während Interviewer im Allgemeinen bei telefonischen Befragungen dazu neigen, die Befragten zu einem schnellen Fortgang des Interviews zu drängen. Die Dauer der Befragung wird in der CATI- und Web-Bedingung automatisch vom Computer erfasst. In der Mail-Bedingung hätte die Zeitmessung allerdings durch die Befragten selber vorgenommen werden müssen. Wegen der anzunehmenden Ungenauigkeit einer solchen Angabe, wäre dieser Wert aber nicht mit den beiden anderen Zeitmessungen vergleichbar gewesen. Daher wird darauf verzichtet und nur Web und CATI verglichen. Die statistische Hypothese lautet somit:

Hypothese 1: Befragungsdauer (Web) > Befragungsdauer (CATI)

Hypothese 2: Anteil fehlender Daten

In den beiden computerunterstützten Befragungsmethoden Web und CATI sollten keine fehlenden Werte auf Grund von übersehenen Fragen oder fehlerhaften Skips vorkommen. Bei übersehenen Fragen wird eine Erinnerungsmeldung angezeigt und die Skips werden automatisiert vom Computer ausgeführt. Daher wird erwartet, dass in der Mail-Bedingung mehr Datensätze fehlende Werte aufweisen als in der CATI- und der Web-Bedingung. Zwischen der CATI- und der Web-Bedingung wird kein Unterschied erwartet. Bei stark sensitiven Fragen besteht allerdings die Möglichkeit, dass die in Abschnitt 3.2.1 beschriebenen Antwort-Effekte auftreten, was zu mehr fehlenden Werten in der CATI- Bedingung führen kann. Da die Teilnehmerinnen aber vorher über das Thema der Befragung informiert waren, wird nicht erwartet, dass in großem Maße Antwortverweigerungen auftreten. Die statistischen Hypothesen zum Anteil fehlender Daten lauten also:

Hypothese 2a: Anteil fehlender Daten (Mail) > Anteil fehlender Daten (CATI)

Hypothese 2b: Anteil fehlender Daten (Mail) > Anteil fehlender Daten (Web)

Hypothese 2c: Anteil fehlender Daten (CATI) = Anteil fehlender Daten (Web)

Hypothese 3: Anzahl genannter Aspekte bei offenen Fragen

Interviewer können bei offenen Fragen nachhaken und genauere Erläuterungen verlangen. Bei selbst-administrierten Befragungen dagegen hängt es von der Motivation des Befragten ab, wie ausführlich offene Fragen beantwortetet werden. Gleichzeitig ist das Nieder­schreiben der Antworten, sei es handschriftlich oder durch Eintippen in den Computer, mühsamer als die Antworten mündlich abzugeben. Daher wird in der CATI-Bedingung erwartet, dass dort mehr Aspekte bei offenen Fragen genannt werden als in der Web- und Mail-Bedingung. Über Unterschiede zwischen der Web- und der Mail-Bedingung ließ sich keine Hypothese aus der Literatur ableiten. Die statistischen Hypothesen lauten:

Hypothese 3a: Anzahl Aspekte (CATI) > Anzahl Aspekte (Web)

Hypothese 3b: Anzahl Aspekte (CATI) > Anzahl Aspekte (Mail)

Hypothese 4: Bevorzugung extremer Antwortkategorien in Ratingskalen

Bisherige Untersuchungen zeigen eine häufigere Wahl der positiven Extremkategorie in auditiv dargebotenen Befragungen gegenüber visuell dargebotenen Befragungen. Daher wird erwartet, dass die Befragten in der CATI-Bedingung bei der Beantwortung der WHOQOL-Bref-Fragen häufiger die positive Extremkategorie angeben als in der Mail- und Web-Bedingung. Zwischen der Mail- und Web-Bedingung wird kein Unterschied erwartet. Die statistischen Hypothesen lauten also:

Hypothese 4a: Häufigkeit positive Extremkategorie (CATI) > Häufigkeit positive Extremkategorie (Web)

Hypothese 4b: Häufigkeit positive Extremkategorie (CATI) > Häufigkeit positive Extremkategorie (Mail)

Hypothese 4c: Häufigkeit positive Extremkategorie (Web) = Häufigkeit positive Extremkategorie (Mail)

Hypothese 5: Antwortverteilungen bei sensitiven Fragen

Auf Grund der Anwesenheit eines Interviewers wird erwartet, dass die Antworten in der CATI-Bedingung stärker durch Soziale Erwünschtheit beeinflusst sind als in der Web- und Mail-Bedingung. Dies sollte zu einer höheren Zahl von berichteten Geschlechtspartner im letzten Jahr und im Leben insgesamt bei Mail und Web gegenüber CATI führen. Weiterhin wird erwartet, dass das berichtete Alter des ersten Geschlechtsverkehrs in der Mail- und Web-Bedingung unterhalb dem in der CATI-Bedingung berichteten liegt. Zwischen der Web- und Mail-Bedingung werden keine Unterschiede erwartet. Die statistischen Hypothesen lauten somit:

Hypothese 5a1: Anzahl Geschlechtspartner insgesamt (Web) > Anzahl Geschlechtspartner insgesamt (CATI)

Hypothese 5a2: Anzahl Geschlechtspartner insgesamt (Mail) > Anzahl Geschlechtspartner insgesamt (CATI)

Hypothese 5a3: Anzahl Geschlechtspartner insgesamt (Mail) = Anzahl Geschlechtspartner insgesamt (Web)

Hypothese 5b1: Anzahl Geschlechtspartner letztes Jahr (Web) > Anzahl Geschlechtspartner letztes Jahr (CATI)

Hypothese 5b2: Anzahl Geschlechtspartner letztes Jahr (Mail) > Anzahl Geschlechtspartner letztes Jahr (CATI)

Hypothese 5b3: Anzahl Geschlechtspartner letztes Jahr (Mail) = Anzahl Geschlechtspartner letztes Jahr (Web)

Hypothese 5c1: Alter des ersten Geschlechtsverkehrs (CATI) > Alter des ersten Geschlechtsverkehrs (Web)

Hypothese 5c2: Alter des ersten Geschlechtsverkehrs (CATI) > Alter des ersten Geschlechtsverkehrs (Mail)

Hypothese 5c3: Alter des ersten Geschlechtsverkehrs (Mail) = Alter des ersten Geschlechtsverkehrs (Web)

6 Ergebnisse

Im Folgenden werden die Ergebnisse der Untersuchung dargestellt. Zunächst erfolgt eine Beschreibung der Stichprobe und der erreichten Rücklaufquoten. Im Anschluss werden die inferenzstatistischen Ergebnisse gegliedert nach den zu Anfang des empirischen Teils genannten Aspekten aufgeführt.

6.1 Rücklaufquote und Stichprobenbeschreibung

Insgesamt konnten 368 Frauen für die Teilnahme an der Befragung gewonnen werden. Die randomisierte Aufteilung auf die Untersuchungsbedingung führte zu 122 Teilnehmerinnen in der Web-Bedingung, 122 in der Mail-Bedingung und 124 in der CATI-Bedingung. Die Rücklaufquoten betrugen 91% in der Web-Bedingung, 93% in der Mail-Bedingung und 94% in der CATI-Bedingung. Eine einzige Teilnehmerin beendete die Befragung vorzeitig in der Web-Bedingung, allerdings erst bei der vorletzten Frage, so dass dieser Datensatz fast vollständig in die Analyse einging.

Tab. 6.1: Anzahl kontaktierter Personen, Response Rate und Zahl der analysierten Datensätze

Abbildung in dieser Leseprobe nicht enthalten

Es wurden drei Datensätze ausgeschlossen, darunter einer aus der Web- und zwei aus der Mail-Bedingung, weil die Respondentinnen die Altersgrenze von 30 Jahren überschritten hatten. Weiterhin kam es auf dem Server des CATI-Systems zu einem Fehler, der zu Datenverlust führte. Die betroffenen zehn Datensätze mussten ebenfalls ausgeschlossen werden. Die verbleibenden 109 Fälle in der Web-Bedingung, 112 in der Mail-Bedingung und 106 in der CATI-Bedingung wurden der statistischen Auswertung zugeführt (vgl. Tab. 6.1).

Tab. 6.2: Altersverteilung

Abbildung in dieser Leseprobe nicht enthalten

Das durchschnittliche Alter der befragten Frauen lag in allen drei Versuchsbedingungen bei 24 Jahren, die Standardabweichung betrug zwischen 2,7 und 2,86 Jahren. Der Median war ebenfalls in allen Bedingungen fast gleich mit 23 Jahre in der CATI-Bedingung und 24 Jahren in den beiden anderen Bedingungen. Dies kann als Beleg für die gelungene Randomisierung angesehen werden (vgl. Tab. 6.2).

6.2 Dauer der Befragung

Die mittlere Dauer der Befragung in Minuten betrug in der Web-Bedingung 13,25 Minuten (SD=5,9; N=109) und in der CATI-Bedingung 10,66 Minuten (SD=2,05; N=106).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6.1: Mittlere Befragungsdauer in Minuten bei Web und CATI

In der Web-Bedingung war die Dauer der Befragung somit signifikant um etwa 20% länger (t=4,276; df=208; p<.001; d=.593). Die Hypothese der längeren Befragungsdauer unter der Web-Bedingung wird dadurch bestätigt (Hypothese 1). Gleichzeitig war in dieser Bedingung auch die Varianz der Dauer deutlich größer (vgl. Abb. 6.1). Das kürzeste telefonische Interview dauerte 5,4 Minuten, das längste 15,9 Minuten. Die kürzeste Web-Befragung dauerte nur 3,8 Minuten, während die längste 33,9 Minuten dauerte.

6.3 Anteil fehlender Daten

In Tabelle 6.3 sind die Anteile der Datensätze mit ein oder mehr fehlenden Werten insgesamt und bei den sensitiven Fragen aufgeführt. Dabei wurden die offenen Fragen, bei denen die Befragten mit einem kurzen Text antworten sollten, aus der Analyse ausgeschlossen. In der Mail-Bedingung fand sich eine nicht unerhebliche Zahl von Fragebögen, bei denen die Befragten das Antwortfeld für diese Fragen durchgestrichen hatten. Insbesondere trat dies bei der Frage nach den Personen, die eine Verhütungsmethode empfohlen hatten, auf. Hier erschien es plausibel, dass die Befragten damit eigentlich meinten, dass ihnen niemand diese Methode empfohlen hatte. Da dies aber nicht eindeutig zu entscheiden war, wurden diese Fragen für die Analyse der fehlenden Werte nicht berücksichtigt. Die sensitiven Fragen sind die unter Abschnitt 4.1.1 genannten: Das Alter des ersten Geschlechtsverkehrs und die Anzahl der Geschlechtspartner im letzten Jahr sowie insgesamt im Leben.

Abbildung in dieser Leseprobe nicht enthalten

Tab. 6.3: Anteil der Datensätze mit ein oder mehr fehlenden Werten

1 Dies schließt alle Fragen ein außer den offenen Textfragen

In der Web-Bedingung findet sich insgesamt nur ein Datensatz mit fehlenden Werten und in der CATI-Bedingung finden sich vier. In der Mail-Bedingung dagegen sind es 22 Datensätze, was einem Anteil von 19,6% aller in dieser Bedingung Befragten entspricht. Die Einzelvergleiche mittels Chi2 -Verfahren zeigen, dass in der Mail-Bedingung mehr Datensätze fehlende Werte aufweisen als in der CATI-Bedingung (Chi2=13,056; df=1; p<.001; Cramers- V=.245) und in der Web-Bedingung (Chi2=20,773; df=1; p<.001; Cramers-V=.307). Die Hypothesen 2a und 2b werden somit bestätigt. Für die Prüfung von Hypothese 2c empfahl das Programm G-Power ein Alpha-Niveau von a=.31 (Power=.069; N=221). Der Unterschied zwischen der CATI- und Web-Bedingung unterschreitet das festgesetzte Signifikanzniveau (Chi2 =1,93; df=1; p=.165; Cramers-V=.095), so dass Hypothese 2c nicht beibehalten werden kann.

6.4 Anzahl genannter Aspekte bei offenen Fragen

In der vorliegenden Untersuchung wurden vier offene Fragen gestellt. Diese sind in Tabelle 6.4 aufgeführt, zusammen mit den jeweiligen Mittelwerten der Anzahl der in den Fragen genannten Aspekte.

Tab. 6.4: Mittlere Anzahl genannter Aspekte bei offenen Fragen

Abbildung in dieser Leseprobe nicht enthalten

Es soll an dieser Stelle kurz erläutert werden, wie die Auswertung dieser vier offenen Fragen durchgeführt wurde: Die ersten beiden Fragen in Tabelle 6.4 (Gründe für die Wahl der Verhütungsmethode und Personen, die diese empfohlen hatten) entstammen der Befragung der Bundeszentrale für Gesundheitliche Aufklärung (2003). Die dort bereits verwendeten inhaltlichen Kategorien wurden bei der Auswertung dieser Fragen angewandt, indem die jeweiligen Aussagen der Befragten diesen Kategorien zugeordnet wurden. In der CATI- Bedingung wurde dies gleich während der Befragung von den Interviewern durchgeführt. Für die anderen beiden Fragen lagen solche Auswertungskategorien noch nicht vor, daher wurden neue Kategorien auf Grund der in der Befragung gemachten Aussagen inhalts­analytisch gebildet. Eine deskriptive Inspektion der mittleren Anzahl der genannten Aspekte in Tabelle 6.4 ergibt, dass entgegen Hypothese 3 bei allen Fragen die wenigsten Aspekte in der CATI-Bedingung genannt wurden. Auf Grund dieses Ergebnisses erübrigt sich die Durchführung eines Signifikanztests. Die Hypothese 3, dass die Administration der Fragen durch einen Interviewer in dieser Befragung zu mehr Nennungen bei offenen Fragen führt, wird somit nicht bestätigt.

6.5 Bevorzugung extremer Antwortkategorien im WHOQOL-Bref

Bei den 17 Fragen des WHOQOL-Bref, die in die Befragung aufgenommen wurden, wählten die Befragten in der Web-Bedingung im Mittel 5,1 mal (SD=3,4; N=109), in der Mail­Bedingung 4,2 mal (SD=2,8; N=112) und in der CATI-Bedingung 5,3 mal (SD=2,99; N=106) die positive Extremkategorie (vgl. Abb. 6.2).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6.2: Mittlere Häufigkeit der Wahl der positiven Extremkategorie bei WHOQOL-Bref

Die Ergebnisse der Einzelvergleiche mittels t-Test ergeben folgendes Bild: Es findet sich kein Unterschied zwischen der Web-Bedingung und der CATI-Bedingung in der Häufigkeit, mit welcher die positive Extremkategorie gewählt wurden (t=.564; df=213; p=.287; d=.077). Hypothese 4a wird also verworfen. In der Mail-Bedingung dagegen wurde die positive Extremkategorie im Mittel seltener gewählt als in der CATI-Bedingung (t=2,866; df=216; p=.003; d=.39) und Hypothese 4b findet somit Bestätigung. Für die Prüfung von Hypothese 4c empfahl G-Power ein Alpha-Niveau von a=.31 (Power=.69; N1=109; N2=112). Der anschließend durchgeführte t-Test zeigt einen Unterschied zwischen der Web-Bedingung und der Mail-Bedingung an (t=2,094; df=219; p=.037; d=.283) und Hypothese 4c muss somit verworfen werden. Hypothese 4 wird insgesamt also nur für die Mail-Bedingung bestätigt. In der Web-Bedingung wurde dagegen signifikant häufiger als in der Mail-Bedingung die extreme Antwortkategorie gewählt. Hier liegen die Ergebnisse näher an der CATI- Bedingung (vgl. Abb. 6.2). Weiterhin fand sich kein einziger Datensatz, bei dem ausschließlich die positive Extremkategorie in allen Fragen gewählt wurde.

6.6 Bewertung der Befragungssituation

Wie Abbildung 6.3 zeigt, wurde die Befragungssituation im Mittel als kaum bis gar nicht unangenehm erlebt. In der Web-Bedingung liegt der Mittelwert der Skala von eins (überhaupt nicht unangenehm) bis sechs (sehr unangenehm) bei 1,33 (SD=,68; N=108), in der Mail-Bedingung bei 1,38 (SD=,74; N=112) und in der CATI-Bedingung ebenfalls bei 1,38 (SD=,64; N=106). Eine Mittelwertsunterschied tritt nicht auf (F=.173; df=2; p=.841; Eta2 =.001).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6.3: Mittlere Bewertung der Befragungssituation 1=überhaupt nicht unangenehm; 6=sehr unangenehm

In der Frage nach der Methode, mit welcher die Teilnehmerinnen am liebsten befragt worden wären, wenn sie die Wahl gehabt hätten, zeigt sich jedoch ein etwas differenzierteres Bild (vgl. Tab. 6.5).

Tab. 6.5: Bevorzugte Befragungsmethode

Abbildung in dieser Leseprobe nicht enthalten

Während in der Web-Bedingung die überwiegende Mehrheit der Befragten die angewandte Befragungsmethode bevorzugten (72,2%) und nur 12% eine andere Methode vorgezogen hätten, sind es in der CATI-Bedingung nur 31,1%, die eine telefonische Befragung gewählt hätten. Die Mehrheit der mit CATI Befragten äußerte keine Präferenz (42,5%). Die Ergebnisse in der Mail-Bedingung liegen zwischen denen der Web- und der CATI-Bedingung. Diese Gruppenunterschiede sind signifikant (Chi2 =41,351; df=4; p<.001; Cramers-V=.256). Der anschließend durchgeführter Holm-Test zeigt, dass diese Gruppenunterschiede nicht auf einzelne Zellen, sondern auf Unterschiede zwischen allen drei Bedingungen zurückzuführen sind.

6.6 Antwortverteilungen bei sensitiven Fragen

Um die Hypothesen zu prüfen, dass in der Mail- und Web-Bedingung eine höhere Zahl von Geschlechtspartnern und ein niedrigeres Alter des ersten Geschlechtsverkehrs berichtet würden, wurden wiederum multiple Einzelvergleiche zwischen den Befragungsmethoden durchgeführt.

Bei der Frage nach der Anzahl der bisherigen Geschlechtspartner im Leben gaben die Befragten in der Web-Bedingung im Mittel 5,47 Partner an (SD=5,17; N=98), in der Mail­Bedingung 4,58 Partner (SD=4,05; N=102) und in der CATI-Bedingung 4,47 Partner (SD=4,44; N=101) (vgl. Abb. 6.4). Dabei finden sich keine signifikanten Unterschiede zwischen der Web- und der CATI-Bedingung (t=1,471; df=197; p=.072; d=.21) oder der Mail- und der CATI- Bedingung (t=,190; df=201; p=.425; d=.027). Hypothese 5a1 und 5a2 werden also verworfen.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6.4: Mittlere Anzahl der Geschlechtspartner insgesamt im Leben

Für die Prüfung von Hypothese 5a3 ergab sich ein Alpha-Niveau von a=.33 (Power=.67; N1=98; N2=102). Hypothese 5a3 musste somit ebenfalls verworfen werden, da der Unterschied in der Zahl der genannten Geschlechtspartner zwischen der Web- und Mail­Bedingung mit .891 das festgesetzte Signifikanzniveau unterschreitet (t=1,359; df=198; p=.176; d=.193). Dieses Ergebnis, dass einerseits kein Unterschied zwischen der Web- und CATI- Bedingung angenommen werden kann, gleichzeitig aber auch nicht geschlossen werden kann, dass sich die Web- und die Mail-Bedingung nicht unterscheiden, obwohl der Mittelwert in der Mail-Bedingung höher ist, erscheint auf den ersten Blick widersprüchlich. Dies ist jedoch eine Folge der Kompromisse, welche gemacht werden müssen, wenn ein statistischer Test über die Bestätigung eine Gleichheitshypothese entscheiden soll und die Stärke des zu erwartenden Effektes vorher nicht genau festgelegt werden kann. Es handelt sich dabei um eine allgemeine Schwäche des statistischen Testens, wie es in der vorliegenden Arbeit durchgeführt wurde. In jedem Fall gilt, dass die erwarteten Hypothesen nicht bestätigt werden konnten.

In der Frage nach der Zahl der Geschlechtspartner im letzten Jahr ergibt sich folgendes Bild (vgl. Abb. 6.5): Die in der Web-Bedingung Befragten nannten im Mittel 1,56 Partner (SD=1,11; N=97), die in der Mail-Bedingung Befragten 1,51 Partner (SD=1,03; N=104) und die in der CATI-Bedingung Befragten 1,44 Partner (SD=,58; N=101). In der Web-Bedingung wurden somit mehr Partner genannt als in der CATI-Bedingung (t=2,396; df=196; p=.009; d=.342).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6.5: Mittlere Anzahl der Geschlechtspartner im letzten Jahr

Ebenso wurden in der Mail-Bedingung mehr Partner genannt als in der CATI-Bedingung (t=2,149; df=203; p=.017; d=.302). Die Hypothesen 5b1 und 5b2 können also beibehalten werden. Für die Prüfung von Hypothese 5b3 ergab empfahl G-Power ein Alpha-Niveau von a=.33 (Power=.68; N1=97; N2=104). Es findet sich in dem anschließend durchgeführten t-Test kein signifikanter Unterschied zwischen der Web-Bedingung und der Mail-Bedingung (t=,312; df=199; p=.756; d=.044), Hypothese 5b3 wird also ebenfalls bestätigt.

Ein anderes Bild zeigt sich bei der Frage nach dem Alter des ersten Geschlechtsverkehrs (vgl. Abb. 6.6): In der Web-Bedingung nannten die Befragten im Mittel ein Alter von 17,42 Jahren (SD=2,36; N=98), in der Mail-Bedingung ein Alter von 17,39 Jahren (SD=2,1; N=105) und in der CATI-Bedingung ein Alter von 16,93 Jahren (SD1,91; N=101).

Das niedrigste Alter wird also in der CATI-Bedingung berichtet. Die Durchführung eines Signifikanztests zur Prüfung der Hypothesen 5c1 und 5c2 erübrigt sich somit, weil dieses Ergebnis bereits den Hypothesen bereits widerspricht. Für die Prüfung von Hypothese 5c3 wurde eine Alpha-Niveau von a=.032 (Power=.68; N1=98; N2=105) berechnet. Dem durchgeführten t-Test zufolge findet sich kein Mittelwertsunterschied zwischen Web­Bedingung und Mail-Bedingung (t=.089; df=201; p=.929; d=.013). Hypothese 5c3 kann also beibehalten werden.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6.6: Mittleres Alter des ersten Geschlechtsverkehrs

Die Hypothese, dass in der Web- und der Mail-Bedingung mehr Geschlechtspartner und ein niedrigeres Alter des ersten Geschlechtsverkehr berichtet werden (Hypothese 5), bestätigt sich nicht. Die einzelnen Fragen ergeben dabei kein konsistentes Bild. Während die Frage nach der Zahl der Geschlechtspartner im letzten Jahr den erwarteten Unterschied zwischen der Web- und der Mail-Bedingung einerseits und der CATI-Bedingung andererseits zeigt, findet sich dieser Unterschied bei der Frage nach der Zahl der Partner insgesamt im Leben nicht. Bei der Frage nach dem Alter des ersten Geschlechtsverkehrs kehrt sich das erwartete Bild deskriptiv um: Das niedrigste Alter des ersten Geschlechtsverkehrs wird in der CATI- Bedingung berichtet. Es findet sich jedoch kein Unterschied zwischen Web- und Mail­Bedingung.

6.7 Vergleich der Antwortverteilungen bei geschlossenen Fragen

Über die Abschnitt 6.2 bis 6.6 berichteten Vergleiche hinaus wurden auch die Antwortverteilungen aller geschlossenen Fragen ungerichtet miteinander verglichen. An dieser Stelle werden nur diejenigen Vergleiche berichtet, die einen signifikanten Unterschied zwischen den Befragungsbedingungen ergaben.

WHOQOL-Bref-Items

Von den 17 Items des WHOQOL-Bref Fragebogens wiesen sieben signifikante Unterschiede zwischen den drei Befragungsmethoden auf. Diese sind in Tabelle 6.6 zusammen mit den Ergebnissen der jeweiligen multiplen Einzelvergleiche aufgeführt. Bei deskriptiver Betrachtung zeigen sich bei sechs der sieben Items die höchsten Mittelwerte in der CATI- Bedingung.

Tab. 6.6: Mittelwertsunterschiede bei WHOQOL-Bref-Items

Abbildung in dieser Leseprobe nicht enthalten

Fünfstufige Skalen von negativ (1) nach positiv (5) gepolt: z.B. 1=sehr unzufrieden; 5=sehr zufrieden

Eine Inspektion der Einzelvergleiche ergibt jedoch nur für die Mail- und die CATI- Bedingung ein konsistentes Bild: Bei fünf der sieben Items wählten die Befragten in der Mail­Bedingung niedrigere Werte auf der Skala als in der CATI-Bedingung. Die Antworten in der Web-Bedingung liegen meist dazwischen. Bei zwei der Items aber („Können Sie Ihr Aussehen akzeptieren?" und „Wie zufrieden sind Sie mit Ihrem Sexualleben?") wählten die Befragten in der Web-Bedingung im Mittel die niedrigsten Werte. Die Effekte sind insgesamt eher gering in der Ausprägung. Die größte Effektstärke liegt bei Eta2 =.051, die restlichen liegen bei Eta2=.031 und darunter.

Kategorialfragen

Im Folgenden werden die Vergleiche der Antwortverteilungen von insgesamt 45 Kategorialfragen berichtet. Unter diese 45 Fragen fallen 14 Fragen, die sich auf die Informationsquellen für die aktuellen Kenntnisse der Befragten über das Thema Empfängnisverhütung beziehen (vgl. F2 im Fragebogen, Anhang) sowie weitere 14 Fragen zu den bevorzugten Quellen für weitere Informationen über Empfängnisverhütung (vgl. F18 im Fragebogen, Anhang). Bei diesen Fragen handelt es sich im Grunde um zwei typische Mehrfachwahlfragen, die allerdings in ein Single-Forced-Choice-Format umgewandelt wurden, um äquivalente Fragenformate unter den drei Untersuchungsbedingungen zu erreichen. Die Ergebnisse der Vergleiche zu diesen beiden Fragen werden daher getrennt von denen der anderen Kategorialfragen berichtet. Von den verbleibenden 17 Vergleichen fielen drei signifikant aus, was einem Anteil von 18% entspricht.

Einer dieser Unterschiede in den Antwortverteilungen tritt in der Frage danach auf, wie gut sich die Teilnehmerinnen über den Bereich Empfängnisverhütung informiert fühlten (vgl. Tab. 6.7). In der CATI-Befragung gaben die Befragten mit 76,4% am häufigsten an, sich gut informiert zu fühlen. In der Mail-Bedingung waren es mit 56,3% deutlich weniger und in der Web-Bedingung mit 53,2% der geringste Anteil. Gleichzeitig finden sich in Web- und Mail­Bedingung mehr Frauen, welche angaben, sich eher schlecht informiert zu fühlen. Der Unterschied in dieser Antwortverteilung ist signifikant (Chi2=15,843; df=4; p=.003; Cramers- V=.156).

Tab. 6.7: Antwortverteilung bei der Frage „Wie gut fühlen Sie sich über den Bereich

Abbildung in dieser Leseprobe nicht enthalten

Der durchgeführte Holm-Test zeigt, dass dieser Unterschied nicht auf Abweichungen in einzelnen Zellen von Tabelle 6.7 zurückzuführen ist, sondern auf einem Unterschied zwischen allen drei Befragungsbedingungen beruht. Allerdings liegen deskriptiv betrachtet die Web- und die Mail-Bedingung deutlich näher beieinander.

Weiterhin finden sich Unterschiede in der Beantwortung der Frage nach dem Gesundheitsbewusstsein der Befragten (vgl. Tab. 6.8) (Chi2 =22,783; df=4; p=.001; Cramers- V=.187). Nach dem Ergebnis des Holm-Tests ist dies auf eine Abweichung der Antwortalternativen „Achte sehr darauf" und „Achte etwas darauf" in der Web- und Mail­Bedingung von den bei Gleichverteilung erwarteten Häufigkeiten zurückzuführen.

Tab. 6.8: Antwortverteilung bei der Frage „Würden Sie sagen, dass Sie normalerweise sehr, etwas, kaum oder überhaupt nicht auf Ihre Gesundheit achten?"

Chi2=22,783; df=4; p=.001; Cramers-V=.187; Die Zellen, welche nach dem Holm-Test signifikant von den erwarteten Häufigkeiten abweichen, sind kursiv gesetzt.

Eine deskriptive Inspektion der Häufigkeitstabelle zeigt, dass die Befragten unter der CATI- Bedingung häufiger angeben, sehr auf ihre Gesundheit zu achten und seltener angeben, nur etwas darauf zu achten als unter Web und CATI.

Der dritte Unterschied zwischen den Befragungsmethoden tritt in der Frage auf, ob die Befragten sich weitere Informationen über den Bereich Empfängnisverhütung wünschen würden (Chi2 =6,243; df=2; p=.044; Carmer-V=.146) (vgl. Tab. 6.9).

Tab. 6.9: Antwortverteilung bei der Frage "Würden Sie sich weitere Informationen über das Thema

Abbildung in dieser Leseprobe nicht enthalten

Chi2=6,243; df=2; p=.044; Cramers-V=.146; Die Zellen, welche nach dem Holm-Test signifikant von den erwarteten Häufigkeiten abweichen, sind kursiv gesetzt.

Der multiplen Testprozedur nach Holm zufolge ist dieser Unterschied auf eine Abweichung der Antworten unter der Web-Bedingung gegenüber der Mail- und der CATI-Bedingung zurückzuführen: Die in der Web-Bedingung Befragten wünschten sich häufiger weitere Informationen als die anderen Befragten.

Fragen nach genutzten und bevorzugten Informationsquellen

Wie bereits zu Anfang dieses Abschnitts erwähnt, wurden die Teilnehmerinnen in einer Reihe von Fragen gebeten, anzugeben, ob ihre Kenntnisse über den Bereich Empfängnisverhütung in erster Linie aus der jeweils angegeben Informationsquelle stammten oder nicht. Weiterhin wurden diejenigen, welche sich weitere Informationen zu dem Bereich Empfängnisverhütung wünschten, gebeten, für die gleiche Liste von Informationsquellen jeweils anzugeben, ob sie sich am liebsten über diese informieren lassen würden oder nicht. Bei jeder dieser Informationsquellen sollte also mit „Ja" oder „Nein" geantwortet werden (vgl. F2 und F18 im Fragebogen, Anhang).

Wie Abbildung 6.7 zeigt, unterscheidet sich die mittlere Anzahl der angegebenen Informationsquellen unter den drei Untersuchungsbedingungen (Anzahl der „Ja"- Antworten).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6.7: Mittlere Anzahl der als genutzt angegeben Informationsquellen

Während in der Web-Bedingung im Mittel 4,76 Quellen genannt wurden (SD=1,5; N=109) und unter der CATI-Bedingung ebenfalls 4,76 (SD=1,73; N=106), waren es in der Mail­Bedingung nur 4,1 (SD=1,82; N=112). Dieser Unterschied ist signifikant (F=5,773; df=2; p=.003; Eta2 =.034). Die anschließend durchgeführten Einzelvergleiche ergeben, dass die Befragten in der Mail-Bedingung signifikant seltener angaben, eine Informationsquelle in erster Linie genutzt zu haben, als in der Web-Bedingung (p=.01) und in der CATI-Bedingung (p=.012).

Dieser Unterschied zwischen den Befragungsmethoden fällt noch stärker aus bei der Frage nach den bevorzugten Informationsquellen (vgl. Abb. 6.10). Hier nannten die Teilnehmerinnen der Web-Bedingung im Mittel 6,64 (SD=2,87; N=67), diejenigen der CATI- Bedingung 7,21 (SD=2,96; N=57) und diejenigen der Mail-Bedingung 5,35 Quellen (SD=2,82; N=55). Dieser Unterschied ist signifikant (F=6,306; df=2; p=.002; Eta2=.067) und wiederum auf eine geringere Anzahl der genannten Informationsquellen in der Mail-Bedingung gegenüber Web (p=.04) und CATI (p=.002) zurückzuführen.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6.8: Mittlere Anzahl der bevorzugten Informationsquellen

Entsprechend der geringeren Anzahl von genutzten und bevorzugten Informationsquellen in der Mail-Bedingung finden sich auch signifikante Unterschiede in den Antwort­verteilungen zu den einzelnen Informationsquellen. Insgesamt waren zwei der 14 Vergleiche bei der Frage nach den genutzten Informationsquellen signifikant und sechs der 14 Vergleiche bei den bevorzugten Quellen für weitere Informationen. Bei jeder dieser Informationsquellen sind die wenigsten „Ja"-Antworten in der Mail-Bedingung zu finden (vgl. Tab. 6.10). Der durchgeführte Holm-Test zeigt jedoch, dass außer bei dem Item „Über Bücher" die Antworthäufigkeiten in allen drei Befragungsmethoden von den erwarteten Häufigkeiten bei Gleichverteilung abweichen. Bei dem Item „Über Bücher" ist der Unterschied auf eine Abweichung in der CATI-Bedingung zurückzuführen: Hier wird am häufigsten mit „Ja" geantwortet.

Tab. 6.10: Antwortverteilungen bei Fragen nach genutzten und bevorzugten

6.8 Vergleich von Cronbachs Alpha-Koeffizienten bei WHOQOL-Bref-Skalen

Zum Abschluss wurde noch verglichen, wie sich die unterschiedlichen Befragungsmethoden auf psychometrische Maße wie die interne Konsistenz eines testtheoretischen Instruments auswirken. Als Maß der internen Konsistenz der drei in den Fragebogen aufgenommenen Skalen des WHOQOL-Bref wurden Cronbachs Alpha-Koeffizienten berechnet und über die drei Befragungsbedingungen verglichen. In Tabelle 6.11 sind die Koeffizienten mit den zugehörigen Chi2 -Werten aufgeführt. Der durchgeführte Signifikanztest nach Hakstian und Wahlen (1976) zeigt, dass sich die Alpha Koeffizienten nur in der Skala „Physische Lebensqualität" unterscheiden. Anschließend durchgeführte paarweise Vergleiche (Feldt, 1969) ergeben, dass Cronbachs Alpha in der CATI Bedingung niedriger ist als in der Web­Bedingung (p<.01) und der Mail-Bedingung (p<.01). Auffällig ist, dass die Koeffizienten in allen drei Bedingungen und allen drei Skalen niedriger sind, als die von Angermeyer, Killian und Matschinger (2000) berichteten. Dort lagen die Alpha-Koeffizienten zwischen .878 und .781.

Tab 6.11: Cronbachs Alpha-Koeffizienten bei WHOQOL-Bref-Skalen

Abbildung in dieser Leseprobe nicht enthalten

7 Diskussion

Ziel der vorliegenden Arbeit war es, abzuschätzen, ob sich eine Webbefragung in der Praxis sinnvoll mit einer telefonischen oder schriftlichen Befragung in einem Mixed-Mode-Ansatz kombinieren lässt oder ob mit starken systematischen Antwortverzerrungen in Abhängigkeit von den Befragungsmethoden zu rechnen ist. Um diese Frage zu beantworten, wurde eine experimentelle Herangehensweise gewählt und eine Webbefragung mit einer telefonischen und einer schriftlichen Befragung verglichen. Thematisch wurde die Befragung mit dem Verhaltensbereich Empfängnisverhütung und Sexualität in einen sensitiven Kontext eingebettet. Damit wurde ein Fokus auf mögliche Unterschiede der Befragungsmethoden in Effekten der Sozialen Erwünschtheit gelegt. Auf Grund des Befragungsthemas und der Charakteristiken der drei verwendeten Befragungsmethoden sowie der bisherigen Befunde dazu (vgl. Kapitel 3) wurden eine Reihe von spezifischen Hypothesen über Unterschiede zwischen den drei Befragungsmethoden aufgestellt. Nur ein kleiner Teil dieser Hypothesen konnte jedoch bestätigt werden. Im Folgenden soll zunächst erörtert werden, was die Ursache dafür sein könnte.

7.1 Effekte der Sozialen Erwünschtheit

Es wurden drei Fragen zum Sexualverhalten in den Fragebogen aufgenommen, von denen auf Grund vorheriger Untersuchungen erwartet wurde, dass sie sensitiv sind und zu Unterschieden in Effekten der Sozialen Erwünschtheit zwischen selbst-administrierten und interviewer-administrierten Befragungsmethoden führen. Die Hypothesen über die Richtung dieser Effekte wurden aus diesen Untersuchungen abgeleitet. Nur bei der Frage nach der Anzahl der Geschlechtspartner im letzten Jahr fand sich der erwartete Unterschied zwischen der CATI-Bedingung auf der einen Seite und der Web- und der Mail-Bedingung auf der anderen Seite. Hier berichteten die Befragten der Mail-Bedingung und der Web-Bedingung, im Mittel mit mehr Partnern Geschlechtsverkehr gehabt zu haben, als in der CATI- Bedingung. In der Frage nach der Zahl der Partner insgesamt im Leben findet sich der erwartete Effekt nicht. Tourangeau et al. (1997) und Tourangeau und Smith (1996) berichten aber gerade bei dieser Frage den stärkeren Unterschied zwischen einer selbst-administrierten und interviewer-administrierten Befragungsmethode. Bei der Frage nach dem Alter des ersten Geschlechtsverkehrs kehrt sich das erwartete Bild deskriptiv sogar genau um: Das niedrigste Alter wird in der CATI-Bedingung berichtet, während sich Web- und Mail­Bedingung nicht unterscheiden. Betrachtet man nur diese Ergebnisse, so wäre eine Erklärung, dass sich in dieser Befragung fast keine Unterschiede zwischen den Methoden in Bezug auf Effekte der Sozialen Erwünschtheit finden. Werden aber die Unterschiede in den Antwortverteilungen der übrigen Fragen berücksichtigt, ergibt sich ein anderes Bild (vgl. Abschnitt 6.7): Die Befragten in der CATI-Bedingung gaben häufiger an, sich gut über den Bereich Empfängnisverhütung informiert zu fühlen, als die Befragten in der Web- und der Mail-Bedingung. Gleichzeitig gaben sie auch häufiger an, sehr auf ihre Gesundheit zu achten. Unter der Annahme, dass ein hohes Wissen und ein hohes Gesundheitsbewusstsein als sozial erwünscht gelten, kann dieses Ergebnis als eine stärkere Tendenz unter der CATI- Bedingung, sozial erwünscht zu antworten, interpretiert werden. Bisherige Befunde zeigen, dass vorgebliches Wissen und Self-Enhancement (als ein Aspekt der Sozialen Erwünschtheit) zu einander in Beziehung stehen. Paulhus entwickelte sogar mit dem OCQ-150 ein Instrument, um mittels der sog. „Over-Claming Technique" Self-Enhancement-Tendenzen zu erfassen. Dieser Fragebogen verlangt von den Respondenten, anzugeben, wie vertraut Ihnen ein bestimmter Gegenstand aus einer ganzen Reihe von Wissensbereichen ist. Da diese Listen auch Items enthalten, die nicht existieren, wird aus dem Anteil der als bekannt eingestuften Distraktoren ein Maß für Self-Enhancement abgeleitet. Dieser Fragebogen hat sich bisher bei der Messung von Self-Enhancement bewährt (Paulhus, Harms, Bruce & Lysy, 2003). Weiterhin erscheint auch die Annahme, dass ein hohes Gesundheitsbewusstsein sozial erwünscht ist, angesichts des wachsenden Stellenwertes, den Gesundheitsthemen in der Medienlandschaft einnehmen, plausibel (Bleicher & Lampert, 2003).

Die Erklärung, dass hier Unterschiede zwischen den Befragungsmethoden auf Grund von Effekten der Sozialen Erwünschtheit auftreten, wird auch gestützt durch die Vergleiche der Antwortverteilungen der WHOQOL-Bref-Items. Bei sechs der sieben Items mit signifikanten Unterschieden zwischen den drei Untersuchungsbedingungen finden sich die höchsten Mittelwerte in der CATI-Bedingung (vgl. Tab. 6.6) und alle diese sechs Fragen berühren entweder den Bereich Sexualität („Wie zufrieden sind Sie mit Ihrem Sexualleben?") oder Aspekte des Selbstkonzepts der Befragten (z.B. „Können Sie Ihre Aussehen akzeptieren?" oder „Wie zufrieden sind Sie mit sich selbst?"). Am eindeutigsten zeigt sich dieses Bild, wenn nur die Mail-Bedingung und die CATI-Bedingung betrachtet werden. Bei fünf der sechs genannten Items ist der Mittelwert in der CATI-Bedingung signifikant höher als in der Mail-Bedingung. Die Mittelwerte in der Web-Bedingung dagegen liegen in den meisten Fällen zwischen denen der Mail- und der CATI-Bedingung. Allerdings finden sich bei zwei der Items („Können Sie Ihre Aussehen akzeptieren?" und „Wie zufrieden sind Sie mit Ihrem Sexualleben?") die niedrigsten Mittelwerte in der Web-Bedingung.

Vor dem Untergrund dieser Interpretation der Ergebnisse besteht allerdings immer noch die Frage, wieso die berichtete Anzahl der Geschlechtspartner im Leben insgesamt und das Alter des ersten Geschlechtsverkehrs nicht die erwarteten Unterschiede zwischen den Befragungsmethoden aufweisen. Eine mögliche Erklärung ist, dass diese Fragen für die Teilnehmerinnen weniger sensitiv waren, als bei der Planung der Untersuchung angenommen worden war. Schließlich erlebten die Teilnehmerinnen die Befragung insgesamt nicht als unangenehm und ein Unterschied zwischen den Befragungsmethoden lag hier nicht vor (vgl. Abschnitt 6.6). Es ist jedoch auch möglich, dass diese Frage ebenfalls von Effekten der Sozialen Erwünschtheit betroffen ist. Die geringe Präferenz der Befragten für die angewandte Befragungsmethode in der CATI-Bedingung legt dagegen nahe, dass die Befragung am Telefon doch etwas unangenehmer war als unter den anderen Bedingungen. Nur sind nicht notwendigerweise die Fragen nach der Zahl der Geschlechtspartner oder die Frage nach dem Alter des ersten Geschlechtsverkehrs die Ursache dafür. Wie in Abschnitt 3.2.1.1 erläutert, hängt es von den jeweiligen in einer Situation salienten sozialen Normen ab, ob ein bestimmtes Verhalten als sozial erwünscht oder unerwünscht angesehen wird. Die Ergebnisse von Tourangeau et al. (1997) und Tourangeau und Smith (1996) wurden an US- amerikanischen Stichproben gewonnen und die Sexualmoral im westlichen Europa ist wesentlich liberaler als in den USA. Daraus lässt sich eine neue neue Erklärungsmöglichkeit für die beobachtete Umkehrung der erwarteten Verhältnisse zwischen den Befragungsmethoden bei der Frage nach dem Alter des ersten Geschlechtsverkehrs ableiten: Es könnte in der befragten Stichprobe sozial erwünscht gewesen sein, in frühem Alter den ersten Geschlechtsverkehr gehabt zu haben, weshalb in der CATI-Bedingung im Mittel deskriptiv ein niedrigeres Alter berichtet wurde als in der Mail- und der Web-Bedingung. Diese mögliche Erklärung bedarf jedoch noch weiterer Untersuchungen.

Darüber hinaus waren die Teilnehmerinnen in dieser Untersuchung vorher darüber informiert, dass es sich bei den Thema der Befragung um „Verhütung" handelte. Frauen, denen dieses Thema besonders unangenehm war, haben möglicherweise gar nicht erst an der Befragung teilgenommen. Fragen zu ihrer Lebensqualität erwarteten die Frauen dagegen vermutlich nicht. Möglicherweise waren also einige der Items des WHOQOL-Bref in dieser Befragung die sensitiveren Fragen. Die Ergebnisse legen nahe, dass die Antworten in der Web-Bedingung und in der Mail-Bedingung weniger von Effekten der Sozialen Erwünschtheit beeinflusst wurden als in der CATI-Bedingung.

Die vermuteten Effekte der Sozialen Erwünschtheit sind insgesamt alle als relativ gering in der Ausprägung anzusehen. So liegt die größte Effektstärke in den Vergleichen der WHOQOL-Items bei Eta2 =.051 und die restlichen liegen bei .031 und darunter. Ähnlich sieht es bei der Frage nach den Kenntnissen über Empfängnisverhütung und dem Gesundheitsbewusstsein aus. Cramer's-V liegt hier bei .156 bzw. .187, was nach den gängigen Konventionen als geringer Effekt zu bezeichnen ist. Auch der gefundene Unterschied in der Zahl der berichteten Geschlechtspartner im letzten Jahr liegt mit d=.342 im niedrigen bis mittlere Bereich. Dieses Ergebnis bestätigt, was de Leeuw (1992) in ihrer Meta-Analyse über den Unterschied in der Sozialen Erwünschtheit zwischen Mail-Surveys und telefonischen Befragungen berichtet. Dort liegt die mittlere Effektstärke bei r=.06 (95%- KI: .04 bis .17).

7.2 Effekte der visuellen gegenüber der auditiven Fragendarbietung

Auf Grund der theoretischen Vorüberlegungen in Abschnitt 3.2.3.3 wurde angenommen, dass die visuelle Darbietung der fünfstufigen Ratingskalen im WHOQOL-Bref zu einer stärkeren Verteilung der Antworten über die gesamte Skala führen würde, während in der auditiven Darbietung häufiger die positive Extremkategorie gewählt werden sollte. Begründet wurde diese Annahme damit, dass die gesamte Skala bei visueller Darbietung als Orientierung während des gesamten Prozesses der Beantwortung der Fragen verfügbar ist, während der Respondent bei auditiver Darbietung sich diese Skala selber vergegenwärtigen muss. Die von Dillman et al. (2000) und de Leeuw (1992) berichteten Ergebnisse stützen diese Annahme. Für die Prüfung dieser Hypothese in der vorliegenden Arbeit ergibt sich vor dem Hintergrund der Überlegungen in Abschnitt 7.1 jedoch das Problem, dass hier Effekte des Administrationsmodus von Effekten der Sozialen Erwünschtheit überlagert sein können.

Daher wurde der unter Abschnitt 6.5 dargestellte Vergleiche der Häufigkeiten, mit denen die positive Extremkategorie im WHOQOL-Bref gewählt wurde, unter Ausschluss derjenigen Items wiederholt, die einen Mittelwertsunterschied zwischen der CATI-Bedingung einerseits und der Mail-Bedingung oder der Web-Bedingung andererseits ergeben hatten (vgl. Tab. 6.6). Es zeigte sich jedoch unverändert dasselbe Muster: Zwar findet sich der erwartete Unterschied zwischen der Mail-Bedingung und der CATI-Bedingung, die Befragten in der Web-Bedingung aber wählten, anders als bei Dillman et al. (2000), häufiger die positive Extremkategorie als die Befragten der Mail-Bedingung (vgl. Abschnitt 6.5). Diese unerwartet häufige Wahl der Extremkategorie in der Web-Bedingung lässt sich weder durch Soziale Erwünschtheit (siehe Abschnitt 7.1) noch durch den Darbietungsmodus erklären, denn hier unterscheiden sich Web-Bedingung und Mail-Bedingung nicht. Es muss also ein weiterer Faktor dafür verantwortlich sein. Eine mögliche Erklärung ergibt sich, wenn man das Layout der Skalen in der Web-Bedingung und der Mail-Bedingung vergleicht (siehe Anhang). Die Distanz zwischen den einzelnen Skalenpunkten ist in der Web-Bedingung größer als in der Mail-Bedingung. Gleichzeitig mussten die Befragten in der Web-Bedingung den Cursor mittels Bewegung der Mouse über den jeweiligen Antwort-Button bewegen, um eine Antwortalternative auszuwählen. Es musste also eine weiterer Weg mit gleichzeitig motorisch anspruchsvolleren Bewegungen zurückgelegt werden. Der Aufwand, der nötig war, um die Antworten über die gesamte Skala zu verteilen, war unter der Web-Bedingung somit größer als unter der Mail-Bedingung. Allerdings muss auch berücksichtigt werden, dass alle Befragten als regelmäßige E-Mail-Nutzerinnen über grundlegende Erfahrung im Umgang mit Computern verfügten. Wenn die Befragten jedoch beim Ausfüllen des Fragebogens eine Satisficing-Strategie verfolgten (Krosnick & Alwin,1987; Krosnick 1991; 1999; siehe auch Abschnitt 3.2.3.3), könnte dieser etwas höhere Aufwand unter der Web­Bedingung bei der Beantwortung der WHOQOL-Items eine Rolle gespielt haben. Um diese Erklärungsmöglichkeit zu untersuchen, ist jedoch weitere Forschung nötig, in welcher die Abstände zwischen den Skalenpunkten bei visueller Darbietung variiert wird. Weiterhin ist aus der vorliegenden Arbeit die Empfehlung abzuleiten, Fragen zu verwenden, bei denen zum einen geringe bis gar keine Effekte der Sozialen Erwünschtheit zu erwarten sind, damit die Effekte von wahrgenommener Anonymität der Befragungssituation und visueller gegenüber auditiver Darbietung der Fragen sauberer von einander getrennt werden können als es in dieser Untersuchung möglich war. Allerdings sollte beachtet werden, dass eine Vorhersage, ob und welche Fragen von Sozialer Erwünschtheit betroffen sein können, meistens nur schwer möglich ist. Zum anderen empfiehlt es sich, Fragen zu verwenden, bei denen auch die negative Extremkategorie der Skala grundsätzlich eine gewisse Wahrscheinlichkeit hat, ausgewählt zu werden. In der vorliegenden Untersuchung wurde diese Antwortkategorie kaum gewählt. Die Lebensqualität eines Befragten, der extrem häufig die negativen Pole der WHOQOL-Bref-Items auswählt, müsste sehr gering sein, so dass solche Personen in einer Stichprobe wie der hier verwendeten kaum in größerer Zahl zu finden sind. Mit in dieser Hinsicht ausbalancierteren Fragen ließe sich die Hypothese der stärkeren Verteilung der Antworten über die Skala bei visueller Fragendarbietung vermutlich besser überprüfen.

7.3 Unterschiede durch „Antwortzwang"

Ein weiterer Befund der vorliegenden Arbeit verdient besondere Beachtung: Der signifikante Unterschied in den genannten Informationsquellen zu dem Bereich „Empfängnisverhütung" bei der Frage nach den von den Befragten genutzten Quellen (Frage F2 im Mail-Fragebogen, Anhang) sowie nach den präferierten Quellen für weitere Informationen (F18 im Mail­Fragebogen, Anhang). Bei beiden Fragen werden in der Mail-Bedingung signifikant weniger Informationsquellen genannt als sowohl in der Web-Bedingung wie auch der CATI- Bedingung (vgl. Abb. 6.7 bzw. Abb. 6.8). Entsprechend finden sich auch bei den einzelnen Informationsquellen signifikante Unterschiede in der Häufigkeit, mit der diese in den drei Untersuchungsbedingungen ausgewählt wurden (vgl. Tab. 6.10). Bei allen diesen Vergleichen sind die niedrigsten Häufigkeiten in der Mail-Bedingung zu finden, während bei der Web-Bedingung und der CATI-Bedingung mal die eine, mal die andere mehr „Ja"- Antworten aufweist, ohne das dabei ein systematisches Muster erkennbar wäre. Bei diesen beiden Fragen nach den genutzten und präferierten Informationsquellen handelt es sich im Grunde um zwei typische Mehrwachwahlfragen, bei welchen in Mail- und Web­Befragungen die Teilnehmer üblicherweise aufgefordert werden, alle zutreffenden Alternativen anzukreuzen. Ein solches Fragenformat lässt sich jedoch bei längeren Antwortlisten nicht sinnvoll in einer telefonischen Befragung einsetzen, da es kaum möglich ist, dass die Befragten sich alle Antwortalternativen merken können, wenn die Interviewerin diese einfach nur vorliest (vgl. Abschnitt 3.2.3.3). Bei diesen beiden Fragen umfasste die Antwortliste 14 Alternativen. Aus diesem Grund wurden die Fragen in ein Single-Forced- Choice-Format gefasst, bei welchem die Befragten zu jeder Antwortalternative ihre Zustimmung oder Ablehnung abgeben sollte. In der CATI-Bedingung wurde dies durch die Interviewerin sicher gestellt, die nach jeder vorgelesenen Informationsquelle eine Antwort der Befragten erwartete. In der Web-Bedingung wurden sog. „Soft-Reminder" verwendet, welche die Befragten auf nicht ausgefüllte Fragen aufmerksam machten, aber dennoch ein Fortführen des Befragungsprozesses erlaubten, falls nach dieser Aufforderung keine Antwort gegeben wurde. Praktisch bedeutet dies, dass sowohl in der Web-Bedingung als auch der CATI-Bedingung ein zumindest sanfter Antwortzwang vorlag. Die Befragten konnten einzelne Fragen nicht einfach übergehen. In der Mail-Bedingung dagegen hing es allein von den Befragten selber ab, wie sorgfältig sie die Fragen beantworteten. Rasinski, Mingay & Bradburn (1994) zeigen, dass Respondeten in Mehrwachwahlfragen, bei denen Sie aufgefordert werden, alle auf sie zutreffenden Antwortmöglichkeiten zu wählen, weniger Antworten wählen, als wenn das Frageformat sie zwingt, eine Aussage zu jeder einzelnen Antwortalternative abzugeben. Tourangeau et al. (2000) interpretieren dies als Folge einer Satisficing-Strategie: Die Befragten berücksichtigen nur so viele Antwortalternativen wie nötig, wenn sie nicht gezwungen sind, jede Alternative einzeln zu bedenken (vgl. auch Abschnitt 3.2.3.3). Es finden sich tatsächlich Hinweise in den Daten, dass die Befragten der Mail-Bedingung diese Frage eher wie eine Mehrfachwahlfrage beantworteten. So kreuzten etwa 25% der Teilnehmerinnen in dieser Gruppe bei der Frage nach den genutzten Informationsquellen ausschließlich die Antwortkategorie „Ja" an, nicht aber die Kategorie „Nein". Bei diesen nicht ausgewählten Informationsquellen kreuzten sie keine Antwortalternative an. Bei der Frage nach den präferierten Informationsquellen waren es sogar bis zu 35%, welche die Fragen auf diese Art beantworteten. In der Web-Bedingung waren es dagegen nur maximal 5%, die bei einzelnen dieser Informationsquellen keine Antwort abgaben und in der CATI-Bedingung kam dies gar nicht vor. Konsistent dazu ist auch die insgesamt höhere Zahl der fehlenden Werte in der Mail-Bedingung (vgl. Abschnitt 6.3).

Allerdings sind nicht notwendigerweise die Antworten in der Web- und CATI-Bedingung mit mehr genannten Informationsquellen die „besseren Antworten" im Sinne eines geringeren Measurement Errors. Denn die häufigere Wahl der „Ja"-Antworten könnten ein Ergebnis von Akquieszenz, der Tendenz eine Frage unabhängig von deren Inhalt zu bejahen, sein. Krosnick (1999) erklärt dies ebenfalls durch Satisficing. Wenn Respondeten gebeten werden, einer Aussage zuzustimmen oder diese abzulehnen, durchsuchen sie ihr Gedächtnis nach Gründen für eine Annahme oder Ablehnung. Krosnick (1999) nimmt an, dass Befragte auf Grund eines Konfirmations-Bias zunächst nach Gründen für die Annahme einer Aussage suchen und dann auf Grund niedriger Motivation oder hoher kognitiver Belastung diesen Prozess abbrechen, bevor Gründe für eine Ablehnung generiert wurden. Unter dieser Perspektive wäre aber zu erwarten gewesen, dass dieser Effekt in der CATI-Bedingung stärker ausfällt, da dort die Befragten insgesamt weniger Zeit für die Beantwortung der Fragen hatten als in der Web-Bedingung, wo die Dauer der Befragung im Mittel um 20% länger war (vgl. Abschnitt 6.2). Auch wird berichtet, das Akquieszenz bei interviewer­administrierten Befragungen stärker ausfällt (Schuman & Presser, 1981). Die Häufigkeit, mit der die Fragen nach den Informationsquellen bejaht wurden, unterscheidet sich aber nicht zwischen der CATI-Bedingung und der Web-Bedingung.

Letztendlich lässt sich die Frage, welche der beiden Erklärungen zutreffender ist, aus den vorliegenden Daten nicht entscheiden und ist auf Grund der in Kapitel 2 geschilderten Problematik, dass die wahren Werte der Befragten in der Regel nicht bekannt sind, nur schwierig zu untersuchen. Es bleibt jedoch die Tatsache bestehen, dass die Befragungsergebnisse sich hier unterscheiden und dass das Fehlen einer Kontrolle, welche in der CATI-Bedindung durch die Interviewerin und in der Web-Bedingung durch den Computer gegeben waren, dafür verantwortlich zu sein scheint. Ob dies tatsächlich die Ursache für die Unterschiede ist und nicht andere Unterschiede zwischen der Web­Befragung und der CATI-Befragung auf der einen Seite und der Mail-Befragung auf der anderen, lässt sich aber nur durch weitere Untersuchungen entscheiden. Dabei müssten verschiedene Varianten einer Web-Bedingung verglichen werden, bei denen einmal ein Soft- Reminder zum Einsatz kommt und einmal kein Reminder. Wenn sich die Antworten in der Bedingung ohne Reminder ähnlich wie diejenigen der Mail-Bedingung in der vorliegenden Untersuchung von denen mit Reminder bei vergleichbaren Fragen unterscheiden, wäre dies ein Beleg für den Einfluss der Antwortzwänge.

7.4 Weitere Ergebnisse

Zwei weitere Befunde der vorliegenden Arbeit sollen hier noch betrachtet werden. Zum einen die Anzahl der Nennungen bei offenen Textfragen und zum anderen der Vergleich der internen Konsistenzen der WHOQOL-Bref-Skalen.

Entgegen der Erwartung wurden bei den offenen Textfragen nicht mehr Aspekte in der CATI-Bedingung gegenüber den anderen beiden Bedingungen genannt. Im Gegenteil, bei allen vier Fragen wurden die wenigsten Aspekte in der CATI-Bedingung genannt. Möglicherweise führte hier ebenfalls der höhere Zeitdruck unter CATI dazu, dass die Befragten sich weniger mit den Fragen auseinander setzten und knapper Antworten gaben. Allerdings muss auch berücksichtigt werden, dass insgesamt im Mittel nur relativ wenig Aussagen bei den einzelnen Fragen gemacht wurden. Die meisten finden sich noch bei der Frage nach den Gründen für die Wahl der angewandten Verhütungsmethode. Dort wurden im Mittel zwischen 2,32 und 1,87 unterschiedliche Aspekte genannt. Die Mehrheit der Befragten machte bei allen vier Fragen und unter allen drei Untersuchungsbedingungen höchstens ein oder zwei inhaltlich unterscheidbare Aussagen. Hätte es sich um Fragen gehandelt, welche die Befragten zu reichhaltigeren Aussagen angeregt hätten, wäre die motivierende Funktion des Interviewers vielleicht stärker zum Tragen gekommen, wie von anderen Autoren (z.B. de Leeuw, 1992) berichtet wird.

Ein letzter Verglich zwischen den drei Untersuchungsbedingungen bezog sich auf die internen Konsistenzen der WHOQOL-Bref-Skalen. Es wurden drei Skalen in die vorliegende Arbeit aufgenommen, die Skalen „Physische Lebensqualität", „Psychische Lebensqualität" und „Soziale Beziehungen". Nur in der Skala „Physische Lebensqualität" fand sich ein Unterschied zwischen den drei Befragungsmethoden. In der CATI-Bedingung lag hier Cronbachs Alpha-Koeffizient unterhalb der in den anderen beiden Bedingungen berechneten Koeffizienten. Dies entspricht zwar dem, was auch de Leeuw (1992) berichtet. Dort fanden sich etwas geringere interne Konsistenzen mehrerer psychometrisch abgesicherter Instrumente in der telefonischen Bedingung. Angesichts der fast gleich häufigen Wahl der positiven Extremkategorie in Web- und CATI-Bedingung ist diese starke Reduzierung der internen Konsistenz in der Skala „Physische Lebensqualität" in der vorliegenden Untersuchung jedoch überraschend. Auch ist nur eines der Items, die Mittelwertsunterschiede zwischen den Methoden aufweisen, Teil dieser Skala. Angesichts dieser niedrigen internen Konsistenz in der CATI-Bedingung stellt sich die Frage, ob dieser Fragebogen sich für den Einsatz in einer telefonischen Befragung eignet. Insgesamt sind die gefunden Alpha-Koeffizienten auch in den anderen Bedingungen niedriger als die von Angermeyer, Killian und Matschinger (2000) berichteten. Dies könnte daran liegen, dass in der vorliegenden Arbeit die vollständig verbale Verankerung der Skalenstufen durch eine numerischen Verankerung mit verbalen Polen ersetzt wurde. Nach Krosnick und Berent (1993) kann sich dies nachteilig auf die Reliabilität eines Instruments auswirken.

7.5 Schlussfolgerungen

Die vorliegende Arbeit bestätigt den generellen Befund vorhergehender Untersuchungen, dass geringfügige Unterschiede zwischen den Befragungsmethoden auftreten (z.B. Dillman et al., 2000; de Leeuw, 1992). Die in der vorliegenden Untersuchung gefundenen Effektstärken liegen alle im Bereich schwacher Effekte. Daraus lässt sich zunächst schlussfolgern, dass ein Einsatz von Web-Befragungen in einem Mixed-Mode-Ansatz sowohl mit CATI-Befragungen als auch Mail-Surveys grundsätzlich möglich erscheint. Dennoch sollten die gefundenen Unterschiede bei der Planung und Durchführung von Mixed-Mode- Befragungen nicht ignoriert werden. Insbesondere für die Kombination von Web­Befragungen mit CATI-Befragungen oder Mail-Befragungen lassen sich Schlussfolgerungen aus den berichteten Befunden ableiten, da diese Befragungsmethode einen gewissen Gestaltungsspielraum zulässt. So ist z.B. eine vorläufige Empfehlung, dass bei einer Kombination mit schriftlich-postalischen Befragungen auf jegliche Art von Remindern in der Web-Befragung verzichtet wird, da sich dies als eine mögliche Ursache von Unterschieden erwiesen hat. Diese Empfehlung ist vorläufig, da noch weiterer Forschungsbedarf besteht hinsichtlich der Bedeutung dieses Aspekts für die gefundenen Unterschiede bei den Fragen nach genutzten und präferierten Informationsquellen. Bei einer Kombination mit einer telefonischen Befragung dagegen empfiehlt es sich, Soft-Reminder zu verwenden. Auch sollten bei einer Kombination von schriftlich-postalischen Befragungen mit sowohl Web- als auch CATI-Befragungen Versuche unternommen werden, Mehrfachwahlfragen zu vermeiden, selbst wenn diese wie in der vorliegenden Arbeit in ein Single-Forced-Choice- Format umgewandelt wurden. Die berichteten Befunde legen nahe, dass eine solche Umwandelung nicht unbedingt zu dem gewünschten Ergebnis führt. Weiterer Forschungsbedarf besteht ebenfalls in Bezug auf die häufigere Wahl der Extremkategorie bei den WHOQOL-Bref-Fragen in der Web-Bedingung. Das dieser Effekt möglicherweise auf die Distanz der Skalenpunkte zurückzuführen sein könnte, stellt einen möglichen Ausgangspunkt dar. Bei sehr sensitiven Themen empfiehlt sich allerdings eine Kombination von interviewer-administrierten und selbst-administrierten Befragungsmethoden nicht, da hier mit Antwortverzerrungen durch Soziale Erwünschtheit zu rechnen ist.

Literaturverzeichnis

ADM (2004). Zahlen über den Markt für Marktforschung. [Online] Verfügbar unter: http://www.adm-ev.de/zahlen.html Mai 2004.

Anderson, J. (1980). Cognitive psychology and its implications. San Francisco: Freeman.

Angermeyer, M., Killian, R. & Matschinger, H. (2000). WHOQOL-100 und WHOQOL-Bref. Götingen: Hogrefe.

Aquilinio, W. (1994). Interview Mode Effects in Surveys of Drug and Alcohol Use. Public Opinion Quarterly, 58, 210-240.

Aquilinio, W. & LoScuito, L. (1990). Effect of interview mode on self-reported drug use. Public Opinion Quarterly, 52, 362-395.

Baddeley, A. (1997). Human Memory. Theory and Practice. Hove: Psychology Press.

Baker, R. (1992). New technology in survey research. Computer-assisted personal interviewing (CAPI). Social Science Computer Review, 10 (2), 145-157.

Baker, R., Bradburn, N. & Johnson, R. (1995). Computer-assisted personal interviewing: An experimental evaluation of data quality and survey costs. Journal of Official Statistics, 11, 415-434.

Ball, D. (1968). Toward a sociology of telephones and telephoners. In M. Truzzi (Ed.), Sociology of everyday life (pp. 59-75). Englewood Cliffs, NJ: Prentice-Hall.

Bandilla, W., Bosnjak, M. & Altdorfer, P. (2001). Effekte des Erhebungsmodus? Ein Vergleich zwischen einer Web-basierten und einer schriftlichen Befragung zum ISSP-Modul Umwelt. ZUMA Nachrichten, 49, 7-28.

Baumeister, R. (1995). Self and Identity: An Introduction. In A. Tesser (Ed.), Advanced Social Psychology. New York: McGraw-Hill.

Beckenbach, A. (1995). Computer-assisted questioning: The new survey methods in the perception of the respondent. Bulletin de Methodologie Sociologique , 48, 82-100.

Biemer, P. & Stokes, S.L. (1991). Approaches to the modeling of measurement error. In P.

Biemer, R. Groves, L. Lyberg, N. Mathiowetz & S. Sudman (Eds.), Measurement Errors in Surveys. New York: Wiley.

Bleicher, J. & Lampert, C. (Hrsg.) (2003). Themenheft „Gesundheit in den Medien". Medien & Kommunikationswissenschaft; 51 (3-4).

Bodenhausen, G. & Wyer, R. (1987). Social cognition and social reality: information acquisition and use in the laboratory and the real world. In H.-J. Hippler, N. Schwarz & S. Sudman (Ed.), Social information processing and suvey methodology (pp. 6-41). New York: Springer-Verlag.

Boekeloo, B., Schiavo, L., Rabin, D., Conlon, R. Jordan, C. & Mundt, D. (1994). Self-reports of HIV risk factors at a sexually transmitted disease clinic: Audio vs. written questionaires. American Journal of Public Health, 84, 754-760.

Booth-Kewley, S., Edwards, J. & Rosenfeld, P. (1993). Computer-assisted surveys in organizational settings: Alternatives, advantages and applications. In P. Rosenfeld, J. Edwards & M. Thomas (Eds.), Improving organizational surveys: New directions, methods and appliacations (pp. 73-101). Newbury Park, CA: Sage.

Bortz, J. (1993). Statistik für Sozialwissenschaftler (4. Aufl.). Berlin: Springer.

Bortz, J. & Döring, N. (1995). Forschungsmethoden und Evaluation für Sozialwissenschaftler (2. Aufl.). Berlin: Springer.

Bosnjak, M. (2003). Web-basierte Fragebogenuntersuchungen. Methodische Möglichkeiten, aktuelle Themen und Erweiterungen. In Informationszentrum Sozialwissenschaften (IZ) & Arbeitskreis Sozialwissenschaftlicher Institute e.V. (ASI) (Hrsg.), Online­Erhebungen (S. 109-133). Bonn: IZ.

Brunner, G. & Carroll, S. (1969). The effect of prior notification on refusal rate in fixed address surveys. Journal of Advertising, 9, 42-44.

Bundeszentrale für Gesundheitliche Aufklärung (2003). Verhütungsverhalten Erwachsener. [Online] Verfügbar unter: http://www.sexualaufklaerung.de/bilder/verhuetung_2003.pdf Mai 2004.

Cannell, C., Miller, P. & Oksenberg, L. (1981). Research on Interviewing Techniques. Sociological Methodology, 12, 389-437.

Catania, J., Binson, D., Canchola, J., Pollack, L., Hauck, W. & Coates, T. (1996). Effects of interviewer gender, interviewer choice, and item context on questions concerning sexual behavior. Public Opinion Quarterly, 60, 345-375.

Chaiken, S. & Eagly, A. (1976). Communication modality as determinant of message persuasiveness and message comprehensibility. Journal of Personality and Social Psychology, 34, 605-614.

Chang, L. & Krosnick, J. (2003). National surveys via RDD telephone vs. the internet: Comparing sample representativeness and response quality. [Online] Verfügbar unter: http://www.psy.ohio-state.edu/social/Melanie%20Mode%20-%2020012.doc Mai 2004.

Christian, L. (2003). The Influence of Visual Layout on Scalar Questions in Web Surveys. [Online] Verfügbar unter: http://survey.sesrc.wsu.edu/dillman/papers/lmchristian_thesis.pdf Mai 2004.

Couper, M. (2000). Web surveys: A review of issues and approaches. Public Opinion Quarterly, 64 (4), 464-481.

Couper, M. (1994). What can CAI learn from HCI?. Paper presented at the COPAFS Seminar on New Directions in Statistical Methodology, June 1994, Bethesda, MD.

Couper, M., Singer, E. & Tourangeau, R. (2003). Understanding the effects of Audio-CASI on self reports of sensitive behavior. Public Opinion Quarterly 67, 385-395.

Couper, M. , Traugott, M., & Lamias, M. (2000). Experiments on the design of Web surveys. Paper presented at the Fifth International Conference on Social Science Methodology, October 2000, Cologne, Germany.

Couper, M., Traugott, M. & Lamias, M. (2001). Web survey design and administration. Public Opinion Quarterly, 65, 230-253.

Crowne, D. & Marlowe, D. (1964). The approval motive. New York: Wiley.

DeMaio, T. (1984). Social desirebility and survey measurement: A Review. In C. Turner & E. Martin (Eds.), Surveying subjective phenomena (Vol. 2, pp. 257-281). New York: Russel Sage Foundation.

Deutsches PISA-Konsortium (Hrsg.). (2001). PISA 2000 Basiskompetenzen von Schülerinnen und Schülern im internationalen Vergleich. Opladen: Leske und Budrich.

Diekmann, A. (2002). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Hamburg: Rowohlt.

Dillman, D. (2000). Mail and internet surveys: The tailored design method. New York: Wiley.

Dillman, D. (1978). Mail and telephone surveys: The total design method. New York: Wiley.

Dillman, D. & Bowker, D. (2001). The Web Questionaire Challenge to Survey Methodologists. In U.-D. Reips & M. Bosnjak (Eds.), Dimensions of Internet science (pp. 159-178). Lengerich: Papst Science Publishers.

Dillman, D., Clark, J. & West, K. (1995). Influence of an invitation to answer by telephone on response to census questionaires. Public Opinion Quarterly, 58, 557-568.

Dillman, D. & Mason, R. (1984). The influence of survey methods and their implications for meeting rural data needs. In R. Buse & J. Driscoll (Eds.), New directions in data and information systems. Ames: Iowa state university press.

Dillman, D., Phelps, G., Tortora, R., Swift, K., Kohrell, J. & Berck, J. (2000). Response rates and measurement differences in mixed mode surveys using mail, telephone, interactive voice response and the internet. Paper presented at the 56th American Association for Public Opinion Research Annual Conference, Montreal, Canada.

Dillman, D., Tortora, R.. & Bowker, D. (1998). Principles for constructing websurveys. [Online] Verfügbar unter: http://survey.sesrc.wsu.edu/dillman/papers/websurveyppr.pdf Mai 2004.

Dillman, D., Tortora, R., Conradt, J. & Bowker, D. (1998). Influence of plain versus fancy design on response rates for web surveys. Paper presented at annual meeting of the American Statistical Association, Dallas, TX.

Erdfelder, E., Faul, F., & Buchner, A. (1996). GPOWER: A general power analysis program. Behavior Research Methods, Instruments, & Computers, 28, 1-11.

Faas, T. (2004). Liefern Access Panels wirklich repräsentative Ergebnisse? Talk given at the German Online Research Conference 2004, March 2004, Duisburg, Germany.

Faulbaum, F. & Deutschmann, M. (2001). The recruitment of online samples by CATI-

screening: Problems of non-response. In A. Westlake et al. (Eds.), The challange of the internet. London: Association for Survey Computing.

Feldt, L. (1969). A test of the hypothesis that Cronbachs Alpha or Kruder-Richardson coefficient twenty is the same for two test. Psychometrika, 34, 363-373.

Fenton, K., Johnson, A. , McManus, S. & Erens, B. (2001). Measuring sexual behaviour: methodological challenges in survey research. Sexual Transmitted Infections, 77 (2), 84­92.

Fowler, F. (1993). Survey research methods. Newbury Park, CA: Sage Publications.

Gerich, J., Lehner, R., Fellinger, J. & Holzinger, D. (2003). Animaqu - eine computerbasierte Befragung als Möglichkeit zur Erfassung besonderer Zielgruppen. Ein Beispiel einer Anwendung bei gehörlosen Menschen. ZUMA Nachrichten, 52, 35-54.

Gribble, J., Miller, H., Rogers, S. & Turner, C. (1999). Interview mode and measurement of sexual behaviours: Methodological issues. The journal of sex research, 36 (1), 16-25.

Groves, R. (1989). Survey Errors and Survey Costs. New York: Wiley.

Groves, R., Biemer, P., Lyberg, L., Massey, J., Nicholls, W. & Waksberg, J. (Eds.). (2001). Telephone Survey Methodology. New York: Wiley.

Groves, R. & Kahn, R. (1979). Surveys by telephone: A national comparison with personal interviews. New York: Academic Press.

Hakstian, A. & Whalen, T. (1976). A k-sample significance test for independent alpha coefficients. Psychometrika, 41 (2), 219-231.

Hancock, D. & Flowers, C. (2001). Comparing social desirable responding on World Wide Web and paper-administered surveys. Educational Technology Research and Development, 49, 5-14.

Heberlein, T. & Baumgartner, R. (1978). Factors affecting response rates to mailed questionaires: A quantitative analysis of the published literature. American Sociological Review, 43, 447-462.

Hochstim, J. (1967). A critical comparison of three strategies of collecting data from households. Journal of the American Statistical Association, 62, 976-989.

Holm, S. (1979). A simple squentially rejective multiple test procedure. Scandinavian Journal of Statistics, 6, 65-70.

Jenkins, C. & Dillman, D. (1997). Towards a theory of self-administered questionane design. In L. Lyberg, P. Biemer, M. Collins, E. de Leeuw, C. Dippo, N. Schwarz & D. Trewin (Eds.), Survey measurement and process quality (pp. 165-196). New York: Wiley.

Johnson, A. M., Wadsworth, J., Wellings, K. & Field, J. (1994). Sexual attitudes and lifestyles. Oxford: Blackwell Scientific Publications.

Joinson, A. (1999). Social desirability, anonymity, and Internet-based questionaires. Behavior Research Methods, Instruments & Computers, 31 (3), 433-438.

Joinson, A. & Harris, P. (1995). Self-enhancement and self-protection on the Internet : A study of football fans on the WWW. Paper presented at the BPS London Conference, Institute of Education, London.

Kaase, M. (Hrsg.). (1999). Qualitätskriterien der Umfrageforschung: Denkschrift. Deutsche Forschungsgemeinschaft. Berlin: Akademischer Verlag.

Kahnemann, D., Slovi, P. & Tversky, A. (1982). Judgement under uncertainty: heuristics and biases. Cambridge: Cambridge University Press.

Kiesler, S., Siegal, J. & McGuire, T. (1984). Social psychological aspects of computer mediated communication. American Psychologist, 39, 1123-1134.

Kiesler, S. & Sproull, L. (1986). Response effects in the electronic survey. Public Opinion Quarterly, 50, 402-413.

Krosnick, J. (1999). Survey Research. Annual Reviews of Psychology, 50, 537-367

Krosnick, J. (1991). Response strategies for coping with the cognitive demands of attitude measures in surveys. Applied Cognitive Psychology, 5, 213-236.

Krosnick, J. & Alwin, D. (1987). An evaluation of a cognitive theory of response-order effects in survey measurement. Public Opinion Quarterly, 51, 201-219.

Krosnick, J. & Berent, M. (1990). The impact of verbal labeling of response alternatives and

branching on attitutde measurement reliability in surveys. Paper presented at the annual meeting of the American Association of Public Opinion Research, Lancaster, PA.

Kruglanski, A. (1980). Lay epistemologic process and contents: another look at attribution theory. Psychological Review, 87, 70-87.

Lautenschlager, G. & Flaherty, V. (1990). Computer administration of questions: More desirable or more social desirability? Journal of Applied Psychology, 75 (3), 310-314.

Lea, M. & Spears, R. (1991). Computer-mediated communication, deindividuation and group decision making. International Journal of Man-Machine Studies, 39, 283-301.

Lee, R. & Renzetti, C. (1993). The problem of researching sensitive topics: An overview and introduction. In C. Renzetti & R. Lee (Eds.), Researching sensitive topics. London: Sage Publication.

de Leeuw, E. (1992). Data quality in mail, telephone and face to face surveys. Amsterdam: TT- Publikations.

de Leeuw, E. & Nicholls, W. (1996). Technical innovations in data collection. Acceptance, data quality and costs. Social Research Online. [Online] Verfügbar unter: http://www.socresonline.org.uk/socresonline/1/4/leeuw.html Mai 2004.

Lepkowski, J. (2001). Telephone Sampling Methods in the United States. In R. Groves, P. Biemer, L. Lyberg, J. Massey, W. Nicholls & J. Waksberg (Eds.), Telephone Survey Methodology. New York: Wiley.

Lepkowski, J., Sadosky, S. & Weiss, P. (1998). Mode, Behaviour, and Data Recording Accuracy. In M. Couper, R. Baker, J. Bethlehem, C. Clark, J. Martin, W. Nicholls & J. O'Reilly (Eds.), Computer Assisted Survey Information Collection. New York: Wiley.

Lerner, J. & Tetlock, P. (1999). Accounting for the Effects of Accountability. Psychological Bulletin, 125, 255-275.

Levy, P. & Lemeshow, S. (1991). Sampling of Populations: Methods and Applications. New York:Wiley.

Likert, Rensis (1932) A technique for the measurement of attitudes. Archives of Psychology, 22, 5­55.

London, K. & Williams, L. (1990). A comparison of abortion underreporting in an in-person interview and self-administered questionaire. Paper presented at the Annual Meeting of the Population Association of America, May 3-5, 1990, Toronto.

Lord, F. & Novick, M. (1968). Statistical Theories of Mental Test Scores. Reading: Addison- Wesley.

Lozar Manfreda, K., Vehovar, V., and Batagelj, Z. ( 2001 ). Web versus mail questionnaire for an institutional survey. In A. Westlake et al. (Eds.), The challange of the internet. London: Association for Survey Computing.

Lyberg, L., Biemer, P., Collins, M., de Leeuw, E., Dippo, C., Schwarz, N. & Trewin, D. (Eds.). (1997). Survey Measurement and Process Quality. New York: Springer.

Lyberg, L. & Kasprzyk, D. (1991). Data collection methods and measurement error: an overview. In P. Biemer, R. Groves, L. Lyberg, N. Mathiowetz & S. Sudman (Eds.), Measurement Errors in Surveys. New York: Wiley.

Martin, C. & Nagao, D. (1989). Some effects of computerized interviewing on job applicant responses. Journal of Applied Psychology, 74 (1), 72-80.

Matheson, K. & Zanna, M. (1988). The impact of computer-mediated communication on self­awareness. Computers in Human Behavior, 4, 221-233.

McCarthy, J., Johnson, J. & Ott, K. (1999). Survey Participation and Survey Sponsorship: What do Our Respondents Think of Us and Should We Care? Paper presented at the International Conference on Survey Nonresponse, October 1999, Portland, Oregon.

McClendon, M. (1991). Acquiescence and recency response-order effects in interview surveys. Sociological Methods and Research, 20, 60-103.

Meston, C., Heimann, J., Trapnell, P. & Paulhus, D. (1998). Socially desirable responding and sexuality self-reports. The Journal of Sex Research, 35, 148-157.

Mott, F. (1985). Evaluation of fertility data and preliminary analytic results from the 1983 survey of the National Longitudinal Survey of Work Experience of Youth. A report to the National Institute of Child Health and Human Development by the Center for Human Resources Research, January 1985.

O'Reilly, J., Hubbard, M., Lessler, J., Biemer, P. & Turner, C. (1994). Audio and video computer assisted self-interviewing: Preliminary tests of new technology for data collection. Journal of Official Statistics, 10, 197-214.

Ong, A. & Weiss, D. (2000). The impact of anonymity on responses to sensitive questions. Journal of Applied Social Psychology, 30 (8), 1691-1708.

Parks, M. & Floyd, K. (1995). Making friends in Cyberspace. Journal of Copmuter-Mediated Communication, 46, 1, 80-97.

Paulhus, D. (1991). Measurement and control of response bias. In J. Robinson, P. Shaver & L. Wrightsman (Eds.), Measures of personality and social psychological attitudes (pp. 17-59). San Diego: Academic Press.

Paulhus, D. (1984). Two-component models of socially desirable responding. Journal of Personality and Social Psychology, 45, 598-609.

Paulhus, D., Harms, P., Bruce, M. & Lysy, D. (2003). The over-claiming technique: Measuring self-enhancement independent of ability. Journal of Personality and Social Psychology, 84, 890-904.

PbS (2001). Trendsetter entfalten Sogwirkung. Pressemitteilung vom 1.12.2001. [Online]

Verfügbar unter: http://www.pbs-ag.de/de/referenzen/anzeigen_presse.php3?id=47 Mai 2004.

Petty, R. & Cacioppo, J. (1986). Communication and persuasion: Central and peripheral routes to attitude change. New York: Springer.

Presser, S., Blair, J. & Triplett, T. (1992). Survey sponsorship, response rates, and response effects. Social Science Quarterly, 73, 699-702.

Rasinski, K., Mingay, D. & Bradburn, N. (1994). Do respondents really "mark all that apply" on self-adminstered questions? Public Opinion Quarterly, 58, 400-408.

Reips, U.-D. (2002). Context effects in Web-surveys. In B. Batinic, U.-D. Reips, M. Bosnjak. & A. Werner (Eds.), Online Social Sciences (pp. 95-104). Seattle: Hogrefe & Huber.

Richman, W., Kiesler, S., Weisband, S. & Drasgow, F. (1999). A Meta-analytic study of social desirable distortion in computer-administered questionaires, traditional questionaires, and interviews. Journal of Applied Psychology, 84 (5), 754-775.

Rubenstein, S. (1995). Surveying public opinion. Belmont, CA: International Thomson Publishing.

Schaefer, D. & Dillman, D. (1998). Development of a standard E-Mail methodology. Public Opinion Quarterly, 62, 378-397.

Schaeffer, N. (1999). Asking questions about threatening topics: A selective overview. In A, Stone, J. Turkkan, C. Bachrach, V. Cain, J. Jobe & H. Kurtzman (Eds.), The science of self-reports: Implications for research and practice. Mahwah, NJ: Erlbaum.

Schlenker, B. (1980). Impression Management: The self-concept, social identity, and interpersonal relations. Monterey, CA: Brooks/Cole.

Schnell, R., Hill, P. & Esser, E. (1999). Methoden der empirischen Sozialforschung (6. Aufl.). München: Oldenbourg.

Schober, S., Caces, M., Pergamit, M. & Branden, L. (1992). Effects of mode of administration on reporting of drug use in the National Longitudinal Survey. In C. Turner, J. Lessler & J. Gfroerer (Eds.), Survey measurment of drug use: Methodological studies (pp. 267-276). Rockville, MD: National Institute on Drug Abuse.

Schuman, H. & Presser, S. (1981). Questions and answers in attitude surveys. New York: Academic Press.

Schwarz, N., Hippler, H.-J. & Noelle-Neumann, E. (1991). A cognitive model of response- order effects in survey measurement. In N. Schwarz & S. Sudman (Eds.), Context effects in social and psychological research (pp. 187-201). New York: Springer.

Schwarz, N., Strack, F., Hippler, H.-J. & Bishop, G. (1991). The impact of administration mode on response effects in the survey measurement. Applied Cognitive Psychology, 5, 193-212.

Shettle, C. & Mooney, G. (1999). Evaluation of using monetary incentives in a government survey. Journal of Official Statistics, 15, 231-250.

Shettle, C., Mooney, G. & Giesbrecht, L. (1993). Evaluation of using incentives to increase response rates in a government survey. 1993 Proceedings of the Government Statistics Section, American Statistical Association.

Smith, T. (1995). Little things matter: A sample of how differences in questionaire format can affect survey responses. Proceedings of the American Statistical Association, Survey Research Methods Section, 1046-1051.

Smith, T. (1992). Discrepancies between men and women in reporting numbers of sexual partners: A summary from four countries. Social Biology, 39, 203-211.

Snijkers, G., Hox, J. & de Leeuw, E. (1999). Interviewers' tactics for fighting survey nonresponse. Journal of Official Statistics, 15 (2), 185-198.

Statistisches Bundesamt (2003). Pressemitteilung vom 6. Februar 2003. [Online] Verfügbar unter: http://www.destatis.de/presse/deutsch/pm2003/p0511024.htm Oktober 2003.

Strack, F., Erber, R. & Wicklund, R. (1982). Effects of salience and time pressure on ratings of social causality. Journal of Experimental Social Psychology, 18, 581-594.

Strack, F. & Martin, L. (1987). Thinking, judging, and communication: A process account of context effects in attitude surveys. In Hippler, H.-J., Schwarz, N. & Sudman, S. (Eds.), Social Information Processing and Survey Methodology (pp. 123-148). New York: Springer.

Sudman, S. & Bradburn, N. (1982). Asking questions: A practical guide to questionaire design. San Francisco: Jossey-Bass.

Sudman, S. & Bradburn, N. (1974), Response effects in surveys: A review and synthesis. Chicago: Aldine.

Sudman, S., Bradburn, N. & Schwarz, N. (1996). Thinking about answers: The application of cognitive processes to survey methodology. San Francisco: Jossey-Bass.

Tourangeau, R., Rips, L. & Rasinski, K. (2000). The psychology of survey response. Cambridge: Cambridge University Press.

Tourangeau, R., Rasinski, K., Jobe, K., Smith, T. & Pratt, W. (1997). Sources of error in a survey of sexual behavior. Journal of Official Statistics, 13, 341-365.

Tourangeau, R. & Smith, T. (1996). Asking sensitive questions : The impact of data colelction mode, question format, and question context. Public opinion Quarterly, 60, 275-304.

Turner, C., Ku, L., Rogers, S., Lindberg, L., Pleck, J. & Sonenstein, F. (1998). Adolescent Sexual Behaviour, Drug Use, and Violence: Increased Reporting with Computer Survey Technology. Science, 280, 867-873.

Turner, C., Lessler, J. & Devore, J. (1992). Effects of mode of administration and wording on reporting of drug use. In C. Turner, J. Lessler & J. Gfroerer (Eds.), Survey measurment of drug use: Methodological studies (pp. 267-276). Rockville, MD: National Institute on Drug Abuse.

Ware, C. (2000). Information Visualization: Perception for Design. San Francisco: Morgan Kaufman.

Weeks, M. (1992). Computer-assisted survey information collection: A review of CASIC methods and their implications for survey operations. Journal of Official Statistics, 8 (4), 445-465.

Willis, G. (1997). The use of the psychjological laboratory to study sensitive topics. In L. Harrison & A. Hughes (Eds.), The validity of self-reported drug use: Improving the accuracy of survey estimates (pp. 416-438). NIDA Monograph 167. Rockville, MD: National Institute on Drug Abuse.

Willmes, K. (1996). Neyman-Pearson-Theorie statistischen Testens. In E. Erdfelder, R. Mausfeld, T. Meiser & G. Rudinger (Hrsg.), Handbuch Quantitative Methoden. Weinheim: Beltz.

Zimbardo, P.(1996). The human choice. Individuation, reason, and order versus deindividuation, impulse, and chaos. In D. Levine (Ed.), Nebrasks Symposium on Motivation (pp. 237-307). Lincoln, NE:University of Nebraska Press.

Anhang

Verwendetes Anschreiben in Phase 2 der Teilnehmerrekrutierung

Betreff: Umfrage zum Thema Empfängnisverhütung im Rahmen meiner Diplomarbeit Hallo, vielen Dank, dass Sie sich bereit erklärt haben, an meiner Befragung zum Thema "Empfängnisverhütung" teilzunehmen. Voraussichtlich geht die Befragung Anfang März los. Sie wird ca. 10-15 Minuten dauern und bestimmt nicht langweilig für Sie. Da die Umfrage teils telefonisch und teils postalisch durchgeführt wird, benötige ich für den Zeitraum der Befragung noch folgende Angaben von Ihnen:

Name

Telefonnummer

Adresse (Straße, PLZ, Ort)

Bitte senden Sie mir diese Angaben bis zum **.**.2004 per Email zu. Ihre Adresse und Telefonnummer dienen ausschließlich der Kontaktaufnahme, werden unabhängig von den Daten gespeichert und nach der Befragung sofort gelöscht.

Alle Angaben, die Sie machen, werden streng vertraulich behandelt. Unmittelbar nach der Befragung werden Ihre Angaben anonymisiert, eine Identifikation einzelner Personen ist ausgeschlossen.

Bei Interesse werde ich Ihnen gerne eine Zusammenfassung der Ergebnisse zukommen lassen.

Falls Sie noch Fragen haben, können Sie mich unter der Email-Adresse ****@zem.uni-bonn.de erreichen. Weitere Infos gibt es auch im Internet unter http://www.zem.uni-bonn.de/projekte/kontrazeptiva .

Vielen Dank im Voraus für Ihre Unterstützung!

Mit freundlichen Grüßen,

PS: Da ich insgesamt 300 Frauen befragen möchte, suche ich noch immer nach weiteren Teilnehmerinnen. Falls Sie also noch Freundinnen oder Bekannte haben, die vielleicht auch mitmachen würden, wäre ich Ihnen sehr dankbar, wenn Sie ihnen diese Mail einfach weiterleiten. Ich suche in erster Linie junge Frauen (bis 30 Jahre) mit Fach- oder Hochschulreife bzw. Studium.

Verwendeter Fragebogen in der Mail-Bedingung

Fragebogen zu „Empfängnisverhütung“

Abbildung in dieser Leseprobe nicht enthalten

Screenshots des Web-Fragebogens als Beispiele

Abbildung in dieser Leseprobe nicht enthalten

Beispiel Screenshot 1: Kenntnisse über angewandte Verhütungsmethode

Abbildung in dieser Leseprobe nicht enthalten

Beispiel Screenshot 2: Ratingskalen aus WHOQOL-Bref im Matrix-Format

1 Unter Area Probability Sampling versteht man ein Stichprobenverfahren, bei dem die interessierende Population in Cluster unterteilt wird und eine Stichprobe dieser Cluster zufällig gezogen wird. Die Cluster können geographischer oder zeitlicher Natur sein (Levy & Lemeshow, 1991).

2 Bei diesem im Rahmen telefonischer Befragungen eingesetzten verfahren werden Telefonnummern zufällig generiert um so auch Personen erreichen zu können, deren Telefonnummern nirgendwo verzeichnet sind (Lepkowski, 2001).

3 Die Populationen können als geschlossen angesehen werden, wenn Männer ihre Sexpartner ausschließlich aus der Population der Frauen ziehen und umgekehrt. Diese Annahme wird insoweit verletzt, als die Befragten Sexpartner haben, die geographisch oder vom Alter aus den Stichprobenrahmen herausfallen.

4 Unter direkten Maßen werden Fragebögen zur Erfassung der Sozialen Erwünschtheit verstanden, wie Paulhus Balanced Inventory of Desirable Responding (BIDR; Paulhus, 1991).

5 Unter nicht-kognitiven Instrumenten werden hier Persönlichkeitsinventare (z.B. MMPI), Einstellungsfragebögen (z.B. Job Descriptive Index), standardisierte Anamnese-Interviews und Skalen oder Subskalen zur Erfassung der Sozialen Erwünschtheit (z.B. BIDR) verstanden.

Details

Seiten
110
Jahr
2004
ISBN (Buch)
9783668658684
Dateigröße
1.4 MB
Sprache
Deutsch
Katalognummer
v415973
Institution / Hochschule
Rheinische Friedrich-Wilhelms-Universität Bonn – Insitut für Psychologie
Note
1,0
Schlagworte
Befragungsmethoden Online Telefon Paper&Pencil Mixed-Mode

Autor

Teilen

Zurück

Titel: Ein experimenteller Vergleich zwischen einer telefonischen, schriftlichen und webbasierten Befragung unter jungen Frauen zum Thema Kontrazeptiva