Lade Inhalt...

Fragebogeneffekte bei Online-Befragungen

Magisterarbeit 2003 157 Seiten

Medien / Kommunikation - Methoden und Forschungslogik

Leseprobe

Inhaltsverzeichnis

Tabellenverzeichnis

Abbildungsverzeichnis

Abkürzungsverzeichnis

1 Online-Methodenforschung als interdisziplinäres Erkenntnisgebiet

2 Online-Befragung: Darstellung des Forschungsgegenstandes
2.1 Abgrenzung von anderen Befragungsverfahren
2.1.1 Eine neue Variante der selbst-administrierten Befragung
2.1.2 Merkmale der Online-Technologie
2.1.3 Anwendungsgebiete für Online-Befragungen
2.2 Gütekriterien und Fehlermodelle in der Umfrageforschung
2.2.1 Gütekriterien der Methodenforschung
2.2.2 Das Fehlermodell von Groves
2.2.3 Typologie von Teilnahmeverhalten bei Web-Befragungen
2.3 Verfahren zur Teilnehmerrekrutierung
2.3.1 Deterministische Verfahren
2.3.2 Zufallsverfahren
2.4 Status Quo der empirischen Online-Fragebogenforschung
2.4.1 Befunde zu Merkmalen der Befragten
2.4.2 Befunde zu Merkmalen des Instruments
2.4.3 Bemerkung zur Vorgehensweise in der Methodenforschung

3 Theorien zur Beantwortung von Umfragen
3.1 Theorien zur Erklärung der Teilnahme an Befragungen
3.1.1 Teilnahme als rationale Entscheidung
3.1.2 Teilnahme als heuristische Entscheidung
3.1.3 Teilnahme als sozialer Austausch
3.1.4 Handlungstheoretische Ansätze
3.2 Theorien zur Erklärung der Beantwortung von Fragen
3.2.1 Psychometrische Ansätze
3.2.2 Antwortselektion als Nutzenmaximierung
3.2.3 Das kognitionspsychologische Strukturmodell
3.2.4 Theorien paralleler Verarbeitungswege
3.2.5 Konversationstheoretische Überlegungen

4 Experimentelle Untersuchung der Wirkung von Fragebogenmerk- malen bei Online-Befragungen
4.1 Fragestellung und Hypothesen
4.1.1 Fragenkomplex animierte Skalen
4.1.2 Fragenkomplex Fortschrittsanzeige
4.1.3 Fragenkomplex Kontexteffekte
4.2 Methode
4.2.1 Beschreibung des Instruments
4.2.2 Vorgehensweise und Ergebnisse der Pretests
4.2.3 Feldphase und Stichprobencharakteristik
4.2.4 Datenaufbereitung
4.3 Ergebnisse
4.3.1 Fragenkomplex animierte Skalen
4.3.2 Fragenkomplex Fortschrittsanzeige
4.3.3 Fragenkomplex Kontexteffekte
4.4 Zusammenfassende Diskussion

5 Schlussfolgerung und Ausblick

Literatur

A Fragewortlaut und Randverteilungen

B Skalendokumentation

C Dokumentation der Pretests

D Weitere Tabellen der Datenanalyse

Tabellenverzeichnis

1 Modi und Technologien der standardisierten Befragung

2 Rekrutierungsverfahren für Online-Befragungen

3 Literaturstellen zur Frageanordnung

4 Kennzahlen zum Teilnahmeverhalten

5 Beschreibung der Stichprobe: Soziodemografische Angaben

6 Test der Voraussetzungen für statistische Analyseverfahren

7 Einstiegsfrage: Dropouts pro Skalenversion

8 Weiterer Verlauf: Dropouts pro Skalenversion

9 Dropouts in Abhängigkeit von der Skalenversion

10 GLM: Reihenfolgeeffekte beim Item ”Sozialforschung“

11 GLM Zusammenfassung: Stärke der Reihenfolgeeffekte

12 Dropouts in Abhängigkeit von der Fortschrittsanzeige

13 Dropouts bei unterschiedlich gekrümmten Fortschrittsanzeigen

14 Dropouts pro Skalenversion unter Kontrolle der Fortschrittsanzeige

15 Prädiktoren für Dropouts: Fortschrittsanzeige und Skalenversion

16 Kontexteffekte durch visuelles Priming

17 Kontexteffekte durch explizite Verweigerungsalternative

18 Überblick:Hypothesen und Befunde zu grafischen Skalen

19 Überblick:Hypothesen und Befunde zur Fortschrittsanzeige

20 Überblick:Hypothesen und Befunde zu Kontexteffekten

21 Dokumentation des Online-Fragebogens

22 Bildsequenzen der animierten Skalen

23 Reliabilität der Icons: Zustimmungs-Skala

24 Reliabilität der Icons: Bewertungs-Skala

25 Reliabilität der Icons: Entwicklungs-Skala

26 Korrelationsdiagnose: Zustimmungs-Skalen

27 Typische Datenvolumen des Online-Fragebogens

28 Übersicht über die Anwendung von Probes im kognitiven Pretest

29 Mittelwertvergleich: Items der Fragebogen-Bewertung

30 Anteil der Dropouts bei der ersten Frage

31 Dropouts in Abhängigkeit von der Skalenversion

32 Freiwillige Angabe der eigenen E-Mail-Adresse

33 Interkorrelationen der reaktiven Indikatorvariablen

34 Kontrolle der Unabhängigkeit von Reihenfolgeeffekten

35 Reihenfolgeeffekte in Abhängigkeit der Korrekturen

36 Reihenfolgeeffekte in Abhängigkeit der Rückschritte

37 Reihenfolgeeffekte in Abhängigkeit der Antwort-Latenzzeit

38 Reihenfolgeeffekte in Abhängigkeit der Teilnahmehäufigkeit

39 Prädiktoren für Dropouts: Merkmale der Fortschrittsanzeige

40 Prädiktoren für Dropouts: Fortschrittsanzeige und Skalenversion

41 Einflüsse der Treatments auf die Bewertung des Fragebogens

Abbildungsverzeichnis

1 Typologie des Antwortverhaltens bei Online-Befragungen

2 Parallele Mixed Mode Strategien in der Methodenforschung

3 Kausalbeziehungen zwischen Konstrukten der TOPB

4 Psychologische Teilprozesse bei der Beantwortung von Testfragen

5 Unterscheidung zwischen Abruf und Berechnung von Meinungsurteilen

6 Optimizing und Satisficing als idealtypische Antwortstrategien

7 Antwortstrategie als Moderatorvariable für Reihenfolgeeffekte

8 Online-Fragebogen mit numerischer Skala

9 Online-Fragebogen mit Icon-Skala

10 Grafische Rating-Skala aus stilisierten Gesichtern

11 Grafische Rating-Skala aus äquidistanten Smilies

12 Variation der Genauigkeit der Fortschrittsanzeige

13 Frage nach der Altersgruppe mit und ohne Verweigerungsmöglichkeit

14 Mehrfachantworten zur Messung von Reihenfolgeeffekten

15 Teilnahmeaufforderung zum Online-Fragebogen

16 Debriefing mit Bitte um E-Mail-Adresse

17 Interaktionseffekt: Skalen-Wirkung hängt von der Erfahrung ab

18 Interaktionseffekte der Motivations-Faktoren auf die Dropouts

19 Empirische Wirkungszusammenhänge zur Fortschrittsanzeige

20 Modell zur Teilnahmebereitschaft mit und ohne Icon-Skalen

21 Effektstärke und zeitliche Distanz des Kontexts bei Online-Befragungen

22 Konstruktion des Test-Fragebogens

23 Fragebogenbewertung: Projektion der Hauptkomponenten

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Online-Methodenforschung als interdisziplinäres Erkenntnisgebiet

Wenn sich soziale Prozesse aus der analogen Welt in die digitale verlagern, dann muss auch die empirische Sozialforschung diesen Schritt nachvollziehen. Einen kleinen Beitrag dazu soll die vorliegende Arbeit leisten.

Je mehr Bedeutung die Online-Befragung als Werkzeug zur sozialwissenschaft- lichen Datenerhebung bekommt, desto notwendiger wird eine fundamentale Aus- einandersetzung mit der Methode. Im Speziellen gibt es drei Motivationen für For- schungsarbeiten auf diesem Gebiet: Erstens müssen die Befunde der Wissensbasis zu den traditionellen Befragungsformen (persönlich, schriftlich, telefonisch) syste- matisch repliziert und auf ihre Gültigkeit online überprüft werden. Zweitens bietet die Online-Technologie eine Reihe von neuen Möglichkeiten und Besonderheiten, deren Wirkungen auf das Antwortverhalten unbekannt sind:

“The issues raised by Web surveys are particularly hot right now, partly because Web surveys are primarily visual and use a much wider range of visual material (photographs, drawings, video clips) than has been true of surveys in the past.” (Tourangeau, 2003, S. 6)

Drittens vereinfacht die Computer-Technologie Experimente zur Erforschung von latenten psychologischen Prozessen bei der Fragebeantwortung. Erst mit weitreichender Kenntnis der Antwortprozesse können Methodenforscher die bislang oft nur oberflächlich beschriebenen Phänomene und Fragebogeneffekte ursächlich erklären (Sudman, Bradburn und Schwarz, 1996, S. 268).

Der Weg von der para-wissenschaftlichen Kunstlehre der Fragebogengestaltung, die bezeichnend durch den Buchtitel “The Art of Asking Questions” (Payne, 1951) charakterisiert ist, hin zu einem “Scientific Paradigm for Surveys” (Tourangeau, 2003) ist zunehmend interdisziplinär. Diese eklektische Perspektive macht das For- schungsfeld faszinierend: Es liegt in der Schnittmenge von Erkenntnisgebieten der Kommunikationswissenschaft, der Statistik, der Linguistik und der Sozial- und Kog- nitionspsychologie (Sirken und Schechter, 1999). Speziell die Online-Forschung integriert zusätzlich die Human Computer Interaction (HCI) oder sogenannte ware-Psychologie“ (Couper, 1999).

”Soft-

Dementsprechend vielschichtig ist auch der theoretische Teil der vorliegenden Arbeit aufgebaut. Kapitel2 thematisiert den Status Quo der internationalen Online- Forschung. Die Abgrenzung beschränkt sich dabei auf zentrale Definitionen. Elemen- tare Begriffe aus der Internet-Technologie (z. B. E-Mail, Link und Server) können zehn Jahre nach Erfindung des World Wide Web und einer Abdeckung von inzwi- schen gut 50 % der deutschen Bevölkerung (Eimeren, Gerhard und Frees, 2003, S. 339) als bekannt vorausgesetzt werden. Nach einem kurzen Literaturüberblick der Vor- und Nachteile von Online-Befragungen in ihren jeweiligen Anwendungsgebieten behandelt Kapitel 2.2 die statistischen Gütekriterien der Methodenforschung. Diese, und die in Kapitel 2.3 vorgestellten Rekrutierungsverfahren, bilden die Grundlage zur folgenden Dokumentation des empirischen Forschungsstands von Online-Fragebogeneffekten im Kapitel 2.4. Der Rückblick systematisiert die in der Literatur meist katalogartig aneinander gereihten experimentellen Einzelbefunde nach Merkmalen des Befragten und des Instruments.

Um die viel beklagte Liste der unzusammenhängenden Einzelbefunde nicht wei- ter zu verlängern, bietet sich die Suche nach einem geeigneten theoretischen Rahmen an. Dazu stellt Kapitel 3 die wichtigsten Theorieansätze zur Teilnahme an Befra- gungen (Kapitel 3.1) und zur Beantwortung von einzelnen Fragen (Kapitel 3.2) vor und unterzieht sie jeweils einer kritischen Würdigung. Ein viel versprechendes, psychologisches Prozessmodell aus der CASM-Bewegung (Cognitive Aspects of Sur- vey Methodology) dient schließlich als Grundlage zur Ableitung von Hypothesen und Forschungsfragen. Die CASM-Perspektive ist besonders gut mit Fragestellungen der Online-Forschung vereinbar, weil sie den reinen Antwortprozess fokussiert und an- dere Einflüsse, wie z. B. die Interviewer-Fehler, nur indirekt behandelt. Gerade die Online-Technologie erlaubt es, den Antwortprozess mit maschineller Genauigkeit abzubilden.

Der empirische Teil (Kapitel 4) beschreibt eine experimentelle Untersuchung von Fragebogeneffekten bei einer eigens zu diesem Zweck konzipierten Online-Befragung. Als Fragebogeneffekt werden in dieser Arbeit Ursache-Wirkungs-Zusammenhänge zwischen verbalen und nonverbalen Merkmalen eines Fragebogens (z. B. Wortlaut, Reihenfolge, Format) und dem Antwortverhalten der Befragten verstanden.

Die Auswahl der Forschungsfragen und Hypothesen orientiert sich an zwei Kri- terien: Zum einen sollten in Kapitel 2.4 identifizierte Forschungslücken konsequent geschlossen werden, zum anderen müssen die experimentellen Merkmale als Kompo- nenten im Theoriemodell interpretierbar sein, um stringente Hypothesen zu dedu- zieren. Als Elemente, die diesen Spagat zwischen theoretischer Anbindung und Pra- xisrelevanz erfüllen, werden schließlich animierte, grafische Rating-Skalen und die Anwesenheit einer grafischen Fortschrittsanzeige bestimmt. Grafische Skalen sind ein kaum untersuchtes online-typisches Merkmal und zur Fortschrittsanzeige liegen in der Literatur bislang widersprüchliche Befunde vor, die einer Klärung bedürfen. Die vorliegenden Experimente konzentrieren sich auf die kommunikativen Kon-sequenzen des Grafik-Einsatzes: Welchen Einfluss haben grafische Merkmale auf die Bereitschaft der Teilnehmer, einen Online-Fragebogen sowohl vollständig als auch sorgfältig zu bearbeiten?

Davon zu unterscheidende messtheoretische Aspekte der Skalen (Stadtler, 1983, S. 37) werden nur exemplarisch thematisiert. Weiterführende Analysen müss- ten hier für jede Kombination aus Konstrukt und Skala einzeln durchgeführt wer- den, so z. B. für Maße der Kundenzufriedenheit oder Persönlichkeitsstärke. Solche Aussagen sind sehr speziell und ließen sich nicht auf eine Klasse von Skalentypen verallgemeinern.

Einen zusätzlichen Fragenkomplex bilden Hypothesen zu Kontexteffekten, die jedoch im vorgegebenen Rahmen nicht umfassend untersucht werden können. Die Anordnung zur Untersuchung von visuellen Kontexteffekten entsteht vielmehr als Nebenprodukt aus der Untersuchung von grafischen Skalen.

Das letzte Kapitel ordnet zunächst die Erkenntnisse dieser Arbeit in den praktischen und theoretischen Methodenfundus ein, um dann mit einem Plädoyer für die Online-Methodenforschung aus einer angewandten, wissenschaftlichen und gesellschaftlichen Perspektive zu schließen.

2 Online-Befragung: Darstellung des Forschungsgegenstandes

2.1 Abgrenzung von anderen Befragungsverfahren

Mit der Verbreitung des Internets entdeckten empirische Sozialforscher dieses neue Medium auch als Kommunikationskanal für Forschungskontakte. Die Bezeichnung ”Online-Forschung“beschränktsichdamitnichtaufUntersuchungen,dieOnline- Kommunikation als Gegenstand haben, sondern beinhaltet zudem Forschungsstra- tegien, die das Medium Internet lediglich als Kanal zur Datengewinnung nutzen. In der Literatur ist inzwischen zu fast jeder reaktiven und nicht-reaktiven Metho- de der empirischen Sozialforschung ein entsprechendes Online-Pendant dokumen- tiert (vgl. Batinic et al.,1999,2002 ). Gemessen an der Anzahl der Publikationen nimmt die Online-Variante der standardisierten Befragung, die sogenannte ”Online- Befragung“, eine herausragende Stellung ein. Gründe dafür könnten einerseits die exponierte Stellung der standardisierten Befragung im Kanon der sozialwissenschaftlichen Befragungsmethoden (Kromrey,2002, S.348 ) und andererseits die technologisch bedingte besondere Eignung des Mediums Internet zur Durchführung von standardisierten Befragungen sein.

2.1.1 Eine neue Variante der selbst-administrierten Befragung

Online-Befragungen sind in der Literatur unterschiedlich abgegrenzt. Der Arbeits- kreis Deutscher Markt- und Sozialforschungsinstitute (ADM) verwendet eine relativ weite Definition, die folgende Spezialfälle umfasst (vgl. ADM,2001, S.1):

(1) Teilnehmer füllen einen auf einem Server abgelegten Fragebogen im Internet online aus.
(2) Teilnehmer laden den Fragebogen von einem Server herunter und schicken ihn ausgefüllt per E-Mail zurück, und
(3) Forscher versenden Fragebögen per E-Mail und erhalten sie ausgefüllt ebenfalls per E-Mail zurück.

Batinic und Bošnjak (2000, S.288) sowie Batagelj, Lozar Manfreda und Vehovar (1998, S.2) differenzieren weniger stark und unterscheiden die Web- Befragung, bei der ein im Internet abgelegter Fragebogen online von den Befragten ausgefüllt wird, von der E-Mail-Befragung. Da Letztere im Gegensatz zur Web- Befragung einige Nachteile aufweist (siehe Tuten, Urban und Bošnjak,2002, S. 9f., auch Schaefer und Dillman, 1998, S. 4, Dillman, Tortora und Bowker, 1998, S. 5) attestiert ihr Starsetzki (2001, S. 43) Bedeutungslosigkeit in der prakti- schen Anwendung. Sie ist daher nicht Gegenstand der vorliegenden Arbeit. Befunde aus der Methodenforschung zu E-Mail-Befragungen werden im Folgenden nur dann referiert, wenn sich ihre Aussagen auf Fragestellungen der Web-Befragung übertra- gen lassen.

Eine weitere Einschränkung ist bezüglich des Umfangs und der Ernsthaftigkeit einer Online-Umfrage zu machen: Auf vielen Internetseiten befinden sich Online- Abstimmungen mit nur einer Frage zu aktuellen Themen. Den Besuchern wird nach erfolgter Abstimmung eine Auszählung über die bisher abgegebenen Stimmen präsentiert (z. B. Moeller, 2002). Baker, Crawford und Swinehart (2002, S. 2) vermuten, dass diese Nischenanwendung vor allem zu Unterhaltungszwecken in Webseiten integriert wird. Da die Aussagekraft der Ergebnisse nicht höher ist als bei den viel kritisierten TED-Befragungen (Dillman, Tortora, Conradt und Bowker, 1998, S. 1, auch Couper, 2000b, S. 478) ist dieser Spezialfall als Da- tenerhebungsmethode nicht relevant und wird deshalb nicht weiter berücksichtigt.

In der vorliegenden Arbeit wird die Online-Befragung wie folgt definiert:

Definition 1 Eine Online-Befragung ist eine Variante der selbst-administrierten, standardisierten Befragung, bei der die Fragestimuli auf einer Webseite präsentiert und die Antworten der Befragten online zu einem Server übertragen und dort ge- speichert werden.

Die Definition macht bewusst keine Aussagen über die Art und Weise, mit der die Teilnehmer auf die Befragung aufmerksam gemacht und zur Teilnahme aufgefordert werden. Kapitel 2.3 (S. 18ff.) behandelt diese Aspekte eingehend.

Obwohl die Online-Befragung in der Literatur häufig als neue Methode oder als neuer Modus bezeichnet wird, der die bekannten Befragungsmodi (persönliches Interview, telefonisches Interview und selbst-administiert) ergänzt (vgl. Bandilla und Bošnjak, 2000, Dillman, 2000, Tourangeau, Rips und Rasinski, 2000), wird diese Konvention in Definition 1 nicht weitergeführt. Tatsächlich ist eine Be- zeichnung als Methode gar nicht, und als Modus nicht ganz treffend. Vielmehr stellt Fuchs (2002) fest, dass es sich bei der Online-Befragung um eine selbst- administrierte Befragung handelt, die sich allein durch den Einsatz einer anderen Technologie von einer schriftlichen Paper-and-Pencil-Befragung unterscheidet (auch Pötschke und Simonson, 2001, S. 7). Dementsprechend sind Unterschiede in der

Beantwortung von On- und Offline-Fragebögen keine Effekte des Modus sondern vielmehr Effekte der verwendeten Technologie. Tabelle 1 ordnet die wichtigsten Varianten der standardisierten Befragung anhand dieser beiden Dimensionen ein (ähnlich auch Bošnjak, 2002, S. 7). Da die verwendeten Abkürzungen in Fachkrei- sen allgemein bekannt sind, wird auf eine ausführliche Erklärung der Varianten an dieser Stelle verzichtet und auf die weiterführende Literatur (z. B. Tourangeau et al., 2000, S. 289ff.) bzw. das Abkürzungsverzeichnis (S. V) verwiesen.

Tabelle 1: Modi und Technologien der standardisierten Befragung

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Fuchs, 2002, S. 2

Diese präzisere Sprachkonvention hat sich allerdings in der Literatur nicht durch- gesetzt. Ein Grund dafür könnte sein, dass auch sie Schwächen hat: So ist der An- satz, unabhängige Merkmale in verschiedene Dimensionen einzuteilen, zwar grund- sätzlich zu begrüßen, allerdings wurde der Begriff Modus auch schon vor Einfüh- rung der Online-Befragung multidimensional gebraucht (vgl. Tourangeau und Smith, 1996). So beschreibt Fuchs (2002, S. 1) mindestens zwei Merkmale des Modus, nämlich (1) die Präsentationsform und (2) die Anwesenheit eines Inter- viewers. Tourangeau et al. (2000, S. 306) skizzieren sogar vier Subdimensionen (von denen allerdings nur drei unabhängig sind). Wenn der Begriff Modus in der Literatur sowieso schon überladen ist, dann spricht auch wenig dagegen, in die be- griffliche Unschärfe weitere Varianten, wie die Online-Befragung, einzubringen. Um jedoch die Einführung von treffenderen Bezeichnungen nicht im Ansatz durch de- struktive Kritik zu behindern, wurde Definition 1 neutral formuliert: Die Varianten der standardisierten Befragung schließen alle denkbaren Modi und Technologien ein.

2.1.2 Merkmale der Online-Technologie

Online-Befragungen unterscheiden sich von den klassischen Befragungsverfahren durch eine Reihe von Merkmalen. Batinic und Bošnjak (2000, S. 311) zählen sieben Kennzeichen auf:

Asynchronität: Forscher und Befragte müssen nicht gleichzeitig interagieren und in vielen Fällen können sich die Befragten den Zeitpunkt der Teilnahme an einer Online-Befragung selbst aussuchen.

Alokalität: Die Zielpersonen können weltweit verteilt sein, weil allein ein Internetzu- gang Voraussetzung für den Forschungskontakt ist. Dabei ist anzumerken, dass in der Praxis nicht technologische, sondern sprachliche Barrieren die Verstän- digung behindern. Selbst wenn alle Befragten eine Sprache verstehen, können kulturelle Unterschiede die Interpretation der Fragestimuli so beeinflussen, dass eine Vergleichbarkeit der Antworten nicht mehr gegeben ist (zur Proble- matik von interkulturellen Befragungen und Fragebogenübersetzungen vgl. Paarek und Rao, 1980).

Obwohl von Batinic und Bošnjak (2000) ursprünglich nicht vorgesehen, kann ein weiterer Aspekt der Online-Technologie dem Merkmal Alokalität un- tergeordnet werden: Das Internet eignet sich durch seine Ubiquität und die er- höhte wahrgenommene Anonymität zur Untersuchung von dispersen und sonst für Forschungskontakte schwer zugänglichen Randgruppen (vgl. Pötschke und Simonson, 2001, S. 13, auch Sheehan, 2002, S. 2, Hiskey und Troop, 2002, S. 250, Hertel et al., 2002, S. 116, sowie Gerich et al., 2003, an- ders Gunn, 2002, S. 4). So berichtet z. B. Coomber (1997) von einer online durchgeführten Befragung von Drogendealern.

Automatisierbarkeit: Da die Fragen von einem Computerprogramm gestellt und die Antworten sofort in einem für die Analyse geeigneten Format gespeichert werden, erübrigt sich der Einsatz von Interviewern und Codierern.

Dokumentierbarkeit: Neben den Antwortdaten werden auch Daten über den Verlauf des Antwortprozesses, sogenannte Para-Daten, aufgezeichnet. Diese erlauben Rückschlüsse auf den Antwortprozess und werden nicht-reaktiv erhoben (dazu auch Couper, 2000a, S. 394, Baker et al., 2002, S. 17, sowie Hertel et al., 2002, S. 116).

Flexibilität: Sowohl die Fragestimuli als auch die Antwortvorgaben können multime- dial präsentiert werden, womit der Einsatz von Farbe, grafischen Elementen, Bildern, Animationen und (mit Einschränkungen) akustischen Stimuli gemeint ist (auch Gadeib, 1999, S. 108, Bandilla und Bošnjak, 2000, S. 17, Cou- per, 2000b, S. 476, Couper, 2001, S. 1, Pötschke und Simonson, 2001, S. 13, Zerr, 2001, S. 13, sowie Lozar Manfreda, Batagelj und Vehovar, 2002, S. 14).

Objektivität der Durchführung und Auswertung: Die Erhebung ist weitgehend frei von Interviewereinflüssen und Fehlern bei der Dateneingabe.

Typisch für eine selbst-administrierte Befragung liegt die Kontrolle über den Forschungskontakt jedoch vollständig in der Hand der Befragten (Dillman et al., 2001, S. 7). So besteht die Gefahr, dass die Vorteile des reduzierten Interviewereinflusses ins Gegenteil umschlagen und Motivationsverluste der Zielpersonen zu falschen oder fehlenden Angaben führen (Dillman, 2000, S. 38, auch Tourangeau et al., 2000, S. 291).

Ökonomie: Internet-Befragungen sind in der Regel mit geringeren variablen Kosten verbunden als herkömmliche Befragungen, da keine Kosten für Porto, Inter- viewer und Dateneingabe anfallen. Dem stehen erhöhte Fixkosten für die Pro- grammierung des Fragebogens und die Serverkapazitäten gegenüber, die bei den in der quantitativen Befragung üblichen Fallzahlen allerdings überkom- pensiert werden (vgl. Dillman und Bowker, 2001, S. 3). So liegen laut einer Modellrechnung von Gunn (2002, S. 3) die durchschnittlichen Gesamtkosten pro Befragtem bei 2, 07 US$ für eine schriftlich-postalische Befragung und bei 0, 88 US$ für eine Online-Befragung.

Ein weiterer ökonomischer Aspekt ist der Geschwindigkeitsvorteil: Da der Forschungsprozess ohne Medienbrüche auskommt und die Antworten sofort zum Server übertragen werden, können Datenanalysen laufend zur Kontrolle des Rücklaufs und umgehend nach Ende der Feldzeit zur Ergebnisauswertung stattfinden (auch Dillman und Bowker, 2001, S. 5). Einige Autoren (z. B. Comley, 2002, S. 3) bewerten den Geschwindigkeitsvorteil von Online-Befra- gungen höher als den oben angesprochenen Kostenvorteil.

Die hier vorgestellte Aufzählung ist prototypisch und in der deutschen Literatur relativ häufig zitiert. Vergleichbare Darstellungen finden sich bei Theobald (2000, S. 24) und in der internationalen Literatur z. B. bei Kaye und Johnson (1999, S. 324) und Sheehan (2002, S. 2).

Nicht so differenziert wie die Vorteile der Online-Technologie, aber umso gewich- tiger, sind ihre Nachteile, die zurzeit den Einsatz von Online-Befragungen auf explo- rative Studien und Nischenanwendungen begrenzen. Die Einschränkungen entstehen hauptsächlich durch die geringe und ungleichmäßige Verbreitung von Internetanschlüssen in der Bevölkerung und durch die Schwierigkeit der Stichprobenziehung im Internet (vgl. Tuten et al., 2002, S. 16, auch Bandilla, 2002, S. 1):

Abdeckungsproblematik: Wissenschaftliche Datenerhebungen sind kein Selbstzweck, sondern ein Mittel zum Erkenntnisgewinn zu gesellschaftlich relevanten Frage- stellungen. Daten werden erst dann wertvoll, wenn aus ihnen mit möglichst we- nigen (d. h. schwachen) Annahmen Informationen mit Relevanz für die soziale Realität abgeleitet werden können. So wird von der sozialwissenschaftlichen Umfrageforschung erwartet, dass ihre Ergebnisse auf real existierende Grund- gesamtheiten, wie z. B. die Bevölkerung eines Landes, verallgemeinert wer- den können. Verlässt sich ein Meinungsforscher auf Daten aus einer Online- Befragung, dann ist dieser Schluss schon deshalb problematisch, weil längst nicht alle Mitglieder der Bevölkerung auch Internetnutzer sind und somit nur ein Teil der Grundgesamtheit eine Chance hat, befragt zu werden.

Laut Statistischem Bundesamt (2003, S. 10) verfügten im ersten Quartal 2002 nur 43 % oder gut 16 Mio. deutsche Haushalte über einen Internetzugang (Online-Haushalte). Diese sind auch keineswegs gleichmäßig über alle Haushal- te verteilt, sondern unterscheiden sich strukturell von Haushalten ohne Inter- netzugang. So ist der Anteil der Selbständigen, Beamten und Angestellten mit hohem Monatseinkommen bei den Online-Haushalten überrepräsentiert; Rent- nerhaushalte sind dagegen deutlich unterrepräsentiert (vgl. Statistisches Bundesamt, 2003, S. 12ff.). Die tatsächliche Nutzung des Internetanschlusses innerhalb der Haushalte verstärkt diese Disproportionalität zusätzlich. Unter den gut 23 Mio. von der Allensbacher Computer- und Telekommunikations- Analyse (ACTA) ausgewiesenen Internetnutzern (46 % der deutschen Bevöl- kerung zwischen 14 und 64 Jahren) sind überdurchschnittlich viele junge und formal höher gebildete Personen vertreten (s. auch AGIREV, 2003).

Es ist offensichtlich, dass sich Verfahren, die über die Hälfte der deutschen

Bevölkerung als ”blindenFleck“schlichtvernachlässigen,nichtzurErhebung von Daten mit Aussagekraft für die Gesamtbevölkerung eignen.

Stichprobenziehung: Bedingt durch die dezentrale Struktur des Internets gibt es kei- ne Institution, die eine Liste aller für Befragungszwecke infrage kommender Merkmalsträger (z. B. Internetnutzer, Internetanschlüsse oder E-Mail-Adres- sen) verwaltet. Weil diese elementare Grundlage für eine Stichprobenziehung fehlt, ist offensichtlich, dass nie alle Elemente der Grundgesamtheit einer dis- persen Internetpopulation die gleiche Chance haben können, in eine Stichprobe aufgenommen zu werden. Damit ist eine wichtige inferenzstatistische Voraussetzung verletzt, und die Konsequenzen für die Validität der Schlussfolgerungen sind für den Forscher nicht berechenbar (vgl. Fowler, 1993, S. 12f., auch Starsetzki, 2001, S. 42).

Erschwerend kommt hinzu, dass sich selbst die Definition einer Grundgesamt- heit im Internet äußerst schwierig gestaltet, da die Zuordnung von Nutzern (d. h. realen Personen) zu Internetanschlüssen, E-Mail-Adressen oder Seiten- abrufen beliebig variieren kann. Exemplarisch seien öffentliche Internet-PCs, Personen mit mehrern E-Mail-Adressen, gemeinschaftlich genutzte Zugänge, oder automatisierte Seitenabrufe durch Suchmaschinen genannt (vgl. Pflei- derer, 2001, S. 64). Sowohl bei der Definition der Grundgesamtheit als auch bei der Stichprobenziehung müssen daher immer Kompromisse und Annah- men getroffen werden. In Kapitel 2.3 (S. 18ff.) werden einige dieser Verfahren diskutiert.

Auch wenn in der Literatur einige optimistische Prognosen Hoffnung machen, dass sich zumindest die Abdeckungsproblematik in Zukunft auf ein vernachlässigbares Maß verringert (z. B. Arnau, Thompson und Cook, 2001, S. 24, Göritz, 2001, S. 73, Lozar Manfreda et al., 2002, S. 3 und Sheehan, 2002, S. 3, kritisch dagegen Best und Krueger, 2002, S. 86), so ist bezüglich der Stichprobenproblematik auf kurze Sicht keine Verbesserung zu erwarten1 (Smith, 2003, S. 167). Die zusammenfassende Charakterisierung der Online-Befragung als schnelles und kosteneffizientes Befragungsverfahren mit Einschränkungen bei der Generalisierbarkeit der Befunde wird damit noch einige Zeit gültig bleiben.

2.1.3 Anwendungsgebiete für Online-Befragungen

Eine verzerrte Stichprobe muss zwar nicht notwendigerweise zu einer Verzerrung der Antworten führen und deren Generalisierbarkeit einschränken, allerdings kann nur in Spezialfällen - und mit guten Begründungen - davon ausgegangen werden, dass die Antworten nicht mit dem Merkmal Internetnutzung konfundiert sind (vgl. Bren- ner, 2002, S. 94). Nur dann, wenn Eigenschaften oder Zusammenhänge untersucht werden, bei denen es unwahrscheinlich ist, dass sie zwischen Internetnutzern und Nicht-Nutzern systematisch unterschiedlich ausgeprägt sind, ist die Verallgemeine- rung von online erhobenen Daten zulässig. Aus diesen Überlegungenbegründen sich auch die Anwendungsgebiete für die Online-Befragung.

Bandilla und Bošnjak (2000, S. 9) beschreiben die Entwicklung der Online- Befragung als eine interdisziplinäre Evolution. Relativ früh entdeckten sie Markt- forscher als Erhebungsmethode und in der Begeisterung über Geschwindgkeit und Kosteneffizienz bei hohen Fallzahlen trat die methodologische Skepsis zugunsten einer pragmatischen Herangehensweise in den Hintergrund (vgl. Zerr, 2001, auch Hofmann, Steinmeyer und Paul, 2001, S. 134, Pfleiderer, 2001, S. 56, Wer- melskirchen, 2002). Die Einschränkungen der Online-Technologie werden bei die- sem Anwendungsgebiet entweder einfach ignoriert - verzerrte Daten sind besser als gar keine Daten - oder fallen bei speziellen Produktgruppen nicht so sehr ins Gewicht, wenn für deren Kunden eine hohe Internetaffinität angenommen werden kann (Gadeib, 1999, S. 101). Comley (2002) berichtet einen Online-Anteil der Marktforschung von 20 % in den USA bei einer jährlichen Wachstumsrate von 50 %. Ähnlich optimistisch prognostizieren Lozar Manfreda et al. (2002, S. 2) einen Anteil von 50 % bis 2004 für Westeuropa und Nordamerika. Allerdings ist bei die- sen Zahlen nicht ersichtlich, ob sie auf Umsätzen oder Fallzahlen basieren. Letzteres ist wahrscheinlicher, da weltweit Online-Access-Panels aufgebaut werden, die rein quantitativ ihre Offline-Vorbilder leicht übertreffen.

Ähnlich früh, aber durchaus reflektiert, erfolgte die Nutzung von Online-Be- fragungen in der Psychologie (vgl. Birnbaum, 2000). Die in Kapitel 2.1.2 (S. 8f.) beschriebenen Probleme sind für die psychologische Forschung weniger gravierend als in der demoskopischen Umfrageforschung, denn in psychologischen Feldstudien werden primär multivariate Zusammenhänge untersucht. Unter der Annahme, dass grundlegende psychologische Prozesse nicht wesentlich von Merkmalen wie Internet- nutzung oder sozialem Status abhängen, ist es üblich, diese Studien mit einer nicht- repräsentativen Stichprobe durchzuführen (Krantz und Dalal, 2000, Brenner, 2002, S. 96). Im Einzelfall kann diese Annahme in einer vorgelagerten Untersuchung überprüft werden. So schlussfolgern Best, Krueger, Hubbard und Smith (2001) aus einem Methodenvergleich:

“Internet users and nonusers seem to use similar psychological mechanisms to arrive a common political decision such as vote choice and candidate performance evaluation” (S. 143),

schränken aber zugleich ein, dass dieser Befund nicht auf andere Themengebiete, wie bspw. Einstellungen zu Technik, verallgemeinert werden darf.

Eine ähnliche Argumentation gilt für psychologische Experimente im Internet (s. Reips, 2000, 2002b): Verzerrungen betreffen Experimental- und Kontrollgruppe gleichermaßen und erzeugen in der Logik des Experiments keine Artefakte. Spielen Merkmale der Versuchspersonen eine intervenierende Rolle, so führen homogene Stichproben dagegen eher zu einer Unterschätzung der wahren Zusammenhänge (Bošnjak, 2002, S. 226). Auch hier verlassen sich die Forscher implizit auf die (meist plausible) Annahme, dass die Reaktionen auf das Treatment sich zwischen der Subpopulation in der Stichprobe (z. B. Internetnutzern) und der Gesamtbevölkerung nicht unterscheiden (Best et al., 2001, S. 132).

In der demoskopischen Umfrageforschung ist die Anwendung von Online-Befra- gungen dagegen mit Einschränkungen verbunden. Mit ihrer Zielstellung, Merkmals- verteilungen in der Bevölkerung zu schätzen, werden zugleich hohe Anforderungen an die Repräsentativität der Stichprobe gestellt, denen eine Online-Befragung aus den oben genannten Gründen nicht gerecht werden kann (Best und Krueger, 2002, S. 86). Folglich geht die Anwendung der Online-Technologie in der Umfrage- forschung über einige explorative Studien nicht hinaus (z. B. Miller et al., 2002). Trotzdem sind Befunde aus der Online-Forschung aus mehren Gründen für die Umfrageforschung interessant. So können Ergebnisse der Grundlagenforschung zu psychologischen Prozessen bei der Beantwortung von (Online-) Fragebögen auf die traditionellen Verfahren übertragen werden (vgl. Bandilla und Bošnjak, 2000, S. 25f., auch Sudman et al., 1996, S. 268). Außerdem greifen auch Umfrageforscher zunehmend auf computergestützte Verfahren wie das Computer Assisted Personal Interview (CAPI) zurück. Aspekte der Benutzerfreundlichkeit und Effekte von ver- schiedenen Skalenpräsentationen betreffen alle computergestützten Befragungsmodi gleichermaßen.

Vergleichsweise unproblematisch ist die Anwendung der Online-Technologie bei Befragungen, deren Grundgesamtheit vollständig mit Internetzugängen abgedeckt ist und eine Liste aller Elemente vorhanden ist, aus der eine Stichprobe gezogen werden kann (Dillman, 1999, S. 17, Couper, 2000b, S. 485, Best und Krueger, 2002, S. 87). Diese Anforderungen erfüllen bspw. Angehörige von Institutionen wie Unternehmen oder Universitäten. Die Online-Befragung ist in diesem Fall ein pro- bates und kosteneffizientes Verfahren zur Durchführung von organisationsinternen Befragungen. Hahn und Zerr (2001) halten Online-Befragungen für diesen Anwen- dungsbereich grundsätzlich für geeignet, geben aber zu bedenken, dass die Anony- mität der persönlichen Daten innerhalb einer Organisation zwar besonders sensibel ist, jedoch durch den Einsatz von Online-Technologie unter Umständen unzurei- chend gewährleistet ist. Als erste Gegenmaßnahme schlagen sie vor, die minimale Aggregatgröße in der Analysesoftware so festzusetzen, dass keine Rückschlüsse auf Einzelpersonen möglich sind (ebd. S. 311).

Es ergibt sich ein differenziertes Fazit: Obwohl die Online-Befragung für einige Einsatzbereiche in der Markt-, Media- und Meinungsforschung ungeeignet ist, gibt es andere Anwendungsgebiete wie die psychologische Feldforschung, experimentelle Designs und Befragungen von abgegrenzten Populationen, bei denen die Online- Technologie den herkömmlichen Verfahren überlegen ist. Allein diese Perspektive rechtfertigt eine wissenschaftliche Auseinandersetzung mit den Besonderheiten die- ser Befragungstechnologie.

2.2 Gütekriterien und Fehlermodelle in der Umfrageforschung

Voraussetzung für eine wissenschaftliche Diskussion der Qualität einer standardi- sierten Befragung ist die Definition von Gütekriterien und Fehlermodellen. Während Erstere eher Maßstäbe zur Quantifizierung der Qualität einer Befragung im posi- tiven Sinne bilden, ermöglichen Letztere die Strukturierung von Faktoren, die Be fragungsergebnisse von einem angenommenen ”wahrenWert“verzerren(Bias)oder dessen Schätzgenauigkeit verringern (Variance) (vgl. Groves,1987, S.157). Beide

Ansätze werden in der Methodenforschung verwendet, wobei die Autoren der für Online-Befragungen relevanten Literatur hauptsächlich anhand von Fehlermodellen argumentieren. Grundlage für den Literaturüberblick in Kapitel 2.4 (S.22ff.) bilden die im Folgenden vorgestellten Gütekriterien und Fehlermodelle.

2.2.1 Gütekriterien der Methodenforschung

Obwohl die klassischen Gütekriterien wie Reliabilität als Maß für die Zuverlässigkeit der Messung, und Validität als Maß für die Gültigkeit der Beschreibung eines realen Sachverhalts durch ein Konstrukt weitgehend bekannt und in der einschlägigen Me- thodenliteratur in ihren designspezifischen Subdimensionen hinreichend diskutiert sind (z. B. Pedhazur und Schmelkin,1991, S.31ff.), spielen sie bei der Bewertung von Befragungsverfahren nur eine nachrangige Rolle (Bošnjak,2002, S.17).

Umfrageforscher verwenden häufiger den Begriff Datenqualität, der allerdings von verschiedenen Autoren sehr unterschiedlich definiert wird. So verweist Bati- nic (2001 S.116) auf die klassische Testtheorie und verwendet Datenqualität als Oberbegriff für Validität, Reliabilität und Objektivität. Wegen der Schwierigkeit, die objektive Richtigkeit von Antworten zu überprüfen, operationalisieren andere Forscher (Couper, 1997, S. 325, auch Bamert und Heidingsfelder, 2001, S. 176, Tuten et al., 2002, S. 16) Datenqualität pragmatisch und beschränken sich allein auf Meta-Daten einer Erhebung wie z. B. den Umfang der Antworten auf offene Fragen, die Anzahl der Inkonsistenzen und offensichtlichen Falschangaben und die Anzahl der Antwortverweigerungen auf einzelne Fragen (Item-Nonresponse). Diese einfache Vorgehensweise hat den Vorteil, dass keine Vergleiche zwischen mehreren Erhebungen oder mit externen Daten nötig sind und damit dieses Maß selbst eine relativ hohe Reliabilität besitzt.

De Leeuw und Van Der Zouwen (1988, S. 286) thematisieren die Problematik der unterschiedlichen Operationalisierungen von Datenqualität und extrahieren meta-analytisch fünf wichtige, in der Literatur verwendete Indikatoren:

(1) Genauigkeit im Vergleich mit externen Quellen (z. B. Melderegister)
(2) Konsistenz beim Vergleich mit anderen Erhebungsmodi
(3) Tatsächlich beantwortete Fragen (nur substanzielle Antworten)
(4) Informationsmenge, d. h. Ausführlichkeit der Antworten
(5) Abwesenheit von Effekten durch soziale Erwünschtheit

Für Gütekriterien von Befragungsergebnissen gilt offenbar, dass sie entweder einfach zu berechnen sind und damit ein verkürztes Abbild der Qualität liefern (d. h. selbst eine geringe Validität haben) oder nur unzuverlässig geschätzt werden können. Vielleicht ist das ein Grund, warum Fehlermodelle in der Methodenliteratur häufig den Gütekriterien vorgezogen werden, denn ihre einzelnen Komponenten sind mit vertretbarem Aufwand relativ genau berechenbar. Außerdem ist es üblich, die Fehler auch einzeln zu berichten, so dass ein Vergleich mit anderen Studien möglich ist.

2.2.2 Das Fehlermodell von Groves

Im Gegensatz zu Gütekriterien verfolgen Fehlermodelle eine andere Logik. Hier wird eine ideale Umfragesituation angenommen und jede Abweichung von diesem Idealzustand als Fehler interpretiert. Groves (1987, 1989, S. VI) unterscheidet in seinem oft zitierten Fehlermodell für Befragungen2 genau vier Typen:

(1) Abdeckungsfehler (Coverage Error) treten auf, wenn nicht alle Elemente ei ner Grundgesamtheit die gleiche Chance haben, in die Stichprobe aufgenom- men zu werden. Dies ist insbesondere dann der Fall, wenn Forschungskontakte hilfsweise mit Mitgliedern einer Rahmengesamtheit (z. B. Haushalte mit Tele fonanschluss) gemacht werden, weil nicht alle Elemente der Grundgesamtheit erreichbar oder identifizierbar sind. Das Missverhältnis zwischen Grund- und Rahmengesamtheit wirkt sich in Form von Abdeckungsfehlern auf die Ergeb nisse aus (vgl. Couper, 2000b, S. 467). Wie in Kapitel 2.1.2 (S. 6) beschrieben, sind Online-Befragungen besonders von dieser Fehlerart betroffen.

(2) Als Stichprobenfehler (Sampling Error) bezeichnet Groves Ungenauigkeiten von Schätzwerten, die dadurch entstehen, dass die relevanten Informationen nicht für jedes Element der Grundgesamtheit vorliegen. Die Größe der Stich- probe und die Ausschöpfungsquote determinieren das Ausmaß dieser Fehler- art. Hier ist auch die Ursache für das häufige Missverständnis großer Stich- proben zu suchen: In der Annahme, allein eine große Stichprobe führe zu qualitativ besseren Ergebnissen, werben einige Umfrageforscher penetrant um Teilnehmer. Trotzdem sind Ergebnisse von Studien mit enormen Stichpro- bengrößen - Perspektive Deutschland (2003) berichtet bspw. mehr als 360000 Befragte - nicht automatisch valide (vgl. Schultheiß, 2002, Wer- melskirchen, 2002). Ab einer Stichprobe von einigen Tausend Fällen steht die weitere Verringerung des Stichprobenfehlers in keinem Verhältnis zu den damit verbundenen negativen Auswirkungen auf Abdeckungs- und Messfehler (vgl. Couper, 2000b, S. 473ff.).

(3) Messfehler (Measurement Error) entstehen durch die Ungenauigkeit der Ant worten bei der Anwendung eines Befragungsinstruments. Diese Fehlerart läßt sich nach ihren Verursachern weiter untergliedern (ähnlich Esser, 1986b, S. 40, auch Sudman et al., 1996, S. 9): (3a) Interviewer: Alle Einflüsse, die durch das Verhalten (Irrtum, falsche Fra- gestellung etc.) oder durch Merkmale von Interviewern (Geschlecht, Haut- farbe) verursacht werden (3b) Befragter: Korrelate mit Merkmalen der Befragten wie Unfähigkeit, ei- ne Frage zu verstehen oder mangelnde Erinnerungskraft an abgefragte Ereignisse (3c) Fragebogen: Fehler durch Schwachpunkte in der Formulierung (insb. Mehr- deutigkeiten) von Fragen und Antwortalternativen 15 (3d) Situation: Einflüsse des Modus und der äußeren Umstände einer Befra- gung (z. B. Anwesenheit Dritter)

(4) Nonresponse Fehler entstehen durch Antwortausfälle, die typischerweise in zwei Formen auftreten: Ein Item-Nonresponse liegt vor, wenn Befragte einige Fragen nicht beantworten und somit für einzelne Variablen keine inhaltlichen Messwerte vorliegen. Fehlt dagegen ein ganzer Fall im Datensatz - die Ziel- person ist nicht erreichbar oder verweigert die Zusammenarbeit komplett - so handelt es sich um ein Unit-Nonresponse (auch Schnell, 1997, S. 17, ähnlich Esser, 1986b, S. 43). Die Problematik von freiwilligen oder selbst-selektierten Stichproben lässt sich ebenfalls als Nonresponse Fehler einordnen. Damit ist z. B. auch die dramatische Fehlprognose im mittlerweile klassischen Beispiel des Literary Digest Poll auf diese Fehlerart zurückzuführen (vgl. Bryson, 1976).

Es ist offensichtlich, dass zwischen diesen Fehlertypen Abhängigkeiten existieren: Ein hoher Nonresponse-Fehler verstärkt automatisch den Stichprobenfehler und zu- sätzlich den Abdeckungsfehler, wenn die Antwortausfälle systematisch mit Merkma- len der Zielpersonen korrelieren. Daneben können auch Merkmale des Interviewers, des Instruments und der Situation Nonresponses verursachen. Somit ist auch die Trennung zwischen Nonresponse- und Messfehlern mitunter unscharf.

Neben diesem Fehlermodell finden sich in der Literatur einige alternative, jedoch nicht substanziell unterschiedliche Klassifikationen (z. B. Fowler und Mangione, 1990, S. 14, Strack, 1994, S. 10, ähnlich Gräf, 2002, S. 49, auch Pötschke und Simonson, 2001, S. 15), die mit dem vorgestellten Modell allerdings nur schwer vereinbar sind und daher aus Gründen der Übersichtlichkeit in der vorliegenden Arbeit ausgespart bleiben.

2.2.3 Typologie von Teilnahmeverhalten bei Web-Befragungen

Für die Untersuchung von Fragebogeneffekten bei Online-Befragungen ist eine wei- tere Spezifizierung von Sonderfällen des Nonresponse-Fehlers relevant. Während bei einer schriftlich-postalischen Befragung allenfalls Informationen von beantwor- teten Fragebögen analysiert werden, enthalten die Protokolldateien eines Webser- vers zusätzlich Informationen über die reine Rezeption des Fragebogens durch die Zielpersonen. Bandilla und Bošnjak (1999) weisen auf die Möglichkeit hin, mit Hilfe dieser Informationen verfeinerte Muster von Nonresponse-Fehlern zu beobach- ten. Zu diesem Zweck definieren sie sieben prototypische Antwortverhalten, die sich Teilnahmeverhalten bei Online−Befragungen Abbildung in dieser Leseprobe nicht enthalten Rezeption: Anteil gesehener Fragen (in %)

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Typologie des Antwortverhaltens bei Online-Befragungen (Quelle: Bošnjak und Tuten, 2001, eigene Darstellung)

anhand ihrer passiven (Rezeption) und aktiven (Interaktion) Teilnahme an Online- Befragungen charakterisieren (auch Bošnjak und Tuten, 2001). Abbildung 1 (Seite 17) veranschaulicht diese beiden Komponenten grafisch, wo-bei für jede Zielperson die Anzahl der rezipierten Fragen (auf der Abszisse) der Anzahl der von ihr tatsächlich beantworteten Fragen (auf der Ordinate) gegenüber-gestellt wird. Da Befragte niemals mehr Fragen beantworten können als sie sehen, liegt die Menge aller möglichen Teilnahmeverhalten unterhalb der Winkelhalbieren-den. Bošnjak und Tuten (2001) benennen die Extrempunkte dieser Menge wie folgt: Im Ursprung liegen die klassischen Unit-Nonresponses, die nicht mit der Bear-beitung des Fragebogens beginnen. Diametral dazu sind die Complete Respondents verortet, die alle Fragen beantworten. Item-Nonresponses3 bearbeiten zwar auch den kompletten Fragebogen, lassen dabei aber einige Frage in der Beantwortung aus. Je nach Umfang dieser Ausfälle werden sie an unterschiedlichen Positionen des vertikalen Schenkels abgebildet.

Bei Online-Befragungen brechen Personen die Bearbeitung des Fragebogens häu- fig zwischenzeitlich ab (Knapp und Martin, 1999, S. 3, MacElroy, 2000, S. 1, Bamert und Heidingsfelder, 2001, S. 176, Baker et al., 2002, S. 5, Gunn, 2002, S. 4 und Tuten et al., 2002, S. 18). Je nachdem, ob vor dem Abbruch schon einzelne Werte ausgelassen wurden, werden Sie als Dropouts auf, oder als Item- Nonresponding Dropouts unter der Winkelhalbierenden notiert. Lurker hingegen klicken sich aus Neugier oder professionellem Interesse durch den Fragebogen, ohne eine Frage zu beantworten und werden in Abhängigkeit von ihrem Durchhaltever- mögen auf der Abszisse verortet.

Neben den Complete Respondents können Item- und Unit-Nonresponses bei allen Befragungsverfahren beobachtet werden. Dropouts können in persönlichen und telefonischen Interviews zwar theoretisch vorkommen, allerdings werden sie in der Literatur bestenfalls erwähnt aber nicht systematisch untersucht (z. B. Groves et al., 1988, S. 198, oder Schnell, 1997, S. 123). Bošnjak (2002, S. 20) vermutet, dass die Fallzahlen von Abbrüchen bei klassischen Befragungen bedeutungslos gering seien und diese Fälle dann den Unit-Nonresponses zugeordnet werden. Die Lurker sind schließlich ein online-spezifisches Phänomen (ADM, 2001, S. 5).

2.3 Verfahren zur Teilnehmerrekrutierung

Sowohl das Teilnahmeverhalten als auch die Generalisierbarkeit der Ergebnisse von Online-Befragungen wird durch die Art der Teilnehmerrekrutierung bestimmt. Die Teilnehmerrekrutierung steht zwar nicht in direktem Zusammenhang mit Fragebo- geneffekten; da es sich dabei allerdings um eine elementare Problematik von Online- Befragungen handelt (vgl. Hauptmanns und Lander, 2001), wird der folgende Exkurs zum Verständnis der Besonderheiten der Online-Technologie beitragen.

2.3.1 Deterministische Verfahren

Couper (2000b, S. 477) unterscheidet acht Methoden, um Zielpersonen für Online- Befragungen zu definieren und anzusprechen. Diese teilt er wiederum in Zufalls- verfahren und deterministische Verfahren ein (Tabelle 2, S. 19). Zu den determi nistischen Verfahren zählen neben den in Kapitel 2.1.1 (S. 5) besprochenen ”Spaß- Abstimmungen“ (1)4 auch Online-Fragebögen ohne Zugriffsbeschränkungen, auf die durch Webseiten oder Suchmaschinen per Link oder Banner aufmerksam gemacht wird (2). Dabei ist es irrelevant, ob die Nutzer sofort um die Bearbeitung eines Fragebogens gebeten werden oder zunächst nur Kontakt- und soziodemografische

Tabelle 2: Rekrutierungsverfahren für Online-Befragungen

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Couper, 2000b, S. 477

Daten angeben, um sie als Mitglieder eines sogenannten Access-Panels (3) bei Be- darf zur Bearbeitung von Online-Umfragen einzuladen (Starsetzki, 2001, S. 45ff., auch Göritz, 2001, S. 74ff.). In allen drei Fällen hat im Prinzip jeder Online-Nutzer die Möglichkeit, an einer Befragung teilzunehmen und entscheidet selbst, ob und wie oft er das tut.

Für die Aussagekraft der Ergebnisse von deterministischen Rekrutierungsver- fahren bedeutet dies, dass die Stichprobe nicht nur typische Online-Nutzer (jung, gebildet, hohes Einkommen) überrepräsentiert (vgl. Batagelj et al., 1998, S. 17), sondern eine zusätzliche Verzerrung durch die Selbstselektion auftritt: Personen mit hohem generellen Interesse an Befragungen oder am speziellen Thema einer Umfrage werden wahrscheinlich häufiger teilnehmen als weniger interessierte Per- sonen (Hauptmanns und Lander, 2001, S. 35). Da die abgefragten Einstellungen oder Verhaltensmuster mit hoher Wahrscheinlichkeit mit dem Interesse korrelieren (Kaye und Johnson, 1999, S. 326) - und der Forscher die Größenordnung des Zusammenhanges bestenfalls schätzen kann (Lukawetz, 2002, S. 401, Bošnjak, 2001, S. 88) - können Ergebnisse aus solchen Umfragen nicht verallgemeinert wer- den. Best und Krueger (2002, S. 77) zeigen außerdem, dass solche Verzerrungen entgegen der verbreiteten Meinung nur sehr bedingt durch ein Gewichtungs- oder Randausgleichsverfahren korrigierbar sind (auch Couper, 2000b, S. 479 und Ve- hovar, Batagelj, Lozar Manfreda und Zaletel, 2002, S. 18).

2.3.2 Zufallsverfahren

Kommen dagegen Rekrutierungsmechanismen mit Zufallsverfahren zum Einsatz, so sind Verzerrungen durch Selbstselektion und Mehrfachteilnahme im Ansatz einge- schränkt. Die Verfahren (4) bis (6) funktionieren sehr ähnlich: In jedem Fall existiert eine Liste, aus denen Zielpersonen zur Befragung aufgefordert werden. Da es keine Liste der Gesamtbevölkerung oder aller Internetnutzer gibt, kann Methode (4) nur bei begrenzten Populationen mit hoher Internetabdeckung eingesetzt werden, was z. B. auf die in Kapitel 2.1.3 (S. 12) beschriebenen organisationsinternen Befragun- gen zutrifft. Die Panel-Listen für Verfahren (5) und (6) müssen repräsentativ für die jeweilige Grundgesamtheit (Internetnutzer bzw. Gesamtbevölkerung) sein und da- her mit probaten, herkömmlichen Verfahren (Telefonbuch- oder Random-Route) zu- sammengestellt werden (Starsetzki, 2001, S. 52). Ein für die Gesamtbevölkerung repräsentatives Online-Panel verspricht zwar aussagekräftigere Daten (Smith, 2003, S. 168), ist aber mit hohem finanziellem Aufwand verbunden, denn die Forschungs- institute stellen die Technik für Personen ohne Internetanschluss bereit (Couper, 2000b, S. 489).

Bei der ”AnsprachedurchUnterbrechung“(7,auchNth Visitgenannt)erfolgt die Rekrutierung wiederum ohne Medienbruch. Dazu wird jedem N -ten Besucher ei- ner Webseite eine Einladung zur Teilnahme am Online-Fragebogen eingeblendet und damit seine gewohnte Nutzung dieses Internetangebots unterbrochen (Pfleiderer,2001). Wählt man den Parameter N ausreichend groß, so ist es unwahrscheinlich, dass Personen mehrfach teilnehmen und ”professionelle“Umfrage-undPanelteilneh- mer den Fragebogen bewusst ansteuern (Comley,2002, S.4). Starsetzki (2001, S.48) meint, dass mit Nth Visit zumindest für die Besucher von einzelnen Webseiten repräsentative Stichproben gezogen werden können (auch ADM, 2001, S. 2). Bei der Interpretation muss allerdings beachtet werden, dass dieser Kompromiss keine Stichprobe von Personen, sondern von Ereignissen zieht. Die Zuordnung von Sei- tenabrufen oder Visits zu Nutzern ist nicht möglich, was Werner (2002) treffend mit “Visits does not mean visitors” (S. 257)

ausdrückt. Auch Comley (2000, S. 5) diskutiert diese Problematik eingehend und empfiehlt, Visits als Grundlage für die Stichprobenziehung zu verwenden. Als Visit werden in der Online-Reichweitenforschung zusammenhängende Seitenabrufe von einem Browser (sog. Page Impressions) bezeichnet.

Problematisch beim Nth Visit-Verfahren sind allerdings die erfahrungsgemäß sehr niedrigen Antwortraten zwischen 5 % und 15 % (Bošnjak, 2002, S. 43, auch Couper, 2000b und Comley, 2002, S. 4). Vermutlich unterscheiden sich die Teil- nehmer von Nicht-Teilnehmern systematisch, so dass die Ergebnisse von einer Ver- zerrung durch Antwortverweigerung (Nonresponse bias) beeinträchtigt werden (vgl. Couper, 2000b, S. 485).

Einige Befragungsinstitute bieten ihren Zielpersonen in sog. Mixed Mode Stra- tegien die Möglichkeit, alternativ zu einem schriftlichen oder telefonischen Interview einen Online-Fragebogen zu bearbeiten (8). Die Teilnehmerrekrutierung erfolgt hier in der Regel per Brief oder Telefon, bevor die Zielpersonen den Fragebogen und bei Bedarf weitere Erinnerungsschreiben per Brief oder E-Mail erhalten. Bošnjak (2002, S. 42) unterscheidet dabei sequenzielle und parallele Mixed Mode Strategien.

Sequenzielle Strategien dienen dabei in erster Linie der Reduzierung von Unit- Nonresponses, indem die Wahrscheinlichkeit der Erreichbarkeit von Zielpersonen erhöht, und gleichzeitig den individuellen Präferenzen der Zielpersonen Rechnung getragen wird. Dillman et al. (2001) stellen in einer systematischen Untersuchung mit fünf unterschiedlichen Mixed Mode Sequenzen fest, dass auf diese Weise die Antwortrate deutlich verbessert werden kann (auch Dillman, 2002, S. 9). Sills und Chunyan (2002, S. 27) berichten von einer beispielhaften Vorgehensweise, die für selbst-administrierte Befragungen erstaunliche 72 % Rücklaufquote erzeugte.

Parallele Mixed Mode Strategien werden dagegen hauptsächlich in der Me- thodenforschung eingesetzt und eignen sich zur Analyse von Effekten des Modus bzw. der Technologie. Allerdings werden parallele Strategien in der Literatur in ver- schiedenen Untersuchungsdesigns implementiert, was die Vergleichbarkeit der Er- gebnisse einschränkt (Batinic, 2001, S. 122). Entscheidend für die Aussagekraft der Ergebnisse ist dabei das Verfahren, mit dem die Zielpersonen auf die zu testen- den Modi verteilt werden. Nur bei zufälliger Gruppenzuteilung durch den Forscher entsteht ein experimentelles Split-Ballot Design (Petersen, 2002), das Kausalaus- sagen über Mode- und Technologieeffekte ermöglicht (s. Strack, 1994, S. 23, auch Noelle-Neumann und Petersen, 1998, S. 192ff.). Bei quasi-experimentellen De- signs ist die Gruppenzuordnung dagegen durch Merkmale der Zielpersonen vor- bestimmt. Forscher, die alle Zielpersonen mit bekannter E-Mail-Adresse zu einem Online-Fragebogen einladen und allen anderen einen Fragebogen per Post schicken, verwenden dabei bspw. ein implizites Merkmal der Befragten zur Gruppenauftei- lung. Haben die Teilnehmer allerdings selbst die Wahl, welche Version eines Frage- bogens sie ausfüllen wollen, so handelt es sich um ein explizites Merkmal. In diesem Fall ist die Aussagekraft von Befunden über mögliche Mode-Unterschiede am ge-

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Parallele Mixed Mode Strategien in der Methodenforschung

ringsten. Abbildung 2 (S. 22) ordnet einige on- und offline vergleichende Studien anhand der getroffenen zweistufigen Design-Entscheidung ein.

Zusammenfassend kann man festhalten, dass die Qualität und Ernsthaftigkeit einer Online-Befragung durch die Art der Teilnehmerrekrutierung bestimmt wird. Sollen Aussagen auf die Gesamtbevölkerung verallgemeinert werden, so muss bei der Rekrutierung auf Offline-Verfahren zurückgegriffen werden. Wenn abgegrenzte Populationen mit hoher Erreichbarkeit im Internet (Mitglieder von Organisationen, Studierende, Besucher einer Webseite, Kunden eines Online-Shops usw.) untersucht werden, so können Nth Visit oder listenbasierte Zufallsverfahren zum Einsatz kom- men. Deterministische Verfahren eignen sich dagegen eher für experimentelle De- signs und explorative Studien.

2.4 Status Quo der empirischen Online-Fragebogenforschung

Obwohl frühe Arbeiten zur Entwicklung von Online-Fragebögen nicht von Um- frageforschern, sondern eher von Programmierern stammen, die sich der Thema- tik eher aus technisch-normativer Perspektive genähert haben, sind die theore- tischen Ansatzpunkte der Online-Fragebogenforschung primär in der traditionel- len sozialwissenschaftlichen Umfrage- und Methodenforschung zu suchen (Dill- man und Bowker, 2001, auch Gunn, 2002, S. 12). Besonders Wissenschaftler, die auf dem Gebiet der selbst-administrierten Fragebögen tätig sind, beschäftigten sich auch mit der Online-Variante. Sie erkannten, dass zwar einige Erkenntnisse zur Fragebogengestaltung aus ihrem Gebiet übertragbar sind, aber trotzdem der Tech nologieunterschied eine Revision der bisherigen Offline-Befunde erfordert (Pötsch- ke und Simonson, 2001, S. 9, Dillman et al., 2001, S. 7, Lozar Manfreda et al., 2002, S. 5f.). Neuere Publikationen zeigen Tendenzen einer weiteren Ausdiffe- renzierung der Online-Fragebogenforschung als eigenes Erkenntnisgebiet, das ne- ben kognitionspsychologischen Aspekten aus der Interviewer-basierten Umfragefor- schung auch zunehmend Gebiete wie die experimentellen Usability-Forschung und die Mensch-Maschine-Kommunikation integriert (z. B. Fuchs, 2002, Tourangeau, Couper und Steiger, 2003).

Tuten et al. (2002, S. 7) teilen die Literatur zu Internetbefragungen grob in zwei Kategorien: Zu den “How to do it”-Artikeln zählen normative Anleitungen und Emp- fehlungen zur Durchführung einer Internetbefragung, deren Prinzipien allerdings ex- perimentell wenig untermauert sind (Lozar Manfreda et al., 2002, S. 4, auch Boš- njak, 2002, S. 60). Die Principles for Constructing Web Surveys von Dillman et al. (1998), die Checklisten zum Web Survey Design von Kaye und Johnson (1999, S. 331) und die (deutschsprachigen) Fehlerlisten mit anschließend abgeleiteten Leit- linien von Gräf (1999, S. 159ff.) seien an dieser Stelle stellvertretend genannt und bieten Anhaltspunkte bei der Umsetzung von Online-Fragebogenprojekten (auch Dillman, 2000, S. 376ff., Dillman und Bowker, 2001, S. 11f. und Gräf, 2002, S. 59ff., weitere Prinzipien bei Comley, 2000, S. 3f., Pfleiderer, 2001, S. 59 und Baker et al., 2002, S. 10). Grundlagen der Internet-Technik finden sich bei Tischer und Jennrich (1997), allgemeine Überlegungen zur Gestaltung von benutzerfreundlichen Anwendungen im Internet bei Nielsen (2000), und als Anleitungen zur Programmierung von Internet-Fragebögen sind bspw. Baron und Siepmann (2000) und Schmidt (2000) einschlägig. Aufgrund ihres deskriptiv-subjektiven Charakters wird in der vorliegenden Arbeit auf eine Darstellung und Diskussion der einzelnen Empfehlungen und Vorschläge verzichtet.

Die zweite Kategorie bilden empirische Untersuchungen zur Wirkung von einzelnen Merkmalen in Online-Befragungen, wobei als abhängige Variable meistens Indikatoren für Datenqualität (z. B. Nonresponses) untersucht werden (Tuten et al., 2002, S. 7). Der folgende Rückblick über die wesentlichen Befunde dieser Art gliedert sich nach den untersuchten unabhängigen Variablen.

2.4.1 Befunde zu Merkmalen der Befragten Soziodemografika und Persönlichkeitseigenschaften

Bei Online-Befragungen werden zwar regelmäßig schon in der Stichprobe die So- ziodemografika der typischen Internetnutzer übergewichtet (z. B. Batagelj et al., 1998, S. 17, auch Couper, 2000b, S. 472), Unterschiede im Verhalten nach der Teilnahmeentscheidung - konkret Item-Nonresponse und Dropout - konnten aber in mehreren Sekundäranalysen von groß angelegten Online-Studien nicht festgestellt werden (Vehovar, Lozar Manfreda und Batagelj, 2000b, Vehovar, Koren und Lozar Manfreda, 2002). Bošnjak (2002, S. 49) bemerkt dazu, dass diese Analysen den Einfluss von soziodemografischen Merkmalen aufgrund der Homogenität der Internetnutzer unterschätzen könnten.

Nur eine von Bošnjak (2002, S. 51) zitierte, unveröffentlichte Studie von Tu- ten, Bošnjak und Glascoff (2001) untersucht explorativ mögliche Zusammen- hänge zwischen Persönlichkeitseigenschaften und der Teilnahme an Online-Befra- gungen. Zu diesem Zweck werden die in einem lexikalischen Verfahren ermittel- ten Persönlichkeitsdimensionen Neurotizismus, Extraversion, Offenheit für Erfah- rungen, soziale Verträglichkeit und Gewissenhaftigkeit (sog. Big Five, Costa und McCrae, 1992) mit der Anzahl der Teilnahmen an einer fünfwelligen Panel-Unter- suchung korreliert. Lediglich für die Dimension Gewissenhaftigkeit liegt ein kleiner positiver Zusammenhang vor (r = 0.12, p < 0.01).

Einstellungen zum Thema

Mehrere Autoren betonen die Bedeutung des Interesses am Thema einer Befra- gung (Dillman, 2000, S. 16, Bošnjak und Tuten, 2001, S. 3, für Offline-Be- fragungen auch Goyder, 1987, S. 118ff., sowie Schnell, 1997, S. 181). Couper (1997, S. 320) erklärt den Einfluss der Themensalienz5 theoretisch: Demnach in- vestieren Befragte bei uninteressanten Themen weniger kognitive Energie in die Beantwortung des Fragebogens, was zu einer verringerten Datenqualität führt. Em- pirische Befunde unterstützen diese Annahme auch für Online-Befragungen: In einer Mehrthemenumfrage mit experimentell variierter Themenfolge wurden bei inter- essant bewerteten Themen weniger Dropouts und Item-Nonresponses beobachtet als bei uninteressanten Themen (Vehovar et al., 2002, S. 10, auch Lozar Man- freda et al., 2002, S. 18). Passend zu diesem Einzelbefund ermitteln Cook, Heath und Thompson (2000, S. 832) in einer Meta-Analyse von 56 Online-Befragungen eine leicht positive Korrelation zwischen Themensalienz und Rücklaufquote. Die Tragweite dieser Ergebnisse ist allerdings durch die aggregierte Analysebene einge- schränkt: Die Befunde zeigen auf, dass Umfragen zu allgemein salienten Themen ei- ne erhöhte Rücklaufquote erhalten. Dem Verfasser ist allerdings keine Untersuchung bekannt, die Zusammenhänge zwischen individuellem Themeninteresse der Zielpersonen und Variablen wie Teilnahmebereitschaft oder Abbruchwahrscheinlichkeit bei Online-Befragungen untersucht.

Einstellungen zur Technologie

Es ist offensichtlich, dass mangelnde Erfahrung im Umgang mit Computern und speziell dem Internet eine zügige und reflektierte Bearbeitung von Online-Fragebögen beeinträchtigen kann (Bowker und Dillman, 2000, S. 3 auch Dillman, 2000, S. 358). Bandilla (2002, S. 4) findet dafür sekundäranalytische Belege, indem er Trenddaten der per Selbstselektion erhobenen GVU-Umfragen (o. Jg.) mit Zeitrei- hen über den weltweiten Zuwachs an Internetanschlüssen vergleicht. Es bleibt jedoch eine offene Forschungfrage, ob Effekte der Computer-Literacy durch den Einsatz von ausführlichen Bedienungsanweisungen und adaptiven Erklärungen verringert wer- den können (Lozar Manfreda et al., 2002, S. 23). Ein erster Hinweis, dass Befrag- te mit besonderer Expertise im Umgang mit dem Internet keine unterschiedlichen Antwortverhalten zeigen, findet sich bei Reips (2002a, S. 75). Er vergleicht dazu das Teilnahmeverhalten an einem Online-Experiment zwischen studentischen Ver- suchspersonen und Teilnehmern, die einem Aufruf auf der für Themen der Online- Forschung spezialisierten Mailingliste gir-l6 gefolgt sind.

Einen positiven Zusammenhang zwischen Nutzungsintensität (operationalisiert durch die Dauer der täglichen Internetnutzung) und der Teilnahmebereitschaft an Online-Umfragen berichten Batagelj et al. (1998, S. 17, auch Lukawetz, 2002, S. 405). Dieser Effekt kann durch drei sich gegenseitig verstärkende Einflüsse er- klärt werden: Erstens steigt mit längerer Internetnutzung die Wahrscheinlichkeit, eine Teilnahmeauffordeung wahrzunehmen. Zweitens sind für Personen, die ein ho- hes Zeitbudget für Internetnutzung aufwenden, die Opportunitätskosten durch die Bearbeitung einer Umfrage geringer, was die Teilnahmeentscheidung in einem ratio- nalen Entscheidungsmodell begünstigt. Drittens korreliert eine erhöhte Nutzungsin- tensität positiv mit der Technologieaffinität und wirkt sich als motivationaler Fak- tor auf die Teilnahmeentscheidung aus (vgl. Lukawetz, 2002, S. 411). Ob auch die Höhe der individuellen Verbindungskosten für den Internetzugang die Teilnahme- bereitschaft beeinflusst, wurde selten untersucht. Allein Lozar Manfreda et al. (2002, S. 16) stellen in einer experimentellen Studie zur Untersuchung von grafischen Fragestimuli eine moderierende Rolle des Kostenfaktors fest.

Sheehan (2002, S. 8) berichtet schließlich einen Einfluss der individuellen Re- aktionszeit, die zwischen Aussendung der Teilnahmeaufforderung per E-Mail und Bearbeitung eines Online-Fragebogens verstreicht. Demnach unterscheiden sich die Antworten zwischen frühen und späten Teilnehmern qualitativ, was die Validität von vorläufigen Auswertungen einer Online-Umfrage infrage stellt.

Selbstberichtete Teilnahmemotive

Bošnjak und Batinic (2002, S. 84) verzichten auf die sekundäranalytische Su- che nach Korrelationen zwischen Indikatoren der Datenqualität und stellen statt- dessen in einer explorativen Studie zunächst offene Fragen zu Teilnahmemotiven bei wissenschaftlichen E-Mail-Befragungen (eine ähnliche Studie mit treuen Panel- Teilnehmern beschreiben Porst und Briel, 1995). Die in einem iterativen Ver- fahren codierten Antwortkategorien wurden dann in einer nachgelagerten Rating- Prozedur einzeln bewertet. Das Motiv Neugier steht demnach auf Platz eins der Rangliste vor Einen-Beitrag-für-die-Forschung-leisten, Selbsterfahrung und materi- elle Anreize (auch Bošnjak und Batinic, 1999, S. 148, Batinic und Bošnjak, 2000, S. 307). Neben einer angebrachten Skepsis gegen Selbstauskunftsverfahren könnte die Validität dieser Befunde durch das Alter der Daten beeinträchtigt sein: 1996 (s. Bošnjak und Batinic, 2002, S. 82) war das Medium Internet deutlich weniger alltäglich, so dass vermutlich der Reiz des Neuen heute belangloser ist.

Eine grundsätzliche Schwierigkeit bei der systematischen Untersuchung von Merk- malen der Befragten als Determinanten für die Teilnahmebereitschaft liegt in der Erhebung dieser Merkmale. Diese muss unabhängig von dem zu untersuchenden Forschungskontakt erfolgen. Unterstellt man eine tendenzielle Verhaltenskonsistenz der Zielpersonen, so sollte die Erhebung der unabhängigen Variablen auf wesentlich andere Art stattfinden - idealerweise in einem nicht-reaktiven Verfahren - um eine Konfundierung mit der abhängigen Variable Teilnahmebereitschaft auszuschließen. Die erhöhte Komplexität dieser mehrstufig angelegten Untersuchungen könnte ein Grund für die geringe Anzahl prospektiver Studien auf diesem Gebiet sein.

2.4.2 Befunde zu Merkmalen des Instruments

Die Merkmale des Instruments liegen vollständig unter der Kontolle des Forschers und können mit Split-Ballot Experimenten systematisch untersucht werden (Petersen, 2002, sowie Vehovar et al., 2002, S. 236).

Ankündigung der Befragung

Der folgende Überblick behandelt zunächst den Einfluss von vorgelagerten Merkmalen der Kontaktaufnahme auf die Teilnahmebereitschaft, bevor dann ab Seite 30 die Fragebogeneffekte im engeren Sinn dargestellt werden.

Wirkung von Incentives: Der Einsatz von materiellen Anreizen als Gegen- leistung für eine kooperative Teilnahme ist bei schriftlichen Fragebögen ein probates Mittel zur Steigerung der Rücklaufquote (Church, 1993, S. 73, auch Singer, 1998, S. 25). Auch in einer Meta-Analyse von 19 Online-Fragebögen stellte sich die Summe der ausgelobten Preisgelder als wichtigster Prädiktor (β = −0.68) für die Dropout- Rate heraus (MacElroy, 2000, S. 2). Allerdings müssen Befunde, die einen höheren Rücklauf berichten (z. B. auch Frick, Bächtinger und Reips, 1999), besonders bei Online-Befragungen differenziert betrachtet werden: Die Aussicht auf attrakti- ve Gegenleistungen kann Personen zu Mehrfachteilnahmen motivieren und damit eine Verzerrung der Antworten auslösen (vgl. Gräf und Heidingsfelder, 1999, S. 123, auch Batinic, 2001, S. 119 und Sheehan, 2002, S. 3). Obwohl Theobald (2001, S. 181) den Einsatz von Incentives im Internet als Gegenleistung für die an- fallenden Verbindungskosten grundsätzlich als gerechtfertigt ansieht, bemerkt auch er, dass die Art der ausgelobten Incentives die Zusammensetzung der Stichprobe beeinflussen kann.

Problematisch ist zudem der Vergabezeitpunkt für Gegenleistungen: Sowohl em- pirische Befunde (Church, 1993, S. 73, auch Diekmann und Jann, 2001, S. 25) als auch theoretische Überlegungen zur Reziprozitätshypothese im Kontext der sozialen Austauschtheorie (vgl. dazu Kapitel 3.1.3, S. 43, auch Dillman, 2000, S. 167 und Groves, Singer und Corning, 2000, S. 303) bescheinigen vor allem im Voraus applizierten, monetären Gegenleistungen eine große positive Wirkung. Im Internet gibt es aber zurzeit keine praktikable Möglichkeit, um kleine Geldbeträge unkompli- ziert, kontrolliert und unter Wahrung der Anonymität zu übertragen (vgl. Bošnjak, 2001, S. 91, auch Theobald, 2001, S. 184). Mit Entwicklung und Verbreitung von sogenannten Micro Payment Systemen könnte sich dieser Aspekt zum Positiven verändern.

Dem Vorteil einer erhöhten Rücklaufquote durch Incentives stehen bei Online- Befragungen eine Reihe von Nachteilen gegenüber: Ihre Wirkung ist online schwä- cher als bei schriftlichen Befragungen, die Organisation der Verteilung ist proble- matisch, Incentives erhöhen die Projektkosten spürbar (Zerr, 2001, S. 13) und eine Verzerrung der Ergebnisse durch Mehrfachantworten ist nicht ausgeschlossen.

In Anbetracht dieser Bilanz können Online-Forscher aus heutiger Sicht dann auf Incentives verzichten, wenn ihre Befragung immaterielle Anreize bietet - wie z. B. einen akademischen Verwendungszweck (vgl. Bošnjak, 2002, S. 136).

Ansprache und Argumente der Teilnahmeaufforderung: Die Form der Kontaktaufnahme mit Zielpersonen wurde für schriftliche Befragungen in zahlrei- chen experimentellen Studien untersucht (Dillman, 1978, 2000). Die so entwickel- ten Methoden zur Optimierung der Rücklaufquote - grob in die Bereiche Timing und Technik teilbar - lassen sich nur teilweise auf die Online-Situation übertra- gen, so dass Tuten et al. (2002, S. 22) ein weiteres Feld von unbeantworteten Forschungsfragen beklagen.

Zum Timing von Online-Einladungen berichten Couper, Traugott und La- mias (2001, S. 241) bei einer dreistufigen Aufforderung im Abstand von drei und acht Tagen die höchste Rücklaufquote. Auch Schaefer und Dillman (1998, S. 2) erreichen eine Sättigung der Rückläufe nach drei Kontakten. Erinnerungsschreiben haben also auch online eine durchweg positive Wirkung, allerdings lassen sie sich im Gegensatz zu den Merkmalen der Technik nicht bei jedem Verfahren der Teil- nehmerrekrutierung anwenden (Vehovar et al., 2002, S. 243).

Erste Hinweise über inhaltlich relevante Faktoren liefert die oben genannte explorative Studie von Bošnjak und Batinic (2002, S. 85). Demnach erwarten Befragte folgende Informationen in einer Teilnahmeaufforderung per E-Mail:

(1) Angabe über die Herkunft der eigenen E-Mail-Adresse
(2) Möglichkeit zur Einsicht in die Ergebnisse (auch Batagelj et al., 1998, S. 7)
(3) Informationen über die genauen Ziele der Befragung
(4) Hinweis zur Vertraulichkeit der Daten (dazu auch Singer et al., 1995, S. 70)
(5) Hintergrundinformationen zum Forscher

Offensichtlich nannten die Befragten im Selbstauskunftsverfahren nur Merkmale, de- ren motivierende Wirkung sie bewusst wahrgenommen haben. In experimentellen Studien wirkten sich dagegen auch Appelle an das Hilfeverhalten (Comley, 2000, S. 3, offline auch Groves, Cialdini und Couper, 1992, S. 484) und die Personali- sierung einer E-Mail-Einladung positiv auf die Antwortbereitschaft aus (Batagelj et al., 1998, S. 17, Cook et al., 2000, S. 831, Groves et al., 2000, S. 307, Veho- var et al., 2002, S. 241, Bošnjak, 2002, S. 31, kritisch dagegen Andreasen, 1970, S. 277). Theoretische Begründungen für die Effektivität einer personalisierten Ansprache finden sich in der Tailored Design Method von Dillman (1978, 2000). Auch Batagelj et al. (1998, S. 7) betonen die Bedeutung von Interaktionshinweisen, die Zielpersonen zu positiven Reaktionen motivieren sollen. Neben dem Bezug auf die eigene Situation - bspw. durch Personalisierung oder das Angebot einer späteren Teilnahme - kann eine Interaktion auch durch immaterielle Anreize wie die Aussicht auf einen Ergebnisbericht begünstigt werden.

Bei einem Vergleich von E-Mail-Umfragen wurden Befragungen mit kommer- ziellem Zweck auf mehreren Dimensionen signifikant schlechter bewertet als wis- senschaftliche Untersuchungen (Bošnjak und Batinic, 1999, S. 151ff.). Demnach sollten Forscher die Glaubwürdigkeit ihrer Institution schon in der Ansprache ex- plizit durch Nennung und Abbildung des Logos (Vehovar et al., 2002, S. 242) und implizit durch eine glaubwürdige Aufmachung der Webseite (vgl. dazu Nielsen, 2000, S. 92) kommunizieren.

Zur Vermeidung von Mehrfachteilnahmen bei listenbasierten Stichproben wer- den häufig Zugangscodes mit den Teilnahmeaufforderungen verschickt (Bowker und Dillman, 2000, S. 8). Cook et al. (2000, S. 832) stellen zunächst keine ne- gativen Auswirkungen dieser Maßnahme fest, die experimentellen Untersuchungen verschiedener Varianten der Zugangskontrolle von Crawford, Couper und Lami- as (2001, S. 155) sowie Heerwegh und Lossveldt (2002b, S. 17) führen allerdings zu kontroversen Befunden: So können Letztere nicht erklären, warum eine manuelle Eingabe von Benutzername und Passwort zu mehr substanziellen Antworten führt als ein automatisches Login, bei dem die Zugangsinformationen in einem Hyperlink eingebettet sind. Klar und erwartungskonform ist dagegen der Befund von Couper et al. (2001, S. 242), wonach mehrdeutige Zeichen in den Zugangsdaten (z. B. 0/O oder 1/l) erhöhte Abbruchraten verursachen.

Umfang der Befragung

Zur Beschreibung des Umfangs einer Befragung wird in der vorliegenden Arbeit folgende Sprachregelung angewandt:

Definition 2 Die Anzahl der zu treffenden Entscheidungen in Form von Fragen wird als Länge bezeichnet, die Bearbeitungszeit dagegen als Dauer.

Obwohl beide Maße hoch korrelieren, ist eine klare Differenzierung sowohl zum Verständnis der zitierten Literatur als auch bei der Interpretation der Befunde im empirischen Teil dieser Arbeit hilfreich.

Eine experimentelle Studie über Aussagen zur Dauer einer Befragung in der Teilnahmeaufforderung kommt zu dem Ergebnis, dass eine kürzere angekündigte Dauer die Anzahl der Teilnehmer zunächst erhöht. Je mehr die Befragung diese Zeit allerdings tatsächlich überschreitet, desto mehr Dropouts treten auf (Crawford et al., 2001, S. 153).

Die tatsächliche Länge einer Befragung stellte sich in mehreren Meta-Analysen als unbedeutender Faktor heraus (vgl. Cook et al., 2000, S. 832, auch MacElroy, 2000, S. 2). Entscheidender ist dagegen die Dauer: Batagelj et al. (1998, S. 12) bestimmen aus einer quasiexperimentellen Anordnung mit Fragebögen von 12 und 20 Minuten Dauer eine Obergrenze von 15 Minuten für eine Online-Befragung (auch Vehovar et al., 2002, S. 244, ähnlich MacElroy, 2000, S. 4). Ergänzend dazu stel- len mehrere Autoren fest, dass eine erhöhte Bearbeitungsdauer bei ausreichender Motivation der Befragten kompensiert wird. So setzen Feld und Wygant (2000) sogenannte E-Interviewer ein, die den Befragten während der Bearbeitung über einen Chat-Kommunikationskanal Hilfe und Auskunft geben (ähnlich Mühlen- feld, 2002). Walker, Sproull und Subramani (1994) präsentieren Fragen am Bildschirm mit Hilfe von Gesichtern und Sprechblasen. Cook, Heath, Thompson und Thompson (2001, S. 704) verwendet grafische Schieberegler als Antwortskalen. Alle drei Technologien verlängern die durchschnittliche Bearbeitungszeit bei gleich- zeitig gesteigerter Datenqualität. Wie bei persönlichen Interviews entscheidet offen bar nicht die objektive Dauer, sondern die subjektiv gefühlte oder ”psychologische Dauer“ eines Interviews (Noelle-Neumann und Petersen,1998, S.124) über einen vorzeitigen Abbruch der Befragung. Dieses Ergebnis weckt den Forschungsbedarf nach motivationssteigernden Merkmalen in der Fragebogengestaltung (vgl. Dillman,2000, S.401).

Frage- und Skalenpräsentation

Der folgende Abschnitt fasst Befunde zu Fragenbogeneffekten im engeren Sinn zusammen, nämlich Wirkungen einzelner Gestaltungsmerkmale eines Online-Frage- bogens auf die Datenqualität.

Benutzerführung und Didaktik: Thema einer Grundsatzdiskussion bei On- line-Befragungen ist die Verteilung von Fragen auf ein oder mehrere Webseiten. Beim Screen-Design wird jede Frage auf einer eigenen Seite dargestellt, die, durch Hyperlinks verknüpft, von Befragten sequenziell abgearbeitet werden. Beim Scroll- Design werden dagegen mehrere Fragen untereinander auf der gleichen Webseite dargestellt. Hier verwenden Befragte die Rollbalken (Scroll-Funktion), um zunächst verdeckte Fragen zu bearbeiten. Ein Knopf am unteren Ende des Fragebogens dient dann in der Regel zum Abschicken der Antwortdaten.

Die beiden Ansätze unterscheiden sich in mehreren Merkmalen. So ist die Be- arbeitungszeit bei der Screen-Variante tendenziell länger, weil für jede Frage ein Server-Abruf stattfindet. Ob dies die Reaktionszeit jedoch gleich um den Faktor drei verlängert, wie Comley (2000, S. 3) pessimistisch vermutet, ist allerdings von der eingesetzten Server-Infrastruktur und Softwaretechnologie abhängig. In einem Experiment ermitteln Batagelj et al. (1998, S. 12) eine durchschnittliche Bearbei- tungszeit von 9 min 13 s im Screen-Design gegenüber 7 min 48 s im Scroll-Design, was dem Faktor 1.2 entspricht (auch Lozar Manfreda et al., 2002, S. 12). Die Anzahl vollständiger Rückläufe unterscheidet sich aber in dieser wie auch in zwei weiteren von Bošnjak (2002, S. 39) zitierten Studien nicht signifikant.

Vehovar, Lozar Manfreda und Batagelj (2000a, S. 2) berichten dagegen von signifikant höheren Item-Nonresponses beim Scroll-Design. Offenbar werden in dieser Anordnung häufiger Fragen übersehen. Unterschiedliche Bildschirmauflösun- gen beeinflussen beim Scroll-Design die Sichtbarkeit einzelner Fragen (Dillman und Bowker, 2001, S. 8, auch Nielsen, 2000, S. 29), was zu einer unkontrollierten Variation der Fragestimuli führt.

Weil beim Screen-Design jede Antwort einzeln übertragen wird, stellt es höhe- re Anforderungen an die Fragebogenprogrammierung und die Serverkapazität (vgl. Schmidt, 2000, S. 308). Im Gegenzug können Forscher nur bei diesem Verfahren umfangreiche Para-Daten (Couper, 2000a, S. 393) wie Latenzzeiten, Antwortrei- henfolge oder Korrekturen aus den Serverprotokollen extrahieren, die besonders für die Methodenforschung wertvolle Hinweise über den Bearbeitungsprozess enthalten (Dillman et al., 1998, S. 12, Bandilla und Bošnjak, 1999, S. 1, Bošnjak und Tuten, 2001, S. 6, Zerr, 2001, S. 20). Sind komplizierte Filterführungen oder Ver- zweigungen im Fragebogen vorgesehen, so müssen die Fragen auf mehrere Seiten verteilt werden - zwar nicht notwendigerweise einzeln -, was trotzdem schon Kon- sequenzen für den Wartungs- und Programmieraufwand hat (vgl. Dillman et al., 1998, S. 11).

Aus Gesichtspunkten der Benutzerfreundlichkeit argumentieren Bandilla und Bošnjak (2000, S. 19), dass das Web-spezifische, flüchtige Leseverhalten (dazu auch Nielsen, 2000, S. 101) gegen umfangreiche Anweisungen und lange Fragebögen auf einer Seite spräche.

[...]


1 Die Frage, ob eine Zentralisierung der digitalen Kommunikation und eine bessere Identifizierbarkeit ihrer Nutzer als Voraussetzung zur Lösung des Stichprobenproblems überhaupt gesellschaftlich wünschenswert ist, soll hier nicht erörtert werden.

2 In der Literatur zu Online-Fragebögen verwenden z. B. Couper (2000b), Dillman und Bowker (2001), Bošnjak (2002) und Lozar Manfreda et al. (2002) das Fehlermodell von Gro- ves (1989)

3 Voraussetzung für die Beobachtung von Item-Nonresponses ist ein nicht-restriktives, screen- basiertes Design von Online-Befragungen, d. h. die Fragebogensoftware darf die Benutzer nicht zu einer Antwort zwingen, bevor sie weitere Fragen präsentiert (Bošnjak und Tuten, 2001, S. 6).

4 Die Zahlen in Klammern beziehen sich auf die fortlaufende Nummerierung in Tabelle 2.

5 Das Konstrukt Themensalienz setzt sich in diesem Kontext aus den Komponenten kognitive Verfügbarkeit und persönliche Relevanz zusammen (Bošnjak, 2002, S. 53).

6 http://www.online-forschung.de/index.htm/gir-l/

Details

Seiten
157
Jahr
2003
ISBN (eBook)
9783638316637
Dateigröße
1.5 MB
Sprache
Deutsch
Katalognummer
v30397
Institution / Hochschule
Technische Universität Dresden – Institut für Kommunikationswissenschaft
Note
1,0
Schlagworte
Fragebogeneffekte Online-Befragungen

Autor

Teilen

Zurück

Titel: Fragebogeneffekte bei Online-Befragungen