Fehlende Werte in der Marktforschung Problembehandlung und Diskussion


Seminararbeit, 2004

21 Seiten, Note: 1,7


Leseprobe


Inhaltsverzeichnis

1. Einleitung

2. Gründe für das Fehlen von Daten
2.1 Forschungsdesign
2.2 Primär- und Sekundärforschung

3. Arten und Verteilungsmuster fehlender Daten
3.1 Zufällige Verteilungsmuster fehlender Daten
3.2 Systematische Verteilungsmuster fehlender Daten
3.3 Strukturanalyse und Testverfahren auf Verteilungsmuster

4. Lösungsvorschläge und Korrekturmöglichkeiten
4.1 Strategien allgemein
4.2 Korrekturverfahren bei zufälligen Ausfällen
4.3 Korrekturverfahren bei systematischen Ausfällen

5. Diskussion und Schlussbemerkung

6. Literaturverzeichnis

7. Grafischer Anhang
7.1 Überblick Lösungsmöglichkeiten

1. Einleitung

Die Marktforschung versucht das Entscheidungsproblem des Managements mit den ihr verfügbaren Instrumenten zu lösen und dabei möglichst vollständige Datensätze aus Primärforschung oder Desk-research zu verwenden. Dies ist jedoch häufig unmöglich, auch wenn dasjenige Untersuchungsdesign verwendet wird, bei dem wenige Ausfälle vermutet werden. Bei der Auswahl des entsprechenden Erhebungsdesigns sollte man sich im Klaren über mögliche Ausfallursachen sein (Herrmann/Homburg, 2000, S.81ff). So kann in einem Interview falsches Verständnis der Frage, die Auskunftsunfähigkeit oder der Unwille zur Beantwortung der Frage zu fehlenden Werten führen. Vor allem Fragen zu Einkommen, Sexualverhalten oder Alkoholkonsum werden oft nicht beantwortet. So gibt es viele Datensätze in der Marktforschung, die unvollständig sind: In einem Panel von Horowitz und Golob (1979) waren bei 60% der 1565 Befragten 1% der Fragen unbeantwortet und bei 10% fehlten sogar 5% der Daten (Lehmann, 1989, S.369). Beim Vorkommen fehlender Werte muss man zunächst Klarheit über die Struktur des Ausfalls gewinnen, um die richtige Lösung, bzw. Korrektur anzuwenden. Im Rahmen der Strukturanalyse muss also zunächst untersucht werden, ob der zu Grunde liegende Ausfallmechanismus zufälliger Natur ist, oder ob ein systematischer Zusammenhang zu befürchten ist. Ein Ignorieren dieses Problems oder die Benutzung einer Ad-hoc-Lösung kann das Ergebnis verzerren. Denn die Anwendung der einfachsten und nicht zuletzt wohl deswegen beliebtesten Methode, der Dateneliminierung, ist nur unter einer sehr strikten Voraussetzung, nämlich dass der Datenausfall vollkommen zufällig ist, richtig. Außer der Dateneliminierung besteht noch u. A. die Möglichkeit der Vervollständigung der Daten mit Schätzwerten oder die direkte Schätzung aus den unvollständigen Daten. Alle diese Methoden setzen allerdings eine zufällige Verteilung der fehlenden Werte. Ein systematisches Fehlen erfordert komplizierte Lösungsschritte und die Kenntnis über die Struktur des Ausfalls.

Im weiteren Verlauf werden Gründe für das Fehlen von Daten genannt und diskutiert. Im Kapitel 3 werden kurz die Verteilungsmuster fehlender Daten sowie deren Analysemöglichkeiten besprochen, um im 4. Kapitel auf Lösungsvorschläge einzugehen und im 5. Kapitel zu diskutieren.

2. Gründe für das Fehlen von Daten

In der Literatur wird oft zwischen Item-Non-Response und Total-Non-Response unterschieden. Bei Item-Non-Response handelt es sich um einzelne fehlende Werte einer Beobachtungseinheit, während bei Total-Non-Response ganze Beobachtungseinheiten fehlen. Während es sich bei Total-Non-Response oft um Probleme bei der Zusammensetzung der Stichprobe handelt, sind die Ursachen bei Item-Non-Response in der Phase der Datenerhebung und Datenerfassung zu finden (Homburg/ Herrmann, 2000, S.83).

2.1 Forschungsdesign

Schon die Wahl des Forschungsdesigns kann über die Art und Quantität der Fehlenden Werte entscheiden. Das zu wählende Forschungsdesign kann entweder die Analyse vorhandenen Datenmaterials (Sekundärforschung) oder die Bereitstellung neuer Daten (Primärforschung) sein. Vor allem sind es Fragen mit sozial relevanten oder brisanten Themen, die zur Verweigerung der Antwort führen. Dazu zählen u. A. Fragen zum Einkommen, Alkoholkonsum, Konsumentenkrediten oder Sexualverhalten. Wenn man trotzdem eine ehrliche Antwort erlangen möchte, sollte man solche Fragen eher indirekt stellen oder so tun, als ob der Befragte für jemand anderen antworten sollte: Man zeigt beispielsweise ein Bild und fragt, was der Betroffene an Stelle der abgebildeten Person tun würde. Abgesehen von inhaltlichen Aspekten spielt auch die Fragegestaltung eine wichtige Rolle. Bei offenen Fragen können Codierprobleme auftreten und die Befragten überfordern. Lange Listen mit geschlossenen Fragen könnten die Befragten entmutigen. Ferner sollte man auf die Vollständigkeit der Antwortkategorien achten und sich bewusst sein, dass ein schlechtes Layout eines Fragebogens dazu führen kann, dass Fragen einfach übersehen werden (Homburg/ Herrmann, 2000, S.83ff).

2.2 Primär- und Sekundärforschung

Die bei einem Interview entstehenden fehlenden Werte lassen sich in verschiedene Typen gliedern. Schnell (1986) gliedert die bei der Datenerhebung entstehenden Fehler in Skip- Fehler, Codier-Fehler, KA (keine Angabe Fehler) und WN (weiß nicht Fehler). Skip- Fehler entstehen, wenn der Interviewer fälschlicherweise Fragen überspringt. Bei Filterfragen kann der Interviewer aufgrund fehlender Motivation oder schlechter Schulung Fragen fälschlicherweise überspringen. Zu Fehlcodierungen (Codier-Fehler) kommt es, wenn der Interviewer einen fehlenden Wert markiert, obwohl Angaben gemacht worden sind. Zu Fehlcodierungen kann es zudem auch kommen, wenn nicht ausreichende Codiervorschriften für die Datenerfassung gemacht werden. KA-Fehler passieren bei der Verweigerung einer Antwort auf eine Frage. Oft möchten Personen keine Angaben z.B. zum Einkommen oder Vermögen machen1. WN-Fehler entstehen, wenn die Interviewten nicht in der Lage sind, Fragen zu beantworten. Oft können Befragte durch schwierige Fragen und große Fragebogenumfänge überfordert werden (Hafermalz, 1976, 120ff). Vor allem bei älteren Personen nimmt mit der Zeit die Konzentrationsfähigkeit ab. Strittig ist jedoch, ob WN-Antworten überhaupt als fehlende Werte codiert werden sollen. Weitere Fehlerursachen sind das schlichte Übersehen von Fragen, Unaufmerksamkeit des Beobachters, Motivationsprobleme (Bankhofer/ Praxmarer, 1998, S.109) oder das Misstrauen gegenüber dem Interviewer. Auch während der Datenprüfung kann es zu Ausfällen kommen, und zwar dann, wenn versucht wird falsch formatierte Angaben oder Syntaxfehler zu korrigieren. Schließlich kann es bei der Konvertierung der Daten in andere Formate zu Fehlern kommen.

Beim Desk-research trifft man häufig auf unvollständige Sekundärdaten. Ursachen für Fehler liegen meist in der Datenerhebung: Oft ist die Erhebung bestimmter Daten unmöglich oder es werden einfach Fehler gemacht. Nicht selten kommt es auch zu Strukturbrüchen des vorliegenden Datenmaterials oder der Neudefinition von der Zusammensetzung einer bestimmten Statistik: So wurden beispielsweise die Kriterien zur Bestimmung der Arbeitslosigkeit in der Vergangenheit oft verändert, so dass eine genaue Bewertung der Entwicklung der Arbeitslosigkeit nur schwer realisierbar ist. Für das Jahr 1991 fehlen die Daten für deutsche Gesundheitsausgaben und die Zeitreihe über das Bruttoinlandsprodukt weist wegen der deutschen Einheit 1991 einen deutlichen Sprung nach oben. Es gibt dafür aber Lösungsansätze: Fehlende Zeitreihenwerte können durch Trendberechnung oder Interpolation gewonnen werden. Manchmal lassen sich beispielsweise verschiedene Kundendaten miteinander vergleichen, und so können einige Daten wieder gefunden werden (Pepels, 1999, S.93)

3. Arten und Verteilungsmuster fehlender Daten

3.1 Zufällige Verteilungsmuster fehlender Daten

Als zufällige Verteilungsmuster von Fehlern werden solche betrachtet, die keine eindeutige Konzentration auf bestimmte Merkmale aufweisen. Dies bedeutet, dass zufällige Fehlerverteilungen unabhängig von den Ausprägungen des jeweiligen Merkmals sein müssen und zwischen fehlenden Daten zweier Merkmale kein Zusammenhang besteht (Bankhofer/ Praxmarer, 1998, S.110ff). In der Literatur werden zufällige Verteilungsmuster in MAR (missing at random) und MCAR (missing completely at random) unterschieden. MCAR ist die strengste Klassifizierung: Das Fehlen der Werte darf in keiner Weise von den vorhandenen oder den fehlenden Werten abhängen. MAR- verteilte Fehler dürfen nicht von der speziellen Merkmalsausprägung abhängen, aber sie dürfen von einem anderen Merkmal abhängig sein. Wenn beispielsweise Daten zu Alter und Alkoholkonsum gesammelt werden und ältere Menschen besonders ungern Angaben zum Alkoholkonsum machen, so können die fehlenden Werte trotzdem MAR sein. Wichtig dabei ist, dass Menschen, die eine besondere Merkmalsausprägung haben - also in diesem Fall beispielsweise viel Alkohol trinken - genauso oft die Daten angeben wie andere, sonst wären die Daten nicht MAR. Wenn die fehlenden Werte weder vom Alter noch vom Alkoholkonsum abhängen, so können die fehlenden Daten als MCAR bezeichnet werden.

3.2 Systematische Verteilungsmuster fehlender Daten

Wenn aufgrund einer bestimmten Merkmalausprägung Daten wegbleiben, so ist deren Fehlen systematisch. Im Folgenden sollen zwei für die Marktforschung relevante systematische Mechanismen skizziert werden: Vom intra-variablen Ausfallmechanismus spricht man, wenn bei einer bestimmten Variable bestimmte Ausprägungen besonders häufig fehlen. Das ist der Fall, wenn beispielsweise bei einer Datenerhebung zum Einkommen überproportional viele niedrige Werte fehlen: Geben beispielsweise überdurchschnittlich viele Geringverdiener ihr Einkommen nicht an, so gelten die fehlenden Einkommensdaten als systematisch fehlend. Möglich ist aber auch eine Abhängigkeit fehlender Werte eines Merkmals von einem anderen Merkmal. In diesem Fall spricht man von einem inter-variablen Ausfallmechanismus. Dies könnte beispielsweise dann der Fall sein, wenn der Interviewte, der sein Einkommen nicht verraten möchte, arbeitslos ist (Herrmann/ Homburg, 2000, S.86ff).

3.3 Strukturanalyse und Testverfahren auf Verteilungsmuster

Im Rahmen eines Analyseverfahrens lässt sich eine zufällige Verteilung fehlender Werte leider nicht hinreichend beweisen. Mit den statistischen Techniken lassen sich lediglich notwendige Bedingungen für zufällige Verteilungen testen. Dabei kann es für die Analyse durchaus hilfreich sein, wenn schon während der Datenerfassung die Ursachen für das Ausbleiben der Daten kenntlich gemacht werden (Flagging).

Mit Hilfe von deskriptiver Statistik kann man zunächst die Datenmatrix grafisch darstellen und sich einen ersten Eindruck über mögliche Konzentrationen fehlender Werte verschaffen. Als grafische Mittel eignen sich Sterndiagramme, Boxplots und Matrizen, wo die Variablen und Merkmale gegenübergestellt werden. Um die Darstellung übersichtlich zu machen, ist es sinnvoll die Matrizen objektweise und merkmalweise zu sortieren. So können gegebenenfalls Muster entdeckt werden. Als nächstes ist es sinnvoll, so genannte Missing-Data-Maße zu berechnen (Praxmarer, 1998, S.111), um mögliche Konzentrationen aufzuspüren. Es gibt absolute und relative Maße. Bei absoluten Maßen handelt es sich um die Berechnung der Anzahl der vorhandenen Werte oder der Anzahl der fehlenden Werte für die Objekte, Merkmale und Matrizen. Die relativen Maße werden in den entsprechenden Anteilen gemessen. Das Ausmaß fehlender Werte lässt sich durch kumulierte und nichtkumulierte Anzahl der Ausfälle bestimmen. Darüber hinaus gibt es Zusammenhangsmaße, wie z.B. Korrelationskoeffizienten, die auf Beziehungen hindeuten könnten. Zusammenhänge lassen sich am besten mit Hilfe der explorativen Analyse herausfinden. Es gibt folgende Analysemethoden, die herangezogen werden können: Korrelationsanalyse, Faktorenanalyse und Clusteranalyse. Abhängigkeiten und Beziehungen lassen sich mit diesen Verfahren allerdings nur aufzeigen, aber leider nicht beweisen. Mit Hilfe der induktiven Statistik können Tests auf einen systematischen Zusammenhang durchgeführt werden. Dabei wird die Verteilung der vorhandenen Daten mit derjenigen aus der Stichprobe der Ausgangsdaten verglichen. Wenn man sich sicher sein kann, dass die gezogene Stichprobe die Grundgesamtheit repräsentiert, kann man auch an Stelle der Stichprobenverteilung die Verteilung der Grundgesamtheit verwenden. Je nach Skalenniveau der Daten lassen sich verschiedene Tests anwenden. Dabei wird unter der Nullhypothese ein zufälliger Ausfallmechanismus angenommen. Wird die Nullhypothese abgelehnt, liegt höchstwahrscheinlich ein systematischer Ausfallmechanismus zugrunde (Bankhofer, 1995, S.70ff). Bei metrischen, also intervall- oder ratioskalierten Daten, sind mögliche Tests z.B. der der Kolmogoroff-Smirnoff-Test oder der Chi²-Test. Diese Anpassungstests sind bei großen Datensätzen eher ungeeignet, signifikant die Abhängigkeit aufzuzeigen. Besser geeignet sind parametrische Einstichprobentests, wie beispielsweise der t-Test. Beim t-Test werden die Lagemaße der zu vergleichenden Verteilungen auf signifikante Unterschiede getestet. Falls die Nullhypothese abgelehnt wird, liegt höchstwahrscheinlich ein systematischer Zusammenhang vor. Bei kardinal skaliertem Datensatz kann die Varianz oder der Mittelwert zur Überprüfung herangezogen werden. Liegen ordinal skalierte Daten vor, kann der Vorzeichentest angewendet werden.

Mit dem Testverfahren nach Little lassen sich Unterschiede in Bezug auf MAR und MCAR erkennen. Die dem Test zugrunde liegende Idee ist der Vergleich zwischen Merkmalsmittelwerten von Objekten mit gleichen Ausfallmustern und den Gesamtmittelwerten bei vollständigen Daten. Die Datenausprägungen müssen normalverteilt sein. Wenn die Abweichungen signifikant sind, lehnt man in Folge dessen die MAR-Annahme ab und es liegt ein systematischer Ausfallmechanismus vor. Sind die Abweichungen nicht signifikant, ist die notwendige Bedingung für ein zufälliges Verteilungsmuster gegeben. Im Hinblick auf die MCAR-Annahme kann der Testansatz so modifiziert werden, dass eine Abhängigkeit der Ausprägungen eines Merkmals von den Ausprägungen eines anderen Merkmals auf signifikante Unterschiede untersucht wird.

[...]


1 Güllner, Manfred (7.5.2004), Forsa, Vorlesung zum Thema Umfragen

Ende der Leseprobe aus 21 Seiten

Details

Titel
Fehlende Werte in der Marktforschung Problembehandlung und Diskussion
Hochschule
Freie Universität Berlin  (Marketing-Department)
Note
1,7
Autor
Jahr
2004
Seiten
21
Katalognummer
V70799
ISBN (eBook)
9783638629119
ISBN (Buch)
9783638769204
Dateigröße
675 KB
Sprache
Deutsch
Anmerkungen
Diese Arbeit beschreibt die Arten von fehlenden Werten (i.S.v. Missing Data), beleuchtet die Lösungsmöglichkeiten und gibt praktische Handlungsempfehlungen für den Umgang. Beim Vorkommen fehlender Werte muss man zunächst Klarheit über die Struktur des Ausfalls gewinnen, um die richtige Lösung, bzw. Korrektur anzuwenden. Man muss prüfen, ob der Ausfallmechanismus zufällig oder systematisch ist. Ein Ignorieren dieses Problems oder die Benutzung einer Ad-hoc-Lösung kann das Ergebnis verzerren.
Schlagworte
Fehlende, Werte, Marktforschung, Problembehandlung, Diskussion
Arbeit zitieren
Milosz Splawinski (Autor:in), 2004, Fehlende Werte in der Marktforschung Problembehandlung und Diskussion, München, GRIN Verlag, https://www.grin.com/document/70799

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Fehlende Werte in der Marktforschung Problembehandlung und Diskussion



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden