Lade Inhalt...

Einstieg in die Statistik. Grundlagen für die anwendungsorientierte Datenverarbeitung

Fachbuch 2015 185 Seiten

Statistik

Leseprobe

Inhalt

Vorwort... 9

Vorbemerkungen... 11

1. Leitgedanken... 13

2. Skalen... 18

3. Erhebungen... 23

4. Häufigkeiten... 28

5. Summenkurven... 34

6. Kreuztabellen... 40

7. Lokalisationsmaße... 43

8. Variabilitätsmaße... 49

9. Korrelationsmaße... 54

10. Zufallsexperimente... 59

11. Wahrscheinlichkeitsermittlungen... 66

12. Bedingte Wahrscheinlichkeiten... 69

13. Kombinierte Zufallsexperimente... 75

14. Wahrscheinlichkeitsverteilungen... 82

15. Theoretische Verteilungen... 91

16. Zufallsstichproben... 99

17. Schätzungen... 105

18. Prüfverfahren... 111

19. Regressionsanalysen... 126

20. Abschlussbemerkungen... 133

Abbildungsverzeichnis... 135

Anhang 1: Rechenformeln... 137

Anhang 2: SPSS Statistics... 144

Anhang 3: Beispiele statistischer Prüfverfahren mit SPSS... 149

Anhang 4: Kriterien für Kennzahlen... 156

Anhang 5: Auszug aus der Fehlertoleranztabelle... 157

Anhang 6: Auszug aus der Standardnormalverteilungstabelle... 158

Literatur... 159

Internetquellen... 172

Symbole... 175

Abkürzungen... 179

Index... 180

Autor... 183

Hinweis... 184

Vorworte

Statistik fundiert wissenschaftliche Arbeiten und objektiviert wirtschaftliche Beschlüsse. Statistik reflektiert die Lebensverhältnisse eines Landes und beinhaltet vielfältige Werkzeuge, die sachgerecht und fachkundig umgesetzt belastbare Entscheidungsgrundlagen erzeugen. Daher nimmt die statistische Grundausbildung im Studium auch einen prominenten Platz ein. Axel Baumann nimmt diese Grundausbildung ernst und vermittelt Auszubildenden in seinem Buch die Grundlagen der Statistik anschaulich und verständlich. Das Buch von Axel Baumann führt in das Gedankengut, die Werkzeuge und die Sprache der Statistik ein. Es ermöglicht allen Leserinnen und Lesern den Zugang zur angewandten Statistik und hilft, statistische Arbeiten der Praxis besser beurteilen, verstehen und umsetzen zu können.

Bernd Rall - Professor Dr.-Ing. Studiengangsleiter BWL Industrie

Mit Hilfe von speziellen Computerprogrammen lassen sich problemlos komplexe statistische Analysen der Praxis mit wenigen Klicks umsetzen. Die automatisierte Datenverarbeitung kann quasi im Blindflug erledigt werden. Leicht können sich so unsachgemäße Anwendungen statistischer Methoden einschleichen. Eine statistische Grundausbildung ist daher für die korrekte Anwendung der Statistik jedem zu empfehlen. Das Buch von Axel Baumann unterstützt diese Grundausbildung und ermöglich Personen aus der Praxis komprimiert, anschaulich und verständlich den Zugang zur Statistik. Grundlagen der Statistik, die für das Verständnis der Datenverarbeitung unerlässlich sind, werden praxisorientiert, plakativ und zügig erklärt. Axel Baumann ist ein sehr engagierter und hilfsbereiter Trainer für SPSS und dieses Engagement überträgt er auch auf dieses Grundlagenbuch. Axel Baumann kommt aus der Wirtschaft und ist spezialisiert auf Schulungen im Bereich Markt-/Marketingforschung sowie Marketing und SPSS.

Frank Sautter - Head of Divisional Communication

Häufigkeiten, Kennzahlen, Korrelationen und Wahrscheinlichkeiten - all dies sind essenzielle Begrifflichkeiten der Statistik, mit denen sich Studierende während ihres akademischen Werdegangs auseinandersetzen. Vielen von ihnen fällt es dabei schwer, sich einen Überblick über die komplexen Themenbereiche der Statistik zu verschaffen. Ein Buch, das diese lebendig, kompakt und gleichzeitig anschaulich darstellt, wäre ein überaus praktischer und gefragter Studienbegleiter. Genau dies leistet das Buch von Axel Baumann. Es vermittelt zum Einstieg in das Themenfeld der Statistik wesentliche Grundlagen anhand anwendungsorientierter Szenarien. Doch nicht nur Studierenden sei das Buch nahegelegt. Es eignet sich ebenfalls für alle, die sich in Beruf und Praxis mit den Grundlagen der Statistik befassen möchten. Axel Baumann lernte ich als offenen, äußerst hilfsbereiten Dozenten und Betreuer meiner Masterthesis an der FOM Hochschule für Ökonomie und Management kennen. Er blickt auf eine langjährige Tätigkeit als kompetenter Marktforscher, Praktiker und Lehrender zurück und hat sich auf die Bereiche Marketing, Markt- und Marketingforschung sowie auf Schulungen zu Softwareanwendungen aus dem Bereich Business Intelligence (wie zum Beispiel SPSS) spezialisiert.

Kristin Müller - Master of Arts (M. A.) in Management (Marketing Communications)

Wenn man an Kursen automatisierter Datenverarbeitung erfolgreich teilnimmt und dabei auch das dazu nötige Hintergrundwissen der zugrundeliegenden statistischen Konzepte anschaulich und verständlich vermittelt bekommt, dann freut man sich als Kursteilnehmender doppelt. Genau dieses praxisorientierte Hintergrundwissen liefert das Buch von Axel Baumann nun zum Nachlesen und unterstützt jeden bei der Umsetzung statistischer Methoden im Alltag. Das Buch ermöglicht den Einstieg in die Statistik für Praktiker und erläutert Statistikgrundlagen für die automatisierten Datenverarbeitungen mit zum Beispiel SPSS Statistics. Axel Baumann ist ein geduldiger, kompetenter und sehr engagierter Trainer aus der Praxis, der es versteht, stringent und fokussiert dieses Basiswissen über die Statistik anderen Praktikern näher zu bringen. Herr Baumann verfügt über eine langjährige Erfahrung als Marketingforscher und Lehrender. Er schult in den Bereichen SPSS, Marketing, Markt- und Marketingforschung.

Melanie Henning - Dipl.-Bibl., Fachbereich Gesundheitsschutz der BGW

Vorbemerkungen

Statistische Methoden werden genutzt um Daten (Messwerte) in Informationen (zweckbezogenes Wissen) umzuformen und die Interpretationsbasis und Entscheidungsgrundlage zu fundieren. Die Messwerte werden dabei so komprimiert, dass sich relevante Einsichten und Erkenntnisse herauskristallisieren. Eine statistische Grundausbildung, die das Verständnis für den Einsatz statistischer Methoden schärft, ist folglich zu empfehlen.

Die vorliegende Veröffentlichung beinhaltet Ausführungen über ausgewählte, unentbehrliche Grundlagen der Statistik für die Praxis. Es soll eine Basis entstehen, die für das Verständnis statistischer Alltagsanwendungen und die Nutzung des Computerprogramms SPSS benötigt wird. Über die Statistik, die beeindruckende Analyseverfahren, mathematische Ableitungen und Beweise hervorbrachte, könnten umfangreiche Bücher geschrieben werden und das wurde auch getan. Die hier vorliegende Publikation ist ein gerafftes Buch, ein Einstiegswerk, welches Eckpfeiler der Statistik komprimiert und anwendungsorientiert vermitteln will. Das Buch ist zudem als Ergänzung zum Buch „Anwendungsorientierter Einstieg in die Datenverarbeitung mit SPSS“ (Baumann, A. (2014)) gedacht. Die hier veröffentlichten Beispiele und Erläuterungen reflektieren auf dieses Buch. Der Autor erhebt jedoch bewusst keinen Anspruch auf Vollständigkeit aller Methoden und wissenschaftlichen, mathematischen Ausführungen. Diese Aspekte sind im Bedarfsfall durch vertiefende Literatur, beispielsweise aus dem Literaturverzeichnis, zu ergänzen.

Zielgruppen der Publikation sind Auszubildende, Studierende und Interessierte, die sich mit Grundlagen der Statistik beschäftigen oder erneut auseinandersetzen und hierfür eine fokussierte Schrift beziehungsweise ein Repetitorium benötigen. Diese Veröffentlichung wendet sich nicht an Mathematiker/innen und Fortgeschrittene der Ausbildung. Die Inhalte dieser Lehrschrift stammen aus den Workshops des Autors und sind praxiserprobt. Die Publikation ist konzipiert als Textbuch zur eigenständigen Erschließung von Grundlagen der Statistik, als Textbuch für entsprechende anwendungsbezogene Lehrveranstaltungen und als Unterstützungswerk bei der Datenverarbeitung mit SPSS (Hintergrundwissen).

Die vorliegende Publikation beginnt mit dem Leitgedanken der Statistik und mit grundlegender Terminologie der Statistik. In den darauffolgenden Kapiteln werden die Themen Häufigkeitsverteilungen verschiedener Merkmale, Basiskenngrößen der Statistik wie zum Beispiel Mittelwert und Varianz und die Themen Zufallsvorgänge und Wahrscheinlichkeit sowie theoretische Verteilungen behandelt. Danach sind Punkt- und Intervallschätzung und Testverfahren der Statistik Gegenstand der Publikation. Die Veröffentlichung schließt mit Ausführungen zur Regressionsanalyse und Abschlussbemerkungen zu weiteren statistischen Analysebereichen und SPSS ab. Jedes Kapitel endet mit einer Zusammenfassung der zentralen Kapitelinhalte als Quick-Reference. Rechenformeln und Umsetzungshinweisen der beschriebenen statistischen Grundzüge in IBM SPSS Statistics schließen sich nach dem letzten Kapitel an.

Einen besonderen Dank geht an Frau Gabriele Baumann, die mit viel Geduld und Ausdauer die Texte des Buches gelesen und wertvolle inhaltlichen Hinweisen und Vorschläge geliefert hat. Den Leserinnen und Lesern des Buches danke ich für das Interesse an Statistik und an dieser Veröffentlichung mit ihren Ausführungen.

Abbildung 1: Autor[1]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

1. Leitgedanken

Auszug aus einem Landwirtschaftsbericht eines Bio-Landwirts aus Baden-Württemberg (fiktives Anschauungsbeispiel):

§ Die Süßkirschenernte hat sich im Jahr 2014 gegenüber dem Vorjahr auf dem Flurstück 123 verbessert. Ergab im Jahr 2013 die Süßkirschenernte der dortigen 12 Kirschbäume noch rund 26 Kilogramm pro Baum, so erzielte die Kirschenernte im Jahr 2014 rund 35 Kilogramm Süßkirschen pro Baum.

§ Der Süßkirschenverkauf erreichte damit im Berichtsjahr bereits 23 Prozent, der Apfelverkauf 42 Prozent, der Verkauf von Walnüssen 20 Prozent und der Himbeerverkauf 15 Prozent des Jahresumsatzes.

§ Die geernteten Süßkirschen im Jahr 2014 können je nach Größe und Farbgebung in Kategorien eingeteilt werden. Für die Kategorienzuordnung wird die Zuordnungsvorschrift des Landwirtschaftsverbandes verwendet. In der ersten Kategorie (große Kirschen, helle Farbgebung) befinden sich 40 Prozent, in der zweiten Kategorie (kleine Kirschen, helle Farbgebung) 15 Prozent, in der dritten Kategorie (große Kirschen, dunkle Farbgebung) 25 Prozent und in der vierten Kategorie (kleine Kirschen, dunkle Farbgebung) 20 Prozent der geernteten Süßkirschen. Die erste Kategorie ist die am häufigsten besetzte Kategorie. Die Wahrscheinlichkeit, beim Essen der Kirschen eine Frucht aus der ersten Kategorie zu erwischen, ist daher sehr hoch.

§ Darüber hinaus besitzen die Kirschen der einzelnen Kategorien einen unterschiedlichen Gehalt an Wasser und Fruchtzucker (fiktives Beispiel). Den Wasser- und Fruchtzuckergehalt der Früchte mit der Messvorschrift des Landwirtschaftsverbandes gemessen, ergibt für die erste Kirschenkategorie einen niedrigen, für die zweite Kirschenkategorie einen hohen, für die dritte Kirschenkategorie einen sehr hohen und für die vierte Kirschenkategorie einen extrem hohen Wasser- und Fruchtzuckergehalt (fiktives Beispiel). Die erste Kategorie der Kirschen erzielt beim Verkauf eines Kilogramms Kirschen einen Euro, die zweite Kategorie zwei Euro, die dritte Kategorie drei Euro und die vierte Kategorien vier Euro pro Kilogramm verkaufter Kirschen. Wird davon ausgegangen, dass alle geernteten Kirschen verkauft und kategorisiert werden können, dann kann auf der Basis dieser Verkaufspreise der Gesamtumsatz mit Süßkirschen des Landwirts im Jahr 2014 ermittelt werden.

Dieser Auszug aus dem Bericht des Bio-Landwirts soll den Leitgedanken der Statistik demonstrieren. So ist Statistik das Ergebnis einer systematischen Zählung und Aufzeichnung sowie Analyse von Massenerscheinungen. In diesem Sinne wurde im Anschauungsbeispiel oben der Umfang der durchschnittlichen Erntemenge pro Kirschbaum im Jahr 2013 und 2014 festgehalten. Massenerscheinungen sind Ereignisse, die unter gleichen Bedingungen immer wieder beobachtet werden können.

Der Beweggrund der Erstellung der Statistik ist ein Informationsbedarf - hier zum Beispiel über die Kirschenernte des Bio-Landwirts im Jahr 2014. Untersuchungsziel ist die Schließung der Informationslücke über die konkrete Gestalt einer Massenerscheinung. Anhand der erhobenen Informationen (Datensatz) und erstellten Statistiken lassen sich unter anderem relevante Theorien ableiten oder vorliegende Hypothesen empirisch überprüfen. Hat sich beispielsweise die Kirschenernte im Jahr 2014 zum Vorjahr signifikant besser entwickelt und kann daraus eine Aussage über die Zukunft oder kann ein Modell der Erntegegebenheiten abgeleitet werden? Statistiken sind daher notwendig, wenn empirische Befunde zahlenmäßig erfasst werden sollen (vgl. Bortz, J., u. a. (2010), S. 3 ff.).

Abbildung 2: Erntestatistik-Beispiel [2]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Von Interesse sind dabei individuelle problem- und entscheidungsrelevante, lösungsorientierte und aussagekräftige Ausprägungen von Eigenschaften der Beobachtungseinheiten (vgl. Bühner, M., u. a. (2009), S. 15 ff.). Die Eigenschaften werden auch als Merkmale oder Variable bezeichnet. Im Anschauungsbeispiel ist beispielsweise der Wasser- und Fruchtzucker-gehalt ein Merkmal und die Süßkirschen sind die Beobachtungseinheiten (Untersuchungseinheiten, Fälle, Merkmalsträger, Erhebungseinheiten) des Landwirts.

Der Wasser- und Fruchtzuckergehalt einer Süßkirsche kann nun verschiedene Ausmaße, sogenannte Ausprägungen, besitzen. Ausprägungen von Merkmalen werden als Merkmalsausprägungen bezeichnet.

Abbildung 3: Beobachtungsobjekt, Merkmal, Merkmalsausprägung [3]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Zusammenfassung:

! Statistik ist das Ergebnis einer systematischen Zählung und Aufzeichnung sowie Analyse von Massenerscheinungen.

! Massenerscheinungen sind Ereignisse, die unter gleichen Bedingungen immer wieder beobachtet werden können.

! Untersuchungsziel ist die Schließung der Informationslücke.

! Statistiken sind daher notwendig, wenn empirische Befunde zahlenmäßig erfasst werden sollen.

! Von Interesse sind relevante Ausprägungen von Eigenschaften der Beobachtungseinheiten.

! Ausprägungen von Merkmalen werden als Merkmalsausprägungen bezeichnet.

Ergänzung:

Arbeitsschritten der Datenerfassung und Datenaufbereitung (Arbeitsschritte protokollieren)

1. Fälle nummerieren und danach logisch sortieren.

2. Aussortieren grob fehlerbehafteter Fälle (systematische Fehler, ausgeprägte Datenlücken) und Plausibilitätsprüfungen der Fälle.

3. Codierung der Merkmalsausprägungen (jede Variable Kurzbezeichnung; jede Merkmalsausprägung Zahl, Symbol).

4. Erhobenes Datenmaterial in Datenbank einlesen/eingeben.

5. Vorgenommene Datenbankeingaben kontrollieren, gegebenenfalls korrigieren/optimieren (Häufigkeitszählungen, Auffälligkeiten, fehlende Werte, Fälle sortieren, einzelne Fälle zufällig auswählen, Sichtkontrollen, Codierungen prüfen, Transformationen, Werte-Klassen bilden, Kennwerte erzeugen).

6. Danach Auswertungen, Analysen starten und Ergebnisse interpretieren sowie Berichte und Tabellen erstellen.

2. Skalen

Die Konkretisierung der interessierenden Merkmalsausprägungen (Realisationen der untersuchten Zufallsvariablen) mündet in die Aufgabenstellung der Skalierung der Variablen. Im Landwirtschaftsbericht von Kapitel eins ist zum Beispiel die interessierende Merkmalsausprägung die Farbgebung einer Kirsche. Die Skalierung der Farbgebung einer Kirsche geschieht dann anhand der Erstellung eines Maßstabs oder einer Skala mit zum Beispiel unterschiedlichen roten Farbtönen von Kirschen. Die Skalierung ist also die Entwicklung eines geeigneten Maßstabs zur Konkretisierung der interessierenden Merkmalsausprägungen einer Variablen.

Abbildung 4: Skalierung [4]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Jeder Ausprägung eines Merkmals eines Merkmalsträgers wird anhand der entwickelten Skala ein Symbol oder eine Zahl zugeordnet (Messung). Ein solches Zeichen stellt das Äquivalent der jeweiligen Ausprägung des Merkmals dar. Eine Skala umfasst daher die Menge möglichst aller denkbaren Merkmalsausprägungen. Der Einsatz einer Skala führt dadurch zur systematischen Zuordnung von Zeichen zu den zu beobachteten Merkmalsausprägungen (vgl. Bühner, M., u. a. (2009), S. 17 f.).

Das Resultat dieser Zuordnungsarbeit sind Daten beziehungsweise zeichenmäßig erfasste Variablen (Messwerte) der Beobachtungseinheiten. Die Relationen zwischen den Beobachtungen werden durch die Relationen zwischen den zugeordneten Zeichen repräsentiert (Homomorphismus).

Die zur Messung verwendeten Skalen determinieren die Messwerteigenschaften (Datentypen, Messniveau), die Analyseoptionen und dadurch den Informationsgehalt der Datenerhebung (vgl. Abbildung 5). Dementsprechend existieren Nominal-, Ordinal- (Rang-), Intervall- und Ratioskalen (Verhältnisskalen, Proportionalskalen). Nominal- und Ordinalskalen werden auch als nicht-metrische (kategoriale) Skalen bezeichnet und Intervall- sowie Ratioskalen werden als metrische Skalen bezeichnet (vgl. Backhaus, K., u. a. (2006), S. 4 ff.; Bortz, J., u. a. (2010), S. 12 ff.; Bühner, M., u. a. (2009), S. 19 ff.).

Ein Beispiel für den Einsatz einer Nominalskala ist die Befragung von Personen, welche Früchtekategorien sie ernten (Verschiedenheit der Beobachtungseinheit). Als Nennungen der Befragten können die Früchtekategorien Süßkirsche, Apfel, Walnuss, Himbeere etc. auftauchen. Auf diese Weise könnten alle möglichen, geernteten Früchtekategorien und die am häufigsten geernteten Früchtekategorien ermittelt werden. Ein Beispiel für den Einsatz einer Ordinalskala ist die Befragung von Personen, welche Früchtekategorien sie „wenig“, „viel“ oder „sehr viel“ ernten. Die Nennungen der Befragten können über die Verschiedenheit der Beobachtungseinheiten sowie über die Bedeutung und Rangordnung einzelner Kategorien informieren. Diese weiteren Informationen über die Beobachtungseinheit ergeben sich aufgrund der logischen Ordnungsstruktur von „wenig“ zu „viel“ zu „sehr viel“. Zum Beispiel können Süßkirschen, von denen „sehr viel“ geerntet werden, eine hohe Bedeutung besitzen und eine entsprechende Rangordnung innerhalb der Früchtekategorien einnehmen. Der Einsatz der Ordinalskala führt damit zur Zunahme der Aussagekraft und des Informationsgehaltes der Messwerte (Daten). Das Messniveau ist gestiegen.

Metrische Skalen (Intervall- und Ratioskalen) kennzeichnen sich dadurch aus, dass numerische Angaben wie zum Beispiel „Ernte in Kilogramm“, „Umsatz in Euro“, „Preise in Euro pro Kilogramm“ usw. induziert werden. Die entsprechenden Angaben lassen sich auf Verschiedenheit hin untersuchen, sie lassen sich sinnvoll ordnen und sie lassen sich umfangreich mathematisch bearbeiten (vgl. Baumann, A. (2014), S. 29; nachfolgende Abbildung 5). Zusätzlich zu den Distanzen zwischen den Messwerten lassen sich bei Ratioskalen auch Messwertverhältnisse berechnen. Die Aussagekraft und der Informationsgehalt der Messwerte ist daher maximal (hohes Messniveau). Daten, die mit einer Intervall- oder Ratioskala erzeugt wurden, besitzen somit auch die Eigenschaften von Daten, die mit einer Nominal- oder Ordinalskala geschaffen wurden. Metrische Daten (Intervall-, Ratioskala) lassen sich außerdem in nicht-metrische Daten (Nominal-, Ordinalskala) - mit allen Konsequenzen für deren Informationsgehalt – transformieren (zum Beispiel: Verkaufspreis 4 € → viel; Verkaufspreis 2 € → wenig usw.). Allerdings lassen sich nicht-metrische Daten nicht in intervall- oder ratioskalierte Daten transformieren. Eine Zusammenschau der Skalendiskussion kann der Abbildung 5 entnommen werden.

Schlussendlich sollen die Messungen der Merkmalsausprägungen objektiv, reliabel und valide (vgl. Altobelli, C. F. (2007), S. 166 ff.; Bortz, J., u. a. (2010), S. 4 ff.) durchgeführt werden:

§ Objektiv sind die Messungen, wenn sie frei von subjektiven Einflüssen sind. Die Beurteilungen von Merkmalen stimmen bei gleichartigen Beobachtungen überein. Gut geeichte Messwerkzeuge ermöglichen objektive Datenerhebungen.

§ Reliabel sind Messungen, wenn Nachmessungen unter gleichbleibenden Bedingungen identische Werte ergeben. Die Beurteilungen von Merkmalen sollten bei gleichartigen Beobachtungen zu verschiedenen Zeitpunkten unter unveränderten Bedingungen übereinstimmen.

§ Valide sind Messungen, wenn mit dem entwickelten Messwerkzeug unbestreitbar die beabsichtigten Merkmale erfasst werden.

Zur Überprüfung der Gütekriterien Reliabilität und Validität mit Hilfe der Mathematik vergleiche man zum Beispiel die Erläuterungen bei Decker, R., u. a. (2002), S. 265 ff..

Abbildung 5: Skalen [5]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Zusammenfassung:

! Die Skalierung ist die Entwicklung eines geeigneten Maßstabs (Skala) zur Messung der Variablen.

! Jeder Ausprägung einer Eigenschaft wird anhand der entwickelten Skala eine Zahl oder ein Symbol zugeordnet (Messung).

! Eine Skala umfasst die Menge möglichst aller denkbaren Merkmalsausprägungen.

! Skalen determinieren die Messwerteigenschaften (Datentypen), die Analyseoptionen und dadurch den Informationsgehalt der Datenerhebung.

! Es existieren Nominal-, Ordinal-, Intervall- und Ratioskalen.

! Die Messungen der Merkmalsausprägungen sollen objektiv, reliabel und valide durchgeführt werden.

3. Erhebungen

Vorstellbar ist, dass für einen Landwirtschaftsbericht (vgl. Kapitel 1) alle existierenden Süßkirschen (Beobachtungsobjekte) eines Landes (Vollerhebung) und nicht nur einzelne, ausgewählte Beobachtungsobjekte untersucht werden sollen. Zum Beispiel könnte die Erhebung des Wasser-/Frucht-zuckergehalts jeder vorkommenden Süßkirsche des Landes Baden-Württemberg im Jahr 2014 interessant sein. Alle Süßkirschen aller Süßkirschenbäume von Baden-Württemberg des Jahres 2014 stellen dafür die sogenannte Grundgesamtheit dar. Eine Grundgesamtheit umfasst alle bezüglich des Untersuchungsziels festgelegten Untersuchungsobjekte, die sich durch sachlich, zeitlich und räumlich definierte, gemeinsame Merkmale zusammenfassen lassen (vgl. Decker, R., u. a. (2002), S. 183 ff.; Hammann, P., u. a. (1994), S. 105 f.; Koschnick, W. J. (1995 a), S. 370).

Häufig ist es jedoch unmöglich oder ineffizient, alle Beobachtungseinheiten der Grundgesamtheit zu untersuchen. Die Grundgesamtheit lässt sich auch nur in den seltensten Fällen vollständig erfassen. Vollerhebungen sind daher sehr aufwendig und meist nicht praktikabel. Aus diesem Grund wird aus der Grundgesamtheit nach bestimmten Kriterien und Regeln eine Anzahl von Beobachtungseinheiten ausgewählt (Stichprobe; vgl. Altobelli, C. F. (2007), S. 182 ff.; vgl. Decker, R., u. a. (2009), 184 ff.). Anhand der Untersuchung dieser Anzahl von Fällen (Stichprobenumfang) werden dann die Ausprägungen der interessierenden Variablen beobachtet und Informationen über das Untersuchungsmerkmal der definierten Menge von Beobachtungseinheiten gewonnen (Stichprobenerhebung, Teilerhebung; vgl. Bühner, M., u. a. (2009), S. 149 ff.; Hammann, P., u. a. (1994), S. 105 f.).

Die Stichprobe als Teilmenge der Grundgesamtheit sollte daher ein möglichst getreues (repräsentatives) Abbild der Grundgesamtheit darstellen. Weicht eine Stichprobe von der Struktur der Grundgesamtheit ab, dann können Gewichtungen die Abweichungen ausgleichen (vgl. Altobelli, C. F. (2007), S. 216 f.; Hagenah, J. (2007), S. 1 ff.). Die aus einer Stichprobe abgeleiteten Erkenntnisse besitzen Allgemeingültigkeit und sind repräsentativ (das heißt, sie werden auf die Grundgesamtheit übertragen), wenn die Generierung der Stichprobeneinheiten aus der Grundgesamtheit mit Hilfe eines qualifizierten Zufallsmechanismus erfolgt (Zufallsstichprobe; vgl. Decker, R., u. a. (2002), S. 187 ff.; Hammann, P., u. a. (1994), S. 108 f.; Levy, P. S., u. a. (1999); Thomas, P. C. L., u. a. (1995), S. 5 ff.).

Stichproben werden anhand eines Stichprobenplanes realisiert. Komplexe Stichprobenauswahlverfahren sind zum Beispiel die Stichprobenpläne des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute (vgl. ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. (2014), S. 5 ff.; Baumann, A., u. a. (2010), S. 50 ff.; Hammann, P., u. a. (1994), S. 128 f.). Folgende Arbeitsschritte kennzeichnen kurzgefasst das Vorgehen des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute:

§ Auswahl der Sampling Points (Regionen),

§ Auswahl der Haushalte innerhalb der Sampling Points ,

§ Auswahl der Zielperson (Testperson) im ausgewählten Haushalt.

Auf diese Weise ist die Auswahlbasis der Stichprobe leichter beschaffbar und die Durchführung der Erhebung soll weniger aufwendig werden (Achtung: Schichtungs-, Klumpungseffekte, systematische Fehler; vgl. Hammann, P., u. a. (1994), S. 108 f.). Ein ähnliches Ziel verfolgen die sogenannte geschichtete Zufallsauswahl und die Klumpenauswahl. Die Grundgesamtheit wird vor der Auswahl der Beobachtungsobjekte zunächst auf spezifische Art und Weise strukturiert (vgl. zum Beispiel Baumann, A., u. a. (2010), S. 50 f.).

Bei der einfachen, reinen Zufallsauswahl erfolgt die Auswahl der Beobachtungsobjekte auf der Basis von Zufallszahlen oder einer systematischen Auswahl. Jedes Beobachtungsobjekt soll mit gleich großer Wahrscheinlichkeit in die Stichprobe gelangen (Laplace-Experimente).

Das Quotenauswahlverfahren greift explizit die Merkmalsstruktur der Grundgesamtheit bei der Stichprobenziehung auf (Quotenplan, bewusste Auswahl). Existiert ein bestimmter Anteil einer Merkmalsausprägung in der Grundgesamtheit, dann ist dieser Anteil auch in der Stichprobe repräsentiert (vgl. Altobelli, C. F. (2007), S. 186 f.; Baumann, A., u. a. (2010), S. 52 f.; Diekmann, A. (2008), S. 390 ff.).

Abbildung 6: Quotenauswahl [6]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Allen Stichproben liegt ein Auswahlplan zugrunde. Festgelegt werden dabei (vgl. Hammann, P., u. a. (1994), S. 110 ff.):

1. Auswahlfundament (Liste möglichst aller Erhebungseinheiten),

2. Auswahlgrundsatz (Zufallsauswahl oder nicht zufällige Auswahl),

3. Auswahlmodell (mehrstufige Auswahl, Quotenauswahl etc.),

4. Auswahlmechanik (Zufallszahlen, systematische Auswahl),

5. Auswahlumfang (Anzahl Erhebungseinheiten; Achtung: Kosten, Aufwand, Genauigkeit der Ergebnisse).

Abbildung 7: Teilerhebungen im Überblick [7]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Die deskriptive Statistik stellt die gesammelten Daten übersichtlich in Form von Tabellen und Grafiken dar. Die induktive Statistik leitet mittels der Daten der Stichprobenerhebung allgemeingültige Aussagen (Wahrscheinlichkeitsaussagen) über die definierte Grundgesamtheit ab. Kennwerte der Grundgesamtheit werden geschätzt. Hypothesen über die Grundgesamtheit und Merkmale werden überprüft, zum Beispiel die Hypothese, dass sich die Süßkirschenernte in Baden-Württemberg signifikant besser entwickelt (vgl. Bortz, J., u. a. (2010), S. 79 f.; Leiner, B. (1994), S. 5 ff.). Die induktive (inferenzielle) Statistik begründet also mittels wahrscheinlichkeitstheoretischer Methoden (stochastische Modelle) Allgemeingültigkeiten (Repräsentationsschluss).

Zusammenfassung:

! Eine Grundgesamtheit umfasst alle bezüglich des Untersuchungsziels festgelegten Untersuchungsobjekte.

! Werden die Merkmalsausprägungen aller existierenden Beobachtungsobjekte gemessen, dann wird eine Vollerhebung umgesetzt.

! Die Auswahl einer Anzahl von Beobachtungseinheiten wird als Stichprobe bezeichnet.

! Die Stichprobe als Teilmenge der Grundgesamtheit sollte ein möglichst getreues (repräsentatives) Abbild der definierten Grundgesamtheit darstellen.

! Die deskriptive Statistik stellt die gesammelten Daten übersichtlich in Form von Tabellen und Grafiken dar.

! Die induktive Statistik begründet mittels wahrscheinlichkeitstheoretischer Methoden (stochastische Modelle) Allgemeingültigkeiten.

4. Häufigkeiten

Die Abnehmer von Süßkirschen verlangen, dass der Bio-Landwirt seine geernteten Süßkirschen je nach Farbgebung einzelnen Kategorien zuordnet. Für diesen Messvorgang verwendet er eine Nominalskala mit vier definierten Farbkategorien als Messkriterien. Süßkirschen mit dunkelroter Farbgebung werden gemäß dieser Skala zum Beispiel der Farbkategorie „1“ zugeordnet.

Diese Zuordnungsarbeit führt der Landwirt nun zum Beispiel mit 150 seiner (zufällig ausgewählten) geernteten Süßkirschen durch. Der Stichprobenumfang beträgt somit n = 150. Jede einzelne Süßkirsche der 150 zufällig ausgewählten Süßkirschen wird genau einer Farbkategorie zugeordnet. Zum Beispiel werden 75 der zufällig ausgewählten Süßkirschen der Farbkategorie „1“ zugeordnet und so weiter. Am Ende der Zuordnungsarbeit lässt sich die Anzahl der Süßkirschen jeder Farbkategorie feststellen. Die Anzahl der Süßkirschen der ersten Farbkategorie 1 ist bekanntlich 75 (n1 = 75) oder die Anzahl der Süßkirschen der i-ten Farbkategorie ist ni mit ni (1 ≤ i ≤ 4). Diese Anzahlen werden als absolute Häufigkeiten bezeichnet. Die absolute Häufigkeit der Süßkirschen der Farbkategorie „1“ ist also n1 = 75.

Die Division der absoluten Häufigkeit ni mit ni (1 ≤ i ≤ 4) durch den Stichprobenumfang n = 150 ergibt die entsprechende relative Häufigkeit pi mit pi (1 ≤ i ≤ 4). Die Summe aller absoluten Häufigkeiten ni mit ni (1 ≤ i ≤ 4) ergibt wiederum den Stichprobenumfang n = 150 und die Summe aller relativen Häufigkeit pi mit pi (1 ≤ i ≤ 4) ergibt logischerweise eins.

DDie Messkriterien (Merkmalsausprägungen) mit deren absoluten (vorliegenden) Häufigkeiten ergeben die Häufigkeitsverteilung. Die Messkriterien mit deren relativen Häufigkeiten ergeben die relative Häufigkeitsverteilung. Tabellen mit den Messkriterien und den entsprechenden aufgetreten Häufigkeiten führen zu Häufigkeitstabellen.

Abbildung 8: Häufigkeitstabelle [8]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Häufigkeitsverteilungen nominal- oder ordinalskalierter Merkmale lassen sich grafisch zum Beispiel als Balkendiagramm darstellen (vgl. Baumann, A., u. a. (2010), S. 111 ff.). Die erhobenen Merkmalsausprägungen führen dabei zu einzelnen Balken. Die Breite der Balken ist gleich und die Höhe der Balken korrespondiert mit den jeweiligen gemessenen Häufigkeiten der Merkmalsausprägung. Auf der Ordinatenachse können die möglichen Häufigkeiten abgetragen werden und auf der Abszissenachse die erhobenen Merkmalsausprägungen.

Häufigkeitsverteilungen ratioskalierter stetiger Merkmale lassen sich grafisch zum Beispiel als Liniendiagramm darstellen (vgl. Baumann, A., u. a. (2010), S. 110). Der Verlauf der Linie ergibt sich aufgrund der erhobenen Häufigkeiten der Merkmalsausprägungen. Auf der Ordinatenachse können wieder mögliche Häufigkeiten abgetragen werden und auf der Abszissenachse mögliche Merkmalsausprägungen.

Stetige Merkmale (vgl. Mayer, Ch., u. a. (2009), S 312 f.) - zum Beispiel die einzelnen Süßkirschenumsätze der Landwirte in Baden-Württemberg am Stichtag „YYYY-MM-DD“ - können sehr viele unterschiedliche, kleinteilige, kontinuierlich verlaufende Ausprägungen annehmen. Wenn zudem der Stichprobenumfang sehr groß ist (n = 30.000) und damit auch die erhobenen Merkmalsausprägungen sehr umfangreich und vielfältig ausfallen können (xi (1 ≤ i ≤ 30.000)), dann kann die Bildung von Intervallen (Klassen, Gruppen) der Merkmalsausprägungen die Datenerhebung sinnvoll komprimieren.

Die Intervallbildung führt zur Zusammenfassung der erhobenen Merkmalsausprägungen (Urwerte) zu übersichtlichen, besser handhabbaren Gruppen (vgl. Bamberg, G., u. a. (2008), S. 14; Bartel, H. (1971), S. 26). Definiert werden zum Beispiel m = 10 aneinandergrenzende, überlappungsfreie (disjunkte) Intervalle m j mit mj (1 ≤ j ≤ 10). Jedes einzelne Intervall mj definiert sich durch eine untere und obere Intervallgrenze. Die unteren Intervallgrenzen des ersten Intervalls und die obere Intervallgrenze des letzten Intervalls können bei Bedarf auch unendlich sein.

Die erhobenen Merkmalsausprägungen xi werden entsprechend ihrer konkreten Ausprägungen den passenden Intervallen zugeordnet. Zum Beispiel wird das Intervall „ab 1.000 Euro Umsatz bis unter 2.000 Euro Umsatz“ (m1) und das Intervall „ab 2.000 Euro Umsatz bis unter 3.000 Euro Umsatz“ (m 2) etc. gebildet. Die Umsätze x1 = 1.500 Euro, x2 = 1.700 Euro und x3 = 1.900 Euro werden somit dem Intervall „ab 1.000 Euro Umsatz bis unter 2.000 Euro Umsatz“ (m1) zugeordnet.

Abbildung 9: Intervalle [9]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Die Anzahl nj (1 ≤ j ≤ z) der den definierten Intervallen mj (1 ≤ j ≤ z) zugeordneten Merkmale kann wieder gezählt werden (Klassen-, Intervallhäufigkeiten, Intervallbesetzung). Im Umsatzbeispiel befinden sich drei Merkmale mit den Merkmalsausprägungen 1.500 Euro, 1.700 Euro und 1.900 Euro im Intervall m1. Die Anzahl nj repräsentiert die im Intervall mj enthaltenen Beobachtungen, die aufgrund der durchdachten Intervalleinteilung möglichst gleichmäßig im Intervall platziert sind.

Die Entscheidung, wie viele Intervalle gebildet werden, kann dabei von der Häufigkeitsverteilung der Beobachtungen abhängig gemacht werden (vgl. Bamberg, G., u. a. (2012 a), S. 14; Bartel, H. (1971), S. 26; Jenks-Caspall-Algorithmus unter Jenks, G. F., u. a. (1971), S. 217 ff.; „Faustregel: “). Wenige Intervalle können die Datenerhebung suboptimal komprimieren und sehr viele Intervalle können die Übersichtlichkeit der Datenerhebung beeinflussen. Die Schaffung der Übersichtlichkeit führt immer auch zu Informationsverlusten, da nun nicht mehr einzelne Beobachtungswerte, sondern Intervalle und deren Kenngrößen (zum Beispiel nj) analysiert werden.

Denkbar ist, dass alle gebildeten Intervalle die gleiche Breite besitzen (zum Beispiel 1.000 Euro). Bei der Bildung von Intervallen ist allerdings - wie bereits angedeutet - vorteilhaft, wenn sich die erhobenen Merkmalsausprägungen nicht in einem Teilbereich des Intervalls häufen. Ein Intervall sollte für seine enthaltenen Merkmalsausprägungen repräsentativ sein. Entsprechend sind daher die Intervallgrenzen festzulegen. Die Differenz zwischen einer oberen und unteren Intervallgrenze bestimmt die Breite dj des Intervalls. Die untere und obere Intervallgrenze addiert und durch zwei dividiert ergibt die Intervallmitte als „typische Merkmalsausprägung“ (Grad der Merkmalsausprägungen).

Alle nj mit den Intervallen mj führen zur Häufigkeitsverteilung des Merkmals. Das Balkendiagramm dieser Häufigkeitsverteilung wird ein Histogramm (Balken liegen überlappungsfrei nebeneinander; vgl. Mayer, Ch., u. a. (2009), S. 314 f.). Auf der Abszissenachse werden die einzelnen Intervalle anhand ihrer Intervallgrenzen abgetragen. Über diesen Klassen befinden sich Rechtecke. Die Fläche dieser Rechtecke repräsentieren n j (Häufigkeitsdichte). Mit Hilfe der Breite dj des Intervalls mj kann die Höhe hj des jeweiligen Rechtecks errechnet werden (vgl. Mayer, Ch., u. a. (2009), S. 314 f.). Die relative Anzahl pj (pj = nj/n) wird dazu durch die Breite dj des Intervalls mj dividiert.

Je nach Lage des Gipfels einer Verteilung ergeben sich symmetrische, linkssteile oder rechtssteile Verteilungen (vgl. Altobelli, C. F. (2007), S. 228; Mayer, Ch., u. a. (2009), S. 316). Bei symmetrischen Verteilungen befinden sich links und rechts vom Gipfel deckungsgleiche Flächen. Die Kennzahlen Modus, Median und arithmetisches Mittel (vgl. nachfolgende Kapitel) haben dann identische Ausprägungen und Lokalisationen (identische Koordinaten). Bei linkssteilen Verteilungen ist die Fläche links vom Gipfel gestauchter als die ausgedehnte Fläche rechts vom Gipfel (et v. v. bei rechtssteilen Verteilungen). Außerdem kann eine Verteilung unimodal (Verteilung mit einem Gipfel) oder bimodal (Verteilung mit zwei Gipfeln) ausgeprägt sein (vgl. Altobelli, C. F. (2007), S. 228; Diekmann, A. (2008), S. 674; zu weiteren grafischen Darstellungen von Häufigkeitsverteilungen vgl. zum Beispiel Bortz, J., u. a. (2010), S. 39 ff.).

Zusammenfassung:

! Die Division einer absoluten Häufigkeit durch den Stichprobenumfang ergibt die relative Häufigkeit.

! Tabellen mit den Messkriterien und den entsprechenden Häufigkeiten führen zu Häufigkeitstabellen (Häufigkeitsverteilung).

! Bei der Bildung von Intervallen ist vorteilhaft, wenn sich die erhobenen Merkmalsausprägungen nicht in einem Teilbereich des Intervalls häufen. Ein Intervall sollte für seine enthaltenen Merkmalsausprägungen repräsentativ sein.

! Die Differenz zwischen einer oberen und unteren Intervallgrenze bestimmt die Breite des Intervalls.

! Die untere und obere Intervallgrenze addiert und durch zwei dividiert ergibt die Intervallmitte.

! Diagramme, wie zum Beispiel Histogramme, unterstützen die Interpretation von Häufigkeitsverteilungen. Die Flächen eines Histogramms repräsentieren einzelne nj.

5. Summenkurven

Die Ermittlung der Anzahl (absolute Häufigkeit) oder des Anteils (relative Häufigkeit) einer erhobenen Merkmalsausprägung - zum Beispiel die Anzahl oder der Anteil der Merkmalsausprägung „≤ 900 Euro Umsatz“ (vgl. Abbildung 10) - kann anhand sogenannter kumulierter absoluter oder kumulierter relativer Häufigkeiten durchgeführt werden.

In der Abbildung 10 ergibt sich so als kumulierte absolute Häufigkeit die Anzahl „18“ für die Merkmalsausprägung „≤ 900 Euro Umsatz“. Und als kumulierte relative Häufigkeit ergibt sich der Anteil „0,86“ für die Merkmalsausprägung „≤ 900 Euro Umsatz“. Diese Häufigkeiten können in der Häufigkeitstabelle der Abbildung 10 über die Zeile „x3 = 900“ hinweg abgelesen werden.

Zur Bildung dieser Werte werden alle (mindestens ordinalskalierten) Merkmalsausprägungen einer Erhebung, mit dem kleinsten vorliegenden Messwert beginnend (vgl. Abbildung 10), der Größe nach angeordnet (x1 ≤ … ≤ xi ≤ … ≤ xn) und die jeweiligen absoluten (ni) und relativen Häufigkeiten (pi) der Messwerte (realisierte Merkmalsausprägungen) bestimmt.

Diese absoluten und relativen Häufigkeiten aufaddiert führen dann zu den gesuchten Zahlen im oben beschriebenen Beispiel über die Anzahl oder den Anteil der Merkmalsausprägung „≤ 900 Euro Umsatz“ (vgl. Mayer, Ch., u. a. (2009), S. 317 ff.).

Mit Hilfe der kumulierten relativen Häufigkeiten der nachfolgenden Abbildung 10 kann auch ermittelt werden, dass über die Hälfte der realisierten Umsätze unter 400 Euro liegt (vgl. Zeile x2 in Abbildung 10 mit pi (kum.) = 0,67). Annährend ein Drittel aller realisierten Umsätze liegt über 400 Euro (vgl. Zeile x3 und x4 in Abbildung 10).

Abbildung 10: Häufigkeiten, kumulierte Häufigkeiten [10]
[Dies ist eine Leseprobe. Grafiken und Abbildungen werden nicht dargestellt.]

Werden die realisierten kumulierten Häufigkeiten in ein Koordinatensystem eingegeben und diese Einträge miteinander verbunden, ergeben sie eine Summenkurve zur grafischen Ableitung der Lösungen der Fragestellungen wie im Beispiel über die Anzahl oder den Anteil der Merkmalsausprägung „≤ 900 Euro Umsatz“. Die möglichen kumulierten absoluten oder kumulierten relativen Häufigkeiten liegen zum Ablesen auf der Ordinatenachse und die möglichen Merkmalsausprägungen auf der Abszissenachse (vgl. Abbildung 11; vgl. Altobelli, C. F. (2007), S. 222 ff.).

Aus der Summenkurve lässt sich außerdem ablesen, ob alle Beobachtungen gleichmäßig verteilt sind und entlang einer 45 Grad Linie angeordnet sind oder ob eine Ungleichverteilung vorliegt (vgl. Altobelli, C. F. (2007), S. 229). Hierzu ergänzend folgender Hinweis: Die sogenannte Lorenzkurve und der Gini-Koeffizient (Konzentrationsmaß) beschreiben, inwieweit die Verteilung der Beobachtungen von einer Gleichverteilung der Merkmalsausprägungen abweicht (Ausmaß der Ungleichverteilung; vgl. Altobelli, C. F. (2007), S. 229; Diekmann, A. (2008), S. 682 f.; Schira, J. (2009), S. 67 ff.).


[1] Illustration von: simpleshow GmbH, Marienstraße 37, 70178 Stuttgart.

[2] Eigene Darstellung.

[3] Eigene Darstellung.

[4] Eigene Darstellung.

[5] Eigene Darstellung in Anlehnung an Altobelli, C. F. 2007, S. 173; Backhaus, K., u. a. (2011), S. 4 ff.; Berekoven, L., u. a. (2006), S. 72.

[6] Eigene Darstellung.

[7] Eigene Darstellung in Anlehnung an Hammann, P., u. a. (1994), S. 113 ff..

[8] Eigene Darstellung.

[9] Eigene Darstellung.

[10] Eigene Darstellung in Anlehnung an Altobelli, C. F. (2007), S. 223.

Details

Seiten
185
Jahr
2015
ISBN (eBook)
9783668015661
ISBN (Buch)
9783668015678
Dateigröße
1.8 MB
Sprache
Deutsch
Katalognummer
v302858
Note
Schlagworte
Statistik Grundlagen Einführung Methoden

Autor

Teilen

Zurück

Titel: Einstieg in die Statistik. Grundlagen für die anwendungsorientierte  Datenverarbeitung