Automatische Analyse und Klassifikation des Trainer- und Teilnehmerverhaltens. Blended Learning Lernumgebung als Grundlage für Interventionen


Bachelorarbeit, 2017

46 Seiten, Note: 1,7


Leseprobe


Inhaltsverzeichnis

1 Einleitung

2 Anwendungsszenario blink.it und Blended Learning
2.1 blink.it als Blended Learning Plattform
2.2 Einsicht der Daten

3 Verwandte Arbeiten und Konzepte
3.1 Learning Analytics, Educational Data Mining und verwandte Forschungsgebiete
3.1.1 Academic Analytics
3.1.2 Action Research
3.1.3 Educational Data Mining
3.1.4 Recommender Systems
3.1.5 Personalized Adaptive Learning
3.1.6 Learning Analytics
3.1.7 Einordnung dieser Arbeit
3.2 Instructional Scaffolding und dessen Auswirkung auf den Lernerfolg
3.2.1 Instructional Scaffolding
3.2.2 Engagement in Online-Lernumgebungen
3.2.3 Instructional Scaffolding und Lernerfolg
3.3 Notifikationen in Lernsystemen
3.4 Grundlagen der Korrelationsanalyse
3.4.1 Pearson
3.4.2 Spearman
3.4.3 Kendall

4 Voranalyse
4.1 Zusammenhang von Trainer- und Teilnehmeraktivität
4.2 Vergleich von Kursähnlichkeit

5 Konzept
5.1 Korrelationsanalyse
5.1.1 Auswahl der Metriken
5.1.2 Auswahl des Korrelationsverfahrens
5.1.3 Bildung der Korrelationspaare
5.1.4 Gruppierung der Korrelationspaare
5.2 Klassifizierung der Kurse
5.2.1 Definition der Klassen
5.2.2 Verteilung der Kurse auf Klassen
5.3 Intervention
5.3.1 Empfehlungen als Grundlage der Interventionen
5.3.2 Vorhersagen als Erweiterung der Interventionen
5.3.3 Gestaltung der Interventionen
5.3.4 Notifikation der Trainer

6 Implementierung
6.1 Architektur
6.2 Scheduler
6.3 Hauptmodul
6.4 Komponenten
6.4.1 Export
6.4.2 Import und Berechnung der Metriken
6.4.3 Analyse
6.4.4 Intervention
6.4.5 Notifikationen

7 Zusammenfassung und Ausblick

8 Verwendete Werkzeuge

Literaturverzeichnis

Abbildungsverzeichnis

2.1 blink.it Kursansicht

2.2 Verteilung der Teilnehmer auf die 85 betrachteten Kurse als Histogramm

3.1 Learning Analytics Prozess (Abbildung aus [CDST12])

4.1 Trainer- und Teilnehmeraktivität in Beispielkurs

4.2 Visualisierung von Kursähnlichkeit

5.1 Histogramme der Verteilungen aller Metriken

5.2 Korrelationsgruppe avgDailyBlinkSeens

5.3 Korrelationsgruppe avgDailyStudentComments

5.4 Korrelationsgruppe churn

5.5 Korrelationsgruppe fractionSeen

5.6 Korrelationsgruppe avgDiffPubSeen

5.7 Korrelationsgruppe seenMin50

5.8 Korrelationsgruppe seenMin80

5.9 Korrelationsgruppe seenMin90

5.10 Anzahl der Kurse die Interventionen für verschiedene Korrelationsgruppen erhalten

5.11 Zusammenhang von Begriffen um eine Intervention

5.12 Empfehlungen einer Intervention mit Zielgrößen

5.13 Vorhersage einer Teilnehmermetrik als Prognose

5.14 Interventionsansicht eines Kurses

6.1 Übersicht der Architektur

6.2 Aufbau des Templates der Interventionsansicht

Tabellenverzeichnis

5.1 Teilnehmermetriken mit Beschreibungen, Durchschnittswerten und Standardabweichungen

5.2 Trainermetriken mit Beschreibungen, Durchschnittswerten und Standardabweichungen

5.3 Kendall’s τ und Wert von p für alle Korrelationspaare auf drei Nachkommastellen gerundet

5.4 Regelbasierte Klassifizierung jedes Kurses pro Korrelationsgruppe

1 Einleitung

In den vergangenen Jahren hat die Erscheinung von Massive Open Online Courses (MOOCs) im Zuge der global wachsenden Digitalisierung erheblich zugenommen [FMG15]. Mit dem Übergang von traditionel- len Lernumgebungen zu Online-Lernumgebungen, wie MOOCs und Blended Learning Lernumgebungen sowie der Durchsetzung von Blended Learning in der Hochschulbildung [GK04], wird die Frage relevant, wie der Lernerfolg von Studenten in diesen Szenarien gesteigert werden kann.

Um dieser Thematik auf den Grund zu gehen, besteht die Zielsetzung dieser Bachelorarbeit in der Ent- wicklung eines automatisierten Systems, zur Unterstützung von Trainern der Plattform blink.it in ihrem Lehrvorhaben. Dafür wird im Rahmen dieser Blended Learning Lernumgebung untersucht, wie Trainer ihr Verhalten anpassen können, um einen gesteigerten Lernerfolg für die Teilnehmer des Szenarios zu erzielen. Die dabei gewonnenen Erkenntnisse sollen als Basis für individuelle Interventionen dienen, die den Trainern auf der Plattform angeboten werden, um positive Verhaltensänderungen der Trainer zur Steigerung des Lernerfolgs der Teilnehmer hervorzurufen.

Zur Erreichung dieses Ziels werden Daten über das Verhalten der Trainer und Kursteilnehmer erho- ben und ausgewertet. Die Erhebung der Daten beinhaltet dabei alle Aktionen, die auf ein Lehr- oder Lernverhalten schließen lassen.

Der Zielsetzung liegen die folgenden Forschungsfragen zugrunde:

1. Besteht eine Abhängigkeit zwischen Trainer- und Teilnehmerverhalten?
2. Welche Klassen von Trainerverhalten lassen sich unterscheiden?
3. Mit welchen Verfahren lassen sich Trainer klassifizieren?
4. Wie lassen sich Interventionen für eine gewünschte Verhaltensänderung implementieren?
5. Führt eine Intervention zu einer Verbesserung der Teilnehmeraktivität beziehungsweise der Teil- nehmerzufriedenheit?

Die Klärung der Frage, ob eine Abhängigkeit zwischen Trainer- und Teilnehmerverhalten besteht, ist dabei Grundvorraussetzung für die Klärung der Fragen bezüglich der möglichen Verhaltensklassen und des Verfahrens zur Interventionsbildung.

Im Rahmen dieser Arbeit werden nach einer Vorstellung der verwandten Arbeiten in Kapitel 3, die Daten auf der Plattform explorativ in einer Voranalyse in Kapitel 4 untersucht und ein Konzept zur automatischen Generierung von Interventionen in Kapitel 5 vorgestellt. Die Machbarkeit des im Konzept vorgestellten Interventionsverfahrens wird durch eine prototypische Implementierung bewiesen und in Kapitel 6 beschrieben.

2 Anwendungsszenario blink.it und Blended Learning

Der Kontext der Untersuchungen in dieser Bachelorarbeit wird durch die Onlineplattform blink.it darge- stellt. Alle datengestützten Einsichten und Erkenntnisse beziehen sich auf Daten, die auf dieser Plattform erhoben wurden.

2.1 blink.it als Blended Learning Plattform

blink.it ist eine Blended Learning Plattform, auf der Trainer Lerninhalte bereitstellen und mit ihren Kurs- teilnehmern interagieren. Als Blended Learning Lernumgebung liegt der Fokus der Plattform darin, die Trainer in der Betreuung von Präsenzseminaren und der Bereitstellung von multimedialen zu unterstüt- zen.

D. Randy Garrison und Heather Kanuka definieren Blended Learning in Blended learning: Uncovering its transformative potential in higher education folgendermaßen: „at its simplest, blended learning is the thoughtful integration of classroom face-to-face learning experiences with online learning experiences“ [GK04]. Die Integration von Online- und Offline-Lernumgebungen sei nach Garrison und Kanuka von betrachtlicher Attraktivität, jedoch mit der Hürde der höheren Komplexität des Kursdesigns verbunden.

Der Unterschied des Online-Teils einer Blended Learning Lernumgebung zu dem einer reinen Online- Lernumgebung, besteht darin, dass im Online-Teil der Blended Learning Lernumgebung zusätzliche Funktionen wichtig sind, die verschiedene Aspekte des Präsenzteils erleichtern. Dazu zählt beispielswei- se eine zeitliche Strukturierung der Freigabe von Inhalten, die sich nach den Präsenzterminen richten kann.

[Omitted long line with 1 matches]

Der Fokus dieser Arbeit liegt auf der Teilmenge der Funktionen, die bereits früh auf der Plattform verfügbar waren. Dadurch kann eine Historie von Daten aus über zwei Jahren verwendet werden. Die potentielle Menge an verfügbaren Daten für diese Funktionen ist aufgrund der maximalen Zeitspanne ebenfalls maximal.

Die üblichen Anwendungsfälle eines Trainers, die durch diese Funktionen ermöglicht werden, sind das Anlegen von Kursen, das Befüllen von Kursen mit Blinks, und das Hinzufügen von Teilnehmern zu bereits erstellten Kursen. Der Trainer kann nach der Erstellung eines Blinks entscheiden, wie dieser freigegeben werden soll. Die Blinks können dabei auf etwaige Präsenztermine abgestimmt und beispiels- weise an einem festen Datum oder an einer relativen Zeit nach Kursbeginn fregegeben werden. Möchte ein Trainer alle Teilnehmer in einem Kurs über Neuigkeiten informieren, kann er auf der Plattform einen Newsletter verschicken. Trainer und Teilnehmer können außerdem über den Kommentarbereich der Blinks miteinander kommunizieren. Im Falle eines neuen Kommentars erhält die jeweils andere Partei eine Notifikation; beim Versand eines Newsletters erhalten die Kursteilnehmer eine Notifikation. Bei No- tifikationen handelt es sich um Meldungen auf der Plattform, die die Nutzer über Ereignisse informieren und die im User Interface angezeigt werden.

Anmerkung der Redaktion: Abbildung 2.1 wurde aus redaktionellen Gründen entfernt.

Abbildung 2.1: blink.it Kursansicht

2.2 Einsicht der Daten

Die Aktivitätsdaten zu Trainer- und Teilnehmerverhalten beziehen sich auf den Zeitraum zwischen dem 3. Februar 2015 und dem 28. August 2017. Insgesamt wurden etwa 500 Kurse auf der Plattform unter- sucht, wobei die Anzahl der in der Analyse betrachteten Kurse weiter reduziert wurde. In der Analyse (ab Kapitel 5) wurden noch 85 Kurse untersucht, die ein Mindestmaß an Aktivität aufweisen. Den Grund für den Bedarf dieser Filterung stellt die Tatsache dar, dass die Untersuchung von Kursen ohne Aktivität im keinen Aufschluss über den Zusammenhang von Trainer- und Teilnehmerverhalten gibt und im besten Fall die Analyse erschwert.

Ein Kurs muss die folgenden Kriterien erfüllen, um der Mindestanforderung an Trainer- und Teilnehme- raktivität zu genügen:

- Es wurden mindestens 5 Kommentare von Teilnehmern erstellt.
- Es wurden mehr als 10 Blinks freigegeben.
- Es wurden mehr als 25 Blinks angesehen.
- Es wurde mindestens ein Kommentar von einem Trainer geschrieben.

Die Mindestanforderungen wurden so gewählt, dass nur Kurse betrachtet werden, bei denen für die relevantesten Handlungen ein Mindestmaß an Vorkommen garantiert ist, ohne dabei zu viele Kurse auszuschließen. Strengere Anforderungen an die Aktivität haben diese Menge zu drastisch reduziert und weniger strenge Anforderungen konnten Kurse, die beispielsweise nur zu Testzwecken angelegt wurden, nicht mehr herausfiltern.

Die 85 Kurse, die den Kriterien der Mindestaktivität genügen, haben durchschnittlich eine Teilnehme- ranzahl von 78.28 mit einer Standardabweichung die 148.988 beträgt. Für die meisten Kurse beläuft sich die Teilnehmeranzahl auf unter 100, es existieren jedoch vereinzelt Kurse, die mitunter über 800 Teilnehmer aufweisen. Die Verteilung der Teilnehmer über die Kurse ist in Abbildung 2.2 als Histogramm dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.2: Verteilung der Teilnehmer auf die 85 betrachteten Kurse als Histogramm

Einsichten bezüglich von Kursdaten basieren im Folgenden auf der reduzierten Menge von Kursen, die den Mindestanforderungen an Aktivität genügen. Außerdem bezieht sich jede Aussage der Form “alle Kurse” im Folgenden auf diese reduzierte Kursmenge. Eine Ausnahme stellt dazu lediglich das Kapitel 4 dar, in dem eine Filterung der Kurse anhand von Mindestaktivität nicht stattgefunden hat.

3 Verwandte Arbeiten und Konzepte

Im Folgenden wird zur Kontextualisierung der Bachelorarbeit ein Überblick zu verwandten Arbeiten gegeben. Dazu werden die betrachteten Forschungsgebiete zusammenfassend eingeführt und die vorlie- gende Arbeit anschließend anhand dieser Aufstellung thematisch eingeordnet.

3.1 Learning Analytics, Educational Data Mining und verwandte Forschungsgebiete

In den vergangenen Jahren ist das Interesse an automatisierten Verfahren zur Verbesserung der Ler- nerfahrung gestiegen [CDST12]. Das erste Journal Journal of Educational Data Mining, das primär die Anwendung von Analysen der Daten im Bildungssektor untersuchte, begann 2009 im Vergleich zu ande- ren Sektoren relativ spät mit der Veröffentlichung. In den Biowissenschaften wurde beispielsweise bereits 1970 in dem Journal Computers in Biology and Medicine untersucht, wie Analysen in diesem Sektor auf Daten angewendet werden können [BI14].

Die Gründe für die wachsende Nutzung der Analyse im Bildungssektor umfassen neben dem Wachstum der Datenmengen, der Verbesserung der Datenformate und Fortschritte in der Datenverarbeitung auch Fortschritte der Analysewerkzeuge [BI14].

Zu den Forschungsgebieten, die sich heute mit Analyseverfahren im Bildungssektor und speziell der Hochschulbildung befassen, gehören Academic Analytics, Action Research, Educational Data Mining, Recommender Systems, Personalized Adaptive Learning und Learning Analytics [SL11] [CDST12].

3.1.1 Academic Analytics

Der Begriff Academic Analytics im Hochschulbildungssektor ist laut Philip J. Goldstein and Richard N. Katz das imperfekte Äquivalent zum Begriff Business Intelligence im Unternehmenssektor. Academic Ana- lytics sei weiterhin als Schnittmenge von Technologie, Informationen, Managementkultur und der An- wendung von Informationen zum Management des akademischen Unternehmens zu verstehen [GK05]. Der Fokus von Academic Analytics liegt also darauf, Entscheidungsträgern im Hochschulsektor zu unter- stützen.

3.1.2 Action Research

Action Research wird im Action Research Primer von Patricia H. Hinchey definiert als „a process of sys- tematic inquiry, usually cyclical, conducted by those inside a community rather than by outside experts; its goal is to identify action that will generate some improvement the researcher believes important“ [Hin08]. Die Untersuchung der Lernumgebungen findet für jedes Szenario individuell statt und wird von den Lehrenden selbst durchgeführt. Die Ergebnisse der Untersuchungen sind nur im jeweiligen Sze- nario anwendbar, in dem die Untersuchung stattgefunden hat. Action Research ist nicht datengetrieben, die Analyse der Lernumgebung findet durch manuelle Fragestellungen statt. [DLM+13]

3.1.3 Educational Data Mining

Data Mining wird bereits seit vielen Jahre von Unternehmen und Wissenschaftlern dazu verwendet, große Datenmengen auf nützliche Informationen zu untersuchen. Educational Data Mining bezeich- net die Anwendung der im Forschungsgebiet Data Mining entwickelten Techniken in dem Kontext des Bildungssektors. [RV10]

In diesem Forschungsgebiet wird untersucht, wie Rohdaten aus dem Bildungssektor in Informationen umgewandelt werden können, die nützlich für die Entscheidungsfindung in diesem Sektor sind [HHB07]. Die häufigsten Anwendungen, die nach Cristóbal Romero und Sebastián Ventura in den in Educational Data Mining: A Review of the State-of-the-Art vorgestellten verwandten Arbeiten untersucht wurden, wa- ren Anwendungen zur Generierung von Feedback anhand von Daten und zur Analyse und Visualisierung von Daten. Education Data Mining verwendet als Anwendung des Data Minings sowohl traditionelle Techniken, wie beispielsweise Datenbankabfragen, als auch moderne Techniken des Machine Learnings [HHB07].

3.1.4 Recommender Systems

Recommender Systems sind Anwendungen, die Daten über das Verhalten und die Präferenzen von Nut- zern sammeln und entweder basierend auf dem eigenen Verhalten des Nutzers, dem Verhalten der anderen Nutzer der Umgebung, oder in einer Mischform beider Modi, neue Inhalte für einen Nutzer vorschlagen [CDST12].

3.1.5 Personalized Adaptive Learning

Nach Dyckhoff et al. lässt sich Personalized Adaptive Learning im Bildungssektor in zwei Konzepte unter- teilen und anhand dieser definieren. Das erste Konzept beinhaltet den Ansatz, anhand von Parametern und Regeln das Kursmaterial für Lernende zu verändern. Das zweite Konzept beinhaltet den Ansatz, Lernenden die Möglichkeit zu geben, das Kursmaterial selbst zu verändern [CDST12].

3.1.6 Learning Analytics

Das Forschungsgebiet der Learning Analytics untersucht die Entwicklung von Werkzeugen, die Lern- prozesse durch die Verwendung von Daten unterstützen [CDST12]. Learning Analytics hat also zum Ziel, den Lehrenden Werkzeuge zur Verfügung zu stellen, die unterstützend in Lernprozessen eingesetzt werden können.

Nach der 1st International Conference on Learning Analytics wird Learning Analytics als „measurement, collection, analysis and reporting of data about learners and their contexts, for purposes of understanding and optimising learning and the environments in which it occurs“ definiert [SL11].

In der Hochschulbildung besteht historisch eine erhebliche Verzögerung zwischen der Verfügbarkeit der Daten und der Verwendung der Daten zur Optimierung von Lernprozessen. Dabei bedeutet die Ana- lyse speziell im Gebiet der Hochschulbildung einige Vorteile, die auf der Ebene mehrerer Akteure realisert werden können. Entscheidungsträger auf der administrativen Ebene können zeitnah Informationen er- halten, die die Entscheidungsfindung vereinfachen; Dozenten können darüber informiert werden, welche Studenten im Lernprozess besonders unterstützt werden sollten; und Lernende erhalten Einsichten über das eigene Lernverhalten und Vorschläge, um dieses zu verbessern. [SL11]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.1: Learning Analytics Prozess (Abbildung aus [CDST12])

Der Learning Analytics Prozess kann als Zyklus in drei Schritten betrachtet werden [CDST12]. Der Zyklus beginnt mit dem Sammeln und Vorverarbeiten von Daten, analysiert im nächsten Schritt die gesammelten Daten, generiert basierend auf der Analyse Aktionen, und endet mit der Nachbearbeitung.

3.1.7 Einordnung dieser Arbeit

Die Unterschiede der vorgestellten Forschungsgebiete sind bezüglich der untersuchten Problemstellun- gen in der Literatur nicht offensichtlich abzugrenzen. Die Forschungsgebiete lassen sich klarer bezüglich des Kontexts, in dem Untersuchungen stattfinden, unterscheiden: Während zum Beispiel im Action Re- search von einem speziellen Lernszenario ausgegangen wird, basiert der Bereich Academic Analytics auf verschiedenen Perspektiven des Hochschulbetriebs. Weiterhin ist eine Unterscheidung der Gebiete anhand von den verwendeten Werkzeugen, mit denen die Lernumgebungen untersucht werden, mög- lich. Beispielsweise untersuchen die Bereiche Educational Data Mining und Learning Analytics die Ler- numgebungen datengetrieben, Forscher aus dem Bereich Action Research verwenden jedoch manuelle Fragestellungen zur Untersuchung.

Diese Arbeit ist in den Bereich Learning Analytics einzuordnen, da das in Kapitel 5 beschriebene Kon- zept insofern zur genannten Definition von Learning Analytics nach der 1 st International Conference on Learning Analytics passt, als dass eine datengetriebene Analyse der Lernumgebung mit dem Ziel stattfin- det, ein Werkzeug für Trainer zur Verbesserung des Lernprozesses anzubieten. Das vorgestellte Konzept dieser Arbeit bedient sich zwar im vorhersagenden Teil der Interventionen an Techniken aus dem Be- reich Data Mining, was eine Einordnung in das Forschungsgebiet Educational Data Mining rechtfertigen könnte, dieser Teil ist jedoch nicht der Fokus dieser Arbeit und eine Einordnung in dieses Gebiet findet deshalb nicht statt.

3.2 Instructional Sca-olding und dessen Auswirkung auf den Lernerfolg

Das Eingreifen von Lehrenden in den Lernprozess ist für den Lernerfolg von Lernenden wichtig, was anhand von verwandten Arbeiten zu Instructional Scaffolding und Engagement in Online-Lernumgebungen in den folgenden Unterabschnitten bestätigt wird.

3.2.1 Instructional Sca-olding

Instructional Scaffolding kann vereinfacht als der Eingriff eines Experten verstanden werden, welcher der Unterstützung eines Lernenden im Lernprozess dient [SH07]. Der Eingriff des Experten in den Lernprozess erfolgt als anfängliche Hilfestellung, die mit steigender Kompetenz des Lernenden all- mählich reduziert wird [JT14]. Die Anwendung von Instructional Scaffolding ist besonders in Online- Lernumgebungen für die Lernenden hilfreich, da Dozenten und Lehrende im Lernprozess nicht physisch präsent sind [JT14].

3.2.2 Engagement in Online-Lernumgebungen

Forscher der Murdoch Universität beschreiben in Will MOOCs transform learning and teaching in higher education? Engagement and course retention in online learning provision eine Studie, die anhand eines Astronomie-MOOCs (Massive Open Online Course) unter anderem die Forschungsfrage untersucht, wie die Aktivität der Kursteilnehmer im Zusammenhang mit dem Lernerfolg steht. Dabei wurde herausge- funden, dass ein starker Zusammenhang, zwischen dem Anteil der abgeschlossen Aktivitäten auf der Plattform und der Benotung des Teilnehmers nach Kursabschluss besteht [FMG15].

Weiterhin stellt das Engagement von Studenten im akademischen Kontext nach Skinner et al. einen signifikanten Prädikator für den Lernerfolg von Studenten dar [CC14]. In der Studie der Murdoch Uni- versität wird ebenfalls ein Zusammenhang zwischen der Höhe des Engagements eines Lernenden und der Wahrscheinlichkeit des Kursabschlusses dieses Lernenden genannt [FMG15]. Teilnehmer mit einem höheren Engagement schließen einen Kurs dabei mit größerer Wahrscheinlichkeit ab als Teilnehmer mit einem niedrigerem Engagement.

3.2.3 Instructional Sca-olding und Lernerfolg

Der Einsatz von Instructional Scaffolding steht also gemäß der genannten Literatur in einem positiven Zusammenhang mit erhöhtem Teilnehmerengagement, während erhöhtes Teilnehmerengagement in ei- nem positiven Zusammenhang mit dem Lernerfolg eines Teilnehmer gemessen an der Abschlussrate der Teilnehmer in einem Kurs steht. Angesichts des Zusammenhangs zwischen Instructional Scaffolding und Engagement sowie Engagement und Lernerfolg liegt es nahe, dass ebenfalls ein positiver Zusammenhang zwischen Instructional Scaffolding und Lernerfolg besteht. Diese Einsicht liefert mitunter die Motivation für die Untersuchung von Interventionen in dem Kontext dieser Arbeit.

3.3 Notifikationen in Lernsystemen

In einer Studie bezüglich des Effektes von Notifikationen auf das Engagement von Lernenden für eine Android-App, die Sprachkompetenzen vermittelt, wurde festgestellt, dass Notifikationen das Lernenga- gement erhöhen können. Weiterhin wurde jedoch herausgefunden, dass zu häufige Notifikationen – in der Studie sind dies Notifikationen mit einer Frequenz von 3 Stunden – eine negative Auswirkung auf das Lernengagement erzielen und die Teilnehmer die App verstärkt deinstallierten [PNHC16].

3.4 Grundlagen der Korrelationsanalyse

Mit der Korrelationsanalyse wird untersucht, wie stark und in welcher Richtung ein Zusammenhang von Variablen besteht. Das heißt, ob die Werte einer Variablen tendenziell mit den wachsenden Werten der korrelierenden Variablen wachsen (positive Korrelation) oder schrumpfen (negative Korrelation). Die Stärke der Korrelation hängt davon ab, wie verlässlich dieser Zusammenhang vorliegt. Die 3 populärs- ten Verfahren zur Korrelationsanalyse sind nach Jan Hauke und Tomasz Kossowski das Verfahren nach Pearson, das Verfahren nach Spearman und das Verfahren nach Kendall [HK11].

3.4.1 Pearson

Das Verfahren nach Pearson berechnet den Index r, der zwischen 1 und -1 liegt und den linearen Zu- sammenhang zweier Variablen misst [ZTS03]. Ein Index von 1 zeigt eine perfekt positive Korrelation an, ein Index von -1 zeigt eine perfekt negative Korrelation an, und ein Index von 0 zeigt das Vorhandensein von keinem Zusammenhang an. Werte dazwischen variieren je nach Stärke des Zusammenhangs.

Wenn die auf Korrelation untersuchten Variablen nicht normalverteilt sind, wird die Verwendung von Alternativen zum Pearson-Verfahren empfohlen [BH12].

3.4.2 Spearman

Das Korrelationsverfahren nach Spearman berechnet den Index ρ (manchmal r s genannt), der ebenso wie der Index nach Pearson zwischen 1 und -1 liegt. Für die Berechnung von ρ werden die Werte beider Variablen in die Ränge ihrer relativen Ordnung umgewandelt und daraufhin der Zusammenhang dieser Ränge untersucht [ZTS03].

Das bedeutet, dass die Werte der Variablen vor der Berechnung des Index durch Ränge von 1. . . N ersetzt werden, wobei N die Menge der Werte ist.

Im Gegensatz zu r kann ρ auch verwendet werden, um nicht-lineare Zusammenhänge zu messen, es muss jedoch in jedem Fall ein monotoner Zusammenhang gegeben sein. Das heißt, dass der Zusammen- hang entweder positiv oder negativ ist und nicht ab einer gewissen Größe die Richtung ändert.

Das Verfahren nach Spearman ist weniger anfällig für Ausreißer als das Verfahren nach Pearson und kann auch dann verwendet werden, wenn die Variablen nicht normalverteilt sind [BH12].

3.4.3 Kendall

Das Korrelationsverfahren nach Kendall berechnet den Index τ, der wie die Indizes von Spearman und Pearson zwischen 1 und -1 liegt.

Für die Berechnung von τ werden, ähnlich wie für ρ, die Werte der Variablen in Ränge umgewandelt und diese Ränge auf Zusammenhänge untersucht.

Nach [New02] argumentieren Kendall und Gibbons, „confidence intervals for Spearman‘s r s are less reliable and less interpretable than confidence intervals for Kendall’s τ -parameters, but the sample Spear- man’s r s is much more easily calculated without a computer“. Weiterhin ist Kendall’s τ sehr viel robuster bei Ausreißern und nicht-linearen Zusammenhängen als Pearson’s r [New02].

3.4 Grundlagen der Korrelationsanalyse

4 Voranalyse

Zu Beginn war eine Sichtung der Daten nötig um herauszufinden, welches Vorgehen für die geplan- te Analyse am besten geeignet ist. Um einen Einblick in mögliche vorhandene Zusammenhänge von Trainer- und Teilnehmeraktivitäten zu gewinnen und um gegebenenfalls eine Richtung für die weite- re Untersuchung zu erhalten, wurden deshalb zur Visualisierung der Daten verschiedene Abbildungen angefertigt, die nun im Folgenden dargestellt und beschrieben werden.

Da zu Beginn dieser Untersuchung bereits interessant war, wie Teilnehmerverhalten im Zusammen- hang mit Trainerverhalten steht, wurde eine stichprobenartige Korrelationsanalyse auf Zusammenhang der Anzahl der Traineraktivitäten mit der Anzahl der Teilnehmeraktivitäten durchgeführt. Zu diesem Zeitpunkt wurde noch kein Vergleich der verschiedenen Korrelationsverfahren vorgenommen. Die Kor- relationen in diesem Kapitel wurden mit dem Verfahren nach Pearson berechnet.

4.1 Zusammenhang von Trainer- und Teilnehmeraktivität

Zur Exploration der Zusammenhänge des Trainer- und Teilnehmerverhaltens wurden für mehrere Kurse die Anzahl aller Traineraktivitäten und die Anzahl aller Teilnehmeraktivitäten – jeweils für 30 Tage summiert – über die Existenzdauer der Kurse erhoben und miteinander verglichen (mittlerer und unterer Plot in Abbildung 4.1). Zusätzlich wurde die Korrelation der Aktivitätswerte mit dem Verfahren nach Pearson berechnet (siehe Abbildung 4.1).

Beim Betrachten von Abbildung 4.1 lässt sich bereits erkennen, dass die Teilnehmer- und Trainerakti- vität teilweise zusammenhängt, also beide Aktivitätswerte jeweils ungefähr zur selben Zeit steigen und sinken.

Der Korrelationskoeffizient ist mit r > 0.7 dabei ausreichend hoch, um auf einen Zusammenhang hinzudeuten und angesichts des extrem kleinen Werts für p ist es sehr unwahrscheinlich, dass es sich bei dem Zusammenhang um einen Zufall handelt.

Ein Problem dieser Art der Analyse ist, dass die Ergebnisse nur schwer für alle Kurse verallgemeinert werden können. Um allgemeinere Einsichten zu erlangen, muss eine Analyse über alle Kurse hinweg durchgeführt werden, wofür Aktivitätsmaße entwickelt werden müssen, die bei unterschiedlichen Exis- tenzdauern von Kursen anwendbar bleiben.

Dieser Teil der Voranalyse war somit Motivation dafür, die Korrelationsanalyse zu erweitern und für diese Untersuchung besser geeignete Aktivitätsmaße – in Kapitel 5 als Metriken bezeichnet – zu definie- ren.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4.1: Beispiel des Vergleichs von Anzahl der Trainer- und Teilnehmeraktivit:aten ftir einen Kurs

4.2 Vergleich von Kursähnlichkeit

Ein alternativer Ansatz, der während der Voranalyse als Ansatz zur Bestimmung von Interventionen verfolgt wurde, ist die Betrachtung der Ähnlichkeit von Kursen über den direkten Vergleich aller Variablen in Kursen, also ohne Betrachtung von eventuellen Zusammenhängen. Dafür wurde angenommen, dass Kurse sich ähnlich sind, wenn möglichst viele der Kursvariablen einen möglichst ähnlichen Wert haben. Dieser Ansatz birgt den Vorteil, dass wenig Vorverarbeitung und Filterung der Variablen erforderlich ist.

Definiert man alle Variablen eines Kurses als n-dimensionalen Vektor, dann erhält man durch die Be- rechnung des Abstands dieser Vektoren einen skalaren Wert, der als Ähnlichkeit von Kursen zueinander gesehen werden kann. Reduziert man die Kursvektoren auf höchstens drei Dimensionen, kann man die Kursähnlichkeit visualisieren. Diese Reduktion kann beispielsweise durch Principal Component Analy- sis (PCA) vorgenommen werden [VDMPVdH09]. Das Ergebnis ist eine Darstellung der Kursvektoren mit reduzierter Dimensionsanzahl. In Abbildung 4.2 sind die dadurch erhaltenen Kursvektoren in zwei Dimensionen abgebildet.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4.2: Zweidimensionale Kursvektoren als Ergebnis der Anwendung von Principal Component Analysis (PCA) zur Visualisierung von Kursähnlichkeit

Anhand dieser Darstellung ist durch den Abstand der Punkte zueinander erkennbar, wie stark die Ähn- lichkeit zwischen verschiedneen Kursen ausgeprägt ist. Die Erstellung von Interventionen anhand eines solchen Vergleichs müsste jedoch durch einen Experten geschehen und kann in dem vorhandenen Stand nicht automatisiert werden, da nicht klar ist welche der Kurse ein gewünschtes Verhalten aufweisen. Auch nach einer Bestimmung der Güte einzelner Kurse und der Betrachtung von ähnlichen Kurse – al- so Kursen mit geringem Abstand der Vektoren – ist unklar, aufgrund welcher Variablen die Ähnlichkeit vorliegt.

Dadurch, dass aufgrund der schwierigen Interpretierbarkeit der Ergebnisse nicht eindeutig zu be- stimmten ist, ob dieses Verfahren automatisiert werden kann, wurde dieser Ansatz nicht weiter ver- folgt. Zwar wurde nicht widerlegt, dass eine automatisierte Erzeugung von Interventionen durch einen solchen Ansatz möglich ist, jedoch lieferte die Voranalyse für die Annahme der Umsetzbarkeit keine hinreichenden Hinweise.

5 Konzept

Das grundsätzliche Vorgehen zur Bestimmung von Interventionen besteht darin herauszufinden, wie optimales Trainerverhalten auf der Plattform aussieht und wie Kurse bezüglich dieses Verhaltens klassi- fiziert werden können um passende Interventionen anzubieten.

Die folgenden drei Schritte werden dafür durchgeführt.

1. Korrelationsanalyse
2. Klassifizierung der Kurse
3. Intervention

In der Korrelationsanalyse werden Zusammenhänge zwischen verschiedenen den Kurs beschreibenden Metriken aufgedeckt und gruppiert. In der Klassifizierung der Kurse werden Kurse anhand dieser Zusam- menhänge bewertet, um die Menge der Kurse, die für eine Intervention geeignet sind, zu bestimmen. In der Intervention wird je nach Bewertung eine Intervention an die Kurse gerichtet.

5.1 Korrelationsanalyse

In der Voranalyse wurden bereits erste Korrelationen untersucht und in diesem Abschnitt soll die Analyse vervollständigt werden. Dafür wird eine Menge von 19 Metriken zur Beschreibung von Trainer- und Teilnehmerverhalten in Kursen definiert und paarweise auf Korrelation untersucht. Aus dem Resultat werden daraufhin Gruppen von Metriken gebildet, die im Weiteren für die Klassifizierung der Kurse verwendet werden.

5.1.1 Auswahl der Metriken

Kurse auf der Plattform unterscheiden sich anhand von unterschiedlichen Merkmalen. Die für die Analyse interessantesten Eigenschaften sind dabei die, die etwas mit dem Verhalten der Akteure zu tun haben. Das ist der Fall bei Eigenschaften, die durch Hauptfunktionen der Plattform, wie dem Verfassen und Betrachten von Blinks und dem Schreiben von Kommentaren, beeinflusst werden. Weitere interessante Funktionen sind der Versand von Newslettern und das Einladen von Teilnehmern.

Eigenschaften wie die Summe der insgesamt geschriebenen Kommentare oder der Name des Kur- ses sind weniger nützlich, da sie a) von der Existenzdauer oder Anzahl der Teilnehmer eines Kurses abhängen oder b) nicht mit dem Trainer- oder Teilnehmerverhalten im Zusammenhang stehen.

Eigenschaften die aufgrund von a) ausscheiden, steigen mit der Existenzdauer eines Kurses und mit wachsender Anzahl von Teilnehmern. Diese Eigenschaften können nicht zum Vergleich von Kursen ver- wendet werden, die sich stark in Existenzdauer oder Teilnehmeranzahl unterscheiden. Eigenschaften, die aufgrund von b) ausscheiden, lassen keinen direkten Rückschluss auf das Verhalten eines Trainers oder eines Teilnehmers zu. Diese Eigenschaften sind für das Vorhaben dieser Arbeit also ebenso irrelevant.

Formuliert man die Probleme positiv als Gütekriterien, so ergeben sich folgende Sätze, anhand derer Eigenschaften bewertet und ausgewählt werden können.

a) Die Metrik ist nicht per Definition von der Anzahl der Teilnehmer eines Kurses abhängig.
b) Die Metrik ist nicht per Definition davon abhängig, wie lange ein Kurs existiert.
c) Die Metrik trifft eine Aussage über das Trainer- oder über das Teilnehmerverhalten.

Die Teilmenge der Eigenschaften, die für die Analyse gewählt werden, wird im Folgenden als Metriken bezeichnet.

Eigenschaften, die den Gütekriterien nicht entsprechen, können dabei oft in valide Metriken überführt werden. Ist eine Eigenschaft beispielsweise von der Existenzdauer des Kurses abhängig, so kann sie durch die Berechnung des Durchschnittswertes über die Existenzdauer in eine valide Metrik überführt werden. Ist eine Eigenschaft hingegen von der Anzahl der Teilnehmer des Kurses abhängig, so kann sie ebenfalls durch die Berechnung des Durchschnittswertes über alle Teilnehmer in eine valide Metrik überführt werden. Eigenschaften, die keine Aussage über das Trainer- oder über das Teilnehmerverhalten treffen, können nicht überführt werden und scheiden aus.

Die Metriken in Tabelle 5.1 und Tabelle 5.2 genügen den Gütekriterien und werden für die weitere Analyse verwendet. Dabei sind einige Metriken enthalten, die überführt wurden – wie beispielsweise die durchschnittliche Anzahl der täglich betrachteten Blinks (avgDailyBlinkSeens) – sowie andere Metriken, die den Kriterien bereits bei der Erhebung genügen, wie die Absprungrate (churn) der Teilnehmer.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 5.1: Teilnehmermetriken mit Beschreibungen, Durchschnittswerten und Standardabweichungen

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 5.2: Trainermetriken mit Beschreibungen, Durchschnittswerten und Standardabweichungen

Der angegebene Durchschnitt in der dritten Spalte der Tabellen bezieht sich auf die gesamte Plattform. Bei Metriken, in denen ein Durchschnitt in der Beschreibung genannt wird, bezieht sich dieser jedoch entweder auf das Mittel aller Teilnehmer oder auf das Mittel aller Tage.

5.1.2 Auswahl des Korrelationsverfahrens

Zur Korrelationsanalyse der Metriken, muss zunächst ein passendes Verfahren gewählt werden. Das ge- wählte Verfahren soll insbesondere für die Verteilung der Daten geeignet sein (gemäß Abschnitt 3.4). In Abbildung 5.1 wird die Verteilung jeder Metrik über die Menge der Kurse dargestellt, um die Eignung der Verfahren zu beurteilen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.1: Histogramme der 'krteilungen aller Metriken

Die Verteilung der Metriken weicht stark von der Normalverteilung ab. Aus diesem Grund wird das Verfahren nach Pearson zur Bestimmung der Korrelationen nicht gewählt. Für Daten mit einer Vertei- lung, die stark von der Normalverteilung abweicht, eignen sich das Verfahren nach Spearman und das Verfahren nach Kendall besser (siehe Abschnitt 3.4). Diese Verfahren erlauben es ebenfalls nicht-lineare Zusammenhänge zu bestimmen, was gerade in einem automatisierten Vorhaben wichtig ist, da die Li- nearität der Zusammenhänge sich über die Laufzeit des Systems ändern können und zu einem späteren Zeitpunkt nicht gegeben sein müssen. Für die Korrelationsanalyse fällt die Wahl auf das Verfahren nach Kendall, da dieses in der Literatur gegenüber dem Verfahren nach Spearman bevorzugt wird [New02].

5.1.3 Bildung der Korrelationspaare

Um zu ermitteln, wie ein Trainer sein Verhalten verbessern kann, müssen Trainermetriken zunächst auf Zusammenhänge mit Teilnehmermetriken untersucht werden.

Aus allen Teilnehmer- und Trainermetriken werden dazu Paare gebildet und deren Korrelationen mit- hilfe des Verfahrens nach Pearson berechnet. Ein Paar wird nur zwischen einer Teilnehmer- und einer Trainermetrik gebildet. Eine Paarbildung zwischen zwei Teilnehmermetriken oder zwei Trainermetriken ist nicht zielführend, da der Zusammenhang keine Einsicht bezüglich optimalem Trainerverhalten gibt. Die Ergebnisse der paarweisen Korrelation sind mit den Korrelationskoeffizienten τ und der Wahrschein- lichkeit der Zufälligkeit des Zusammenhangs p in Tabelle 5.3 dargestellt.

Diese Werte werden dazu verwendet, die Qualität der Zusammenhänge zu bestimmen. Für den Korre- lationskoeffizienten τ ist ein Betrag möglichst nah an 1 optimal und für die Wahrscheinlichkeit p ist ein Wert möglichst nah an 0 optimal.

Um Paare zu wählen, die mindestens einen geringen Zusammenhang aufweisen, werden im Weiteren nur Korrelationen verwendet, für die | τ | ≥ 0.15 und p ≤ 0.05 gilt. Diese Paare sind in Tabelle 5.3 fett gekennzeichnet.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 5.3: Kendall’s τ und Wert von p für alle Korrelationspaare auf drei Nachkommastellen gerundet

Durch den Zusammenhang der Korrelationspaare in den Daten, gehen Verbesserungen der Trainer- metriken beziehungsweise der dadurch beschriebenen Aktivitäten, aus diesen Korrelationspaaren, mit einer Verbesserung der im selben Paar enthaltenen Teilnehmermetrik beziehungsweise der durch diese beschriebene Aktivität, einher. Somit wird durch die Bildung der Korrelationspaare eine Auswahl an Trai- nermetriken getroffen, deren Optimierung durch eine Intervention Sinn macht, da dadurch womöglich Einfluss auf die Teilnehmermetrik der Korrelationspaare genommen werden kann.

Eine Intervention, die die Verbesserung einzelner Trainermetriken aus solchen Korrelationspaaren vorschlägt, könnte anhand dieser Daten bereits angeboten werden, soll jedoch im nächsten Abschnitt bezüglich ihrer Erfolgswahrscheinlichkeit weiter verbessert werden.

5.1.4 Gruppierung der Korrelationspaare

Bei den gefundenen Korrelationspaaren wurde nicht nachgewiesen, dass eine Kausalität der Form Trainer- beeinflusst Teilnehmerverhalten besteht, deshalb werden die Paare im Folgenden zu Gruppen kombiniert, um eine Redundanz zu erhalten. In diesen Gruppen werden jeweils alle Trainermetriken zusammengefasst, die mit derselben Teilnehmermetrik ein Korrelationspaar bilden. Je höher die Anzahl der Trainermetriken in einer Gruppe ist, desto höher ist die Wahrscheinlichkeit, dass ein Paar mit kau- salem Zusammenhang enthalten ist. Wenn mehrere kausale Zusammenhänge innerhalb einer Gruppe vorliegen, so ist die potentielle Verbesserung umso höher, wenn die Verbesserung aller Trainermetriken realisiert wird.

Für die Gruppierungen werden die aktuell vorhandenen Korrelationspaare aus den Daten verwendet, das heißt, dass die gefundenen Zusammenhänge sich verändern können. Trotzdem möchte ich hier ei- nige interessante Zusammenhänge aus dem aktuellen Stand beschreiben und interpretieren. Für jede der nachfolgenden Aussagen ist ebenso das Gegenteil im Sinne der Aussagenlogik ebenso wahr, da die Richtung von Korrelationen, also ob diese positiv oder negativ ist, im Verfahren berücksichtigt wird.

Die Ergebnisse der Gruppierung sind in den folgenden Abbildungen als jeweils eine Matrix pro Gruppe dargestellt. In der ersten Spalte der Matrizen stehen dabei die Namen der Trainermetriken, in der zweiten Spalte stehen die Korrelationskoeffizienten, und außerhalb der Matrizen, durch einen vorangestellten Pfeil gekennzeichnet, stehen die Teilnehmermetriken, mit denen die Trainermetriken korrelieren.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.2: Korrelationsgruppe avgDailyBlinkSeens

Abbildung 5.2 zeigt, dass die durchschnittliche Anzahl der täglich gesehenen Blinks in Kursen höher ist, in denen Trainer durchschnittlich mehr Blinks freigeben, einen höheren Anteil an Blinks des Typs Quiz und Audio bereitstellen und durchschnittlich mehr Kommentare schreiben. Die durchschnittliche Anzahl der täglich gesehenen Blinks ist in Kursen niedriger, in denen große zeitliche Abstände zwischen den Blink Freigaben bestehen und der Anteil der bereitgestellten Inhalte des Typs Other größer ist.

Die Korrelationsgruppe in Abbildung 5.3 zeigt, dass Kurse mit einer hohen durchschnittlichen Anzahl an täglichen Teilnehmerkommentaren dazu tendieren, eine hohe Anzahl an Trainerkommentaren und Blinkfreigaben aufzuweisen. Dies lässt sich dadurch erklären, dass das Erstellen von Inhalten neue Fra- gen der Teilnehmer mit sich bringen kann und im Kommentarbereich ein Dialog zwischen Trainern und Teilnehmern stattfindet. Zudem weisen Kurse mit zeitlich geringeren Abständen zwischen den Blinkfrei- gaben ebenfalls eine höhere Anzahl an Teilnehmerkommentaren auf.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.4: Korrelationsgruppe churn

Die Absprungrate der Kursteilnehmer ist (nach Abbildung 5.4) in Kursen hoch, in denen der Anteil von Blinks des Typs Other, und der zeitliche Abstand der Blinkfreigaben hoch ist. Die Absprungrate der Kursteilnehmer ist in Kursen gering, in denen der Anteil an Audio- und Quiz-Inhalten, die durchschnitt- liche tägliche Anzahl an freigegebenen Blinks und die durchschnittliche tägliche Anzahl an Einladungen hoch sind.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.5: Korrelationsgruppe fractionSeen

Der Anteil der bereitgestellten Inhalte, die durchschnittlich von einem Teilnehmer gesehen werden, ist (nach Abbildung 5.5) in Kursen hoch, in denen die durchschnittliche tägliche Anzahl der Trainerkom- mentare und die durchschnittliche tägliche Anzahl der Einladungen niedrig sind.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.6: Korrelationsgruppe avgDiffPubSeen

Der durchschnittliche zeitliche Abstand, zwischen der Freigabe der Blinks durch einen Trainer und dem Betrachten der Blinks durch einen Teilnehmer, ist in Kursen gering, in denen der Anteil der bereitgestell- ten Inhalte vom Typ Other oder Image hoch ist. Der Abstand der Freigabe und Betrachtung ist ebenfalls hoch, wenn die durchschnittliche tägliche Anzahl an Blinkfreigaben niedrig ist (siehe Abbildung 5.6).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.7: Korrelationsgruppe seenMin50

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.8: Korrelationsgruppe seenMin80

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.9: Korrelationsgruppe seenMin90

In den Abbildungen zu den Korrelationsgruppen von seenMin50,seenMin80 und seenMin90 ist jeweils ein negativer Zusammenhang dieser Metriken zur durchschnittlichen täglichen Anzahl der freigegebenen Blinks, ein negativer Zusammenhang zum Anteil der Blinks vom Typ Image und ein negativer Zusam- menhang zur durchschnittlichen Anzahl der täglich versendeten Kurseinladungen erkennbar. In Kursen in denen Teilnehmer einen Großteil der Inhalte wahrnehmen, verwenden die Trainer demnach seltener Bilder als Typ und geben neue Blinks seltener frei. Abbildung 5.7 lässt sich zusätzlich entnehmen, dass in Kursen, in denen viele Teilnehmer mindestens 50% der Inhalte wahrgenommen haben, der Abstand zwi- schen den Veröffentlichungen durchschnittlich gering ist, und dass die Inhalte in diesen Kursen anteilig aus wenigen Blinks des Typs Audio bestehen. Nach Abbildung 5.8 und Abbildung 5.9 besteht ebenfalls ein negativer Zusammenhang zwischen dem Anteil der Teilnehmer die mindestens 80% oder 90% der Inhalte wahrgenommen haben, zu dem Anteil der bereitgestellten Inhalte die als Typ Other vorliegen. In Kursen in denen also beispielsweise externe Verweise, oder andere alternative Medien verwendet wer- den, betrachten die Teilnehmer die Kursinhalte tendenziell seltener komplett. Ein positiver Zusammen besteht zwischen dem Anteil der Teilnehmer die mindestens 80% oder 90% der Inhalte wahrgenommen haben und dem Anteil der bereitgestellten Inhalte die als Typ Quiz vorliegen.

Die Forschungsfrage, ob ein Zusammenhang zwischen Trainer- und Teilnehmerverhalten besteht, wird von dieser Analyse bestätigt.

5.2 Klassifizierung der Kurse

Die gefundenen Korrelationsgruppen beinhalten jeweils genau eine Teilnehmermetrik und mindestens eine Trainermetrik, für die eine Intervention sinnvoll sein kann. Für jede Teilnehmermetrik wird also eine Korrelationsgruppe gebildet, sodass diese Korrelationsgruppe die Teilnehmermetrik mit allen Trai- nermetriken gruppiert, die mit dieser in Zusammenhang stehen. Diese Korrelationsgruppen stellen die Zusammenhänge zwischen Trainer- und Teilnehmermetriken dar, für die Interventionen relevant sind. Ob ein Kurs eine Intervention erhält, hängt also davon ab, wie das Kursverhalten bezüglich der Metriken in den Korrelationsgruppen aussieht. Ob eine Intervention für einen Kurs sinnvoll ist, ist somit von zwei Faktoren abhängig. Der erste Faktor bezeichnet, welche Metriken in Korrelationsgruppen vorliegen, und der zweite Faktor umfasst, wie die Werte der Metriken in einem Kurs im Vergleich zu den Metriken in den Korrelationsgruppen ausfallen. Jeder Vergleich der kursinternen Werte der Metriken mit den Metri- ken einer einzigen Korrelationsgruppe entscheidet dabei, ob ein Kurs eine Intervention bezüglich dieser einzigen Korrelationsgruppe erhält. Dieser Vergleich, der über die Qualifizierung eines Kurses für eine Intervention entscheidet, wird für jede Korrelationsgruppe durchgeführt.

Der Vergleich, beziehungsweise die Bewertung, der Metriken einer Korrelationsgruppe mit den Werten der Metriken in einem Kurs erfolgt dabei anhand des jeweiligen Durchschnitts der Metriken. Das heißt, der Durchschnitt des Wertes einer Metrik aus einer Korrelationsgruppe wird jeweils mit dem aktuell vorliegenden Wert in einem Kurs verglichen. Mit dem Vergleich zum Durchschnittswert qualifiziert sich tendenziell eine größere Menge an Kursen für Interventionen, als wenn beispielsweise nur das untere Quantil einer Metrik als Maß verwendet werden würde.

5.2.1 Definition der Klassen

Die Klassifizierung ist durch den Vergleich mit den Durchschnittswerten der Metriken einer Korrelati- onsgruppe regelbasiert, wobei für beide Arten von Metriken, also für Trainer- und Teilnehmermetriken, in einer Gruppe jeweils überprüft wird, ob der Kurs einen höheren oder einen niedrigeren Wert als der Durchschnitt aller Kurse hat. Da es je Gruppe eine einzige Teilnehmermetrik und eine oder mehrere Trai- nermetriken gibt, wird auch nur ein Vergleich mit dem Durchschnittswert für die Teilnehmermetrik und ein oder mehrere Vergleiche für die jeweiligen Durchschnittswerte der Trainermetriken durchgeführt. Bei diesem Vorgehen können vier verschiedene Fälle auftreten, woraus sich vier verschiedene Klassen ergeben, zu denen ein Kurs für jede Gruppe zugeordnet werden kann.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 5.4: Regelbasierte Klassifizierung jedes Kurses pro Korrelationsgruppe (TN für Teilnehmermetrik und TR für Trainermetriken)

Klasse 1 stellt dabei ein überdurchschnittlich hohes Maß an Aktivitäten bezüglich aller Metriken ei- ner Gruppe dar und rechtfertigt somit keine Intervention. Klasse 2 und Klasse 3 stellen ein Verhalten dar, das entweder in der Trainermetrik oder in der Teilnehmermetrik unterdurchschnittlich ist, wird jedoch ebenfalls nicht für Interventionen in Erwägung gezogen wird. In Klasse 2 ist das Trainerverhal- ten für die Gruppe bereits überdurchschnittlich, und so kann es sein, dass das unterdurchschnittliche Teilnehmerverhalten extern bedingt ist. In Klasse 3 ist das Trainerverhalten für die Gruppe zwar unter- durchschnittlich, jedoch ist das Teilnehmerverhalten überdurchschnittlich gut. Demnach funktionieren manche Kurse auch ohne die Aktivität von Trainern und sollen folglich keine Interventionen erhalten. Klasse 4 ist am besten für Interventionen geeignet, da hierbei sowohl das Trainerverhalten als auch das Teilnehmerverhalten unterdurchschnittlich ausfällt. Das Potential einer Verbesserung ist also maximal.

Wenn die Menge der Kurse, die Interventionen erhalten, in Zukunft vergrößert werden soll, kann Klasse 3 ebenfalls in Erwägung gezogen werden. Damit würden dann auch Kurse für Interventionen klassifiziert werden, die zwar ein gutes Teilnehmerverhalten aufweisen, bei denen dieses aber womög- lich durch die Verbesserung des Trainerverhaltens weiter gesteigert werden kann. Ebenso könnte Klasse 2 in Erwägung gezogen werden, also Kurse mit überdurchschnittlichem Teilnehmerverhalten, aber unter- durchschnittlichem Trainerverhalten.

5.2.2 Verteilung der Kurse auf Klassen

Abbildung 5.10 zeigt die Anzahl der Kurse die für jede Korrelationsgruppe zu Klasse 4 zugeordnet wer- den. Für die Korrelationsgruppen der Teilnehmermetriken avgDailyBlinkSeens,avgDailyStudentComments und churn werden dabei ungefähr die Hälfte aller Kurse klassifiziert. Das ist jedoch nicht überraschend, da die regelbasiert Klassifizierung vom Durchschnitt der Metriken ausgeht und somit in jedem Fall eine große Menge an Kursen qualifiziert. Um diese Menge der für Interventionen qualifizierten Kurse weiter einzugrenzen, kann der Vergleich mit dem Durchschnitt beispielsweise durch den Vergleich mit dem un- teren Quantil ersetzt werden. Auf diese Weise kann gesteuert werden wie die regelbasierte Klassifikation stattfindet und ab welchen relativen Grenzen eine Intervention gerechtfertigt ist. Hierbei ist es ebenfalls möglich, diese Grenzen für Metriken absolut zu setzen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.10: Anzahl der Kurse die Interventionen für verschiedene Korrelationsgruppen erhalten

Die Einteilung der Kurse in Klassen wird im nächsten Schritt als Grundlage für die Erstellung von Interventionen verwendet.

5.3 Intervention

Für jede Korrelationsgruppe kann potentiell eine Intervention gesendet werden. Durch den Vergleich mit den Metriken aus den Korrelationsgruppen wird entschieden, welche Kurse Interventionen erhalten. Es wurde jedoch noch nicht definiert, wie Interventionen aufgebaut sind und wie die Übermittlung an Trainer stattfindet.

Eine einzelne Intervention besteht aus der Nennung der zu optimierenden Teilnehmermetrik, einer Menge von Empfehlungen, deren Mächtigkeit der Anzahl an Paaren in der zur Intervention gehörenden Korrelationsgruppe entspricht, und einer Vorhersage, die für das Befolgen der Empfehlungen getroffen wird.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.11: Zusammenhang von Begriffen um eine Intervention

In den folgenden Unterabschnitten werden die einzelnen Teile einer Intervention sowie deren Gestal- tung und Anwendung beschrieben.

5.3.1 Empfehlungen als Grundlage der Interventionen

Empfehlungen an die Trainer der Form “steigern Sie den Anteil der Blinks vom Typ Video”, stellen den wichtigsten Teil der Interventionen dar, da für diese ein höheres Erfolgspotential erwartet wird als für die Vorhersagen der Form “bei einer Steigerung des Anteils der Blinks könnte sich der Anteil der Teil- nehmer, die mindestens 50% der Blinks sehen, von 9% auf 39% steigern”. Die Vorschläge, die in den Empfehlungen gegeben werden, sind direkt aus der Korrelationsanalyse abgeleitet und werden daher in der Form von Tendenzen gegeben. Die Aussagen beziehen sich dabei auf die Trainermetriken und die Veränderungen, die für diese vorgenommen werden sollen. Es werden also die Bezeichnungen der zu ändernden Trainermetriken genannt und bestimmt, ob eine Steigerung oder Senkung der Metriken gefordert wird.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.12: Empfehlungen einer Intervention mit Zielgrößen

Für die Erstellung der Empfehlungen einer Intervention wird für jede Trainermetrik der Korrelations- gruppe der Durchschnittswert erhoben und mit dem aktuellen Wert im betrachteten Kurs verglichen. Da im Klassifikationsschritt nur Trainermetriken gewählt wurden, die verbessert werden müssen, zeigt dieser Vergleich in jedem Fall die Zielrichtung der Verbesserung an. Das bedeutet, dass wenn der ak- tuelle Wert größer ist als der Durchschnittswert, für diese Trainermetrik eine Senkung vorgeschlagen wird; wenn der aktuelle Wert kleiner ist als der Durchschnittswert, wird entsprechend eine Erhöhung vorgeschlagen. Der Trainer erfährt durch diese Informationen, wie er das eigene Verhalten verbessern kann.

5.3.2 Vorhersagen als Erweiterung der Interventionen

Die Vorhersage einer Intervention ist, anders als eine Empfehlung, nicht mehr tendenziell. Es werden stattdessen konkrete Vorschläge gemacht, die zeigen sollen, wie ein Trainer sein Verhalten ändern kann und mit welchen Ergebnissen dadurch auf Teilnehmerseite zu rechnen ist. Da hierbei eine genaue Pro- gnose gegeben wird, ist die Wahrscheinlichkeit des Zutreffens geringer als bei den Empfehlungen. Aus diesem Grund werden Vorhersagen in einer Intervention nur als Zusatz gegeben und stehen nicht alleine.

Als Vorhersage wird für jede der Trainermetriken der aktuelle Wert angegeben sowie eine Zielgröße als Richtwert für die Metrik des Trainers (hinterer Teil der Empfehlungen in Klammern in Abbildung 5.12). Für die Teilnehmermetrik wird eine Prognose angegeben, das heißt wie der aktuelle Wert für diese Metrik aussieht und welcher Wert bei Veränderung der Teilnehmermetriken erwartet werden kann (Ab- bildung 5.13).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.13: Vorhersage einer Teilnehmermetrik als Prognose

Die Trainer-Zielgrößen werden als Durchschnittswerte auf der Plattform erhoben, während die Teilnehmer-Prognose mithilfe eines Regressionsmodells berechnet wird. Werte der Trainermetriken wer- den mit dem Regressionsmodell auf den Wert der Teilnehmermetrik abgebildet. Bei der Vorhersage wird dabei für Trainermetriken, deren Wert besser als der Durchschnitt ist, der aktuelle Wert als Eingabe herangezogen, und für Trainermetriken, deren Wert schlechter als der Durchschnitt ist, wird der Durch- schnittswert als Eingabe verwendet. Die Prognose basiert also auf dem vorgeschlagenen Trainerverhalten unter Berücksichtung des bereits vorhandenen Verhaltens.

Für die Berechnung der Vorhersage wird ein Regressionsverfahren verwendet. Regressionsverfahren können lineare und nicht-lineare funktionale Zusammenhänge zwischen zwei oder mehreren Variablen modellieren. Das durch Regressionsverfahren erhaltene Modell kann daraufhin zur Vorhersage des Wer- tes einer Variablen mithilfe der Werte der anderen Variablen verwendet werden. Für diese Arbeit wird ein Regressionsverfahren dazu verwendet, den Wert einer Teilnehmermetrik mithilfe von Trainerme- triken vorherzusagen. Das spezielle Regressionsverfahren, das in dieser Arbeit zur Vorhersage gewählt wird, ist die sogenannte Support Vector Regression (SVR). Bei diesem Verfahren handelt es sich um eine Anwendung von Support Vector Machines (SVM) [VGS97]. Support Vector Regression (SVR) ist nach Top 10 algorithms in data mining des Journals Knowledge and Information Systems eine der genauesten und robustesten Instanzen der bekannteren verwandten Algorithmen und ist Berichten zufolge unemp- findlich gegenüber Ausreißern [WKQ+08]. Da der Fokus dieser Arbeit nicht primär auf der Vorhersage von Teilnehmermetriken liegt, wurde eine flächendeckende Evaluation der populärsten Regressionsver- fahren für diese Anwendung nicht durchgeführt. Es ist jedoch angestrebt, die Parameter für das gewählte Verfahren optimal zu wählen. Die Wahl der Parameter wird in Unterunterabschnitt 6.4.3 beschrieben.

5.3.3 Gestaltung der Interventionen

Da ein Kurs mehrere Interventionen erhalten kann, werden diese als eine Interventionsansicht zusam- mengefasst. In dieser Ansicht wird dem Trainer eine Auflistung aller Interventionen präsentiert, die für den Kurs generiert wurden.

Für einen realen Kurs mit zwei Interventionen sieht die Interventionsansicht folgendermaßen aus:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5.14: Interventionsansicht eines Kurses

Eine Intervention in der Interventionsansicht wird als weißes Panel dargestellt, wobei ein Panel jeweils aus drei Sektionen besteht. Der obere Abschnitt beinhaltet lediglich die Nennung der Teilnehmermetrik, auf die sich die Intervention bezieht. Der mittlere Abschnitt beinhaltet in jeder Zeile eine Empfehlung und in Klammern den Teil der Vorhersage, der die Empfehlung konkretisiert. Der untere Abschnitt beinhaltet die Vorhersage beziehungsweise die Prognose des Teilnehmerverhaltens.

5.3.4 Notifikation der Trainer

Eine Notifikation weist den Trainer darauf hin, dass für einen Kurs Verbesserungspotential besteht und dass dazu weitere Informationen auf der Plattform eingesehen werden können.

Wenn ein Trainer eine Notifikation erhält und auf die darin enthaltene Schaltfläche klickt, dann wird er auf die Interventionsansicht weitergeleitet.

Für jede Teilnehmermetrik erhält ein Kurs bei entsprechender Klassifikation (Klasse 4) einmalig eine Notifikation. Nach der ersten Notifikation wird keine weitere ausgelöst, der Zugriff auf die Ansicht ist jedoch weiterhin über das Kursmenü möglich. Eine Ausnahme dieser Regel tritt dann ein, wenn sich für einen Kurs das Verhalten des Trainers oder der Teilnehmer gemäß einer Intervention verbessert und im nächsten Interventionsdurchlauf wieder verschlechtert. Hierbei findet eine Veränderung der Klassi- fikation von “nicht Klasse 4” zu Klasse 4 statt, woraufhin eine weitere Notifikation ausgelöst werden soll.

6 Implementierung

Das in Kapitel 5 ausgeführte Konzept wurde prototypisch implementiert und soll in diesem Kapitel aus technischer Sicht beschrieben werden. Dazu wird zuerst die Architektur vorgestellt und danach wer- den die einzelnen Komponenten beschrieben. Das System läuft auf einem Debian-Server und wurde hauptsächlich in Python entwickelt. Dazu wurden die in Kapitel 8 aufgelisteten Python-Bibliotheken verwendet. Die Integration in blink.it wurde in Coffeescript und HTML/Blaze entwickelt.

Aus Platzgründen wurden mitunter die Import-Anweisungen bei den Code-Beispielen ausgelassen.

6.1 Architektur

Alle Elemente, die auf der Seite von blink.it vorliegen, sind in Abbildung 6.1 durch eine Wolke abge- grenzt. Dazu zählen vor allem die Interventionsansicht und die Datenbank, in der die Interventionen gespeichert werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6.1: Übersicht der Architektur des automatischen Interventionssystems

Der blaue Zylinder repräsentiert die Datenbank der App, der graue Zylinder den Cache, der Bildschirm das User Interface auf der Plattform, das Oval den Scheduler, die blauen Rechtecke die Komponenten, in die das System aufgeteilt ist, und der Drucker eine Logdatei. Das Rechteck, in dem die Komponenten liegen, stellt den Hauptprozess dar und soll zeigen, welche Komponenten durch diesen ausgeführt wer- den. Pfeile zwischen Komponenten zeigen die Ablaufreihenfolge an, Linien zwischen Komponenten und Datenträgern zeigen Lese- und Schreibvorgänge an.

6.2 Scheduler

Die Intervention der Kurse soll regelmäßig stattfinden und muss deshalb durch einen Scheduler in fest- gelegten Abständen angestoßen werden. Der Scheduler wird auf dem Server als Cronjob (Listing 1) implementiert. An dieser Stelle wird die Frequenz der Ausführung und die Datei, in die Programmaus- gaben geschrieben werden, festgelegt.

Abbildung in dieser Leseprobe nicht enthalten

Listing 1: Scheduler als Cronjob

Der Cronjob startet das im folgenden Abschnitt beschriebene Hauptmodul am 1. Tag jeden Monats um 3 Uhr nachts.

6.3 Hauptmodul

Da die Architektur aus mehreren Komponenten besteht, muss deren Ausführung koordiniert werden. Das Modul, das die Koordination übernimmt, wird in diesem Kontext als Hauptmodul bezeichnet. Dieses Modul übernimmt ebenfalls die Initialisierung des Caches.

Abbildung in dieser Leseprobe nicht enthalten

Listing 2: Hauptmodul – Aufruf der Komponenten

Das Hauptmodul ruft die einzelnen Komponenten sequentiell auf, wobei etwaige Fehlermeldungen zentral abgefangen werden, um in einer Logdatei gespeichert zu werden. Sollte die Ausführung aufgrund eines Laufzeitfehlers abbrechen, muss ein Neustart manuell angestoßen werden oder findet durch den nächsten Durchlauf des Schedulers automatisch statt.

6.4 Komponenten

In diesem Abschnitt werden die Komponenten des Analyseprozesses beschrieben und ein Teil des Codes vorgestellt.

6.4.1 Export

Die Daten der Plattform liegen in einer dokumentbasierten Datenbank vor. Um diese nur einmalig für jeden Analysezyklus zu belasten, werden die Daten auf das lokale Dateisystem exportiert. Beim Export werden alle Ereignisse, die die Plattform für Trainer und Teilnehmer speichert, extrahiert. Dazu zählen auch Metainformationen, wie die Namen dieser Ereignisse, der Zeitstempel, die User-Id des Nutzers, der das Ereignis auslöste, sowie die Kurs-Id, deren Kurs dieser Nutzer angehört. Die Daten werden dazu im textbasierten JSON -Format gespeichert.

Abbildung in dieser Leseprobe nicht enthalten

Listing 3: Export der Daten aus MongoDB

Um die Daten einfacher in Python verarbeiten zu können, werden Datumsattribute, Zahlen und Ob- jectIds nach dem Export in ein gängigeres Format konvertiert.

6.4.2 Import und Berechnung der Metriken

Diese Komponente ist dafür zuständig, die konvertierten Daten vom Dateisystem in den Cache zu laden, um aus diesen Daten für jeden Kurs die in Unterabschnitt 5.1.1 gewählten Metriken zu berechnen.

Abbildung in dieser Leseprobe nicht enthalten

Listing 4: Ausschnitt von der Berechnung der Metriken für durchschnittlicher Anteil an Blinks vom Typ Video und Sonstige

Nachdem alle Kurse mit den dazugehörigen Metriken berechnet und in den Cache geladen wurden, werden Ausreißer aus den Daten entfernt. Dafür werden Kurse ausgefiltert, die das in Abschnitt 2.2 definierte Mindestmaß an Aktivität nicht aufweisen.

Dabei werden Metriken verwendet, die im Konzept nicht vorgestellt wurden, genauer: sumDailyStu- dentComments,sumDailyBlinkPublishs,sumDailyBlinkSeens und sumDailyTrainerComments. Diese Metri- ken zeigen die Anzahl der jeweiligen Ereignisse über die Existenzdauer eines Kurses an. Die Metriken genügen den Gütekriterien nicht, sind aber für die Aussortierung von Kursen, die beispielsweise nur zu Testzwecken angelegt wurden, nützlich. Mit dem Entfernen von Ausreißern ist die Vorverarbeitung abgeschlossen.

6.4.3 Analyse

Der nächste Schritt ist die Untersuchung der Daten im Analysemodul. Dieses Modul hat die Aufgabe, die Werte zu berechnen, die den Trainern später in der Intervention präsentiert werden. Dafür werden die Korrelationsgruppen gebildet, die Modelle für die Regression berechnet und die Klassifikation der Kurse anhand der Korrelationsgruppen vorgenommen. Nach den Berechnungen werden die Ergebnisse im Cache gespeichert und für die Interventionskomponente zugänglich gemacht.

Korrelation

Im Folgende ist ein Ausschnitt des Codes zu sehen, der für die Berechnung der Korrelationspaare zustän- dig ist. Dabei werden nur Paare gespeichert, für die | τ | > 0.15 und p < 0.05 gilt.

Abbildung in dieser Leseprobe nicht enthalten

Listing 5: Methode zur Korrelationsbestimmung

Regression

Die Regression erfolgt durch die Verwendung eines Pakets, das die Support Vector Regression (SVR) implementiert. Die Parameter des Regressionsalgorithmus C und γ werden durch Anwendung von Grid Search und Cross Validation gewählt. Der Begriff Grid Search beschreibt das Vorgehen des Kombinierens von verschiedenen Werten zu Parameterpaaren, um die optimalen Parameter für die Anwendung eines Algorithmus zu bestimmen. Die Qualität des Ergebnisses wird dabei von der Spannweite und der Gra- nularität des verwendeten Suchraums bestimmt, aus dem die Werte zur Kombination gewählt werden. Der Begriff Cross Validation beschreibt in diesem Kontext das Vorgehen, die Trainingsdaten aufzuteilen und für jede Parameterkombination die Qualität des Regressionsmodells anhand verschiedener Teile der Trainingsdaten zu bewerten. Dadurch wird der Überanpassung eines Modells entgegengewirkt. Durch die Vergrößerung des Suchraums der Kombinierten Parameter kann die Qualität der generier- ten Regressionsmodelle weiter verbessert werden, bedeutet aber einen erhöhten Rechenaufwand für die Modellgenerierung.

Abbildung in dieser Leseprobe nicht enthalten

Listing 6: Methode zur Berechnung der Regressionsmodelle

Klassifikation

Abbildung in dieser Leseprobe nicht enthalten

Listing 7: Methode zur Klassifizierung der Kurse

6.4.4 Intervention

Nachdem die Werte in der vorherigen Komponente im Cache gespeichert wurden, werden sie der Platt- form in diesem Schritt zur Verfügung gestellt. Dazu wird eine Verbindung mit der Datenbank hergestellt, die die Interventionen hostet, und die Daten werden in dieser als Dokumente gespeichert.

Abbildung in dieser Leseprobe nicht enthalten

Listing 8: Anwenden der Interventionen durch Speichern auf der Plattform

Darstellung der Interventionen

Da blink.it bei der Entwicklung ein Framework verwendet, das Inhalte mithilfe von Templates darstellt, wird auch die Interventionsansicht als Template entwickelt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6.2: Aufbau des Templates der Interventionsansicht

Die eingefügten Werte (siehe Abbildung 6.2) bestehen, neben den Bezeichnungen der Metriken, aus dem aktuellen Wert für die Teilnehmermetrik T N, den aktuellen Werten der Trainermetriken T R, sowie den gewünschten Werten der Trainermetriken T R I und der vorhergesagten Teilnehmermetrik T N I.

Das Layout des Templates wird mithilfe von HTML und Blaze realisiert, wobei dieses die Interventio- nen aus der Datenbank entgegennimmt und darstellt. Das Ergebnis der Implementierung ist in Abbil- dung 5.14 ersichtlich.

6.4.5 Notifikationen

Da die Plattform über die Funktionen, zum Auslösen und Anzeigen von Notifikationen, bereits verfügt, können diese für Interventionen wiederverwendet werden. Der Aufruf und die Behandlung des Notifica- tionservers ist nicht Teil dieses Prototyps, kann aber durch einen internen Scheduler auf der Serverseite von Meteor ergänzt werden, der periodisch überprüft, ob neue Interventionen vorliegen.

Bei einem Interventionszyklus wird für jeden Kurs, der eine Intervention erhält, überprüft, ob dieser Kurs für dieselbe Korrelationsgruppe zuletzt bereits eine Intervention erhalten hat. In diesem Fall wird keine Notifikation gesendet. Wurde noch keine Intervention erhalten, wird eine Notifikation gesendet.

Auf diese Weise erhält ein Kurs für jede Gruppe nur einmalig eine Benachrichtigung. Die Ausnahme bildet ein Kurs, dessen Verhalten sich nach dem Erhalt einer Notifikation zunächst verbessert und danach wieder verschlechtert hat. Ein solcher Kurs erhält eine weitere Notifikation.

Der Inhalt der Notifikation besteht aus der Information, dass Verbesserungspotential besteht und einer Schaltfläche, die den Trainer auf die Interventionsansicht führt. Der Trainer kann außerdem, sobald eine Intervention verfügbar ist, im Kursmenü auf die Interventionsansicht zugreifen.

Sollte ein Trainer sein Verhalten gemäß der Aussagen aller Interventionen angepasst haben, so erhält er eine Meldung mit dem Inhalt, dass momentan keine Verbesserungsvorschläge vorhanden sind und der Reiter in den Einstellungen verschwindet.

7 Zusammenfassung und Ausblick

Das Ziel dieser Arbeit ist die Untersuchung, wie Trainer auf einer Blended Learning Plattform automa- tisch in ihrem Lehrvorhaben unterstützt werden können, indem Interventionen auf Basis von Analyse und Klassifikation des Trainer- und Teilnehmerverhaltens angeboten werden.

Die zugrunde liegenden Forschungsfragen waren dabei:

1. Besteht eine Abhängigkeit zwischen Trainer- und Teilnehmerverhalten?
2. Welche Klassen von Trainerverhalten lassen sich unterscheiden?
3. Mit welchen Verfahren lassen sich Trainer klassifizieren?
4. Wie lassen sich Interventionen für eine gewünschte Verhaltensänderung implementieren?
5. Führt eine Intervention zu einer Verbesserung der Teilnehmeraktivität beziehungsweise der Teil- nehmerzufriedenheit?

Die Forschungsfragen konnten, mit Ausnahme der letzten Frage, im Rahmen der vorliegenden Unter- suchung beantwortet werden. Dazu wurden zuerst Begriffe aus verwandten Arbeiten bezüglich Learning Analytics und Educational Data Mining eingeführt, sowie relevante Einsichten aus Arbeiten zu Instructio- nal Scaffolding,Engagement in Online-Lernumgebungen,Notifikationen in Lernsystemen und Korrelations- analyse vorgestellt. Diese Arbeit ist davon ausgehend in den Bereich von Learning Analytics einzuordnen, da sie die Entwicklung eines Werkzeugs zur Unterstützung der Trainer in einer Blended Learning Ler- numgebung untersucht. Die Recherche zu verwandten Arbeiten hat dabei ergeben, dass der Lernerfolg von Teilnehmern durch das Eingreifen von Experten in Online-Lernumgebungen gesteigert werden kann. Die Korrelationsanalyse dieser Arbeit bekräftigt diese Aussage durch das Aufzeigen von Zusammenhän- gen, die für einige Aspekte der Aktivität zwischen dem Trainer- und dem Teilnehmerverhalten in einer Blended Learning Lernumgebung vorgefunden wird. Auf Basis der Korrelationsanalyse wurde ein re- gelbasiertes Klassifizierungsverfahren vorgestellt, mit dem Kurse anhand der vorliegenden Trainer- und Teilnehmeraktivität in Klassen eingeordnet wurden. Die Klassifizerung fand dabei aufgrund der Perfor- manz des Trainer- und Teilnehmerverhaltens im Vergleich zum Durchschnitt aller Kurse statt und konnte als Basis zur Erstellung von Interventionen genutzt werden. Die Klassen denen Kurse zugeordnet sind, entscheiden darüber, ob Kurse für Interventionen geeignet sind, und welche Interventionen Kurse im Falle der Eignung erhalten sollen.

Interventionen richten sich an Trainer und werden individuell für jeden Kurs erstellt. Inhaltlich werden Interventionen nach dem aktuellen Verhalten der Akteure im Kurs und nach den Einsichten der Korre- lationsanalyse gebildet. Trainer erhalten dadurch Empfehlungen, die ihnen zeigen, wie sie ihr Verhalten anpassen sollten, um einen positiven Einfluss auf das Teilnehmerverhalten zu nehmen.

Das System zur automatischen Intervention wurde als Konzept vorgestellt und zum Beweis der Mach- barkeit prototypisch implementiert. Sowohl bei der Konzeption als auch bei der Implementierung wurde darauf geachtet, dass der Betrieb möglichst automatisch stattfinden kann und kein weiteres Eingreifen erforderlich ist.

In Anbetracht der Zielsetzung blieb die Beantwortung einer der Forschungsfragen aus: Führt eine Intervention zu einer Verbesserung der Teilnehmeraktivität beziehungsweise der Teilnehmerzufrieden- heit? Diese Frage wurde im Rahmen der Bachelorarbeit nicht beantwortet, kann aber zukünftig durch eine Evaluation des Konzeptes beantwortet werden. Voraussetzung für die Durchführung einer solchen Evaluation ist die Inbetriebnahme einer dem Konzept entsprechenden Implementierung. Das System muss also in Produktion gehen und die Interventionen müssen Trainern angeboten werden. Damit kann überprüft werden, ob Interventionen einerseits von Trainern angenommen werden, also sich das Trai- nerverhalten gemäß der Empfehlungen ändert, und es kann überprüft werden ob ein kausaler Zusam- menhang zwischen dem Trainer- und Teilnehmerverhalten besteht. Eine Inbetriebnahme des Systems macht dabei in Form eines Pilotprojekts Sinn, da somit verschiedene Evaluationen mit unterschiedlichen Trainergruppen durchgefiihrt werden konnen, urn den Ansatz iterativ verbessern zu konnen.

8 Verwendete Werkzeuge

- Python – Zur Entwicklung der Komponenten des Konzeptes (bis auf die Interventionsansicht) und mithilfe der Pakete sklearn,scipy,json,redis,pickle,matplotlib,pandas,collections und pymongo
- CoffeeScript – Zur Entwicklung der Logik der Interventionsansicht
- HTML und Blaze – Zur Entwicklung des Layouts der Interventionsansicht
- R obo3T – Zur Dateneinsicht auf der Plattform
- Emacs – Als Texteditor

Literaturverzeichnis

[BH12] Anthony J Bishara and James B Hittner. Testing the significance of a correlation with nonnormal data: comparison of pearson, spearman, transformation, and resampling ap- proaches. Psychological methods, 17(3):399, 2012.

[BI14] Ryan Shaun Baker and Paul Salvador Inventado. Educational data mining and learning analytics, 2014.

[CC14] Moon-Heum Cho and YoonJung Cho. Instructor scaffolding for interaction and students’ academic engagement in online learning: Mediating role of perceived online class goal structures. The Internet and Higher Education, 21:25–30, 2014.

[CDST12] Mohamed Amine Chatti, Anna Lea Dyckhoff, Ulrik Schroeder, and Hendrik Thüs. A reference model for learning analytics. International Journal of Technology Enhanced Learning, 4(5-6):318–331, 2012.

[DLM+13] Anna Lea Dyckhoff, Vlatko Lukarov, Arham Muslim, Mohamed Amine Chatti, and Ulrik Schroeder. Supporting action research with learning analytics. In Proceedings of the Third International Conference on Learning Analytics and Knowledge, pages 220–229. ACM, 2013.

[FMG15] Sara Isabella Freitas, John Morgan, and David Gibson. Will moocs transform learning and teaching in higher education? engagement and course retention in online learning provision. British Journal of Educational Technology, 46(3):455–471, 2015.

[GK04] D Randy Garrison and Heather Kanuka. Blended learning: Uncovering its transformative potential in higher education. The internet and higher education, 7(2):95–105, 2004.

[GK05] Philip J Goldstein and Richard N Katz. Academic analytics: The uses of management information and technology in higher education, volume 8. Educause, 2005.

[HHB07] Cecily Heiner, Neil Heffernan, and Tiffany Barnes. Educational data mining. In Sup- plementary Proceedings of the 12th International Conference of Artificial Intelligence in Education, 2007.

[Hin08] Patricia H Hinchey. Action research primer, volume 24. Peter Lang, 2008.

[HK11] Jan Hauke and Tomasz Kossowski. Comparison of values of pearson’s and spearman’s correlation coefficients on the same sets of data. Quaestiones geographicae, 30(2):87, 2011.

[JT14] Nurul Farhana Jumaat and Zaidatun Tasir. Instructional scaffolding in online learning environment: A meta-analysis. In Teaching and Learning in Computing and Engineering (LaTiCE), 2014 International Conference on, pages 74–77. IEEE, 2014.

[New02] Roger Newson. Parameters behind"nonparametricßtatistics: Kendall’s tau, somers’ d and median differences. 2002.

[PNHC16] Xuan-Lam Pham, Thi-Huyen Nguyen, Wu-Yuin Hwang, and Gwo-Dong Chen. Effects of push notifications on learner engagement in a mobile learning app. In Advanced Learning Technologies (ICALT), 2016 IEEE 16th International Conference on, pages 90– 94. IEEE, 2016.

[RV10] Cristóbal Romero and Sebastián Ventura. Educational data mining: a review of the state of the art. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 40(6):601–618, 2010.

[SH07] Priya Sharma and Michael J Hannafin. Scaffolding in technology-enhanced learning environments. Interactive learning environments, 15(1):27–46, 2007.

[SL11] George Siemens and Phil Long. Penetrating the fog: Analytics in learning and education. EDUCAUSE review, 46(5):30, 2011.

[VDMPVdH09] Laurens Van Der Maaten, Eric Postma, and Jaap Van den Herik. Dimensionality reducti- on: a comparative. J Mach Learn Res, 10:66–71, 2009.

[VGS97] Vladimir Vapnik, Steven E Golowich, and Alex J Smola. Support vector method for function approximation, regression estimation and signal processing. In Advances in neural information processing systems, pages 281–287, 1997.

[WKQ+08] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, S Yu Philip, et al. Top 10 algorithms in data mining. Knowledge and information systems, 14(1):1–37, 2008.

[ZTS03] Kelly H Zou, Kemal Tuncali, and Stuart G Silverman. Correlation and simple linear regression. Radiology, 227(3):617–628, 2003.

Ende der Leseprobe aus 46 Seiten

Details

Titel
Automatische Analyse und Klassifikation des Trainer- und Teilnehmerverhaltens. Blended Learning Lernumgebung als Grundlage für Interventionen
Hochschule
Technische Universität Darmstadt
Note
1,7
Autor
Jahr
2017
Seiten
46
Katalognummer
V511627
ISBN (eBook)
9783346098481
ISBN (Buch)
9783346098498
Sprache
Deutsch
Schlagworte
blended, learning, lernumgebung, grundlage, interventionen, automatische, analyse, trainer-, teilnehmerverhaltens
Arbeit zitieren
Niklas Appelmann (Autor:in), 2017, Automatische Analyse und Klassifikation des Trainer- und Teilnehmerverhaltens. Blended Learning Lernumgebung als Grundlage für Interventionen, München, GRIN Verlag, https://www.grin.com/document/511627

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Automatische Analyse und Klassifikation des Trainer- und Teilnehmerverhaltens. Blended Learning Lernumgebung als Grundlage für Interventionen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden