Homepage > Katalog > Informatik - Angewandte Informatik

Ableitung personaler Wissensdomänen aus Navigationspfaden in einer Online-Enzyklopädie – Implementierung eines Prototyps „Simpedia“

Name: Ableitung personaler Wissensdomänen aus Navigationspfaden in einer Online-Enzyklopädie – Implementierung eines Prototyps „Simpedia“
Price: 52.95 EUR
Availability: InStock
Author: MSc Marcel Minke
ISBN: 978-3-656-36092-6

Doktorarbeit / Dissertation, 2012

183 Seiten, Note: 1,0

MSc Marcel Minke (Autor:in)

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung

2 Einführung und forschungsaufbau
2.1 Problem der Informationsflut
2.2 Ökonomische Betrachtung
2.3 Definition Wissen/Wissensmanagement
2.4 Einordnung in den Forschungszusammenhang
2.5 Forschungsaufbau

3 Die freie Enzyklopädie Wikipedia
3.1 Entwicklung und Organisationsstruktur
3.1.1 Wikipedia in Zahlen
3.1.2 Interne Organisation
3.2 Schwesterprojekte
3.2.1 Wikibooks
3.2.2 Wikinews
3.2.3 Wikiquote
3.2.4 Wikisource
3.2.5 Wikispecies
3.2.6 Wikiversity
3.2.7 Wiktionary
3.2.8 Verwandte Projekte
3.3 Kollaborative Wissensgenerierung – Analyse eines revolutionären Konzeptes
3.3.1 Der Grundgedanke
3.3.2 Vandalismus, „Edit Wars“ und Maßnahmen zur Qualitätssicherung
3.3.3 Verwendbarkeit von Wikipedia als Quelle
3.4 Wikipediaforschung
3.4.1 Community und Motivation der Benutzer
3.4.2 Gütekriterien und Zeitreihenanalysen
3.5 Technischer Aufbau und Konfiguration der Testumgebung
3.5.1 Genutzte Technologien
3.5.2 Konfiguration der Testumgebung

4 Ableitung von Kategorien zur Abbildung von Wissensdomänen
4.1 Zielsetzung
4.2 Das Kategoriesystem in Wikipedia
4.3 Forschungsgebiet Kategorisierung
4.4 Implementierung des eigenen Algorithmus
4.4.1 Grundlagen und Datenbankaufbau
4.4.2 Arbeitsweise des Programms
4.5 Ergebnisse

5 Berechnung der Ähnlichkeit zwischen Artikeln
5.1 Zielsetzung
5.2 Forschungsgebiet Ähnlichkeitsbestimmung
5.3 Bestimmung von Ähnlichkeiten zwischen Wikipedia-Artikeln
5.4 Vorstellung Findlink-Programm
5.4.1 Genutzte Konzepte zur Ähnlichkeitsbestimmung
5.4.2 Einbindung in die Problemstellung
5.5 Notwendige Vorarbeiten vor Ähnlichkeitsberechnung

6 Konstellationen Versuchsaufbau
6.1 Beeinflussbare Versuchsparameter
6.2 Versuch 1: Einbeziehung aller Daten
6.3 Versuch 2: Reduktion der Textmenge
6.4 Versuch 3: Einfluss „MAX_HITS“ Parameter
6.5 Exkurs 1: Identifikation wichtiger Artikel
6.6 Versuch 4: Einführung Gütemaß „Wertung“
6.7 Versuch 5: Eliminierung von Datumsangaben
6.8 Exkurs 2: Ansätze zum Aufbrechen der Netzstruktur
6.9 Versuch 6: Filterung häufiger Substantive
6.10 Versuch 7: Einbeziehung themenfremder Artikel
6.11 Versuch 8: Kombination der Konfigurationsdateien
6.12 Zusammenfassung

7 Aufbau und Benutzeroberfläche des Prototyps
7.1 Anbindung des Prototyps an die Mediawiki-Software
7.1.1 Benutzermanagement
7.1.2 Einbindung ähnlicher Artikel
7.1.3 Erfassung der Navigationsdaten
7.2 Sentrax-Engine als Alternative zum Prototyp
7.2.1 Probleme herkömmlicher Suchalgorithmen
7.2.2 Funktionen und Einsatzgebiete der SENTRAX
7.2.3 Ähnlichkeitsberechnung über die Sentrax
7.3 Zusammenfassung

8 Zusammenfassung und Ausblick
8.1 Ergebnisse
8.2 Ansätze zur Weiterentwicklung
8.2.1 Variationen der Aufgabenstellung
8.2.2 Erweiterung der Oberfläche
8.2.3 Betrachtungsperspektiven für eine spätere Auswertung

9 Danksagungen

10 Anhang
10.1 Zu Kapitel 3.1.1: Wikipedia in Zahlen
10.1.1 Serverstatistiken Seitenzugriffe/Sekunde
10.1.2 Serverstatistiken Datendurchsatz/Sekunde

11 Literaturverzeichnis

Abbildungsverzeichnis

Abb. 1: Wissensbereiche und Formen der Wissensverfügbarkeit nach (Bentz 2002)

Abb. 2: Wissenstreppe nach (North 2005)

Abb. 3: Portfolio der Forschungsmethoden nach (Wilde, Hess 2007)

Abb. 4: Wachstum der englischen Wikipedia

Abb. 5: Neue Wikipedia-Artikel/Monat

Abb. 6: Schwesterprojekte

Abb. 7: Entwicklung der einzelnen Wikipedia-Projekte

Abb. 8: Überlebensdauer von Vandalismus in Wikipedia

Abb. 9: Verteilung der Artikelgröße bei Wikipedia-Artikeln

Abb. 10: History Flow Darstellung des englischen Artikels Capitalism

Abb. 11: Übersicht der Oberfläche anhand des Beispielartikels Mediawiki

Abb. 12: Ausschnitt der Kategoriestruktur zum Artikel Napoleon Bonaparte

Abb. 13: Ähnlichen Artikeln zugeordnete Kategorien

Abb. 14: Beispiel Kategoriestruktur des Artikels Mozart

Abb. 15: Problem möglicher Endlosschleifen im Kategoriesystem

Abb. 16: Quellcode-Ausschnitt Kategoriebestimmung

Abb. 17: Verteilung der Artikel auf die Hauptkategorien

Abb. 18: Einbindung von Findlink in den Versuchsaufbau

Abb. 19: Darstellung des Artikels Universität Hildesheim in Wikipedia

Abb. 20: Wikipedia-Tags für Tabellenlayout und -darstellung in einem Artikel

Abb. 21: Übersicht Parameter Versuchsaufbau 1

Abb. 22: Übersicht Parameter Versuchsaufbau 2

Abb. 23: Übersicht Parameter Versuchsaufbau 3

Abb. 24: Übersicht Parameter Versuchsaufbau 4

Abb. 25: Übersicht Parameter Versuchsaufbau 5

Abb. 26: Übersicht Parameter Versuchsaufbau 6

Abb. 27: Neue Artikel je Ebene für Eintrag Albert Einstein

Abb. 28: Übersicht Parameter Versuchsaufbau 7

Abb. 29: Übersicht Parameter Versuchsaufbau 8

Abb. 30: Artikel aus anderem Bereich in %

Abb. 31: Startseite des Prototyps

Abb. 32: Prototyp-Funktion "Selbsteinschätzung"

Abb. 33: Übersicht der Daten zu einer zufällig bestimmten Navigationsaufgabe

Abb. 34: Übersicht der Liste vorgegebener Navigationsaufgaben

Abb. 35: Einbindung der ähnlichen Artikel in den Prototyp

Abb. 36: Vergleich lexico-Funktion für den Begriff Matematik und
context-Funktion für M a thematik

Abb. 37: Ergebnisse der context-Funktion für den Begriff Alliierte

Abb. 38: Zusammenspiel der SENTRAX-Funktionen während des Suchprozesses

Abb. 39: Vergleich der ähnlichen Artikel aus gleichem Bereich

Abb. 40: Verteilung der Anzahl ähnlicher Artikel

Abb. 41: Ausschnitt Wikipedia-Artikel Radikal 22

Abb. 42: Anhang: Wöchentliche Statistik Serverzugriffe/Sekunde

Abb. 43: Anhang: Monatliche Statistik Serverzugriffe/Sekunde

Abb. 44: Anhang: Wöchentliche Statistik Datendurchsatz/Sekunde

Abb. 45: Anhang: Monatliche Statistik Datendurchsatz/Sekunde

Tabellenverzeichnis

Tabelle 1: Spendenerlöse

Tabelle 2: Gegenüberstellung Wikipedia-Schwesterprojekte

Tabelle 3: Struktur der Tabelle page

Tabelle 4: Struktur der Tabelle category

Tabelle 5: Struktur der Tabelle categorylinks

Tabelle 6: Oberkategorien der deutschen Wikipedia in alphabetischer Reihenfolge

Tabelle 7: Struktur der Tabelle ocats

Tabelle 8: Gegenüberstellung der Kategoriewerte für verschiedene Artikel

Tabelle 9: Vergleich der Hauptkategorien für die Artikel Napoleon und Hildesheim

Tabelle 10: Verbreitung der Begriffe Data-Mining, Text-Mining und Web-Mining

Tabelle 11: Beispiele für Formatierungstags in Wikipedia

Tabelle 12: Anzahl neuer Artikel je Ebene in %

Tabelle 13: Themenfremde Artikel zu Tom Hanks

Tabelle 14: Ähnlichkeitsberechnung Findlink und SENTRAX

1 Einleitung

„ Lernen ist wie Rudern gegen den Strom.

Sobald man aufhört, treibt man zurück. “

(Benjamin Britten^[1])

Wissen als vierter Produktionsfaktor gewinnt in der heutigen Informationsgesellschaft zunehmend an Bedeutung. Dieses Wissen effizient zu managen, stellt für viele Unternehmen eine Aufgabe von geschäftsstrategischem Stellenwert dar. Die Geschwindigkeit, mit der neue Informationen erstellt werden, und somit auch die Masse an Daten, die zu bewältigen ist, nimmt rapide zu und stellt Wirtschaft und Gesellschaft vor große organisatorische Herausforderungen. Die Informationsflut, u. a. bedingt durch eine geringere Halbwertszeit des Wissens, kann vielerorts kaum noch bewältigt werden, wenn es an wirksamen Methoden zum Filtern der im gegebenen Anwendungskontext relevanten Informationen fehlt.

Im schnelllebigen digitalen Zeitalter muss Wissen zudem oft ad hoc vernetzt werden, um zu einer Problemlösung beizutragen. Die Herstellung des Anwendungsbezugs wird jedoch häufig durch die Menge verfügbarer Informationen und ihre oft mangelhafte Struktur beeinträchtigt. Je nach Tiefe der vorliegenden Wissensbasis (Allgemeinwissen vs. Spezialwissen) erweist es sich mitunter als schwierig, Zusammenhänge in großen Informationsbeständen zu erkennen und einzelne Informationen in einen korrekten Bezug zueinander zu setzen. Dieses Problem betrifft insbesondere die Personen, die in wissensintensiven Bereichen tätig sind, deren Ausbildung sich jedoch oft einzig auf das Lernen einzelner Fakten beschränkte.

Der Weg vom Aneignen reinen Sachwissens hin zum Lernen von Beziehungen erfordert neue didaktische Konzepte. Damit verbunden stellt sich die Frage, auf welche Weise vorhandenes Wissen über Zusammenhänge (ggf. automatisiert) abgefragt werden kann, um den Wissensstand einer Person zu bestimmen. Ist es möglich, einen Software-Prototyp zu entwickeln, der – aufbauend auf einer umfangreichen Wissensbasis – eine neue, assoziative Form des Lernens unterstützt und gleichzeitig die automatisierte Abfrage vorhandenen Wissens ermöglicht?

Zur Beantwortung dieser Forschungsfrage ist zum einen zu evaluieren, welche Wissens-basis zur Bearbeitung der Fragestellung herangezogen werden kann, und zum anderen zu prüfen, in welchem Umfang die Größe der Datenbasis im Anwendungsfall zu Performanceproblemen führen kann. Die Thematisierung der methodischen Messbarkeit von Wissen ist ebenso zu bearbeiten wie die Frage nach Möglichkeiten zur Kategorisierung von Spezialwissen, da ermittelte Kenntnisse eines Nutzers – zwecks späterer Vergleichbarkeit mit den Daten anderer Versuchspersonen – auf denselben vordefinierten Kategorien beruhen müssen.

Innerhalb einer Wissensbasis stehen einzelne Informationen stets in einem kausalen Zusammenhang, charakterisiert z. B. durch eine inhaltliche Ähnlichkeit zwischen verschiedenen Texten. Wenn es gelänge, die Verbindung einzelner Inhalte untereinander mittels einer speziellen Metadaten-Annotation abzubilden und im Prototyp grafisch aufzubereiten, könnten Anwendern Aufgaben in der Form „Navigiere über die Liste ähnlicher Artikel von Eintrag X zu Artikel Y“ gestellt werden. Diese könnten einerseits zur Abfrage vorhandener Kenntnisse sowie zum Testen der Assoziationsfähigkeit des Nutzers eingesetzt werden; andererseits wäre auch ein Einsatz als neuartiges Instrument zum Erlernen von Zusammenhängen denkbar.

Die Entwicklung des skizzierten Prototyps geschieht in mehreren Stufen. Vor einer Einführung in die implementierten Funktionen erfolgen eine Beschreibung der aktuellen Herausforderungen im Wissensmanagement sowie eine kurze Auseinandersetzung mit den Anforderungen an neue Lernkonzepte. Neben der Betrachtung des Problems der Informationsflut insbesondere aus ökonomischer Sicht wird in Kapitel 2 eine Einordnung in den Forschungszusammenhang vorgenommen sowie die Wahl der Forschungsmethode begründet.

Kapitel 3 setzt sich mit der als Wissensbasis für den Versuchsaufbau genutzten Online-Enzyklopädie Wikipedia auseinander und fasst u. a. den aktuellen Stand der Wikipediaforschung zusammen.

Um Benutzerinteraktionen auswerten, d. h. Aussagen bezüglich der Wissensausprägung in unterschiedlichen Wissensdomänen treffen zu können, ist zunächst eine Spezifizierung einzelner Wissensdomänen erforderlich. Hierzu wird in Kapitel 4 das Wikipedia-Kategoriesystem herangezogen. Auf Basis eines eigenen Algorithmus wird eine übergeordnete Zuordnung einzelner Artikel zu vordefinierten Oberkategorien ermittelt.

Die in Kapitel 5 behandelte Berechnung der Ähnlichkeiten zwischen Artikeln stellt sich vor allem unter Performancegesichtspunkten als Herausforderung dar. Zur Lösung der einzelnen Probleme werden vielfältige Optimierungsmöglichkeiten vorgestellt, um die verwendete externe Software an die Anforderungen der Aufgabenstellung anzupassen. Dazu wird in Kapitel 6 eine Simulation verschiedener Modellparameter vorgenommen, die der Bestimmung der optimalen Parameterkonfiguration dient.

Der Formalisierungsgrad der genutzten Forschungsmethoden verschiebt sich im weiteren Verlauf der Arbeit von quantitativ zu qualitativ (siehe auch Abb. 3) und mündet nach der Analyse der Simulationsergebnisse zunächst in einer Referenzmodellierung, die zu einem Prototyp weiterentwickelt wird. Diese Laborversion namens Simpedia integriert die zuvor erstellte Assoziationsliste mit der Wissensbasis der Wikipedia und verbindet beide Komponenten unter einer einheitlichen Oberfläche. Die einzelnen Entwicklungsschritte sind in Kapitel 7 ausführlich dokumentiert. Der programmierte Prototyp wird außerdem um Funktionen zur Protokollierung der Benutzerinteraktion erweitert, um die einleitend gestellte Hypothese untersuchen zu können, dass bei Bearbeitung verschiedener Navigationsaufgaben der vom Benutzer gewählte Weg durch das „Netz“ Rückschlüsse auf dessen persönliche Kenntnisse zulässt, die Navigation sich also abhängig von den Vorkenntnissen des Benutzers gestaltet.

Abschließend erfolgt in Kapitel 8 eine Zusammenfassung der im Forschungsverlauf gewonnenen Erkenntnisse. Ein Ausblick auf mögliche Erweiterungen des entwickelten Systems bereitet das Feld für zukünftige Forschungen und stellt verschiedene Ansätze zur Datenauswertung vor.

2 Einführung und Forschungsaufbau

„ Es ist nicht genug, zu wissen, man muss auch anwenden;

es ist nicht genug, zu wollen, man muss auch tun. “

(Johann Wolfgang von Goethe^[2])

In dieser Einführung werden zunächst die auf das bearbeitete Themengebiet Einfluss nehmenden Faktoren vorgestellt. Dabei wird die Vielschichtigkeit des Forschungsfeldes bereits in der Auseinandersetzung mit den zentralen Begriffen deutlich. Die aufgezeigten Zusammenhänge beeinflussten die Themenfindung maßgeblich. Es zeigt sich, dass die gegenwärtige Forschung verschiedenster Institutionen vielversprechende Ansätze liefert, um Lösungen für die Probleme der Informationsgesellschaft zu erarbeiten. Dieses Feld soll durch eigene Untersuchungen um zusätzliche Methoden erweitert werden. Als Grundlage werden zunächst geeignete Forschungsmethoden herausgearbeitet, die je nach Aufgabengebiet variieren, jedoch durchweg einen konstruktivistischen Ansatz verfolgen.

2.1 Problem der Informationsflut

Im Jahr 1970 veröffentlichte der amerikanische Schriftsteller und Futurologe Alvin Toffler das Buch „Future Shock“ (Toffler 1970), in dem er einen zentralen Begriff des heutigen Informations- und Wissensmanagements prägte: Informationsflut

Nach der von Toffler aufgestellten These krankt die Wissensgesellschaft demnach nicht am zu wenig vorhandenen Wissen, sondern sie ertrinkt im Gegenteil förmlich in der Flut von Daten und Informationen. Für Entscheidungsträger wird es immer schwieriger, die für sie relevanten Informationen aus dem allgemeinen Datenrauschen herauszufiltern.

In der retrospektiven Betrachtung lässt sich der Fortschritt der Kommunikationssysteme als einer der wesentlichen Schlüsselaspekte für die zunehmende Informationsflut identifizieren. Die fortschreitende Vernetzung der Kommunikationsmittel führt dazu, dass Wissen schneller ausgetauscht und neue Informationen immer schneller „produziert“ werden. Dauerte es nach der Erfindung des Buchdrucks im Jahr 1447 noch drei Jahrhunderte, bis sich das Volumen der weltweiten Schriften verdoppelte, so geht der internationale Verband professioneller Futurologen davon aus, dass sich die in Büchern, Zeitungen, Zeitschriften und im Internet publizierte Textmenge in 25 Jahren schon alle 72 Tage verdoppeln wird (Müller-Soares 2009). In der Betrachtung vergangener Perioden scheint sich die Menge an Informationen exponentiell zu entwickeln. Erworbenes Wissen veraltet – mit den daraus erwachsenen Folgen für die Gesellschaft – immer schneller. Schon heute kann der Wissenserwerb in einigen Bereichen mit der rasanten Entwicklung nicht mehr Schritt halten, was entsprechende Konsequenzen auf ökonomischer Ebene nach sich zieht. Die neuen Anforderungen verlangen die Entwicklung entsprechender Lernkonzepte, wobei eine schnelle Aktualisierung der Lerninhalte und ein ortsungebundener Zugriff auf solche Lernumgebungen durch eine webbasierte Lösung begünstigt werden.

2.2 Ökonomische Betrachtung

Die traditionelle Volkswirtschaftslehre nach Adam Smith^[3] basiert lediglich auf drei Produktionsfaktoren: Arbeit, Kapital und Boden (Söllner 2001). In letzter Zeit wurden diese Faktoren von vielen Wissenschaftlern um den Faktor Wissen erweitert. Demnach stehen Unternehmen nicht nur in einem ständigen Wettbewerb um Arbeit, Kapital und Boden, sondern zunehmend auch um Wissen. Die Unternehmensberatung Future Management Group AG fasst dies wie folgt zusammen: „Lebenslanges Lernen und das 'Wissen um das richtige Wissen zum richtigen Zeitpunkt' werden zu kritischen Wettbewerbsfaktoren.“ (Future Management Group AG 2009).

Nach (Putzhammer 2000) basieren inzwischen 60 bis 80% der Gesamtwertschöpfung eines Unternehmens auf dem Produktionsfaktor Wissen. Bei vielen Unternehmen nimmt die Rekrutierung entsprechend qualifizierter Mitarbeiter und die Aus- und Weiterbildung vorhandener Arbeitskräfte daher einen zunehmend strategischen Stellenwert ein.

Die betriebliche Nutzung des Produktionsfaktors Wissen wirft viele Fragen auf (vgl. (Bentz 2009, S. 12)), unter welchen Gesichtspunkten das in einem Unternehmen bereits vorhandene Know-how optimal eingesetzt werden kann. Als Wissenspool (Wissen on stock, vgl. Abb. 1) kann sowohl ein einzelner, hoch qualifizierter Mitarbeiter als auch eine Sammlung von dokumentierten Erkenntnissen dienen. Im Vergleich zu den klassischen Produktionsfaktoren ist Wissen die einzige Ressource, die sich bei Gebrauch vermehrt. Auf Basis dieser Überlegung legen Firmen große unternehmensinterne Datenbanken an, die oft in Form von Wikis^[4] realisiert sind. Ihre Zielsetzung besteht darin, das in einem Unternehmen verfügbare Wissen strukturiert zu erfassen und über moderne Informations- und Telekommunikationsmethoden für die gesamte Belegschaft nach Bedarf nutzbar zu machen (Wissen on demand). Dazu müssen die Informationen zunächst aus heterogenen Datenbeständen extrahiert werden, bevor sie anschließend über ein entsprechendes Wissensmanagementsystem von jedem Ort, zu jeder Zeit situativ nach Bedarf abgerufen werden können. Abb. 1 veranschaulicht den Zusammenhang zwischen Wissen on stock und Wissen on demand:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Wissensbereiche und Formen der Wissensverfügbarkeit nach (Bentz 2002, S. 8)

In der dynamischen Informationsgesellschaft nimmt die Bedeutung von Wissen on demand als nachfrageorientierte Dienstleistung stetig zu. Der Wissensbedarf tritt häufig recht kurzfristig auf, z. B. wenn ein Außendienstmitarbeiter bei einem Kunden ein Problem lösen muss, ihm aber wichtige Informationen nicht direkt vor Ort zur Verfügung stehen. Dabei kann die Lösungskompetenz für das gegebene Problem zwar implizit oder explizit im Unternehmen vorhanden sein, ein Abrufen durch den Mitarbeiter ist jedoch nur möglich, wenn zuvor bereits eine informationstechnische Erfassung des on stock vorliegenden Wissens in einem für den Anwender im situativen Kontext zugreifbaren Informationssystem durchgeführt wurde. Ferner muss der Mitarbeiter über eine Ausbildung verfügen, in der ihm das Wissen über eine geeignete Vernetzung der einzelnen Daten und Informationen vermittelt wurde.

Da implizites Wissen personalgebunden ist, stehen gerade Unternehmen mit hoher Mitarbeiterfluktuation vor dem Problem, neues Personal zeitaufwändig einzuarbeiten und mit vorhandenen Prozessen und Organisationsstrukturen vertraut zu machen. Geht mit einem erfahrenen Mitarbeiter auch unternehmenswichtiges Wissen verloren, so kann dies einschneidende Auswirkungen auf die Geschäftstätigkeit haben. Wenn die Ressource Wissen formal erfasst und für alle Beteiligten ortsunabhängig zugreifbar wird, kann dieser Entwicklung in einem gewissen Maße entgegengewirkt werden. Effektives Wissensmanagement und moderne didaktische Konzepte zur Wissensvermittlung stellen daher einen Schlüssel zum Erhalt von Innovationskraft, Handlungsfähigkeit und Effektivität auf Basis des Produktionsfaktors Wissen dar.

2.3 Definition Wissen/Wissensmanagement

In der Literatur finden sich viele verschiedene Wissensmanagementansätze^[5]. Die bekanntesten sind der eher technisch orientierte Ansatz von Laudon und Laudon (vgl. (Laudon, Laudon 2006)), das auf einem Wissenskreislauf basierende Modell nach Probst/Raub/Romhardt (vgl. (Probst et al. 2003)) und das Modell der Wissensschaffung von Nonaka und Takeuchi (vgl. (Nonaka et al. 1997)). Letztere können als Mitbegründer des Wissensmanagements angesehen werden. Ihr Buch „The Knowledge Creating Company“ übte großen Einfluss auf spätere Veröffentlichungen und Forschungen zum Wissensmanagement aus. In einer im Jahr 2004 erschienenen Publikation definierten sie Wissensmanagement als „ process of continuously creating new knowledge, disseminating it widely through the organization, and embodying it quickly in new products/services, technologies and systems“ (Takeuchi, Nonaka 2004). Die Definition verdeutlicht sehr anschaulich einige zentrale Aspekte des Wissensmanagements. Danach muss zunächst die Möglichkeit geschaffen werden, dass in einem Unternehmen fortlaufend Wissen generiert wird. Dieses muss nachfolgend so organisiert werden, dass es über alle horizontalen und vertikalen Organisationsebenen eines Unternehmens verbreitet wird und so rasch in neue Produkte und Dienstleistungen wertschöpfend einfließen kann.

Während für den Begriff Wissensmanagement schon eine Vielzahl von Definitionen existiert, ist die Anzahl der Definitionen des zugrunde liegenden Terminus Wissen kaum zu überblicken. Francis Bacon^[6] entwickelte in seinem 1620 veröffentlichten Werk „Novum Organum“ die These „scientia est potentia“, was im Deutschen allgemein mit „Wissen ist Macht.“ übersetzt wird. Die Vereinfachung dieser Aussage ist jedoch kontextuell nicht korrekt. Im Bedeutungszusammenhang sollte der Ausspruch eher mit „Macht des Wissens“ übersetzt werden, da auch der etymologische Ursprung des Wortes Macht eher als „Befähigung einen Unterschied zu machen“ zu interpretieren ist (Lay, Posé 2006) und Wissen demzufolge als die Befähigung zum Handeln aufgefasst werden kann.

Die Begriffe Wissen und Handeln finden sich auch in der von Klaus North erarbeiteten Wissenstreppe wieder:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Wissenstreppe nach (North 2005)

Die Wissenstreppe illustriert den Zusammenhang zwischen Informationswissenschaft auf der einen und Betriebswirtschaft auf der anderen Seite. Technisch gesehen basiert alle Information auf Daten. Die Art und Weise, wie auf verschiedenen Stufen mit diesen Daten gearbeitet wird, beeinflusst letztendlich die Wettbewerbsfähigkeit einer Unternehmung. (North 2005) fasst dies wie folgt zusammen: „Informationen sind Daten, die in einem Bedeutungszusammenhang stehen und aus betriebswirtschaftlicher Sicht zur Vorbereitung von Entscheidungen und Handlungen dienen. Diese Informationen sind für die Betrachter wertlos, die sie nicht mit anderen aktuellen (…) Informationen vernetzen können.“ Nur wenn es gelingt, die vorhandenen Informationen sinnvoll zu verknüpfen, kann aus ihnen Wissen entstehen und im weiteren Verlauf Kompetenz entwickelt werden. Auf ein reales Beispiel übertragen bedeutet dies, dass ein Mitarbeiter – beispielsweise im technischen Außendienst – ein Problem bei einem Kunden lösen kann, indem er formal vorhandene Informationen wie Typbezeichnung einer Maschine, Schaltpläne und eine Fehlermeldung (z. B. mangelnde Stromspannung) vernetzt und einen Anwendungsbezug herstellt (Erkenntnis: suche für Maschinentyp passenden Schaltplan und überprüfe Elektrik). Nur wenn er die gegebenen Informationen in einen korrekten Bezug zueinander setzt und die richtige Handlungsalternative wählt, kann er das Problem lösen, und die Kunden schreiben ihm bzw. dem Unternehmen eine konkrete Kompetenz zu. Eine Voraussetzung dieses essentiellen Schrittes der Transformation von Information zu Wissen stellt die Assoziationsfähigkeit des Mitarbeiters dar. Im Gegensatz zum reinen Faktenwissen („Was bedeutet Fehlermeldung X?“) nimmt die didaktische Vermittlung des Wie (Anwendungsbezug: „Wie kann ich das aktuelle Problem lösen?“) in der Ausbildung meist einen geringen Stellenwert ein, doch gerade bei der Vernetzung von Informationen scheitern viele Anwender später im realen Problemlösungsprozess.

In der Wissenstreppe nach North wird der Information eine zentrale Bedeutung zugewiesen. Eine genaue Definition^[7] erweist sich aufgrund der vielschichtigen Verwendung des Begriffes in unterschiedlichen Disziplinen der Wissenschaft als schwierig. Häufig wird Information mit Bedeutung gleichgesetzt, so dass jede Information einen unterschiedlichen Wert je nach situationsbedingtem Kontext besitzt. Demgegenüber steht die Definition von Information in der Informationstheorie nach Shannon^[8] (vgl. (Shannon 1948) und (Shannon 1951)), wonach Informationen losgelöst von ihrem Bedeutungszusammenhang zu betrachten sind. Der Fokus liegt auf dem Informationsgehalt, einer logarithmischen Größe, die Aussagen über die Menge an Information in einer Nachricht ermöglicht und als die statistische Signifikanz eines Zeichens aufgefasst werden kann.

Bezogen auf das Beispiel des Außendienstmitarbeiters ist weiterhin entscheidend, in welchem Format eine Information vorliegt. Würde bei einem Problem lediglich eine rote Warnlampe leuchten, so wäre diese Information wenig zielführend für die Problemlösung, da dieses Format der Informationsübermittlung keine Aussage über die Ursache des Problems zulässt. Würde der Defekt jedoch nicht visuell über eine Warnlampe angezeigt, sondern beispielsweise durch einen konkreten Fehlercode auf einer digitalen Anzeige oder gar einer kompletten Fehlerbeschreibung („zu geringe Stromspannung in Modul X“) auf einem Computermonitor, so wäre dieses Format deutlich geeigneter, um im geschilderten Kontext die Information zur Fehlerbehebung verwenden zu können.

Ein Schlüsselaspekt liegt in der adäquaten Vernetzung der gegebenen Informationen. Dabei stellt sich die Frage, ob und auf welche Weise formalisiert vorhandene Infor-mation bereits grundlegend computergestützt „vorvernetzt“ werden kann, um die individuelle Assoziationsfähigkeit eines Menschen zu fördern und ihn bei seiner Kompetenzentwicklung zu unterstützen (vgl. Problemstellungen in Kapitel 2.4).

Dieses Vorgehen erfordert zunächst die Analyse, wie eine Assoziation formalisiert werden kann. Unter Betrachtung von Information als Bedeutung tragendes Element der Sprache sind zwei Wörter (Informationen) miteinander assoziiert, wenn sie einen ähnlichen inhaltlichen Bezug aufweisen. Um Aussagen zu einer semantischen Relation treffen zu können, muss das gemeinsame Auftreten verschiedener Informationen untersucht werden. Die von (Doyle 1962) geprägte Assoziations-Hypothese besagt, dass häufig kookkurrierende^[9] Wörter in einem assoziativen Zusammenhang stehen. Sie ist Gegenstand vieler Forschungsarbeiten im Information Retrieval. Bereits in den 60er Jahren entwickelte (Doyle 1962) ein erstes auf Kookkurrenzen basierendes Assoziationsmaß und erläuterte dessen maschinelle Berechnung, doch erst 1993 konnten (Wettler et al. 1993) diese These systematisch verifizieren. Es gelang ihnen, eine hohe Übereinstimmung zwischen maschinell erzeugten Assoziationen und gedanklichen Assoziationen von Versuchspersonen nachzuweisen (Ackermann 2000); eine grundlegende Feststellung, die später auch von (Rapp 1996) eingehend untersucht und bestätigt wurde.

2.4 Einordnung in den Forschungszusammenhang

Algorithmen zur Ähnlichkeitsbestimmung auf Basis von Kookkurrenzen sind inzwischen schon recht ausgereift. Die Anwendbarkeit auf große Datenbestände oder umfangreiche Textmengen kann jedoch nur in Grenzen erfolgen, die durch die Art der Ähnlichkeitsberechnung bestimmt werden. Mit zunehmendem Umfang der zu bearbeitenden Daten steigt der Berechnungsaufwand für die Ähnlichkeit meist exponentiell (vgl. Kapitel 5). Aufgrund großer Fortschritte in der Hardwaretechnologie wurden zunehmend bessere Voraussetzungen geschaffen, um auch für größere Datenbestände mittels spezieller Softwarealgorithmen Assoziationen zu berechnen.

Bei einigen digitalen Enzyklopädien werden die „siehe auch“-Verweise nicht mehr durch ein spezielles Redaktionsteam verfasst, sondern durch intelligente Software automatisiert zusammengestellt. Eine Vorreiterrolle nimmt die von Bertelsmann herausgegebene „Bertelsmann Lexikodisc“ ein. Diese digitale Version des bekannten Bertelsmann Lexikons verfügt über eine Funktion zum Anzeigen verwandter Artikel^[10], die jeweils einen direkten inhaltlichen Bezug zum Ursprungsartikel aufweisen.

Mathematisch gesehen können die ermittelten Relationen als gerichteter Graph aufgefasst werden, der allerdings nicht symmetrisch ist (zu den Details siehe Kapitel 6). Die einzelnen Lexikonartikel können als Knoten des Graphen betrachtet werden, die über Kanten (Ähnlichkeit) mit einem oder mehreren anderen Artikeln verbunden sind. Durch die Verknüpfung der Artikel untereinander entsteht ein Netz, in dem der Benutzer sich auf Basis der Liste ähnlicher Artikel bewegen kann. So ist es bei der Lexikodisc z. B. möglich, in nur drei Schritten über die angezeigten ähnlichen Artikel vom Artikel über Eskimos zum Artikel über Australien zu gelangen. Die Betrachtung des Navigationspfades über die Liste ähnlicher Artikel zeigt den zunächst nicht vermuteten inhaltlichen Zusammenhang zwischen Ausgangs- und Zielartikel:

Eskimo à Indianer à Kolonialismus à Australien

Weitere Versuche (siehe z. B. (Minke 2007)) führen zu der Hypothese, dass bei Bearbeitung verschiedener Navigationsaufgaben^[11] der vom Benutzer gewählte Weg durch dieses Netz eventuell Rückschlüsse auf dessen persönliche Kenntnisse zulässt, die Navigation sich also abhängig vom Wissen des Benutzers gestaltet.

Diese Hypothese bietet Raum für zwei interessante Forschungsfelder. So ist durch Einsatz der Assoziationslisten einerseits die Abfrage vorhandenen Wissens denkbar, andererseits ergibt sich für die Probanden bei der Bearbeitung von Navigationsaufgaben die Möglichkeit, auf einfache Art und Weise neue Zusammenhänge zu lernen (Artikel X hängt über Artikel Y mit Artikel Z zusammen) und damit ihr Wissensspektrum quasi spielerisch zu erweitern.

Die skizzierte Nutzung von Assoziationslisten greift eine Überlegung auf, die Martin Ackermann im Fazit seiner Arbeit „Statistische Korpusanalyse zum Extrahieren von semantischen Wortrelationen“ (Ackermann 2000) als weiteren Einsatzbereich von automatisch generierten Ähnlichkeitsbeziehungen herausarbeitet:

„Für intelligente Tutorsysteme können anhand von Assoziationslisten automatisch Multiple-Choice-Tests erzeugt werden. Damit besteht die Möglichkeit, ohne größeren redaktionellen Aufwand und auf spielerische Weise die Vorkenntnisse eines Anwenders einzugrenzen.“ (Ackermann 2000, S. 126)

Als wesentlicher Teil dieser Arbeit sollen die genannten Ansätze weiter verfolgt und vertieft werden, woraus die folgenden Fragestellungen resultieren:

1. Wie lassen sich Softwaretechniken zur Ähnlichkeitsbestimmung in eine vorhandene Wissensbasis benutzerfreundlich integrieren?
2. Inwiefern können Assoziationslisten genutzt werden, um den Wissenserwerb durch neue didaktische Konzepte zu fördern und die Ausnutzung des Produktionsfaktors Wissen zu optimieren?
3. Auf welche Weise lassen sich die unter 1. und 2. genannten Aspekte in einem Software-Prototyp zusammenführen, der von der Zielgruppe ortsunabhängig über das Internet genutzt werden kann?
4. Besteht weiterhin die Möglichkeit, ein automatisiertes Tracking der Navigationsschritte der Anwender zu implementieren, um später durch Analyse der Benutzerinteraktion Rückschlüsse auf deren Wissen zu ziehen?

Diese Fragestellungen werden in den Folgekapiteln ausführlich untersucht und Lösungsansätze aufgezeigt.

2.5 Forschungsaufbau

Zu Beginn der Überlegungen stellt sich die Frage nach der optimalen Herangehensweise zur Lösung der skizzierten Problemstellungen. Da die Auswahl einer geeigneten Forschungsmethode eine wegweisende Entscheidung zur erfolgreichen Bearbeitung einer Fragestellung darstellt, erhält dieser Aspekt im Vorfeld besondere Bedeutung.

Für die Informatik existiert eine Vielzahl verschiedener Forschungsmethoden. Eine Literaturrecherche liefert einen umfassenden Überblick und offenbart methodenspezifische Vor- und Nachteile bezogen auf die verschiedenen Problemstellungen. In Anlehnung an (Wilde, Hess 2007) bietet Abb. 3 eine Übersicht der vorherrschenden Methoden:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: Portfolio der Forschungsmethoden nach (Wilde, Hess 2007)

Die Grafik kategorisiert verschiedene Instrumente aus Real-, Formal-, und Ingenieurswissenschaften, deren sich die Wirtschaftsinformatik als „Wissenschaft mit einer methoden-pluralistischen Erkenntnisstrategie“ (Wissenschaftliche Kommission Wirtschaftsinformatik 1994) bedient. Wie schon in (Becker, Pfeiffer 2006) aufgezeigt, können die vorherrschenden erkenntnistheoretischen Paradigmen in zwei Klassen unterteilt werden: Erfolgt eine Analyse von IT-Lösungen durch Erstellen und Evaluieren verschiedener Komponenten in Form von Modellen und Methoden, entspricht diese Vorgehensweise einem konstruktionswissenschaftlichen Paradigma. Die Untersuchung der Ausgestaltung und Wirkung von IT-Lösungen im Unternehmens- oder Marktumfeld wird als verhaltenswissenschaftlicher Ansatz klassifiziert^[12] (Wilde, Hess 2007).

Ausgehend von den in Kapitel 2.4 aufgeführten Fragestellungen kann die Schlussfolgerung gezogen werden, dass ein konstruktivistisch ausgelegter Ansatz am geeignetsten erscheint. Aus dem erarbeiteten Portfolio (vgl. Abb. 3) kristallisieren sich die folgenden Ansätze als vielversprechend heraus (Definitionen nach (Wilde, Hess 2007)):

1. Simulation
Die Simulation bildet das Verhalten des zu untersuchenden Systems formal in einem Modell ab und stellt Umweltzustände durch bestimmte Belegungen der Modellparameter nach. Sowohl durch die Modellkonstruktion als auch durch die Beobachtung der endogenen Modellgrößen lassen sich Erkenntnisse gewinnen
2. Referenzmodellierung
Die Referenzmodellierung erstellt induktiv (d. h. ausgehend von Beobachtungen) oder deduktiv (beispielsweise aus Theorien oder Modellen) meist vereinfachte und optimierte Abbildungen (Idealkonzepte) von Systemen, um so bestehende Erkenntnisse zu vertiefen und daraus Gestaltungsvorlagen zu generieren
3. Prototyping
Es wird eine Vorabversion eines Anwendungssystems entwickelt und später evaluiert. Beide Arbeitsschritte können neue Erkenntnisse generieren.

Die konkrete Auswahl einer Forschungsmethode hängt im Sinne der Aufgabenstellung auch davon ab, welcher Datenbestand letztendlich als Wissensbasis für die Untersuchung herangezogen wird. Da Daten aus unternehmensinternen Wissensmanagementsystemen für die Bearbeitung der Problemstellung nicht zugänglich waren, mussten alternative Wissensquellen recherchiert werden. Nach dem Vergleich verschiedener Alternativen fiel die Wahl schließlich auf die freie Enzyklopädie Wikipedia. Sie repräsentiert nicht nur den derzeit umfangreichsten Bestand an verfügbaren Lexikonartikeln, sondern basiert auch auf einer quelloffenen Software (Mediawiki), die ohne Lizenzeinschränkungen genutzt und abgeändert werden darf.

Für eine vertiefende Forschung bietet dies den Vorteil, dass die Performance der Ähnlichkeitsberechnung auf Basis sehr großer Datenmengen untersucht werden kann (vgl. Kapitel 5) und über eine Modifikation der Anwendungssoftware die Einbindung kontextsensitiver Assoziationslisten direkt in den Wikipedia-Artikel umgesetzt werden kann (vgl. Kapitel 7.1.2).

3 Die freie Enzyklopädie Wikipedia

„ Stell dir eine Welt vor, in der jeder Mensch auf der Erde

freien Zugang zum gesamten menschlichen Wissen hat. “

(Jimmy Wales^[13])

Die freie Enzyklopädie Wikipedia kennen inzwischen weite Teile der Bevölkerung. Als Nachschlagwerk wird sie jeden Monat von einer Vielzahl Nutzer aufgesucht und belegt inzwischen den 7. Platz auf der Liste der weltweit am häufigsten aufgerufenen Internetseiten (Alexa Internet 2009). Wikipedia wird als eines der dynamischsten, ehrgeizigsten und größten Projekte zur Erstellung eines universellen Wissens-Lexikons eingestuft (Ortega 2009, S. 1). Im Jahr 2008 wurde die Marke von 10 Millionen Artikeln erreicht, die in mehr als 250 Sprachen und Dialekten verfasst sind (Zachte 2009d).

Das Wort Wikipedia setzt sich zusammen aus Wiki, der hawaiianischen Vokabel für schnell, und dem Wortbestandteil pedia, der auf den englischen Begriff für Enzyklopädie, Encyclopedia, zurückzuführen ist. Inzwischen hat sich der Terminus Wiki als Sammelbegriff für eine internetbasierte Software zum gemeinsamen Schreiben von Texten etabliert. Da innerhalb eines Wiki-Systems verschiedene Autoren gemeinsam an Texten arbeiten, können sie als eine spezielle Form von Content-Management-Systemen angesehen werden. Ihr hauptsächlicher Nutzen besteht darin, die Erfahrungen und den Wissensschatz mehrerer Autoren kollaborativ zusammenzuführen. Dieser neuartige Ansatz der kollektiven Intelligenz führte innerhalb der letzten Jahre zu einem starken Wachstum der freien Enzyklopädie Wikipedia, da immer mehr Nutzer sich an diesem globalen Projekt beteiligen und ihr Wissen in das Online-Lexikon einfließen lassen.

Zur Hervorhebung der Vielschichtigkeit des Wikipedia-Projektes erfolgt in den anschließenden Kapiteln eine Betrachtung unter verschiedenen Gesichtspunkten. Abschnitt 3.1 befasst sich mit der überaus schnellen Entwicklung sowie der internen Organisationsstruktur, um den Leser mit den Hintergründen vertraut zu machen. Daran anschließend werden in Kapitel 3.2 die wichtigsten Schwesterprojekte vorgestellt, die – wie die Wikipedia – von der Wikimedia Foundation verwaltet werden.

Als wesentlicher Erfolgsfaktor kann das Prinzip der kollaborativen Wissensgenerierung aufgefasst werden, das in Unterkapitel 3.3 näher betrachtet wird und auch in der Vorstellung der aktuellen Forschung zu Wikipedia im daran anschließenden Abschnitt 3.4 Erwähnung findet.

Die im Rahmen dieser Ausarbeitung entwickelte eigene Software setzt auf der Wikipedia-Technologie auf, die grundlegenden Algorithmen können jedoch auch auf jede andere Informationsressource angewandt werden, in der die Daten ähnlich strukturiert vorliegen. Im letzten Teilkapitel dieses Abschnittes wird der technische Aufbau der Wikipedia skizziert, gefolgt von Anmerkungen zur Einrichtung der Testumgebung.

3.1 Entwicklung und Organisationsstruktur

Die Einschätzung der Bedeutung eines Projektes wie Wikipedia gelingt am besten durch die Betrachtung seiner geschichtlichen Entwicklung, die dem Leser in Abschnitt 3.1.1 nähergebracht wird. Dabei kommt der Historie sowie der internen Selbstverwaltung innerhalb der verschiedenen Wikipedia-Ableger eine zentrale Rolle zu. Zudem orientieren sich alle Wikipedias an ähnlichen, allgemeinen Wertvorstellungen, die Auslegung bestimmter, selbst auferlegter Richtlinien divergiert jedoch zwischen den verschiedenen Ablegern. Mit diesen Details setzt sich Kapitel 3.1.2 eingehend auseinander.

3.1.1 Wikipedia in Zahlen

Die Idee der Entwicklung eines Systems zur internetbasierten, kollaborativen Inhalte-Erstellung durch mehrere Autoren stammt bereits aus dem Jahr 1994. Damals arbeitete Ward Cunningham^[14] am ersten Wiki namens WikiWikiWeb, das Programmierern den Kenntnissaustausch erleichtern sollte. Innerhalb der Softwareentwickler-Gemeinde fand dieses Konzept des Wissensaustausches schnell viele Anhänger (Ortega 2009, S. 7f).

Wikipedia selbst wurde erst viele Jahre später, am 15. Januar 2001, der Öffentlichkeit vorgestellt. In der Anfangszeit wurde zunächst das technische Konzept getestet, ohne großen Wert auf die Qualität der Artikel zu legen. Über den ersten je veröffentlichten Artikel existieren widersprüchliche Angaben. Als älteste bekannte Artikelversion lässt sich der Eintrag über West Virginia identifizieren. Dieses kann aufgrund technischer Änderungen am Datenbanksystem aber nicht als gesicherte Information angesehen werden. Die Gegenüberstellung der ersten Artikelversion^[15] mit der aktuellen Version^[16] veranschaulicht eindrucksvoll die im Laufe der Zeit vorgenommenen qualitativen und quantitativen Verbesserungen.

Im März 2001 entstanden die ersten nicht-englischsprachigen Ableger, zunächst eine deutsche Version, gefolgt von der katalanischen und französischen Ausgabe. Bis Ende 2001 wurden Wikipedias in 18 verschiedenen Sprachen etabliert (König 2009, S. 1) und auch die Medien berichteten zunehmend über das Projekt. Den ersten Aufsehen erregenden Artikel über die Wikipedia veröffentlichte die New York Times im September 2001 unter dem Titel „Fact driven? Collegial? This site wants you“ (Meyer 2001).

Ausgelöst durch das positive Medienecho konnte Wikipedia in der Folgezeit hohe Wachstumsraten erzielen. Der Ansatz der eigenständigen, unabhängigen Selbstverwaltung und die für alle Nutzer gegebene Möglichkeit, Artikel selbst zu erstellen oder zu editieren, werden als wichtige Erfolgsfaktoren angesehen (Ortega 2009, S. 8).

Im Jahr 2003 überschritt die englische Wikipedia die Grenze von 100.000 Artikeln (vgl. Abb. 4). Ihre Vorreiterrolle lässt sich schon daran ablesen, dass der damals zweitgrößte Ableger, die deutsche Wikipedia, in diesem Jahr erst die Marke von 10.000 Einträgen erreichte. Bereits ein Jahr später waren über 100 Sprachversionen verfügbar und es wurde der insgesamt einmillionste Artikel verfasst (Wikipedia - History 2009). Die Pionierfunktion der englischen Sprachversion stützt sich auch auf die Tatsache, dass im Januar 2002 noch 90% aller Artikel dieser Version zugeordnet wurden. Dieser Anteil verringerte sich stetig von 50% im Januar 2004 auf 25% in 2007 (ICMR 2008). Das bei Internetprojekten auftretende Phänomen, dass erst nach Erreichen einer kritischen Nutzermasse ein starkes Wachstum einsetzt, das später seine Grenzen erreicht, zeigt Abb. 5:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 4: Wachstum der englischen Wikipedia^[17]

Abbildung in dieser Leseprobe nicht enthalten

Abb. 5: Neue Wikipedia-Artikel/Monat^[18]

Mit zunehmender Bekanntheit des Projektes setzte ein schnelles Wachstum ein, das ohne den Ausbau der Serverstruktur rasch an die technischen Grenzen gestoßen wäre. Wurden im Jahr 2004 insgesamt 39 neue Server installiert, wuchs diese Zahl 2005 auf 129 Neuanschaffungen (Wikimedia Foundation 2009a).

In den folgenden Jahren vollzogen die nach der englischen Version gegründeten Wikipedia-Ableger deren Wachstum zeitversetzt nach, während spätere lokale Ableger sich analog dazu zunächst langsamer entwickelten. Bezüglich der Inhalte verschiebt sich der Fokus gleichzeitig von der Quantität zur Qualität. Trotzdem werden weitere Wachstumsrekorde aufgestellt: In 2007 sind insgesamt bereits über 7,5 Millionen Artikel mit über 1,74 Milliarden Wörtern vorhanden. Ein Jahr später wird bereits die Grenze von 10 Millionen Artikeln überschritten (Wikipedia - History 2009). Im 2. Quartal 2009 konnten die drei nach der englischen Wikipedia größten Ableger das Erreichen weiterer Meilensteine vermelden: die deutsche Wikipedia erreichte 900.000 Artikel, die französische Version wuchs auf 800.000 Einträge und der polnische Ableger verzeichnete den 600.000 Artikel. Um diese immensen Wachstumsraten zu verdeutlichen, sei folgendes Beispiel angeführt, basierend auf Daten von 2006: Der Mensch ist in der Lage, rund 600 Wörter in der Minute zu lesen. Würde sich jemand einen ganzen Monat lang volle 24 Stunden am Tag der Lektüre von Wikipedia-Inhalten widmen, so nähme er rund 26 Millionen Wörter auf. Im Juli 2006 wuchs Wikipedia jedoch monatlich insgesamt um 30 Millionen Wörter. Selbst bei ununterbrochenem Lesen wäre diese Person nicht in der Lage aufzuschließen (Wikipedia - Statistics 2009).

Heutzutage entstehen pro Tag rund 8.000 neue Artikel. Jeden Monat werden über 8,5 Millionen Seitenbearbeitungen registriert. Die Gesamtgröße der Datenbank wird auf ca. 45 Gigabyte geschätzt und beinhaltet mehr als 4,2 Milliarden einzelne Wörter^[19].

Die zentralen Server müssen pro Sekunde durchschnittlich rund 46.000, in Spitzenzeiten bis zu 70.000 Anfragen an die verteilten Servercluster weiterleiten. Das dabei anfallende Datenvolumen wird für den ausgehenden Datenstrom mit 4,2 Gigabit/s und den eingehenden Datenstrom mit 570 Megabit/s beziffert, unter Höchstlast wachsen diese Werte auf 6.9 Gigabit bzw. 915 Megabit je Sekunde (siehe (Wikimedia Foundation 2009b) sowie Anhang 10.1.1 und 10.1.2). Den wachsenden Ansprüchen an Hardware und Bandbreite wird mittels einer sukzessiven Aufrüstung der Rechenzentren sowie einer zunehmend anforderungsspezifischen lokalen Einrichtung von Knotenpunkten Rechnung getragen. Eine Abnahme des Gesamtwachstums ist derzeit noch nicht zu verzeichnen, lediglich einige lokale Ableger weisen eine Verlangsamung des Wachstums auf, während eine Vielzahl kleinerer Sprachvarianten sich weiterhin rasant entwickelt.

3.1.2 Interne Organisation

Abbildung in dieser Leseprobe nicht enthalten

Als Schirmherr sämtlicher lokaler Wikipediaversionen und aller Schwesterprojekte fungiert die Wikimedia Foundation mit Sitz in San Francisco. Rechtlich gesehen handelt es sich um eine internationale und nicht staatliche Non-Profit-Organisation in Form einer Stiftung (Wikipedia - Wikimedia 2009). Die Wikimedia Foundation wurde 2003 vom Wikipedia-Gründer Jimmy Wales gegründet und trägt vorwiegend für Öffentlichkeitsarbeit, Finanzierung und Wartung der technischen Infrastruktur (vgl. Kapitel 3.5) die Verantwortung. Redaktionelle Angelegenheiten gehören nicht zu ihrem Aufgabenbereich, diese werden von den lokalen Verwaltungsorganen bearbeitet. Fast jeder größere Ableger verfügt über eine als chapter bezeichnete nationale Wikimedia-Organisation, überwiegend organisiert in Form eines (eingetragenen) Vereins (Wikipedia - Wikimedia 2009).

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Spendenerlöse

Die Finanzierung geschieht vollständig über Geld- und Sachspenden, für die mittels Banner in den einzelnen Wikipedias geworben wird. Alle Finanzangelegenheiten werden zentral von der Wikimedia Foundation verwaltet. Analog zu dem wachsenden Bekanntheitsgrad ist eine deutliche Zunahme des Finanzbedarfs zu verzeichnen (siehe Tabelle 1). Den größten Kostenträger stellt der Bereich Technologie (Bandbreite, Hardware, Gehälter) dar^[20], auf den im Abrechnungszeitraum 2007/2008 rund 57% der Aufwendungen entfallen, gefolgt von Finanzen und Verwaltung mit lediglich 15%. Nach aktuellem Planungsstand sollen in 2008/2009 noch 45% der Ausgaben auf die Technik entfallen, während sich die Kosten für Finanzen und Verwaltung auf 27% nahezu verdoppeln^[21].

Laut ihrem Statut „Imagine a world in which every single human being can freely share in the sum of all knowledge. That's our commitment.“ (Wikipedia - Wikimedia 2009) fokussiert die Wikimedia Foundation den weltweiten Wissensaustausch über das Internet. Die Lizenz^[22] ist daher so ausgelegt, dass jeder Mensch von jedem Ort der Welt die Inhalte jeglicher Wikipedia-Projekte bearbeiten darf. Dieser Ansatz ist in den nationalen Richtlinien^[23] aller Wikipedias festgehalten und senkt die Einstiegshürden für neue Nutzer. So kann jeder Anwender sowohl die Rolle des Lesers als auch die Rolle des Autors übernehmen. Gerade die Tatsache, dass eine große Anzahl Nutzer an der Wikipedia schreibt, sorgt – im Vergleich zu herkömmlichen Enzyklopädien – für die hohe Aktualität der Beiträge, so dass auch wichtige Ereignisse des Tagesgeschehens schnell ihren Niederschlag im entsprechenden Artikel finden (vgl. (Pentzold, Seidenglanz 2006)).

Die Richtlinien der verschiedenen lokalen Wikipedia-Ableger ähneln sich zumeist, Unterschiede manifestieren sich vorwiegend in den Vorgaben zur Artikelqualität. Die englische Wikipedia richtet sich z. B. nach dem Grundsatz, dass jegliche Art von Wissen – und sei es nur in sehr kurzen Artikeln – aufgenommen werden sollte. Daraus resultiert auch die deutlich höhere Artikelanzahl. Die deutsche Wikipedia hingegen stellt Qualität vor Quantität und löscht kurze Artikel, wenn diese nicht innerhalb einer gewissen Zeitspanne weiter ausgebaut und überarbeitet werden. Die unterschiedlich strikte Auslegung von Qualitäts- und Löschkriterien wirkt sich unvermittelt auf die Benutzerstruktur aus^[24]. Die englische Wikipedia^[25] verfügt bei rund dreifacher Artikelanzahl über mehr als sechsmal so viele aktive Benutzer^[26] wie das deutsche Pendant^[27].

Neben nicht registrierten Benutzern und solchen mit einem herkömmlichen Benutzer-account existieren Anwender mit bestimmten erweiterten Rechten: Das „Administratorrecht“ ermöglicht das Löschen und Schützen einzelner Artikel sowie das Sperren von Benutzerkonten und Bearbeiten von geschützten Seiten. Es wird nach Antrag und Abstimmung durch die Nutzer vergeben. „Bürokraten“ werden ebenfalls von der Gemeinschaft ernannt und kümmern sich in erster Linie um die Verwaltung von Benutzerkonten (Umbenennung, Rechtevergabe, Löschung). Über stark eingeschränkte Rechte verfügen „Bots“, Programme zum automatisierten Bearbeiten von Inhalten. Sie fügen beispielsweise neuen Artikeln Links zu äquivalenten Artikeln in anderen Sprachen hinzu oder normalisieren Datumsangaben und korrigieren bekannte Rechtschreibfehler. Einige Bereiche innerhalb der Wikipedias sind der Gruppe der „Entwickler“ vorbehalten, die so neue Features in einer geschützten Zone testen können.

3.2 Schwesterprojekte

[Abbildung in dieser Leseprobe nicht enthalten]Neben dem bekannten Hauptprojekt Wikipedia existiert eine Vielzahl weiterer Schwesterprojekte^[28], die ebenfalls unter der Trägerschaft der Wikimedia Foundation mit Sitz in San Francisco (USA) stehen. Wie auch Wikipedia liegen die Schwesterprojekte in mehreren Sprachen vor und bedienen die unterschiedlichsten Themenfelder.

Abb. 6: Schwesterprojekte Quelle: (Wikimedia - Logo 2009)

Da die einzelnen Projekte meist nur spezifische Nutzergruppen ansprechen, verfügen sie über einen weitaus geringeren Bekanntheitsgrad im Vergleich zur Wikipedia. Diese Tatsache lässt sich zum einen durch die spätere Gründung dieser Projekte erklären, zum anderen fehlt ihnen häufig die gesamtgesellschaftliche Relevanz, ablesbar an den niedrigeren Nutzerzahlen:

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2: Gegenüberstellung Wikipedia-Schwesterprojekte, Datenstand: April 2009^[29]

Die in Tabelle 2 abzulesende Differenz zwischen Seiten gesamt und reine Artikel erklärt sich durch das Vorhandensein von Benutzer,- Diskussions-, und Koordinationsseiten, die zu den reinen Artikelseiten hinzugerechnet werden. Durch das System der Versionierung – von jedem Artikel wird nach einer Änderung eine eigene Version gespeichert – ergibt sich wiederum die hohe Anzahl an berechneten Bearbeitungen. Auch bei mehreren Artikelversionen wird ein Artikel nur einmal unter reine Artikel erfasst.

Da die tabellarische Übersicht nur einzelne Aussagen zum Stand der Projekte zu einem konkreten Zeitpunkt erlaubt, lässt sich daraus wenig über die bisherige Entwicklung und das zukünftige Potential ablesen. Wesentlich aufschlussreicher gestaltet sich die Betrachtung vergangener Perioden, die Aufschluss über die Geschwindigkeit des Wachstums sowie die zunehmende Bedeutung des Portals geben:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 7: Entwicklung der einzelnen Wikipedia-Projekte, Quelle: (Zachte 2009e)

Abb. 7 aggregiert eine Vielzahl aufschlussreicher Daten; konkret handelt es sich um eine Gegenüberstellung des Wachstums verschiedener Projekte (Y-Achse), von denen jeweils Daten zu Artikelanzahl, Anzahl beteiligter Nutzer sowie Sprachversionen mit einer vordefinierten Mindestanzahl an Artikeln unterhalb des jeweiligen Balkens in chronologischer Reihenfolge (X-Achse) angegeben sind. Schnell erschließt sich dem Betrachter der Beginn des Projektes, und auch der Status zu Beginn des Jahres 2009 lässt sich – mit Ausnahme unvollständiger Daten für Wikipedia – leicht vergleichen. So können als erfolgreichste Schwesterprojekte Wiktionary und Commons identifiziert werden. Sie wachsen schneller und weisen die höchste Anzahl von Artikeln und registrierten Nutzern aus, während Wikiquote und Wikinews deutlich längere Phasen zum Erreichen bestimmter Artikel-/ bzw. Benutzergrenzen benötigen.

Diese Daten sollten jedoch nicht isoliert betrachtet werden, eine Bewertung sollte immer im jeweiligen Projektkontext erfolgen. So ist Wikimedia Commons eher als ein zentrales Repository für alle anderen Schwesterprojekte einzustufen und kein eigenständiges Projekt im eigentlichen Sinne. Zur genaueren Differenzierung werden daher im Folgenden die einzelnen Schwesterprojekte – in alphabetischer Reihenfolge – sowie verwandte Projekte näher beschrieben.

3.2.1 Wikibooks

[Abbildung in dieser Leseprobe nicht enthalten] Wikibooks verfolgt das Ziel, eine offene Bibliothek von Fach-, Lehr- und Sachbüchern zu erstellen, an denen jeder mitarbeiten kann. Die vorgenommene Beschränkung des Literaturformates schließt sowohl fiktionale als auch nicht-fiktionale Literatur aus. Um den vorgegebenen Relevanzkriterien und Richtlinien^[30] gerecht zu werden, existieren in einigen lokalen Versionen weitere Ableger, beispielsweise Wikibooks-Sektionen speziell für Kinder oder in der englischen Wikibooks-Version eine eigene Rubrik für Kochbücher.

Gegründet am 10. Juli 2003 (englische Version) finden Nutzer weltweit rund 120.000 Artikel – Wikibooks benutzt dafür den Terminus Kapitel – in über 70 verschiedenen Sprachen und Dialekten, wobei jedoch nur zwei lokale Ableger mehr als 10.000 und 17 mehr als 1.000 Artikel aufweisen. Das Spektrum reicht dabei von Abhandlungen über die europäische Geschichte über Bücher zur Kommunikationstheorie bis hin zu sozial- und naturwissenschaftlichen Werken.

Aufgrund des Wikicharakters des Projektes – jeder kann jederzeit jeden Artikel verändern – werden Bücher in Wikibooks nie wirklich abgeschlossen, sondern befinden sich in einem Zustand kontinuierlicher Bearbeitung. Diese Dynamik erschwert mitunter die Bestimmung des Autors oder der Hauptautoren eines Buches. Für die auf Reputation basierende Wissenschaftspublizistik stellt gerade die unklare Autorenschaft eine wesentliche Hürde für das Wikibooks-Projekt dar, die einer herausragenden Bedeutung in der wissenschaftlichen Publizistik entgegensteht. Folglich ist ein überproportional hoher Laienanteil unter den Autoren (für weitere Details vergleiche (König 2009, S. 23)) sowie eine Konzentration auf Einführungswerke zu verzeichnen.

Obwohl ursprünglich als Instrument für die schulische und universitäre Lehre gedacht, ist die Verbreitung und Bekanntheit von Wikibooks in diesem Bereich noch sehr gering und eher experimentell geprägt. (König 2009) führt die Zurückhaltung unter den Lehrenden insbesondere auf die mangelnde Kontrollierbarkeit der Beiträge und die damit verbundene Unkalkulierbarkeit der Qualität zurück. Die Attraktivität für Lehrende, selbst innerhalb von Wikibooks als Autor tätig zu werden, wird gemindert durch die geringe Nachvollziehbarkeit der Leistung des Einzelnen und der nicht eindeutig ausweisbaren Urheberschaft.

3.2.2 Wikinews

Wikinews, das Nachrichtenportal der Wikimedia, sieht sich selbst als alternative Informationsquelle zu kommerziellen Nachrichten-seiten. Die Inhalte werden kollaborativ von verschiedenen Nutzern erarbeitet und decken mannigfache Themengebiete ab, wobei auch externe Quellen herangezogen werden, sofern sie dem Neutralitätsaspekt gerecht werden. In mittlerweile 27 Sprachen (Zachte 2009f) kann sich jeder als „Bürgerjournalist“ an der Erstellung und Verbreitung journalistischer Artikel beteiligen. Die Auswahl der Nachrichten für die Hauptseite und die konkrete Ausgestaltung einzelner News geschieht durch Abstimmung innerhalb der Community und entspricht dem aus der Wikipedia bekannten Grundprinzip der Konsensfindung^[31]. Um den sich selbst gestellten hohen Qualitätsanforderungen gerecht zu werden, müssen sämtliche Informationen durch verlässliche Quellen belegt werden, andernfalls droht die umgehende Löschung des Newsartikels oder der entsprechenden Abschnitte (Wikinews 2008).

3.2.3 Wikiquote

[Abbildung in dieser Leseprobe nicht enthalten]Zitate aus zahlreichen Quellen finden sich der mittlerweile in 88 Sprachen (Zachte 2009b) verfügbaren freien Zitatensammlung Wikiquote. Die hier aggregierten bekannten Aussprüche werden unterteilt in überprüfte Zitate, für die eine eindeutige Quellenangabe vorliegt, zugeschriebene Zitate, deren Herkunft nicht eindeutig belegt werden kann, und Zitate über die betreffende Person selbst. Wikiquote ist eng mit Wikipedia verknüpft. In vielen Wikipedia-Artikeln wird auf die Zitate von oder über die jeweilige Person verlinkt, Wikiquote wiederum verweist innerhalb des eigenen Portals zurück auf den entsprechenden Wikipedia-Eintrag.

3.2.4 Wikisource

[Abbildung in dieser Leseprobe nicht enthalten] Wikisource dient nicht – wie der Name vermuten lässt – der Sammlung von Programmquelltexten (engl. “Source Code”), sondern widmet sich der Sammlung lizenz- und urheberrechtsfreier Texte, um diese für die Nachwelt verfügbar zu machen. Aus Urheberrechtsgründen überwiegen ältere Texte, da zur Freistellung eines Textes von Rechtsansprüchen nach deutscher Gesetzgebung der Autor vor mindestens 70 Jahren verstorben sein muss.

Die Schriften wurden zumeist bereits veröffentlicht, liegen aber noch nicht in digitaler Form vor, so dass die Digitalisierung solcher Texte den Arbeitsschwerpunkt des Wikisource Projektes bildet. Hierzu wird die Originalquelle zunächst gescannt oder abfotografiert. Mittels Texterkennungsprogrammen kann der Großteil der Textbausteine vollautomatisch digitalisiert werden. Eine manuelle Nacharbeitung wird aber stets durchgeführt, da die teils sehr alten oder in seltenen Schriftsätzen vorliegenden Werke nicht immer automatisiert verarbeitet werden können und kein Text ohne Endkontrolle aufgenommen wird.

Wikisource möchte keine schlichte Textsammlung sein, sondern legt den Schwerpunkt auf seltene Texte, die für gewöhnlich über das Internet nicht zugänglich sind. Zusätzlich bietet das Projekt die Möglichkeit, einführende oder erklärende Texte dem Originaltext hinzuzufügen, z. B. um Fachvokabular begreiflich zu machen (Wikisource 2008).

3.2.5 Wikispecies

[Abbildung in dieser Leseprobe nicht enthalten]Die Erstellung eines offenen, für jeden frei zugänglichen Artenverzeichnisses verfolgt Wikispecies (Wikispecies 2009). Aufgrund des sehr spezifischen Charakters definiert Wikispecies als Zielgruppe primär Nutzer aus den Naturwissenschaften, während alle anderen Schwesterprojekte sich den allgemeinen Internetnutzern verpflichtet sehen. Eine mehrsprachige Ausrichtung liegt – im Unterschied zu anderen Projekten – nicht vor, da sich die Taxonomien aus den lateinischen Fachtermini ergeben und nur ein Verzeichnis der Übersetzungen der jeweiligen Unterart wie z. B. Aal oder Afrikanischer Elefant geführt wird.

3.2.6 Wikiversity

[Abbildung in dieser Leseprobe nicht enthalten] Die vergleichsweise geringe Artikelanzahl (vgl. Tabelle 2) erklärt sich dadurch, dass es sich bei Wikiversity um das jüngste unter den Schwesterprojekten handelt. Von der strategischen Ausrichtung – “Durch die Entwicklung und Bereitstellung freier Kurs- und Lernmaterialien soll der ungehinderte Zugang zum Wissen verbessert werden.“ (Wikiversity 2009) – dem Wikibooks-Projekt sehr ähnlich (vgl. Kapitel 3.2.1), basiert es doch auf einer anderen Grundstruktur. Während sich Wikibooks in seinem Design und seiner Terminologie an einem herkömmlichen Sachbuch orientiert, ist Wikiversity wie eine Universität mit mehreren Fachbereichen und einem Campus als zentraler Plattform organisiert. Das Projekt verfügt sogar über eine virtuelle Bibliothek, die Nutzern über Hyperlinks den strukturierten Zugriff auf externe Informationen wie frei zugängliche wissenschaftliche Ressourcen (z. B. in anderen Wikimedia-Projekten) und Informationsdienste einräumt.

Diese Wikiversity-Plattform soll dem gemeinschaftlichen Lernen, Lehren, Nachdenken und Forschen dienen sowie den fachlichen Gedankenaustausch fördern. Die didaktische Aufbereitung von Wissen findet in Kursen statt, die für jeden frei zugänglich sind. Darüber hinaus werden Kolloquien abgehalten, die dem fachlichen Gedankenaustausch dienen. Zusammengefasst werden diese Veranstaltungen in einzelnen Projekten, die sich jeweils einer konkreten Fragestellung widmen (Wikiversity 2009).

Das Niveau entspricht nicht immer dem einer herkömmlichen Universität, sondern deckt unterschiedliche Lernlevel ab. Wissensvermittlung findet primär in Formen des „Learning by Doing“ oder experimentellen Lernens statt. Als derzeit einziges Schwesterprojekt bietet Wikiversity interaktive Möglichkeiten in Form von fragebasierten Lernzielkontrollen. Auch der ansonsten geforderte „neutrale Standpunkt“ rückt bei den vorgegebenen Richtlinien in den Hintergrund, um den Autoren bei der Vermittlung von Forschungsergebnissen eine gewisse akademische Freiheit zu gewähren und die Erzeugung neuen Wissens nicht durch starre Restriktionen zu behindern.

Nach einer Studie von (König 2009) konnte sich die Plattform bisher nicht weitläufig etablieren; die bei solchen Internetprojekten benötigte kritische Benutzermasse scheint noch nicht erreicht (für weitere Hintergrundinformationen und Begründungen vergleiche auch (Wannemacher 2008)).

3.2.7 Wiktionary

[Abbildung in dieser Leseprobe nicht enthalten] Mit über 170 lokalen Ablegern und mehr als fünf Millionen Einträgen (Zachte 2009c) ist Wiktionary – innerhalb des deutschen Ablegers Wikiwörterbuch genannt – nach Wikipedia das bekannteste Projekt der Wikimedia Foundation. Jeder lokale Ableger des frei verfügbaren, mehrsprachigen Wörterbuches verfolgt das Ziel, Übersetzungen in allen anderen Sprachen bieten zu können, ein Anspruch, der weit über den Funktionsumfang herkömmlicher Wörterbücher hinausgeht. Neben der reinen Übersetzung einer Vokabel werden ihre verschiedenen Bedeutungen und Synonyme angeführt; auch Angaben zur Aussprache – teilweise mit Hörbeispielen – sowie zu Silbentrennung und Herkunft des Wortes sind dort verzeichnet. Es bleibt jedoch anzumerken, dass nicht alle diese Einträge durch Nutzer erfolgt sind. ufgrund der fest vorgegebenen Datenstruktur werden zahlreiche Daten automatisch von Bots eingepflegt, die sich bestehender Wörterbücher oder Thesauri bedienen, um fehlende Einträge zu ergänzen (Wikipedia - Wiktionary 2009).

3.2.8 Verwandte Projekte

Mediawiki

[Abbildung in dieser Leseprobe nicht enthalten] Die internetbasierte, freie Wiki-Software Mediawiki wird von allen Wikimedia-Projekten und einer Vielzahl von Firmen und Privatnutzern als Wissens- und Content-Management-System genutzt (zu den technischen Details vgl. Kapitel 3.5). Nachdem das Projekt zu Beginn nur von einigen wenigen Programmierern vorangetrieben wurde, beteiligen sich inzwischen über 150 Entwickler an der Verbesserung der PHP-basierten Software (Wikimedia 2009 - Subversion user list). Der große Entwicklerkreis sorgt durch sukzessive Verbesserungen dafür, dass das Programm auf einer der am häufigsten besuchten Internetseiten (Wikipedia) auch bei hohen Benutzerzahlen schnell und zuverlässig arbeitet. Diese Robustheit, zusammen mit der Vielzahl an Erweiterungen für das System, hat insbesondere in Unternehmen und öffentlichen Einrichtungen zu einer weiten Verbreitung geführt.

Metawiki

[Abbildung in dieser Leseprobe nicht enthalten] Metawiki wird von der Wikimedia Foundation als Koordinationsseite für alle Projekte und zur Dokumentation wichtiger Infor-mationen genutzt. Dort werden grundlegende Richtlinien diskutiert, die für alle Schwesterprojekte relevant sind, sowie länderübergreifende Aspekte abgestimmt. Ursprünglich als Auslagerungsseite für alle nicht direkt die Wikipedia betreffenden Inhalte erstellt, verlagert sich die Aufgabe dieses speziellen Wikis heute zunehmend in den Bereich eines Koordinationstools. Es dient der Wikimedia Foundation als Sprachrohr für offizielle Nachrichten, verzeichnet die einzelnen Mailinglisten, Wikipedia-Ableger und Schwesterprojekte und listet außerdem verschiedene Statistiken auf.

Commons

[Abbildung in dieser Leseprobe nicht enthalten] Lanciert im September 2004, verfolgt Wikimedia Commons das Ziel, den Schwesterprojekten einen zentralen Speicherort für alle denkbaren Mediendaten zur Verfügung zu stellen, entsprechend einer projektübergreifenden Medienbibliothek, aus der sich alle Ableger bedienen können. Während zuvor alle Projekte ihre Daten selbst verwalteten, werden nach der Umstellung bereits über 4,5 Millionen Dateien in Wikimedia Commons vorgehalten (Wikipedia - Wikimedia Commons 2009).

3.3 Kollaborative Wissensgenerierung – Analyse eines
revolutionären Konzeptes

In den letzten Jahren entstanden unter dem Modewort Web 2.0 eine Vielzahl Internetplattformen, die sich dem Grundsatz des „User generated content“ verschrieben. Aus diesem Hype gingen einige sehr bekannte und inzwischen etablierte Internetseiten hervor, zu denen auch die Wikipedia zu zählen ist.

Es stellt sich die Frage sowohl nach den wesentlichen Erfolgsfaktoren, dem Funktionieren der weltweiten Zusammenarbeit in der Realität sowie der Ursache des Scheiterns anderer Projekte. Eine satirische Erklärung für den Erfolg Wikipedias liefert der amerikanische Komiker Stephen Colbert^[32]: „The problem about Wikipedia is, that it just works in reality, not in theory.“ (Wikiquote 2009).

Die Frage nach den Ursachen der Popularität von Wikipedia wird ebenso wie die nach den theoretischen Grundlagen des Begriffs Wisdom of Crowds im folgenden Abschnitt bearbeitet. Es folgt eine Betrachtung der Qualität der Artikel unter Einbeziehung des Vandalismusproblems sowie die Diskussion der Nutzung von Wikipedia als Quelle wissenschaftlichen Arbeitens. Der Abschnitt schließt mit einer Untersuchung der Mitgliederstruktur, wobei der kausale Zusammenhang zur Artikelqualität hergestellt wird.

3.3.1 Der Grundgedanke

Wikipedia selbst kann als das umfassendste Projekt zur kollaborativen Zusammenarbeit und Inhalteerstellung angesehen werden. Oft fällt in diesem Zusammenhang der Begriff Wisdom of Crowds (Weisheit der Vielen). Er entstammt dem 2004 von James Surowiecki veröffentlichten Werk „The Wisdom of Crowds – Why the Many Are Smarter Than the Few and How Collective Wisdom Shapes Business, Economies, Societies and Nations“ (Surowiecki 2004). Seine Argumentation mündet in der These, dass die Aggregation von Informationen durch eine Gruppe zu einem Ergebnis führt, das meist näher an der Wahrheit liegt als die Schätzungen der einzelnen Individuen. Übertragen auf die Inhalte einer Enzyklopädie sollte deren Qualität durch die Einflussnahme vieler verschiedener Benutzer positiv geprägt werden. Inzwischen hat sich die Informationswissenschaft dieses Phänomens angenommen und es umfassend untersucht (vgl. Kapitel 3.4).

Theoretisch ließe sich aufgrund der hohen Mitgliederanzahl von Wikipedia die These aufstellen, dass das vorhandene Artikelspektrum die verschiedenen wissenschaftlichen Fachrichtungen gleichmäßig abdecken müsste. Wie Kapitel 3.4.1 jedoch aufzeigt, handelt es sich hierbei um eine falsche Schlussfolgerung. Trotz des breiten Nutzer-spektrums existieren Nischen, die von dem positiven Effekt der Weisheit der Vielen ausgenommen bleiben.

3.3.2 Vandalismus, „Edit Wars“ und Maßnahmen zur Qualitäts-
sicherung

In der Wikipedia kann grundsätzlich jeder Benutzer neue Inhalte hinzufügen oder vorhandene Inhalte korrigieren und sogar löschen. Gerade die geringen Einstiegshürden zur Beteiligung am kollaborativen Schreiben sind als eine der Hauptursachen dafür anzusehen, dass das vorliegende Konzept funktioniert und sich Wikipedia weltweit als führende Online-Enzyklopädie etablieren konnte. Gleichzeitig scheint die Möglichkeit zum Löschen einzelner Artikelabschnitte oder sogar ganzer Artikel nachvollziehbare Befürchtungen bezüglich Vandalismus hervorzurufen, denen Wikipedia mittels verschiedener Maßnahmen entgegenwirkt. So wird nach jeder Änderung eine neue Artikelversion erstellt, während die vorherigen Versionen in der Datenbank archiviert werden. Dieses Vorgehen führt dazu, dass bei unsinnigen Änderungen oder sogar Löschen eines Artikels – ob irrtümlich oder durch bewussten Vandalismus – dieser aus der Historie wiederhergestellt werden kann. Zudem führten Untersuchungen (vgl. (Bichlmeier 2006, S. 149)) zu dem Ergebnis, dass Vandalismus sehr schnell von den Benutzern bemerkt und korrigiert wird^[33]. Sogenannte Beobachtungslisten unterstützen diese Selbst-regulation. Diese Listen, die auf der Benutzerseite erscheinen, enthalten eine Auflistung der kürzlich editierten Artikel, die von registrierten Nutzern beobachtet werden.

Aufgrund des vorgenommenen Monitorings besteht die Möglichkeit, bei Vandalismus sehr schnell einzugreifen und korrigierend tätig zu werden, was durch folgende Grafik belegt wird:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 8: Überlebensdauer von Vandalismus in Wikipedia, Quelle: (Cobb 2009)

Das Ändern von Artikelinhalten kann sich, insbesondere bei inhaltlich sensiblen Artikeln zu geschichtlichen, religiösen oder politischen Themen, als problematisch erweisen, da hier die Autorenschaft durchaus unterschiedliche Sichtweisen vertreten kann, die eine Konsensfindung erschweren. Um bei einer großen Anzahl beteiligter Personen mit differenten Ansichten einen für alle Seiten akzeptablen Text zu formulieren, erfolgt eine Einigung häufig auf Basis des kleinsten gemeinsamen Nenners. Lässt sich dieser nicht finden, mündet der Konflikt mitunter in sogenannten Edit Wars, in denen Autoren mit gegensätzlichen Ansichten die Änderungen anderer Verfasser umgehend verwerfen, um ihre eigene Sicht der Dinge durchzusetzen. Diese Konflikte werden innerhalb der Community auf speziellen Seiten diskutiert und durch Administratoren überwacht. Diese verfügen über erweiterte Rechte und können die Bearbeitung eines Artikels temporär blockieren oder uneinsichtige Nutzer sperren.

Zentraler Anlaufpunkt für alle Formen des Qualitätsmanagements ist das Wartungsportal, das eine Übersicht gegenwärtiger Maßnahmen und Projekte bietet. Bewährt hat sich das Konzept der Markierung von Artikeln mittels Wartungsbausteinen, um auf unzureichende Qualität hinzuweisen und zugleich zur Verbesserung des Artikels aufzurufen. Analog erfolgt die Auszeichnung besonders hochwertiger Artikel als exzellent oder lesenswert. Wie in der Wissenschaftpublizistik geht solch einer Auszeichnung zunächst ein Reviewprozess^[34] voraus, bei dem:

- der Artikel durch eine größere Leserschaft analysiert wird,
- mögliche Mängel aufgezeigt werden und
- eine Diskussion zur weiteren Optimierung angestoßen wird.

Im Mai 2008 wurde zusätzlich im Rahmen der Qualitätsoptimierung das Prinzip der gesichteten Artikel eingeführt. Nicht angemeldete Benutzer sehen seitdem nicht automatisch die aktuelle Version eines Artikels, sondern werden auf die zuletzt als gesichtet markierte Version verwiesen. Die Sichtung eines Artikels kann nur von Nutzern mit Sichtungsrechten vorgenommen werden, dies sind in der Regel erfahrene Wikipedianer mit einer Mindestanzahl von 200 Artikelbearbeitungen (Wikipedia - Gesichtete Ver-sionen 2009). Anonyme Anwender dürfen zwar weiterhin Änderungen an Artikeln vornehmen, die bearbeitete Version wird aber erst nach erneuter Überprüfung allen Nutzern zugänglich (Kleinz 2008).

In einem weiteren Schritt soll die Einführung von geprüften Artikeln innerhalb der Wikipedia-Community diskutiert werden. Dieses Prinzip zielt darauf ab, alle Kernaussagen eines Artikels durch Sekundärliteratur zu verifizieren. Schrittweise sollen auf diese Weise der Artikelbestand sowohl auf Fehler überprüft als auch Fakten durch zusätzliche Quellen belegt werden, für deren Erfassung ein zusätzliches Kommentarfeld eingeführt werden soll (Wikipedia - Geprüfte Versionen 2009).

3.3.3 Verwendbarkeit von Wikipedia als Quelle

In welchem Umfang die im vorherigen Kapitel geschilderten Schritte zur Qualitätssteigerung durch die Wikipedianer umgesetzt werden können, bleibt fraglich, da sie mit einem erheblichen Aufwand verbunden sind. Zwar hat sich das zuvor exponentielle Wachstum der Artikelanzahl – zumindest bei den größeren Wikipedias – mittlerweile abgeschwächt, damit einhergehend verringerte sich jedoch ebenfalls die Anzahl der Autoren, deren Hilfe für Maßnahmen zur Qualitätssicherung benötigt wird (Ortega 2009). Alle geplanten Vorhaben basieren auf anerkennenswerten Intentionen, ob Wikipedia jedoch den Weg von einem Online-Lexikon zu einem verlässlichen, zitierfähigen Werk einschlagen kann, bleibt zweifelhaft. Aktuell wird sowohl von Seiten der Universitäten als auch durch schulische Institutionen davon abgeraten, Wikipedia als verbürgte Quelle zu nutzen (Bichlmeier 2006, S. 153f). Um einen generellen Überblick zu einem Themengebiet zu erhalten, stellt Wikipedia eine sinnvolle erste Informationsquelle dar; sobald jedoch die Verifizierung konkreter Fakten über angemessene Quellen gefragt ist, erweist sich das Heranziehen zusätzlicher Literatur als unabdingbar.

In diesem Zusammenhang ist zu eruieren, wie Qualität innerhalb einer Enzyklopädie gemessen werden kann, eine Frage, die bereits von mehreren Forschergruppen unter verschiedenen Aspekten betrachtet wurde (vgl. Kapitel 3.4). Ein breites Medienecho rief seinerzeit ein Artikel in der Zeitschrift „nature“ hervor, in welchem (Giles 2005) insgesamt 42 Artikel der englischen Wikipedia den Einträgen in der Encyclopaedia Britannica gegenüberstellte. Die Untersuchung ergab ein gleichwertiges Qualitätsniveau, lediglich bei den Punkten „geringfügige sachliche Fehler“, „missverständliche Formulierungen“ und „Vollständigkeit“ konnte die Encyclopaedia Britannica besser abschneiden (Bichlmeier 2006, S. 152). Die Ergebnisse riefen einen Disput zwischen dem Wissenschaftsjournal und dem Herausgeber der Encyclopaedia Britannica hervor, der nature eine methodisch falsche Untersuchung vorwarf (Encyclopædia Britannica 2006). In einer Stellungnahme wies nature alle Vorwürfe zurück (nature Publishing Group 2006) und verteidigte die wissenschaftliche Vorgehensweise (zu den Details vergleiche (Becker, Pfeiffer 2006)).

Anhand dieses Beispiels konnte dargelegt werden, dass die Messung der Artikelqualität, unter verschiedenen Gesichtspunkten betrachtet, in kontroverse Diskussionen einmünden kann. Bezüglich der o. g. Untersuchung bleibt auszuführen, dass die Aggregation von Untersuchungsergebnissen nichts über die Qualität einzelner Artikel aussagt. Gerade innerhalb der Wikipedia finden sich sowohl exzellente als auch schlechte Einträge, während die Artikelqualität innerhalb der Encyclopaedia Britannica aufgrund der hohen Qualifikation der Autoren ein konstanteres Niveau aufweist.

Ein weiterer Untersuchungsaspekt bleibt in der Studie unberücksichtigt: Aufgrund der Bereitstellung der Artikel im Internet und bedingt durch die große Nutzeranzahl besitzt Wikipedia deutliche Vorteile in Bezug auf die Aktualität der Inhalte. Umgekehrt ergeben sich aus diesen Voraussetzungen mitunter negative Konsequenzen in Form von schlecht geschriebenen und häufig sehr unstrukturierten Artikeln. Solche Mängel treten in der Encyclopaedia Britannica wesentlich seltener auf (Giles 2005, S. 901).

Aufschlussreich ist in diesem Zusammenhang eine Studie von (Rosenzweig 2006), der Artikel über historische Persönlichkeiten aus drei verschiedenen Quellen untersuchte: der englischsprachigen Wikipedia, der Enzyklopädie „Encarta“ von Microsoft und der „American National Biography Online“. Im Ergebnis sind die Artikel in Wikipedia denen der Encarta qualitativ ebenbürtig, jedoch deutlich umfangreicher, während die auf das historische Fachgebiet spezialisierte American National Biography in quantitativer und qualitativer Hinsicht deutlich besser abschneidet. Analog zu der nature-Untersuchung bemängelt auch (Rosenzweig 2006) ähnliche Qualitätsaspekte in Wikipedia-Artikeln. Quellen- und Literaturangaben folgen nicht immer wissenschaftlichen Grundsätzen und Artikel beinhalten vielfach triviale, überflüssige Aussagen, so dass sich ihre Struktur oft als zusammengewürfelt darstellt. Diese mangelnde Konsistenz charakterisiert eine offensichtliche negative Konsequenz des kollaborativen Schreibens. Professionellen Autoren hingegen gelingt es besser, sich in wenigen Worten exakt auszudrücken, Zitate einzubauen und einen nachvollziehbaren Kontextbezug herzu-stellen (Rosenzweig 2006, S. 130).

(Bichlmeier 2006) zieht in seiner Untersuchung zur Qualität der Wikipedia-Inhalte ebenfalls die Schlussfolgerung, die Online-Enzyklopädie nicht als Quelle heranzuziehen (Bichlmeier 2006, S. 153). Sein Fazit basiert zum einen auf der bereits angesprochenen problematischen Nachvollziehbarkeit der Qualifikationen und Referenzen der Autoren, die sich in einem ungenauen Gebrauch fachlicher Terminologien ausdrückt (vgl. auch (Miller et al. 2006)). Zum anderen führt er die zu einem Artikel angeführten Bibliografien an, die oft nicht den neusten wissenschaftlichen Stand widerspiegeln oder, trotz der Forderung, jede Kernaussage eines Artikels mit einer angemessenen Quelle zur Verifizierung zu belegen, unvollständig sind. Wichtige Merkmale wissenschaftlichen Arbeitens bleiben somit vielfach unberücksichtigt.

Abschließend sei auf einen weiteren Umstand hingewiesen: Mag auch auf den ersten Blick der Eindruck entstehen, dass sich an jedem Artikel stets eine Vielzahl von Autoren beteiligt, so bleibt die Tatsache hervorzuheben, dass das große Artikelspektrum sehr vielschichtige Fachrichtungen abdeckt. Dieser Umstand widerspricht teilweise der These der Weisheit der Vielen, die oft mit Wikipedia in Verbindung gebracht wird und besagt, dass bei einer Vielzahl von Autoren Fehler in einem Text schnell bemerkt und korrigiert werden. Die hohe Anzahl von Einträgen in der Wikipedia bewirkt jedoch, dass dieses Prinzip nicht in allen Nischen greifen kann, eine Tatsache, die durch die mitunter stark ausgeprägten Unterschiede bezüglich Artikelqualität und Artikelumfang untermauert wird.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 9: Verteilung der Artikelgröße bei Wikipedia-Artikeln

Abb. 9 veranschaulicht die Verteilung der Artikelgrößen: Ca. 50% aller Artikel der deutschen Wikipedia erreichen lediglich einen Umfang von 2.000 Bytes, 80% nicht mehr als 5.000 Bytes und lediglich 15% aller Einträge können mit einer Gesamtgröße von mehr als 10.000 Bytes als ausführliche Artikel angesehen werden.

Die aus der Analyse der Artikelgrößen abzuleitenden Konsequenzen sind nicht zu unterschätzen, denn sehr spezielle und daher von der breiten Masse wenig frequentierte Einträge spiegeln gelegentlich nur die Sichtweise eines einzelnen Autors wider. In Ermangelung der Einbeziehung weiterer Aspekte oder einer kritischen Auseinandersetzung mit konträren Standpunkten sollten besonders diese Inhalte – trotz evtl. schwieriger Quellenlage – nicht zitiert werden.

Im Rahmen dieser Arbeit wird die Wikipedia deshalb lediglich als Referenz für Daten über Wikipedia selbst und zu ihren Schwesterprojekten herangezogen, da die von der Wikimedia-Foundation zur Verfügung gestellten Informationen nicht in gedruckter Form bereitgestellt werden bzw. Alternativquellen nicht verfügbar sind. Hier handelt es sich um den Sonderfall, dass Informationen über eine bestimmte Institution nur von dieser selbst herausgegeben werden, so dass Angaben Dritter nicht genutzt werden können.

3.4 Wikipediaforschung

Einhergehend mit der zunehmenden Bekanntheit der Wikipedia findet die Beschäftigung mit der Online-Enzyklopädie Eingang in die wissenschaftliche Forschung. Vielfach wird in den Medien undifferenziert vom „Phänomen Wikipedia“ gesprochen. Da Wissenschaft danach strebt, nicht näher definierte ungewöhnliche Erscheinungen sachlich zu untersuchen, bildete sich unter dem Terminus Wikipedistik gleich ein ganzer Forschungszweig, der sich der Analyse von Wikipedia aus verschiedenen Blickwinkeln annimmt. Nachdem sich anfänglich hauptsächlich die Computerwissenschaft mit Wikipedia auseinandersetzte (vgl. Kapitel 3.4.1), stießen im Laufe der Zeit weitere Fachbereiche hinzu, darunter auch weniger bekannte wie die Bibliothekswissenschaft (siehe z. B. die Arbeit von (Danowski, Voß 2005)).

Der folgende Abschnitt befasst sich hauptsächlich mit Arbeiten aus den Forschungsgebieten Computerwissenschaft (Untersuchungen über kollektives Schreiben), Sozial- und Verhaltenswissenschaft (Analyse der Community-Struktur und Benutzermotivation, vgl. Kapitel 3.4.1) sowie Bildungswissenschaft (Betrachtung der Artikelgüte, vgl. Kapitel 3.4.2).

Zwei wegweisende Veröffentlichungen befassten sich bereits weit vor der Wikipedia-Ära mit Kollaboration innerhalb eines größeren Netzwerkes: Im Jahr 1990 veröffentlichten (Neuwirth et al. 1990) eine erste Studie, die sich mit den Möglichkeiten der gemeinsamen Inhalte-Erstellung über das Internet auseinandersetzt. Ihre Abhandlung mündet in der Herausarbeitung einiger zentraler Aspekte als wesentliche Voraus-setzungen für die erfolgreiche Umsetzung eines solchen Projektes, die auch heute noch ihre Gültigkeit besitzen (vgl. (Ortega 2009, S. 19)).

Ein ähnlicher Untersuchungsansatz liegt der Forschungsarbeit von (Dourish, Belotti 1992) zugrunde. In ihrer Arbeit befassen sie sich ebenfalls mit dem kollaborativen Schreiben in einem Netzwerk, konzentrieren sich in ihren Betrachtungen jedoch auf die Kommentare der Teilnehmer und den gegenseitigen Meinungsaustausch. Sie führten bereits 1992 den Terminus Shared Feedback in den wissenschaftlichen Diskurs ein, der in zahlreiche Forschungsarbeiten zu Wikipedia übernommen wurde.

Während sich diese frühen Abhandlungen mit der Theorie des kollaborativen Schreibens befassten, basiert der größte Teil der jüngeren publizistischen Werke auf der Betrachtung konkreter Praxisbeispiele. Grundlage aller Forschungsbemühungen sind die umfangreichen und sehr detaillierten Datenbestände in der Wikipedia, aus denen sich vielfältige Informationen gewinnen lassen. Wie in Kapitel 3.3.2 bereits erwähnt, wird jede einzelne Bearbeitung in der Datenbank gespeichert, so dass die Möglichkeit besteht, aus diesen einzelnen Momentaufnahmen z. B. Historien abzuleiten. Einhergehend mit der enormen Datenmenge sieht sich die Informationswissenschaft jedoch vor die Herausforderung gestellt, immer effizientere Algorithmen zu entwickeln, um Analysedaten aus solch großen Datenbeständen performant zu selektieren; ein Problem, für das im Rahmen dieser Forschungsarbeit bei vielen Aspekten eine Lösung erarbeitet werden musste (siehe Kapitel 4-7).

3.4.1 Community und Motivation der Benutzer

Bereits vor der Etablierung von Wikipedia als größte Online-Enzyklopädie erfolgte die Erforschung von Organisationsstruktur und Kontributoren bei anderen Open-Source-Projekten^[35]. (Raymond 2001) verglich das in der herkömmlichen Softwareentwicklung dominierende Kathedralenmodell mit dem von vielen Open-Source-Projekten genutzten Bazarmodell. Ersteres basiert auf einer strengen Hierarchie und Aufgabenverteilung mündend in einem Release-Zyklus, bei dem eine Software stets erst nach Abschluss eines bestimmten Entwicklungszeitraumes zur Verfügung gestellt wird. Beim Bazarmodell hingegen kann der jeweils aktuellste Quellcode jederzeit von interessierten Nutzern abgerufen werden und es dominieren flache Hierarchien. Für die dezentral geprägte Softwareentwicklung in Open-Source Projekten hat sich das Bazarmodell als deutlich überlegen herausgestellt.

Den Einfluss, den die Ausgestaltung von Organisationsstrukturen und die Hierarchisierung ausüben, untersuchten Krowne und Bazaz in ihrer Ausarbeitung „Authority models for collaborative authoring“ am Beispiel von CSCW-Projekten (Computer Supported Collaborative Work – computerunterstützte Gruppenarbeit). Seinerzeit stellte das auf den Gruppenleiter fokussierte Modell das vorherrschende CSCW-Paradigma dar. Die Untersuchung ergab jedoch, dass offenere Modelle, bei denen viele verschiedene Autoren mit gleichen Rechten an einer Aufgabe arbeiten, eine höhere Produktivität aufweisen (Krowne, Bazaz 2004). Eine Analyse der Organisationsstruktur von Wikipedia durch (Spek et al. 2006) identifizierte ebenfalls einen vorherrschenden Bottom-Up-Ansatz innerhalb Wikipedia, wie er in den meisten Open-Source Projekten nachzuweisen ist. Demgegenüber stehen Untersuchungsergebnisse von (Cosley et al. 2007), die Benutzerengagement und Produktivität bei Zuweisung von Aufgaben durch ein selbst entwickeltes Task-Routing-System maßen. Das System identifiziert zunächst die Interessengebiete eines Nutzers, um diesem dann spezifische Aufgaben aus seinen präferierten Bereichen zuzuweisen. Die Entscheidungsfreiheit wurde dadurch zwar eingeschränkt, die Zuweisung von Aufgaben aus dem Interessenbereich des Benutzers führte jedoch zu einer höheren Produktivität und steigenden Benutzerbeiträgen.

Weitere Forschungen befassen sich mit der Frage nach den Eigenschaften, die Wikipedia- und Open-Source-Projektmitglieder auszeichnen sowie mit der zugrunde liegenden Motivation, die sie ihre Arbeitskraft kostenlos für ein bestimmtes Projekt zur Verfügung stellen lässt. Der Vergleich früherer Forschungserkenntnisse über Open-Source-Communities mit Untersuchungsdaten für Wikipedia zeigt – bei gleichem Untersuchungsaufbau – dass hier eine große Ähnlichkeit vorliegt. Ein wesentlicher Unterschied besteht lediglich in der Größe der verglichenen Benutzergruppen, denn kein Open-Source-Projekt weist auch nur annähernd ähnlich hohe Mitgliederzahlen auf wie Wikipedia. Diese Tatsache lässt sich auf den Umstand zurückführen, dass mittels der vorhandenen Benutzeroberfläche jeder Anwender die Artikeltexte in Wikipedia ändern kann, es aber nur einem Bruchteil der Internetnutzer möglich ist, sich in ein auf einer bestimmten Programmiersprache basierendes Softwareprojekt einzubringen.

Beide Benutzergruppen unterscheiden sich in anderen wesentlichen Merkmalen jedoch kaum. Die bei vielen Open-Source-Projekten nachgewiesene Beziehung zwischen der Anzahl von Beiträgen einer Person zu einem Projekt und der Anzahl von Personen mit einem gleich hohen Engagement folgt nach einer Studie von (Danowski, Voß 2005) auch in der Wikipedia Lotkas Gesetz^[36].

In Untersuchungen zu verschiedenen demographischen Charakteristika kamen u. a. (Schroer 2008, S. 66) und (Wikipedia - Wikipedistik/Soziologie 2009) zu dem Ergebnis, dass sich der durchschnittliche Wikipedianer als männlich, ca. 33 Jahre alt und überdurchschnittlich gebildet beschreiben lässt. Unter wissenschaftlichen Gesichtspunkten muss auf den geringen Stichprobenumfang (Schroer: N = 348, Wikipedia: N = 1168) hingewiesen werden. Da beide Studien jedoch zu sehr ähnlichen Resultaten kommen, kann die Validität der Daten als ausreichend angesehen und somit die Ergebnisse als verifiziert eingestuft werden. Weitere Ähnlichkeiten zwischen den Studien bestehen in der hohen Streuung bei den Angaben zum Alter bei einer gleichzeitigen Konzentration der Nutzer in der Altersgruppe der 18-32jährigen. Diese Aussagen werden untermauert von eigenen Erhebungen durch Wikipedia, in denen die statistische Verteilung der Wikipedianer (basierend auf eigenen Angaben auf den Benutzerseiten) auf vordefinierte Kompetenzbereiche analysiert wurde^[37]. Die Herausarbeitung junger, männlicher, hoch gebildeter Anwender als größte Nutzergruppe lässt sich ebenfalls aus den Angaben zu eigenen Kompetenzbereichen ableiten, bei denen Themen mit Bezug zu Informations- und Kommunikationstechnologien sowie den Naturwissenschaften überwiegen (König 2009, S. 13).

[...]

^[1] 1913 - 1976, englischer Dirigent, Komponist und Pianist

^[2] 1749 - 1832, deutscher Dichter und Dramatiker

^[3] 1723 - 1790, schottischer Wirtschaftstheoretiker, gilt als Begründer der klassischen Volkswirtschafts-lehre

^[4] Der Begriff Wiki bezeichnet ein „offenes Autorensystem für Webseiten. Wiki [sic!] sind im World Wide Web veröffentlichte Seiten, die von den Benutzern online geändert werden können.“ (Lackes, Siepermann 2009).

^[5] Eine übersichtliche Gegenüberstellung verschiedener Ansätze findet sich in (Bodrow, Bergmann 2003).

^[6] 1562 - 1626, englischer Philosoph und Staatsmann

^[7] Eine Übersicht der gängigsten Definitionen, die das Tripel Daten - Informationen - Wissen betrachten, kann (Laudon et al. 2010, S. 662-664) entnommen werden.

^[8] 1916 - 2001, gilt als Mitbegründer der Informationstheorie und prägte in seiner Arbeit „A Mathematical Theory of Communication“ (Shannon 1948) den Begriff Bit.

^[9] Kookkurrenz bezeichnet das gemeinsame Auftreten zweier Wörter in einer übergeordneten Einheit.

^[10] Für weiterführende Informationen siehe (Minke 2005).

^[11] „Navigiere von Artikel X über die Liste der ähnlichen Artikel zu Artikel Z.“

^[12] In englischsprachigen Publikationen werden synonym die Begriffe Behavioral Science bzw. Design Science genutzt.

^[13] * 7. August 1966, Gründer der Wikipedia und langjähriger Vorsitzender der Wikimedia Foundation

^[14] * 26. Mai 1949, Begründer des WikiWikiWebs und Pionier bei Entwurfsmustern, Extreme Programming und agiler Software-Entwicklung

^[15] Erste Artikelversion: http://en.wikipedia.org/w/index.php?title=West_Virginia&oldid=294282

^[16] Gegenwärtige Artikelversion: http://en.wikipedia.org/w/index.php?title=West_Virginia&oldid
=467540839 (Stand 24.12.2011). Die jeweils aktuelle Version kann unter http://en.wikipedia.org/wiki
/West_Virginia aufgerufen werden.

^[17] Quelle: http://commons.wikimedia.org/w/index.php?title=File:EnwikipediaArt.PNG&
oldid=21888933

^[18] Quelle: http://commons.wikimedia.org/w/index.php?title=File:Enwikipediagrowth6.PNG&
oldid=21888964. Zu dieser Grafik existieren Darstellungen ab Juni 2006, die zum damaligen Zeitpunkt bereits den weiteren Verlauf vorausberechneten. Die Betrachtung der Entwicklung bis zur Version von Juni 2009 zeigt auf, dass die damaligen Prognosen nahezu deckungsgleich eintrafen. Siehe dazu „File History“ auf der Seite http://commons.wikimedia.org/wiki/File:Enwikipediagrowth6.PNG.

^[19] Eigene Hochrechnungen basierend auf (Kozák 2009), (Zachte 2009e) und (Zachte 2009g)

^[20] Siehe http://wikimediafoundation.org/w/index.php?title=Planned_Spending_Distribution_2007-2008
&oldid=25331

^[21] Siehe http://wikimediafoundation.org/w/index.php?title=Planned_Spending_Distribution_2008-2009
&oldid=29946

^[22] Die sogenannte „GNU Free Documentation Licence“ ist in englischer Sprache unter folgender URL abrufbar: http://www.gnu.org/licenses/fdl.html.

^[23] Teilweise geführt unter dem Anglizismus Policies. Weitere Kernpunkte sind a) Objektivität/Neutralität, b) Beschränkung auf belegte Fakten, c) Anführung verlässlicher Quellenangaben, d) formale Korrektheit.

^[24] Weitere Details zu Forschungen über die Wikipedia-Community finden sich in Kapitel 3.4.

^[25] Vgl. http://en.wikipedia.org/wiki/Special:Statistics

^[26] Registrierte Benutzer mit mindestens einer Bearbeitung innerhalb der letzten 30 Tage

^[27] Vgl. http://de.wikipedia.org/wiki/Spezial:Statistik

^[28] Für eine vollständige Übersicht inklusive aller vorhandenen Sprachvarianten siehe: http://de.wikipedia.org/wiki/Spezial:Liste_der_Wikimedia-Wikis.

^[29] Die Daten für einzelne lokale Wikipedia-Ableger sind teilweise älter, weshalb die hier gelisteten aggregierten Daten keinen Anspruch auf absolute Korrektheit erheben. Zur vergleichenden Gegenüberstellung ist die Datenlage jedoch ausreichend.

^[30] Für eine klare Abgrenzung vergleiche: http://en.wikibooks.org/wiki/WB:WIW.

^[31] Für weiterführende Informationen vergleiche die Studie „The Hidden Order of Wikipedia“ von (Viégas et al. 2007).

^[32] * 13. Mai 1964, politischer Satiriker und Parodist

^[33] Aktuelle Zahlen für die englische Wikipedia finden sich unter http://en.wikipedia.org/wiki/Wikipedia:
Vandalism_statistics.

^[34] Für weiterführende Details siehe (Viégas et al. 2007).

^[35] Open-Source ist ein 1998 eingeführter Marketingbegriff, der quelloffene Software beschreibt, die größtenteils kostenlos bezogen werden kann und im Rahmen unentgeltlicher Mitarbeit kollaborativ entwickelt wird (Thiemann 2006). Als bekannteste Beispiele gelten die verschiedenen Linuxdistributionen und der durch Offenlegung des Netscape Quellcodes entstandene Internetbrowser Firefox.

^[36] Zu den Details dieser Gesetzmäßigkeit siehe (Lotka 1926).

^[37] „Die Wikipedianer nach Wissensgebieten“: http://de.wikipedia.org/w/index.php?title=Wikipedia:
Die_Wikipedianer/nach_Wissensgebieten&oldid=54213960

Ende der Leseprobe aus 183 Seiten

Details

Titel: Ableitung personaler Wissensdomänen aus Navigationspfaden in einer Online-Enzyklopädie – Implementierung eines Prototyps „Simpedia“
Hochschule: Universität Hildesheim (Stiftung) (Mathematik, Naturwissenschaften, Wirtschaft und Informatik)
Note: 1,0
Autor: MSc Marcel Minke (Autor:in)
Jahr: 2012
Seiten: 183
Katalognummer: V208590
ISBN (eBook): 9783656360452
ISBN (Buch): 9783656360926
Dateigröße: 2470 KB
Sprache: Deutsch
Anmerkungen: Eine Demonstration der Prototyp-Funktionen kann in Form eines Screencasts unter http://www.marcel-minke.de/simpedia abgerufen werden.
Schlagworte: Wikipedia, Enzyklopädie, Benutzertracking, Simpedia, SENTRAX, Mediawiki, Datenanalyse, Findlink

Arbeit zitieren: MSc Marcel Minke (Autor:in), 2012, Ableitung personaler Wissensdomänen aus Navigationspfaden in einer Online-Enzyklopädie – Implementierung eines Prototyps „Simpedia“, München, GRIN Verlag, https://www.grin.com/document/208590

Kommentare