Lade Inhalt...

Erstellung annotierter Textcorpora mit WebLicht. Computerlinguistik als Sprachwissenschaft

Hausarbeit (Hauptseminar) 2014 36 Seiten

Germanistik - Linguistik

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung

2 WebLicht
2.1 Benutzerfunktionalität
2.2 Nutzen

3 Computerlinguistik als Sprachwissenschaft
3.1 Informationsextraktion
3.2 Textkorpora

4 WebLicht in der Praxis
4.1 Analyse von Beispielen aus dem sozialen Netzwerk „Facebook“
4.1.1 Orthographisch richtige Wörter im falschen Kontext
4.1.2 Slang, Dialekte und Fremdwörter
4.1.3 Fehler in der Orthographie die durch ein Vertippen entstehen
4.1.4 Erkennen von Substantiven
4.1.5 Sonstiges
4.2 Ergebnisse der untersuchten Textbeispiele

5 Fazit

6 Anhang

7 Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1: Excel Tabelle der Auswertung von WebLicht

Abbildung 2: Baumdiagramm der Satzanalyse

Abbildung 3: Facebook Screenshot Liebe

Abbildung 4: Übersicht der drei Modi in WebLicht

Abbildung 6: Pfälzer Dialekt „parsing tree“ nicht korrigiert

Abbildung 7: Pfälzer Dialekt „parsing tree“ korrigiert

Tabellenverzeichnis

Tabelle 1: Zerlegung des Links

1 Einleitung

Eine Face-to-Face -Kommunikation ist die typische Art der Kommunikation, in der der Dialog und die gesprochene Sprache im Vordergrund stehen. Neben dieser Variante finden Kommunikationsmöglichkeiten auch über mediale Dienste immer häufiger Anwendung. Hierbei werden im Rahmen der technisch vermittelten Kommunikation sprachliche Daten unter Verwendung der technischen Medien den Kommunikationspartnern zugänglich gemacht. In diesem Zusammenhang spricht man von Texkorpora aus geschriebenen oder transkribierten, gesprochenen Texten bestehen. Der erste größere Textkorpus wurde vom amerikanischen Brown-Korpus erstellt, welcher an der Brown University zusammengefasst wurde. Er enthielt 500 Texte, die durchschnittlich 2.000 Tokens umfassen, und wurde 1964 der Forschungsgemeinschaft zur Verfügung gestellt. Durch eine Tokenisierung werden die Texte in einzelne Wörter zerlegt. In diesem Zusammenhang spricht man auch von „delimitern“, welche die einzelnen Wörter typischerweise durch Leerzeichen voneinander trennen[1]

Sind die Textbestandteile einmal tokenisiert, lassen sich die jeweiligen Tokens annotieren und bei Bedarf visuell in Form von Pars-Bäumen abbilden, um beispielsweise Beziehungen der Wörter untereinander und den generellen Satzbau darzustellen. Eine Annotation stellt eine Anreicherung eines Tokens mit zusätzlichen Informationen dar.[2] Dies sind meist Informationen bezüglich der Grammatik, Konjugation bzw. Deklination.

Textkorpora werden nach gewissen wissenschaftlichen Kriterien zusammengestellt und umfassen eine bestimmte Art und Anzahl von Texten. Solche Zusammenstellungen haben mit Aufkommen maschineller Möglichkeiten besonders in mehreren Disziplinen der Sprachwissenschaft eine immense Bedeutung erlangt und waren bestimmend für die erst vor kurzem erfolgte Etablierung der Korpuslinguistik.

In dieser Arbeit gehen wir näher auf die Analyse verschiedener geschriebener Texte ein, die im sozialen Netzwerk „Facebook“ veröffentlicht wurden. Die Texte stammen von Personen die einen Facebook-Account privat nutzen, Organisationen oder auch Personen die in der Öffentlichkeit stehen wie zum Beispiel Politiker oder Musiker. Analysiert werden die verschiedenen Texte und Aussagen mit dem Programm WebLicht, mit dem man Textkorpora annotieren kann.

Zunächst beschäftigen wir uns mit den Funktionen und der Benutzerfunktionalitäten des Programmes. Die Funktionalitäten bestehen aus verschiedenen Werkzeugen, welche die Texte zunächst tokenisieren und im Nachhinein auf grammatikalischer und semantischer Ebene annotieren und analysieren. Durch unsere Beschreibung der Benutzerfunktionen soll der Nutzer den Aufbau des Programmes nachvollziehen können und individuell Anwendbarkeit WebLichts verstehen.

Die Untersuchungen veranschaulicht, wie die Theorien von Textanalysen insbesondere von WebLicht auf die Praxis umsetzbar sind. Die Besonderheit in dieser Ausarbeitung ist die Analyse von „Facebook Texten“, die oft grammatikalische oder orthografische Fehler enthalten. Darüber hinaus wird auch oft von „Slang“ Ausdrücken und Emoticons Gebrauch gemacht. In diesem Zusammenhang ist das Ziel herauszustellen wie gut WebLicht informelle Texte erschließen kann. Gibt es bestimmte Muster nach denen WebLicht (fehlerhaft) analysiert und interpretiert? In welchen Bereichen weist WebLicht Fehlerpotentiale auf und wie lassen sich diese Systematisieren?

Das Fazit fasst unsere wichtigsten Erkenntnisse zusammen und stellt eine Verknüpfung zwischen der Theorie, der Praxis und der Besonderheit informeller Texte her. Hierbei weisen wir auf nicht geklärte Fragen und Fehlerpotentiale hin, welche für zukünftige Forschungszwecke genutzt werden könnten.

2 WebLicht

WebLicht ist eine Service-orientierte Architektur (SOA), welche seit 2008 bereits im Rahmen des CLARIN-D Vorgängerprojekts D-SPIN entwickelt wurde.[3] Service-orientierte Architekturen allgemein wenden technische Abläufe im Rahmen eines Geschäftsprozesses an, um hieraus einer Organisation oder einem Unternehmen einen Mehrwert zum Geschäftsprozess beizutragen.[4]

Die bisher gängigen Anwendungen bezüglich der Annotation von Textkorpora stellen die meisten digitalen Sprachressourcen und Tools nur per Download für die Anwendung auf dem Desktop zur Verfügung. Das ist mühselig für jemanden, der verschiedene Tools nutzen will, da die Kombination verschiedener Werkzeuge durch unzureichende Kompatibilität eingeschränkt werden. Um diese Einschränkung zu überwinden, stellt „die Weiterentwicklung von Weblicht zu einer umfassenden, virtuellen Forschungsumgebung […] einen wichtigen Aspekt in der Implementierung der CLARIN-D Infrastruktur dar“[5]. WebLicht gibt nämlich die Funktionalität der linguistischen Werkzeuge und der Ressourcen selbst über das Internet als Web-Service frei. Das heißt, WebLicht verfügt über mehrere Arten von sprachlichen Werkzeugen, welche die grundlegenden Funktionalitäten der automatischen sowie der inkrementellen Erstellung von annotierten Korpora abbilden. Das hat den Vorteil, dass Anwendungen nicht mehr als Download in ein auf einem bestimmten System installierten Programm hinzugefügt werden müssen und man ortsunabhängig auf die Anwendung zugreifen kann. Folglich können die einzelnen Bestandteile der Sprache durch die Web-Services erkannt und analysiert werden, um anschließend sprachliche Äußerungen in einem Kontext interpretieren zu können. Hierzu werden die Bestandteile des Textes als Korpus erfasst und mit jedem hinzugefügten Web-Service auf der dafür vorgesehenen Ebene annotiert und mit Informationen versehen, welche der jeweilige Web-Service mit sich bringt.

2.1 Benutzerfunktionalität

Die Benutzerschnittstelle Weblichts hat drei verschiedene Modi (siehe Abbildung 5 Anhang). Jeder davon verfügt über Eigenschaften, welches diesen von den anderen unterscheidet. Unabhängig von den verschiedenen Modi, findet stets eine Formatierung in das sogenannte „Text Corpus Format“ (TCF) statt, damit der Text in einem Format mit den gängigen Analysetools – auch anderer Institutionen – bestimmt und erweitert werden kann. (u.a. PennTreeBank und NEGRA)

Der „Easy Mode“ verfügt über vordefinierte Ketten von Web-Services, welche jeweils ein bestimmtes Analysetool beinhalten: So kann der Benutzer hier lediglich auswählen, ob die Annotation des Textkorpus hinsichtlich der „part-of-speech tags and lemmas“, „Morphology“, „Constituent parses“, „Dependency parses“, oder „Named entities“ erfolgen soll. Das „part-of-speech taggen“ ist ein Teil der Syntaxanalyse eines Satzes, indem den jeweligen Wörtern ihre Wortarten – also Substantiv, Verb, Adjektiv, etc. – zugeordnet werden. Die Quellen, aus denen die Informationen bezogen werden, sind Lexika und syntagmatische Informationen – also einer Sprache üblichen Sequenz von Wortarten – welche dem Programm „beigebracht“ werden.[6] Letzteres ist von Interesse im Hinblick der Analyse von Wörtern, die der formellen deutschen Sprache nicht geläufig sind.[7] Während das „POS-tagging“ die Wörter in ihrer Wortart definiert, zeigt das „lemma“ die Grundform der jeweiligen Wörter auf. So werden beispielsweise die Infinitive konjugierter Verbformen dargestellt.

Neben dem „POS-tagging“ gibt es noch die „Parsing“ Funktionen, welche auf den Satzbau und die damit verbundene grammatikalische Analyse eingeht.[8] So hat man in der „Constituent Parses“ Option neben der tabellarischen Darstellung der „POStags“, zusätzlich die Möglichkeit, einen „parsing tree“ (Parsbaum in der Einleitung) zu erstellen. Dieser zerlegt den Satz in einzelne Teilphrasen, welche hinsichtlich ihrer grammatikalischen Zuordnung beispielsweise als Nominalphrase identifiziert werden können.

Die „Dependency Parses“ Option ist ähnlich der „Constituent Parses“ Alternative, lediglich die graphische Darstellung unterscheidet sich im Hinblick auf die Funktionalität. Während der „parsing tree“ die einzelnen Teilphrasen erkennt und sie auf grammatikalischer Ebene ordnet, zeigt die graphische Darstellung hier die Beziehung der einzelnen Wörter zueinander. So wird beispielsweise dargestellt, welches Prädikat sich auf das Subjekt bezieht.

Während die bisherigen Optionen die Wortarten und den Satzbau analysieren, stellt die Option „morphology“ eine Analyse der jeweiligen Wortarten im Detail dar. So werden Konjugationen und Deklinationen der im Textkorpus vorkommenden Wörter vollumfänglich dargestellt. Das bedeutet, die Morphologie analysiert im Hinblick des Kasus, Numerus und Genus von Substantiven und Personalpronomen und der Person, des Numerus, des Tempus und des Modus von Verben.

Die Option „Named Entities“ identifiziert Eigennamen und Orte. Im Fall der Identifikation eines Ortes ist auch die Lokalisierung via „Google Maps“ möglich.

Die im „Easy Mode“ dargestellten Optionen finden lediglich in der deutschen Sprache ihre Anwendung.

In dem „Features Mode“ kann der Benutzer aus einer Tabelle die für Ihn relevanten Werkzeuge in einer Ebene zur Analyse des Textkorpus auswählen. In einem nächsten Schritt werden verschiedene Möglichkeiten von Ketten der Analysetools dem Benutzer zur Verfügung gestellt. Im Anschluss hat er die Möglichkeit, eine Verkettung zu wählen, welche den Präferenzen des Benutzers am ehesten entspricht. Im Anschluss erfolgt auch hier eine Analyse ähnlich der im „Easy Mode“ durch eine Tabelle oder – je nach Auswahlkriterium – auch als Graphik. Hier können außerdem auch neben der deutschen Sprache, andere Sprachen wie z.B. Englisch gewählt werden.

Der „Advanced Mode“ erlaubt dem Benutzer seine individuellen Ketten von Web-Services zu erzeugen. Hierbei wird mit dem zu analysierenden Text begonnen und die einzelnen Bausteine der Kette können vom Benutzer selbst ausgewählt werden. Vorteilhaft hier ist, dass lediglich die Bausteine von der Anwendung ausgegeben werden, welche auch mit den bis dahin schon verwendeten Elementen verkettet werden können. Der „Advanced Mode“ stellt also eine Erweiterung des „Features Mode“ hinsichtlich der individuellen Gestaltung der Analysetools dar.

In jedem Modus kann jede Kategorie der linguistischen Annotationen nur einmal angezeigt werden. So ist es nicht möglich, mehr als einen Tokenizer einer Verarbeitungskette hinzuzufügen. Die Struktur WebLichts ermöglicht es dem Benutzer, die im Browser dargestellten Ergebnisse entweder in einer Excel Tabelle oder als Bild auf den lokalen Rechner zu übertragen. Außerdem bietet WebLicht Konverter für einige weitere, bekannte Sprachdatenformate an, wie zuvor erwähnt die PennTreeBank und das NEGRA Format. Daraus abzuleiten ist also, dass WebLicht eine dynamische Umgebung darstellt, welche Formate anderer Institutionen in die Anwendung integrieren kann.

2.2 Nutzen

Elemente, die in WebLicht enthalten sind, ermöglichen die automatische, schrittweise Annotation von Korpora. Solche Anmerkungen sind nicht nur für Forscher in der Sprachwissenschaft nützlich, sondern für alle geisteswissenschaftlichen Disziplinen, die große Textmengen analysieren müssen. WebLicht verbindet Webdienste in einer Weise, in der die früheren Schwierigkeiten und Komplikationen mit linguistischen Werkzeugen umgangen werden, da diese Werkzeuge in einen Web Browser integriert wurden und man von überall hierauf zugreifen kann.[9]

In einer zukünftigen Version von WebLicht, wird es auch möglich sein, die Ergebnisse der Annotationen online zu speichern. Dadurch wird die Erstellung von personalisierten Arbeitsbereichen innerhalb WebLichts nötig sein. Demzufolge können persönliche Arbeitsbereiche in den wissenschaftlichen Arbeitsablauf integriert werden, um örtlichen Einschränkungen zu entgehen und die persönliche Gestaltung zu fördern. Als Resultat wird der Prozess der Pflege der Daten für die langfristige Erhaltung und Nachhaltigkeit erleichtert.

3 Computerlinguistik als Sprachwissenschaft

Bevor WebLicht entstanden ist, beschäftigte man sich schon mit der Analyse und Extraktion von Informationen aus der Computerlinguistik oder der linguistischen Datenverarbeitung. Um ein wissenschaftliches Programm zur Analyse von Textkorpora zu erstellen, bedarf es einem theoretischem Hintergrund und die dazugehörige Entwicklung auf diesem Themengebiet.

In der Computerlinguistik (CL) oder linguistischen Datenverarbeitung (LDV) wird untersucht, wie natürliche Sprache in der Form von Sprach- oder Textdaten mit Hilfe vom Computer algorithmisch verarbeitet werden können. Sie ist Teilbereich der künstlichen Intelligenz und gleichzeitig Schnittstelle zwischen Sprachwissenschaft und Informatik.[10] Computerlinguistik wird heutzutage als Fachgebiet bezeichnet, das sich mit der maschinellen Verarbeitung der natürlichen Sprache beschäftigt, welche ihre Wurzeln schon in den 50er Jahren findet.[11]

Die Computerlinguistik hat sich sehr schnell entwickelt[12], die ständig einen Einfluss auf das tägliche Leben in unserer Informationsgesellschaft hat.[13] Es ist unvermeidlich, dass man mit den aus dieser relativ neuen Wissenschaft entstandenen Produkten in Kontakt kommt.[14] Üblicherweise ist die Sprache der Menschen wie ein Werkzeug, die ein Benutzer auf verschiedene Zwecke anwenden kann.[15] Somit wird man im Alltag oft mit der Computerlinguistik konfrontiert[16], beispielsweise beim Lesen der halbautomatisch übersetzten Bedienungsanleitung für den neuen Toaster oder auch durch die Bedienung eines Geldautomaten.

Computerlinguistik ist die Verarbeitung natürlicher Sprache[17], also untersucht sie Aufbau, Bedeutung und Verwendung menschlicher Sprache[18], was sowohl geschriebene Sprache bzw. Texte als auch gesprochene Sprache umfasst[19], um Computer zu intelligenten Werkzeugen der menschlichen Kommunikation zu machen.[20]

Die Computerlinguistik befasst sich mit der maschinellen Verarbeitung von Sprache, die als ein Teilgebiet der Linguistik, der Ingenieurswissenschaft, der Kognitionswissenschaft und der Hilfswissenschaft für andere sprachbezogene Disziplinen oder auch als eine eigenständige Wissenschaft verstanden werden kann.[21] In diesem Zusammenhang ist das wichtigste Instrument die Sprache, dessen sich menschliche Individuen in ihrem zwischenmenschlichen Kontakten bedienen.[22] Aus der Sicht der Sprachphilosophie stellt sich die Frage, wie sich Sprache, Denken und Handeln miteinander in Verbindung setzen lassen können. Sprache an sich kann nicht nur als gelöstes Phänomen betrachtet werden, sondern steht in enger Relation zu außersprachlichen Gegebenheiten.[23]

Durch die Entwicklung der modernen elektronischen Datenverarbeitung ist die Herausforderung, wie man Daten zwischen Mensch und Computer am besten austauschen und der Computer zu diesem Zweck menschliches Sprachverhalten am besten simulieren kann. Das Ziel der Computerlinguistik als Sprachwissenschaften ist es, die Interfaces zwischen Mensch und Computer an die physiologischen und psychologischen Voraussetzungen der menschlichen Kommunikation anzupassen.[24] Sprache ist als ein System zu verstehen, dass zur Verständigung verwendet werden kann[25]. Um die Sprache als ein System zu verstehen, muss man zuerst die Bestandteile der Sprache erkennen, die Grammatik durchschauen und die Regeln zur Konstruktion der Gesamtbedeutung nachvollziehen, bevor man sprachliche Äußerungen weiterverarbeiten kann.[26] Ein wichtiger Hintergrund für die Computerlinguistik steht zudem in enger Beziehung zur Kognitionswissenschaft, durch welche sich erklären lässt, dass die Sprachbeherrschung ein hoch spezialisierter Teilbereich den generellen kognitiven Fähigkeiten des Menschen ist und dass sprachliches und nicht-sprachliches Wissen untrennbar miteinander verknüpft sind.[27]

3.1 Informationsextraktion

Informationsextraktion (IE) befasst sich mit der Extraktion vordefinierter Typen von Informationen ( z.B. Entitäten oder Relationen ) aus maschinell lesbaren Dokumenten. Sie kann aus zwei verschiedenen Perspektiven betrachtet werden, einerseits als das Erkennen von bestimmten Informationen[28], andererseits als das Entfernen der Informationen, die nicht relevant sind.

Sie grenzt sich von „Information Retrieval“ ab, welches sich auf das Filtern von Informationen bei Suchnachfragen nach bestimmten Schlagwörtern konzentriert.[29]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung: Ein Informationsextraktions-basiertes Text Mining Framework, Quelle: Mooney und Nahm, 2003, S. 142

Ein IE-System modelliert komplexe, zusammenhängende Antwortmuster bezüglich der W-Fragen(Wer, Was, Wem, Wann, Wo und Warum). Die gewonnenen Daten können der Unterstützung im Text Mining Prozess dienen, um textuelle Informationen zu strukturieren und Data Mining Analysen anwendbar zu machen.[30]

[...]


[1] s. Vorlesung MSM vom 30.04.2014 S. 21

[2] s. http://de.clarin.eu/de/sprachressourcen/weblicht, zuletzt aufgerufen am 16.06.2014

[3] CLARIN-D kurz für „Common Language Resources and Technology Infrastructure in Deutschland“. Ein Projekt welches vom Bundesministerium für Bildung und Forschung gefördert wird.

[4] s. http://de.wikipedia.org/wiki/Serviceorientierte_Architektur, zuletzt aufgerufen am 16.06.2014

[5] s. http://de.clarin.eu/de/sprachressourcen/weblicht, zuletzt aufgerufen am 16.06.2014

[6] s. Vorlesung MSM vom 30.04.14, S23 f.

[7] Dieser Aspekt wird im Praxisteil von näherem Interesse sein.

[8] s. Vorlesung MSM vom 30.04.14, S23 f.

[9] Melzer, I. (2008). Service-orientierte Architekturen mit Web Services: Konzepte - Standards – Praxis, Spektrum Akademischer Verlag, 3. Auflage.

[10] Bátori, I., Krause J., Lutz, H.D. (Hrsg.): Linguistische Datenverarbeitung. Versuch einer Standortbestimmung im Umfeld von Informationslinguistik und Künstlicher Intelligenz. Niemeyer Verlag, Tübingen 1982

[11] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde und Hagen Langer 2010, Computerlinguistik und Sprachtechnologie, S. 17.

[12] Ulrich Schmitz 1992, Computerlinguistik 1992, S. 11.

[13] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde und Hagen Langer 2010, Computerlinguistik und Sprachtechnologie, S. 17.

[14] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde und Hagen Langer 2010, Computerlinguistik und Sprachtechnologie, S. 17.

[15] Ulrich Schmitz 1992, Computerlinguistik 1992, S. 11.

[16] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde und Hagen Langer 2010, Computerlinguistik und Sprachtechnologie, S. 17.

[17] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde und Hagen Langer 2010, Computerlinguistik und Sprachtechnologie, S. 18.

[18] Ulrich Schmitz 1992, , Computerlinguistik 1992, S. 15.

[19] Kai-Uwe Carstensen, Christian Ebert, Cornelia Ebert, Susanne Jekat, Ralf Klabunde und Hagen Langer 2010, Computerlinguistik und Sprachtechnologie, S. 18.

[20] Ulrich Schmitz 1992, , Computerlinguistik 1992, S. 15.

[21] Henning Lobin, Computerlinguistik und Texttechnologie, S. 20.

[22] Winfried Lenders, Gerd Willee 1986, Linguistische Datenverarbeitung, S. 13.

[23] Schmidt 1968.

[24] Winfried Lenders, Gerd Willee 1986, Linguistische Datenverarbeitung, S. 17.

[25] Winfried Lenders, Gerd Willee 1986 1986, Lingustische Datenverarbeitung, S.31.

[26] Ulrich Schmitz 1992, Computerlinguistik 1992, S. 17.

[27] Searle 1990 J, 1990.

[28] Grishman, Ralph ( 2003) , Information Extraction, in Mitkov, Ruslan, S. 545-559.

[29] http://www.gi.de/nc/service/informatiklexikon/detailansicht/article/informationsextraktion.html, zuletzt aufgerufen am 18.06.2014

[30] Gerhard Neumann, 2001, S. 448.

Details

Seiten
36
Jahr
2014
ISBN (eBook)
9783668248861
ISBN (Buch)
9783668248878
Dateigröße
781 KB
Sprache
Deutsch
Katalognummer
v320731
Institution / Hochschule
Universität Paderborn
Note
2,0
Schlagworte
erstellung textcorpora weblicht computerlinguistik sprachwissenschaft

Autor

Zurück

Titel: Erstellung annotierter Textcorpora mit WebLicht. Computerlinguistik als Sprachwissenschaft