Lade Inhalt...

Sprache und Semantik. Part-of-Speech-Tagging angewendet auf Web-Texte

Seminararbeit 2012 17 Seiten

Ingenieurwissenschaften - Wirtschaftsingenieurwesen

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Part-of-Speech (POS) Tagging
2.1 Was ist POS-Tagging?
2.2 Wie funktioniert POS-Tagging?
2.3 Wofür braucht man POS-Tagging?

3. Probleme bei Web-Texten
3.1 Auswertung von POS-Tagging im Internet anhand eines Experiments
3.2 Die Ursachen

4. Verbesserungsansätze und Anpassungen
4.1 Fehler aus unbekannten Wörtern verringern
4.2 Aktives Lernen
4.3 Domänen Anpassung
4.4 Fehler entdecken und korrigieren

5. Ergebnis und weiterer Ausblick

6. Literatur- und Quellenverzeichnis

1. Einleitung

Viele Kinder lernen es wahrscheinlich schon in der Grundschule: Mit bunten Farben werden die verschiedenen Wortarten in einem Satz unterstrichen. Das klingt eigentlich ganz einfach, doch für den Computer ist es nicht so leicht, Texte zu lesen und zu verstehen wie für den Menschen.

Es bedarf zunächst einer syntaktischen Analyse, damit er wenigstens teilweise an diese Fähigkeit heranreicht und nach „Verstehen“ der Grammatik mit bestimmten Methoden auch Inhalte verstehen kann, wie z.B. auch Inhalte aus dem Internet.

Das Internet nimmt einen immer größeren Raum in unserer Gesellschaft ein. Alle möglichen wichtigen und unwichtigen Informationen sind dort öffentlich zugänglich. Um diese Informationen maschinell herauszulesen und zu filtern, ist es oft ein grundlegender Vorverarbeitungsschritt, in einem Satz zu jedem Wort die richtige Wortkategorie zuzuordnen, was Part-of-Speech-Tagging (POS-Tagging) genannt wird. Mit den gewonnen Informationen aus den Annotationen können Maschinen leichter die Bedeutung eines Satzes erfassen oder in eine andere Sprache übersetzen.

Automatisches Part-of-Speech Tagging ermöglicht genau diese Zuordnung maschinell. Häufig wird Part-of-Speech-Tagging als „solved task“ bezeichnet, da die Exaktheit bis zu 98% beträgt. Allerdings muss man dabei berücksichtigen, dass bei diesen hohen Treffgenauigkeiten ausschließlich Zeitungstexte oder in ähnlicher Sprache geschriebenen Texte betrachtet wurden, die in der Regel formgerecht und fehlerfrei sind.

Andere Textarten wie z.B. Texte in Umgangssprache erreichen deutlich geringere Genauigkeiten. Besonders im Internet finden sich viele unterschiedliche Textgattungen, dazu kommen u.a. eine Menge Rechtschreibfehler, grammatikalisch nicht korrekte Sätze, untypische Wortverwendungen oder Dialekte.

Es macht in der heutigen Zeit, die sich immer mehr um das Internet dreht, auf jeden Fall Sinn, das Taggen möglichst diesen Bedingungen anzupassen, um selbst bei umgangssprachlichen oder nicht ganz korrekten Sätzen eine möglichst hohe Fehlerfreiheit gewährleisten zu können.

In dieser Arbeit geht es um mögliche Ansätze zur Verbesserung des POS-Tagging in Web-Texten. Dafür wird in Abschnitt 2 zuerst POS-Tagging allgemein vorgestellt, in Abschnitt 3 die Probleme, die bei Web-Texten auftreten, aufgezeigt und in Abschnitt 4 mögliche Lösungsansätze vorgestellt. Im letzten Abschnitt wird dann noch das Ergebnis zusammengefasst und ein Ausblick auf das weitere Vorgehen gegeben.

2. Part-of-Speech (POS) Tagging

2.1 Was ist POS-Tagging?

Beim POS-Tagging wird jedem Wort in einem Text (nach Zerlegung in Sätzen) eindeutig seine Wortart zugeordnet, wobei zum Einen die Definition des Wortes mit Hilfe eines Lexikons und zum Andern angrenzende Wörter mit berücksichtigt werden.

Für diese Wortarten-Annotation – das Taggen – gibt es verschiedene Tagsets. Je nach Sprache und gefragter Beschreibungsgenauigkeit kann eine Einteilung in unterschiedlich viele Klassen erfolgen. Standard-Tagset für das Deutsche ist das Stuttgart-Tübingen-Tag-Set (STTS) mit 54 POS-Tags (s. Tab.1) und für das Englische das Penn Treebank Tag Set mit 36 POS-Tags.

Es gibt verschiedene Hauptkategorien wie z.B. Substantiv, Verb, Adjektiv, Adverb, Präposition. Diese Hauptkategorien werden dann noch weiter unterteilt z.B. in Imperativ, Infinitiv oder Partizipien.

Tab.1: STTS Tag Table (1995/1999)

Abbildung in dieser Leseprobe nicht enthalten

Früher geschah die Zuordnung manuell, mittlerweile werden verschiedene Programme, sogenannte Tagger, verwendet, die das Verfahren automatisieren.

Dabei treten allerdings sehr häufig Mehrdeutigkeiten auf, die von den Taggern nicht immer korrekt aufgelöst werden können. Separat betrachtet, können einem Wort mehrere Wortarten zugeordnet werden, weshalb der syntaktische und semantische Kontext hinzugezogen werden muss.

Beispiel für die Ambiguität des Tags:

Abbildung in dieser Leseprobe nicht enthalten

Das Wort „haben“ kann allein betrachtet ein Hilfsverb sein, genauso aber auch ein Vollverb in der dritten Person Plural oder im Infinitiv. „Meinen“ hat genauso verschiedene Möglichkeiten: Entweder attribuierendes Possessivpronomen oder wie bei „haben“ als Verb in der dritten Person Plural oder im Infinitiv.

Außerdem können unbekannte Wörter oder Fremdwörter auftreten sowie seltene Satzkonstruktionen oder Umgangssprache, die das Taggen erschweren.

Zu beachten ist, dass man eine geringere Fehlerquote beim Tagging erhält, wenn man das Tagset reduziert. So gehören dann oft POS-Tags, die leicht zu verwechseln sind, zu einer gemeinsamen Klasse und können keinen Fehler mehr verursachen. Gleichzeitig werden natürlich auch die Informationen reduziert.

Die besten Taggingverfahren haben Genauigkeiten von ca. 96-98% (pro Wort). Wenn man sich jedoch genauer anschaut, was diese Aussage bedeutet, sieht man, dass sie nur bedingt aussagekräftig ist, da sie sich auf einzelne Wörter bezieht. So wird bei einer Trefferquote mit 97% ein 20-Wörter-Satz nur mit einer Wahrscheinlichkeit von 54,4% vollständig richtig getaggt.

Auf folgender Internet-Seite mit einer Part-of-Speech Tagger Demonstration kann man das automatische Taggen englischer Sätze oder Texte ausprobieren: http://cogcomp.cs.illinois.edu/demo/pos/index.php

2.2 Wie funktioniert POS-Tagging?

Es gibt eine Vielzahl an Taggern mit unterschiedlichen Methoden, wobei oft auch verschiedene Ansätze kombiniert werden.

Die meisten Tagger arbeiten in drei Schritten: Zuerst wird tokenisiert, also der Satz in einzelne Token zerlegt. Anschließend werden die möglichen Tags für die Token ermittelt und als letztes bei Mehrdeutigkeiten mit Hilfe von Regeln oder Wahrscheinlichkeitsmodellen und Kontext der passende Tag ausgesucht.

Auftrittswahrscheinlichkeiten von Wort und zugehörigem POS-Tag erhält der Tagger aus einem vorher (manuell) annotierten Trainingskorpus, auf dem der Tagger vor Einsatz trainiert wurde (supervised learning). So speichert er die im Korpus enthaltenen Informationen in Form von Regeln, Wahrscheinlichkeiten usw. ab, auf deren Basis dann die Entscheidungen über POS-Tags getroffen werden. Beispiele für bereits annotierte Textkorpora sind für das Deutsche der NEGRA Korpus oder die TIGER Treebank (ca. 900.000 Zeichen/ 50.000 Sätze aus der Frankfurter Rundschau) oder für die englische Sprache die Penn Treebank.

Regelbasierte Verfahren:

Es werden (manuell oder automatisiert) Regeln aufgestellt, die am Text angewendet werden.

Sie sind korpus- und sprachspezifisch, teilweise auch grammatikalisch recht komplex. Die Informationen für die Regeln erhält der Tagger über den Kontext, z.B. kann eine Regel sein, dass ein mehrdeutiges oder unbekanntes Wort, das nach einem Determiner steht und von einem Substantiv gefolgt wird, als Adjektiv zu taggen ist. Es können auch morphologische Informationen in Regeln gefasst werden wie z.B. typische Endungen für Substantive (-heit, -ung).

Statistische (stochastische) Verfahren:

Das Programm lernt anhand der Trainingsdaten, die ihm durch einen bereits annotierten Korpus bereit gestellt werden. Durch diese Methode wird die Anpassung an neue Sprachen durch erneutes Trainieren vereinfacht.

Einfache Tagger berücksichtigen nur die Wahrscheinlichkeit, wie oft ein Wort mit einem bestimmten Tag im Trainingskorpus aufgetreten ist (Worthäufigkeitsansatz). Weiter entwickelte Tagger berücksichtigen auch den Kontext und berechnen die Wahrscheinlichkeiten ganzer Wortsequenzen mit ihren Tags (sogenannter n-gram-Ansatz mit n vorausgehenden Tags). Der Tag wird durch die größte Wahrscheinlichkeit, dass es mit den n vorausgehenden Tags zusammen auftritt, bestimmt.

Dadurch wird nun auch die Übergangswahrscheinlichkeit (transitionale Wahrscheinlichkeit) zwischen zwei aufeinanderfolgenden POS-Tags benötigt. Bei einem Satzanfang wird das Problem eines fehlenden Wortes durch die Voranstellung eines Sonderzeichens oder einer Zeichenkombination gelöst.

Der TnT-Tagger (Trigrams’n’Tags) z.B. zieht für die Bestimmung der Wortklasse die beiden vorausgehenden Wörter heran.

Hidden Markov Modell (HMM)

Das Hidden Markov-Modell vereint die Ansätze der Worthäufigkeitsmessungen und der Tagsequenzwahrscheinlichkeiten. Es beruht auf einer Markov-Kette. Die Markov-Kette ist ein stochastischer Prozess, bei dem zu jedem Zeitpunkt die Wahrscheinlichkeit aller zukünftigen Zustände nur vom momentanen Zustand abhängen (Markov-Eigenschaft).

Allgemein lässt sich das HMM durch zwei Zufallsprozesse beschreiben. Der erste besteht aus einer Markov-Kette mit Übergangswahrscheinlichkeiten und Zuständen (in unserem Fall Tags), die allerdings versteckt – also von außen nicht zu erkennen sind. Dafür werden im zweiten Zufallsprozess Beobachtungen nach einer zustandsabhängigen Wahrscheinlichkeitsverteilung erzeugt, wodurch auf die Sequenz der versteckten Zustände geschlossen werden kann. Die Übergangswahrscheinlichkeiten sind die Wahrscheinlichkeiten eines Tags, wenn der vorherige Tag gegeben ist und die Emissionswahrscheinlichkeiten sind die Wahrscheinlichkeiten eines Wortes bei gegebenem Tag.

Abbildung in dieser Leseprobe nicht enthalten

(Wainwright und Jordan, 2008)

(verborgene) Zustände : X1, X2

Beobachtungen: Y1, Y2

Übergangs-/Emissionswahrscheinlichkeiten: p

Konkret im Fall des Taggens wird zuerst die Wahrscheinlichkeit des Auftretens jeder Kategorie berechnet (durch den Trainingskorpus). Anschließend werden transitionale Wahrscheinlichkeiten einer Wortsequenz ermittelt; sie berechnet sich über die bedingte Wahrscheinlichkeit (Wahrscheinlichkeit eines Ereignisses, wenn ein anderes bereits vorgegeben ist). Als letztes wird der optimale Weg von einem Tag zum nächsten über alle möglichen Kombinationen und Wahrscheinlichkeiten jeder Sequenz bestimmt. Dies wird häufig über den Viterbi-Algorithmus implementiert, der mit maximum likelihood Ansatz den besten Pfad durch die wahrscheinlichste Sequenz von verborgenen Zuständen des HMMs zu einer gegebenen Beobachtung sucht.

Beispiel:

Abbildung in dieser Leseprobe nicht enthalten

(Martin Volk, 2006)

Ein anderer Tagger, der TreeTagger arbeitet mit Entscheidungsbäumen (für mehrere mögliche Entscheidungswege bei Tags), an dessen Zweigen Wahrscheinlichkeiten angegeben sind.

Weitere erfolgreiche Tagger sind die MaximumEntropy (MaxEnt) Tagger, auf die hier nicht näher eingegangen werden soll.

Transformationsbasiertes Verfahren:

Ein Beispiel für transformationsbasiertes Tagging ist der Brill-Tagger. Er benutzt eine Kombination der beiden vorherigen Ansätze. Im ersten Schritt wird jedes Wort mit dem wahrscheinlichsten Tag annotiert („geraten“). Im zweiten Schritt werden die Fehler durch Anwendung von Transformationsregeln korrigiert.

Eine Übersicht der verschiedenen Taggingansätze ist in Abb. 1 dargestellt.

[...]

Details

Seiten
17
Jahr
2012
ISBN (eBook)
9783656969730
ISBN (Buch)
9783656969747
Dateigröße
779 KB
Sprache
Deutsch
Katalognummer
v300840
Institution / Hochschule
Karlsruher Institut für Technologie (KIT) – Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB)
Note
1,0
Schlagworte
Part-of-Speech-Tagging POS-Tagging Semantik Wortarten-Annotation
Zurück

Titel: Sprache und Semantik. Part-of-Speech-Tagging angewendet auf Web-Texte