Lade Inhalt...

Maschinelle Übersetzung. Ein Vergleich verschiedener Übersetzungssysteme

Hausarbeit 2013 36 Seiten

Sprachwissenschaft / Sprachforschung (fachübergreifend)

Leseprobe

Inhaltsverzeichnis

1. Einführung

2. Begriffsklärung

3. Geschichte maschineller Übersetzung

4. Heutige Forschungen

5. Vorstellung Übersetzungssysteme
5.1 Google Translate
5.2 Microsoft Bing Translator
5.3 Yahoo Babelfish

6. Versuchsaufbau

7. Auswertung

8. Analyse

9. Fazit

10. Literaturverzeichnis

11. Anhang
11.1 Abbildungsverzeichnis
11.2 Texte
11.3 Übersetzte Texte

1. Einführung

Maschinelle Übersetzung, auf Englisch „machine translation“ ist ein immer wichtiger werdender Bereich der Computerlinguistik. Die Geschichte der machine translation ist eng mit der Entwicklung der Linguistischen Datenverarbeitung zu einer wissenschaftlichen Disziplin verknüpft (vgl. Lenders 1986, S. 22). Einige der größten Errungenschaften der westlichen Welt, wie die Globalisierung oder die offenen Grenzen des Schengen-Raumes, stellen große Herausforderungen für die maschinelle Übersetzung dar (vgl. Dorna 2001, S. 514): Viele verschiedene Sprachen führen zu Sprachbarrieren, die möglichst schnell und effektiv abgebaut werden sollen. Dabei ist man weitestgehend auf menschliche Übersetzer angewiesen. Genau hier setzt die maschinelle Übersetzung an. Ihr Ziel ist es, den menschlichen Übersetzern qualitativ möglichst nahe zu kommen (vgl. Dorna 2001, S. 514). Die Voraussetzungen dazu, werden von Jahr zu Jahr besser. Die Verbreitung von Computern und deren Leistungsfähigkeit nimmt stetig zu, was ein ideales Umfeld für Übersetzungssysteme darstellt (vgl. ebd.). Der Übersetzungsmarkt ist ein Milliardengeschäft; die Anbieter müssen unter starkem Zeitdruck einer immer größer werdenden Informationsflut Herr werden (vgl. Dorna 2001, S. 520). Dabei scheint es bisher unrealistisch zu sein, hohe Qualität bei den übersetzten Texten zu erwarten. Lediglich bei Fachtexten sind gute Ergebnisse realistisch (vgl. Lenders 1986, S. 22). Der Sprachforscher Franz Och hat dazu gesagt: „Maschinelle Übersetzung wird nie perfekt werden, nie so gut wie ein menschlicher Übersetzer.“ (Lemm 2013). Diese Aussage führt zu den Forschungsfragen dieser Arbeit. Wie gut sind verschiedene Übersetzungssysteme mittlerweile und welcher Ansatz ist hierbei der beste? Wie nahe kommt die Maschine dem Menschen und welche Sprachen werden besonders gut oder schlecht übersetzt? Da es viele Übersetzungsprojekte gibt, beschränkt sich diese Arbeit auf den Vergleich von drei der bekanntesten Systeme: Google Translate, Bing Translator und Yahoo Babelfish. Zunächst wird der Begriff und die Geschichte der maschinellen Übersetzung geklärt. Darauf folgt ein kurzer Einblick in heutige Forschungsprojekte und die Vorstellung der verglichenen Übersetzungssysteme. Im Anschluss wird der Versuchsaufbau erklärt und anschließend werden die Ergebnisse ausgewertet und analysiert. Die Arbeit schließt mit einem Fazit und der Angabe sämtlicher Quellen.

2. Begriffsklärung

Die maschinelle Übersetzung ist ein Teil der Computerlinguistik, der Einflüssen aus anderen Bereichen, wie der Mathematik, der Linguistik oder der Informatik, ausgesetzt ist (vgl. Dorna 2001, S. 514). Zunächst wird der Begriff maschinelle Übersetzung definiert. Maschinelle Übersetzung ist die Übertragung eines Textes, der in einer Quellsprache vorliegt, in den entsprechenden Text in der Zielsprache. Dabei wird die Bedeutung und Intention des Ausgangstextes beibehalten (vgl. Dorna 2001, S. 514). Das Ziel der machine translation ist es, so nah wie möglich an die Qualität menschlicher Übersetzer heranzukommen (vgl. ebd.). Dabei sollen möglichst viele Schritte automatisiert und somit vom Menschen unabhängig gemacht werden, um Zeit und Geld einsparen zu können (vgl. Dorna 2001, S. 515). Grundlegend wird zwischen zwei Bereichen unterschieden: Die maschinelle und die manuelle Übersetzung (vgl. Schreiber 2006, S. 54). Sie sind auf vier Stufen aufgeteilt: Die vollautomatische maschinelle Übersetzung (MÜ), die benutzerunterstützte MÜ, maschinelle Übersetzungshilfen und die Humanübersetzung (vgl. ebd.). Vollautomatische MÜ bedeutet, dass der Übersetzungsprozess komplett vom Computer durchgeführt und der Zieltext ohne Änderungen übernommen wird (vgl. ebd.). Sie wird vor allem für die sogenannte Informationsübersetzung genutzt, die dem Anwender einen groben Überblick über den Inhalt des Dokumentes verschafft (vgl. Schreiber 2006, S.55). Bei der benutzerunterstützten MÜ wird der Ausgangstext vorbereitet und der Zieltext nachkorrigiert, um die Ergebnisse zu verbessern (vgl. ebd.). Zusammen mit den maschinellen Übersetzungshilfen, bei denen der Mensch die Hauptarbeit macht und der Computer nur unterstützt, stellt die benutzerunterstützte MÜ den Bereich der computergestützten Übersetzung dar (vgl. ebd.). In der Humanübersetzung wird der Transfer vom Mensch alleine durchgeführt, ohne Computerhilfe. Allgemein gilt für alle Übersetzungen: Je einfacher und standardisierter der Text, desto besser sind die Ergebnisse der MÜ (vgl. ebd.). Ein Beispiel dafür ist die fast fehlerlose Übersetzung von kanadischen Wetterberichten, da hier der Wortschatz und die Grammatik des Quelltextes sehr eingeschränkt ist (vgl. Schreiber 2006, S. 56). Bei den meisten MÜ-Anwendungen gibt es zwei zusätzliche Phasen: Die Vorbereitung (pre-editing) und die Nachbereitung (post-editing) (vgl. ebd.). Bei der Vorbereitung werden die Texte so vorbereitet, dass die lexikalischen und grammatischen Regeln anwendbar sind. Beim post-editing werden Übersetzungsfehler und Verstöße gegen sprachliche Normen korrigiert. Das können beispielsweise Ambiguitäten (= Mehrdeutigkeiten) sein (vgl. ebd.). Ein mittlerweile verbreiteter Ansatz sind Translation-Memory-Programme. Sie speichern Übersetzungslösungen von anderen Texten und bieten diese bei ähnlichen Suchanfragen als Lösung an (vgl. Schreiber 2006, S. 57). Hierbei ist die Qualität der Ausgangstexte wichtig, da das Programm nach dem GIGO-Prinzip[1] arbeitet (vgl. ebd.). Probleme bei der MÜ verursachen unter anderem lexikalische Lücken, Nichtentsprechungen oder Divergenzen bezüglich der syntaktischen Struktur verschiedener Sprachen (vgl. Dorna 2001, S. 518). Die verschiedenen Ansätze der MÜ werden bezüglich ihrer Domäne, ihrer Sprachkompatibilität und der Sprachrichtung unterschieden (vgl. Dorna 2001, S. 515). Domänen sind hierbei unterschiedliche Bereiche wie Wirtschaft, Politik, Medizin etc.. Sprachkompatibilität ist die Differenzierung zwischen bilingualen oder multilingualen[2] Übersetzungssystemen. Die Sprachrichtung kann entweder unidirektional oder bidirektional[3] sein (vgl. ebd.). Grundlegend gibt es für MÜ-Systeme drei Arten von Übersetzungsstrategien: Die direkte Übersetzung, den Transfer oder Interlingua (vgl. Dorna 2001, S. 516). Bei der direkten Übersetzung wird der Quelltext nur auf oberflächennahen Beschreibungsebenen analysiert (vgl. Dorna 2001, S. 517). Dann wird, ohne weitere Zwischenschritte, mithilfe eines Wörterbuches Wort für Wort direkt übersetzt und anschließend wird die Wortstellung korrigiert (vgl. ebd.). Der entstandene Zieltext kann in der Regel sehr schnell und kostengünstig hergestellt werden, worunter aber bisweilen die Qualität der Übersetzung leidet (vgl. ebd.). Unterarten der direkten Übersetzung sind die beispielbasierte und die statistische Übersetzung (vgl. Dorna 2001, S. 519). Die beispielbasierte Übersetzung nutzt vorhandene, bereits durchgeführte, Übersetzungen und verwendet diese, um bessere Ergebnisse zu erzielen (vgl. ebd.). Bei der statistischen Variante werden alle Übersetzungsmöglichkeiten verglichen und die wahrscheinlichste wird als Lösung ausgewählt (vgl. ebd.). Eine andere Strategie ist der Transfer. Er wird in drei grundlegende Verarbeitungsphasen unterschieden: Die Analyse, den Transfer und die Generierung (vgl. Dorna 2001, S. 518). Der quellsprachliche Text wird zunächst geparst und semantisch analysiert. Dann werden mithilfe von Transferregeln zielsprachliche Repräsentationen gebildet. Diese werden anschließend in eine natürlichsprachliche Ausgabe umgewandelt (vgl. ebd.). Der Transfer ist eine Art Mittelweg zwischen direkter Übersetzung und Interlingua. Hier ist der Zeitaufwand geringer als bei Interlingua und die Qualität höher als bei der direkten Übersetzung (vgl. ebd.). Interlingua hat zwei grundlegende Schritte: Die Analyse und die Generierung. Beim ersten Schritt werden sprachenunabhängige Repräsentationen mithilfe einer vollständigen Bedeutungsanalyse gebildet, die keinen direkten Bezug zur Quell- oder Zielsprache haben (vgl. ebd.). Aus eben diesen Repräsentationen wird der Zieltext generiert. Diese Strategie kann eine sehr hohe Qualität der Übersetzung erzeugen, dafür ist sie sehr schwierig und zeitaufwendig (vgl. Dorna 2001, S. 519).

3. Geschichte maschineller Übersetzung

Die Geschichte der maschinellen Übersetzung lässt sich nach Lenders in fünf Phasen unterteilen (vgl. Lenders 2013). Die erste Phase ist die Frühphase von 1946-1955. Andrew Booth und Warren Weaver haben 1946 als erste einen Computer benutzt, um die Übersetzung eines Gespräches zu unterstützen (vgl. Hutchins 1986, S. 24). Nach dem Versuch waren die beiden eher pessimistisch, was den Nutzen der MÜ betrifft. Der Zeitaufwand stand in keiner Relation zum geringen Nutzen (vgl. Hutchins 1986, S. 25). 1949 hat Weaver ein Memorandum veröffentlicht, in dem er generelle Strategien und Probleme der MÜ thematisiert (vgl. Hutchins 1986, S. 29). 1952 kommt es zur ersten MÜ-Konferenz in den USA und durch Presseberichterstattung wird das Thema weiter verbreitet (vgl. Hutchins 1986, S.34). In den fünfziger Jahren zeigen auch die Russen vermehrt Interesse an der MÜ-Forschung. 1956 findet die erste internationale Konferenz statt (vgl. ebd.). Der Motor der frühen Forschung sind vor allem die USA und Russland, daher ist die Übersetzung von Englisch-Russisch anfangs dominierend (vgl. Hutchins 1986, S.11). In dieser Phase ist der Ansatz der Wort-für-Wort-Übersetzung sehr verbreitet (vgl. Lenders 2013). Die zweite Phase ist von 1956 bis 1966. Einer der größten Fortschritte dieser Zeit, ist die Einführung und Weiterentwicklung der syntaktischen Analyse (vgl. Lenders 2013). Die Forschungen in dieser Phase sind meistens vom Militär oder von Einrichtungen wie der CIA bezahlt und finden vor allem an Universitäten statt (vgl. Hutchins 1986, S. 58f). Dementsprechend ist die Forschung bezüglich Englisch-Russisch weiter vorherrschend. Große Projekte dieser Zeit waren das Ramo-Wooldridge-Projekt oder das Georgetown-IBM-Experiment (vgl. Hutchins 1986, S. 65). 1966 kam der große Rückschlag für die MÜ: Der ALPAC-Report[4]. Ein Forscherkomitee hatte die Fortschritte und Ergebnisse der bisherigen Forschung zusammengefasst und eine Zukunftsprognose gestellt, die vernichtend ausfiel: Das eigentliche Ziel, die „high-quality-translation“ (Lenders 2013), sei fast unmöglich zu erreichen und der Nutzen der Forschung in Anbetracht der benötigten Mittel, sei nur sehr gering (vgl. Lenders 2013). Das führte zum Abzug von einem Großteil der Forschungsgelder und einem Bedeutungsverlust der Forschung (vgl. Schreiber 2006, S. 55). Die MÜ galt als gescheiterte Idee (vgl. Hutchins 1986, S. 11). Die dritte Phase war von 1967-1973. In dieser Zeit fristete die MÜ ein Schattendasein und wurde von der Öffentlichkeit kaum wahrgenommen (vgl. Hutchins 1986, S.17). Ihre Entwicklung verlief sehr langsam, da eine mögliche Zukunft stets unsicher schien (vgl. Hutchins 1995). In den siebziger Jahren wurde die Forschung schrittweise wiederaufgenommen. Der Grund dafür, war der Übersetzungsservice der Europäischen Union, der aufgrund der vielen Sprachen der EU großes Interesse an jeglichen Verbesserungen hatte (vgl. Hutchins 1986, S.11). So kam es Anfang der Siebziger zu ersten relevanten Anwendungen. Beispielsweise beim TAUM-METEO-Projekt. Hier wurden Wetterberichte vom Englischen ins Französische übersetzt (vgl. Lenders 2013). Die vierte Phase war von 1974-1995. Hauptprojekte dieser Phase waren das Systran-Projekt und EUROTRA-Projekt der EU (vgl. Lenders 2013). Anregungen kamen in dieser Zeit vor allem aus dem kommerziellen Bereich. Der Bedarf der EU war einer der Hauptgründe für die vermehrte Forschung (vgl. ebd.). Unter den Forschern machte sich zunehmend wieder Hoffnung breit: „Machine translation ist no longer a dream, it is a reality“ (Hutchins 1986, S. 11). Auch Universitäten verzeichneten zunehmend Fortschritte und die MÜ gewann an Bedeutung (vgl. Lenders 2013). Die fünfte Phase ist von 1995 bis heute. Charakterisierend für die momentane Phase sind die Standard-PC-Versionen der MÜ, internetbasierte Systeme und die breite Vermarktung der MÜ (vgl. Lenders 2013). Nach heutigem Stand wird die menschliche Übersetzung trotzdem noch lange besser sein, als jede Übersetzungsmaschine (vgl. Dorna 2001, S. 514).

4. Heutige Forschungen

Fortschritte werden momentan häufig von kommerziellen Unternehmen erzielt. Mit Google und Microsoft stehen zwei sehr finanzstarke Unternehmen hinter der Forschung. Ihre Ansätze sind meistens statistischer Natur (vgl. Microsoft 2013). Ein Beispiel für eine Weiterentwicklung ist die Speech-Recognition von Microsoft (vgl. Microsoft 2013). Viele Entwicklungen finden auch an Universitäten statt. Eines der bekanntesten Projekte ist Apertium, ein Programm der Universität Alicante (vgl. Apertium 2013). Apertium ist eine Open-Source Anwendung, die ursprünglich für Sprachpaare entwickelt wurde und mittlerweile für viele unterschiedliche Sprachen einsetzbar ist. Das System ist sprachenunabhängig und bietet dem Anwender einen großen Fundus an linguistischen Daten und Programmen, um damit zu arbeiten (vgl. Apertium 2013). In dieser Arbeit werden die Übersetzungssysteme von Google, Microsoft und Yahoo untersucht.

5. Vorstellung Übersetzungssysteme

Im folgenden Versuch werden die Übersetzungssysteme Google Translate, Bing Translator und Yahoo Babelfish untersucht. Alle drei Systeme sind multilingual und bidirektional.

5.1 Google Translate

Google Translate ist ein statistisches Übersetzungsprogramm (vgl. Shen 2010). Bis 2007 hat es eine Engine der Firma Systran verwendet, erst danach wurde es durch ein eigenes, statistisches Verfahren ersetzt (vgl. ebd.). Translate nutzt korrelierende Phrasen aus anderen übersetzten Texten, um das Übersetzungsergebnis zu verbessern (vgl. Shen 2010). Die Entwicklung von Translate ist für Google wichtig, da das Übersetzungssystem auch den Suchalgorithmus von Google verbessern kann (vgl. ebd.). 2010 wurde das System mit 200 Milliarden Wörtern aus dem United Nations-Archiv trainiert und so verbessert (vgl. ebd.). Google Translate ist nicht auf bestimmte Sprachpaare limitiert, es kann auf mehr als 70 Sprachen angewendet werden (vgl. Google 2013). Unter anderem kann Translate, neben den üblichen Sprachen, Esperanto, Khmer und Bengali übersetzen (vgl. ebd.). Translate gibt es mittlerweile auch als mobile Version, mit mehr als 50 Sprachen. Das System ist auch mit anderen Google Anwendungen, wie Youtube verknüpfbar (vgl. ebd.). Translate ist kostenlos, bidirektional, erkennt Sprachen automatisch und kann einen Text in der gewünschten Sprache auch vorlesen (vgl. Google 2013). Der Hauptvorteil von statistischen Verfahren wie Translate ist, dass die Entwicklung von regelbasierten Systemen sehr zeitaufwendig, teuer und oft nicht in andere Sprachen übertragbar ist. Statistische Systeme hingegen sind billig, schnell und können leichter neue Sprachen „lernen“ (vgl. Shen 2010). Der Vorteil ist allerdings auch ein Nachteil, da grammatische und syntaktische Regeln die Übersetzungsergebnisse verbessern können (vgl. ebd.).

[...]


[1] Garbage in – garbage out – Prinzip. Wenn die Qualität der Ausgangstexte schlecht ist, sind auch die Ergebnisse qualitativ mangelhaft

[2] ein Sprachpaar oder mehrere Sprachen

[3] Nur in eine Richtung (Beispiel: Deutsch – Englisch) oder in beide Richtungen (Deutsch – Englisch / Englisch - Deutsch)

[4] ALPAC steht für Automatic Language Processing Advisory Committee (vgl. Lenders 2013)

Details

Seiten
36
Jahr
2013
ISBN (eBook)
9783656460428
ISBN (Buch)
9783656461029
Dateigröße
520 KB
Sprache
Deutsch
Katalognummer
v229863
Institution / Hochschule
Universität Trier
Note
1,7
Schlagworte
maschinelle übersetzung vergleich übersetzungssysteme

Autor

Teilen

Zurück

Titel: Maschinelle Übersetzung. Ein Vergleich verschiedener Übersetzungssysteme