Untersuchungen zur Pragmatik der sprachlichen Interaktion mit Dialogsystemen


Magisterarbeit, 2003

164 Seiten, Note: 1,5


Leseprobe


Inhaltsverzeichnis

1 Einleitung
1.1 Zielsetzung
1.2 Gliederung
2 Zwischenmenschliche Kommunikation
2.1 Zum Begriff der Kommunikation
2.1.1 Kommunikationssituation und Kommunikationsarten
2.1.2 Gesprächslinguistische Grundlagen - Dialog
Definitionen
Dialogphasen
Dialogakte
Dialogführung

3 Mensch-Maschine-Kommunikation
3.1 Natürlichsprachliche Systeme
3.2 Dialogsysteme
3.2.1 Architektur
3.2.2 Verarbeitung
3.2.3 Klassifikation von Dialogsystemen . .
3.2.4 Evaluation von Dialogsystemen
3.3 Vor- und Nachteile natürlicher Sprache in Informationssystemen
3.4 Einige Systeme

4 Effekte von Dialogsystemen auf den Dialog
4.1 Partnermodellierung
4.1.1 Benutzermodellierung
4.1.2 Partnerbild Computer
4.1.3 Adaptives Verhalten
4.2 Computertalk

5 Andere Studien - Related Work

6 Erhebung von Dialogdaten
6.1 Methoden
6.2 Der Wizard-and-Operator-Test
6.2.1 Versuchsaufbau
6.2.2 Versuchsplan und -durchführung
6.2.3 Im Experiment erhobene Dialogdaten .

7 Auswertung
7.1 Dialoglänge
7.2 Dialogeffizienz
7.3 Pausen
7.4 Partikel
7.5 Überlappungen
7.6 Nonverbale Äußerungen
7.7 Types Tokens Worthäufigkeit
7.8 Syntax

8 Schlussbetrachtung und Ausblick

A Abkürzungen

B Texte für die Probanden
B.1 Aufgabenstellung

C Texte für den Operator

D Die deutschen Dialoge - Transliteration
D.1 Bsk01
D.2 Bsk02
D.3 Bsk03
D.4 Bsk04
D.5 Bsk05
D.6 Bsk06
D.7 Bsk07
D.8 Bsk08
D.9 Bsk09
D.10 Bsk10
D.11 Bsk11
D.12 Bsk12
D.13 Bsk13
D.14 Bsk14
D.15 Bsk15
D.16 Bsk16
D.17 Bsk17
D.18 Bsk18
D.19 Bsk19
D.20 Bsk20
D.21 Bsk21
D.22 Bsk22

E Anmerkungen zur Notation der Transliteration
E.1 Dialog-Header
E.2 Textnotation

Abbildungsverzeichnis

Tabellenverzeichnis

Literaturverzeichnis

1 Einleitung

Gegewärtig nehmen Computer und ihre Anwendungen einen immer größer werden Stellenwert in Privat- und Berufsleben eines Menschen ein. Sie dienen der Erfassung, Verarbeitung und Visualisierung großer Datenmengen, der Bedienung von Maschinen oder als Kommunikationsmittel und Informationsquelle. Der Zugang zum System und seinen Anwendungen, der sich zu Beginn des Computerzeitalters auf Lochkar- ten, später auf Tastatur und Maus beschränkte, gestaltet sich heute vielschichtiger und komplexer. Mittlerweile können Anwender in eine regelrechte Interaktion und Kommunikation mit dem Computer treten. Deshalb bedarf es vermehrter Forschung in der Mensch-Maschine-Interaktion - das ist eines der Motive für die vorliegende Arbeit.

Durch die Untersuchung verschiedener Charakteristiken und Mechanismen der Mensch- Maschine-Interaktion, besonders der sprachlichen Mensch-Maschine-Kommunikation, kann Einfluss auf die Entwicklung zukünftiger Systeme genommen werden. Dafür reicht es aber bei weitem nicht aus, vorhandene Systeme miteinander zu vergleichen, sondern es bedarf der Herausarbeitung der relevanten grundsätzlichen Aspekte der Benutzerbedürfnisse und -strategien, um Systeme zu entwickeln, die den wachsenden Anforderungen gerecht werden. Dies sollte nicht allein durch Intuition oder trial and error erarbeitet, sondern fundiert analysiert und belegt werden. Dadurch wird ein besseres Verständnis der Technologie und deren Auswirkungen auf den Menschen, seine Arbeit, seine Kommunikation mit anderen Menschen, seine generelle Lebens- qualität und damit verbunden seine Zufriedenheit, erlangt. Darauf aufbauend kön- nen Fähigkeiten entwickelt werden, dieses Wissen so anzuwenden, dass zukünftig die Systementwicklung nicht nur vorangetrieben, sondern auch kontrolliert und dahin- gehend gesteuert wird, dass Systeme dem Anwender gerecht in konstruktiver Weise nützlich und handhabbar werden. Dabei sollten die folgenden Ziel im Auge behalten werden:

- was macht Systeme leichter erlernbar
- was macht Systeme effizienter und effektiver
- welche Auswirkungen (gute und schlechte) haben derartige Systeme auf unser alltägliches Leben und auf folgende Generationen
- was kann dafür getan werden, die gewünschten Effekte zu erzielen und die unerwünschten auszuschließen bzw. zu kontrollieren.

Dabei kommt vor allem der Schnittstelle zwischen Mensch und Maschine, also der Art und Weise, wie beide miteinander interagieren können, eine besondere Bedeu- tung zu. Zwar herrscht noch immer die Bedienung durch Tastatur, Maus und Bild- schirm vor, doch die fortschreitende Entwicklung im Bereich der sprachverarbeiten- den Systeme ermöglicht vermehrt den Einsatz von natürlichsprachlichen Schnittstel- len, die dem Benutzer einen leichteren Zugang zum System schaffen, ihm darüber hinaus größere räumliche Freiheit gewähren sollen und ihm die Möglichkeit geben, neben der Systembedienung per Spracheingabe, anderen Tätigkeiten nachzugehen.

Das derzeitig wichtigste Anwendungsgebiet natürlicher Sprachverarbeitung sind Spracherkennungs- und Sprachkommunikationssysteme, die besonders im Bereich der Telefonauskunft immer mehr Akzeptanz unter den Anwendern finden. Mittler- weile sind zahlreiche Forschungssysteme und kommerzielle Dialogsysteme in unter- schiedlichsten Branchen und Domänen im Einsatz. In derartigen Systemen soll ein Dialogpartner durch eine Maschine ersetzt werden, die der Dialogführung mächtig ist und vom Dialogpartner Mensch als Gesprächspartner akzeptiert wird.

Lange Zeit ging man

”davonaus,dassesbeidernatürlichsprachlichenMCIgenügt, die Maschine den Menschen nachahmen zu lassen, unter anderem seine Sprach- und Verstehensfähigkeit. Bei gelungenen Systemen verhielte sich die Maschine wie der Mensch und der Mensch deshalb wie unter seinesgleichen; die Ergebnisse der linguistischen Forschung (einschließlich der psycho- und soziolinguistischen), die sich mit zwischenmenschlichem Sprachverhalten befasst, sind danach ohne Abstriche und Zusätze auf die MCI übertragbar. Was ist aber, wenn das nicht stimmt? Was ist, wenn Benutzer natürlichsprachlicher Systeme, sich z.B. bei einem maschinellen Bahnauskunftssystem anderer sprachlicher Formulierungen bedienen, eine andere Wortwahl, abweichende Syntaxformulierungen und/oder Dialogstrategien als beim menschlichen Bahnauskunftsbeamten verwenden?“1

Die offensichtlichen Mängel und Schwächen heutiger Dialogsysteme deuten darauf hin, dass die bisherigen Modellierungen - aufbauend auf Erkenntnissen aus der zwi- schenmenschlichen Kommunikation - nicht ausreichen, um zufrieden stellende na- türlichsprachliche Systeme zu entwickeln. So konnten zwar die Schwierigkeiten der Spracherkennung (kontinuierliche Sprache, Sprecherunabhängigkeit) und des Sprach- verstehens ansatzweise gelöst werden, doch die weitaus meisten Systeme sind noch immer nur für sehr beschränkte Domänen (wie Bahnauskunft oder Kinokartenreser- vierung) einsetzbar und arbeiten restringiert und kontrolliert. Eine wirkliche freie, unbeschränkte Mensch-Maschine-Interaktion findet nicht statt.

Ein zentrales Problem der Entwicklung unbeschränkter Dialogsysteme ist die Mo- dellierung der Dialogführung, insbesondere die Organisation des Sprecherwechsels (turntaking). In der ersten Evaluation des Systems SmartKom (Beringer und Türk 2002) zeigten sich grundlegende Probleme hinsichtlich dieses Phänomens menschli- cher Kommunikation: Während der Interaktion der Versuchsperson (VP) mit dem System überholte sich die VP mit ihren natürlichsprachlichen Eingaben selbst und erhielt dementsprechend nicht die gewünschte bzw. erwartete Antwort vom System. Dieses gehäuft auftretende Phänomen, das nach der SmartKom-Evaluation als “turn- overtaking“ bezeichnet wurde, führte zu einer Erfolgsrate (task success rate) von 0%, d.h. keine der Versuchspersonen konnte ihre Transaktionen mit dem System erfolg- reich zu Ende führen.

1.1 Zielsetzung

Ziel der vorliegenden Arbeit ist es, einerseits die Unterschiede im Sprachverhal- ten von zwischenmenschlicher Kommunikation und natürlichsprachlicher Mensch- Maschine-Kommunikation, im besonderen auf Ebene der Dialogorganisation, her- auszuarbeiten. Andererseits sollen Erkenntnisse über das Benutzerverhalten in Dia- logsystemen, v.a. hinsichtlich der Dialogführung gewonnen werden, die beim Entwurf zukünftiger dialogfähiger Systeme wertvolle Hinweise geben. Dabei soll gezeigt wer- den, dass das Problem der Dialogführung zum Teil von der Dialogeffizienz (Walker et al. 2000) mitbestimmt wird.

Es ergeben sich des weiteren folgende Fragestellungen:

- Wie sieht das Benutzerverhalten im Mensch-Maschine-Dialog aus?
- Wie ist dieses Benutzerverhalten zu erklären?
- Welche Faktoren führen zu diesem Sprachverhalten?
- Inwieweit passt sich der Benutzer der Maschine an?
- Welche Unterschiede bestehen zur vergleichbaren zwischenmenschlichen Kommunikation?
- Inwieweit verwenden die Benutzer die zwischenmenschliche Kommunikation tatsächlich als alleinigen Basisbereich für die natürlichsprachliche MCI?

Die Grundlage der Untersuchung bilden die in einem Wizard-and-Operator-Test (WOT) gesammelten Dialogdaten. Die bei diesem Test aufgenommenen Dialoge, die jeweils Mensch-Maschine- sowie Mensch-Mensch-Dialoge der selben Versuchsperson enthalten, wurden transkribiert und ausgewertet. Die Auswertung umfasst statisti- sche Verfahren zur Absicherung der Ergebnisse in Bezug auf Unterschiede zwischen Mensch-Maschine- und zwischenmenschlicher Kommunikation, sowie die Interpre- tation der erhaltenen Werte. Das Hauptaugenmerk der Interpretation liegt dabei auf der Dialogeffizienz und der Dialogführung. Dafür werden zunächst die Werte für die Anzahl der Dialogturns und die Dialoglänge herangezogen. Darüber hinaus werden die Dialoge hinsichtlich der nonverbalen Äußerungen, der Überlappungen von Äußerungen und der dialogstrukturierenden Partikel untersucht. Weitere Wer- te, die hauptsächlich dem Vergleich von Mensch-Maschine und zwischenmenschlicher Kommunikation dienen, sind Wort- und Satzfehler bzw. Korrekturen in der Benut- zereingabe, Spezifikation der Benutzereingabe und der Gebrauch von Ellipsen und Anaphern.

1.2 Gliederung

Die Arbeit ist in acht Kapitel gegliedert. Kapitel 2 gibt einen Überblick über die zwischenmenschliche Kommunikation, über Grundlagen der Gesprächslinguistik so- wie Dialogaufbau und -struktur. In Kapitel 3 werden die Grundlagen der Mensch- Maschine-Kommunikation präsentiert, Aufbau und Funktionsweise von Dialogsyste- men beschrieben, sowie einige Dialogsysteme vorgestellt. Kapitel 4 gibt einen Über- blick über die Effekte technisierter Kommunikationssysteme auf das menschliche Kommunikationsverhalten und stellt das zu untersuchende Phänomen des Compu- tertalk vor. Daran schließen sich in Kapitel 5 die dieser Untersuchung verwandten Feld- und Laborstudien an, die vorgestellt und beschrieben werden. Kapitel 6 be- schreibt Aufbau und Durchführung der Wizard-and-Operator-Tests zur Erhebung der Dialogdaten. Danach folgt in Kapitel 7 die Auswertung und Interpretation der Untersuchungsergebnisse. Abschließend gibt Kapitel 8 eine Zusammenfassung der Untersuchungsergebnisse, zeigt wie diese für zukünftige Dialogsystementwicklungen genutzt werden können und welcher weiteren Forschung es bedarf, um natürlich- sprachliche Systeme benutzergerecht zu gestalten.

Kapitel 2 Zwischenmenschliche Kommunikation

Die Pragmatik, die die Funktion von sprachlichen Äußerungen und die darin zum Ausdruck kommenden Propositionen in Abhängigkeit von ihren situationsspezifischen Verwendungen untersucht, steht hinsichtlich ihres Forschungsgegenstandes der Kommunikationstheorie sehr nahe. Deshalb soll zunächst der Begriff der Kommunikation im Mittelpunkt der Betrachtungen stehen.

2.1 Zum Begriff der Kommunikation

Der Begriff Kommunikation - lateinisch communicatio, Mitteilung, von communicare, miteinander teilen, mitteilen, gemeinsam machen - lässt sich nicht ohne weiteres spezifizieren, da er in den einzelnen Wissenschaften - Psychologie, Soziologie, Sprachphilosophie, Sprachwissenschaft einerseits und Biologie, Kybernetik und Informatik andererseits - thematisiert und entsprechend den Interessen der jeweiligen Disziplin theoretisch gefasst und empirisch untersucht wird.

Shannon und Weaver entwarfen Ende der vierziger Jahre das Sender-Empfänger- Modell (siehe Abbildung 2.1), ein sehr allgemeines und weit gefasstes Modell der Kommunikation, das Aspekte technischer, animalischer wie humaner Kommunikati- on umfasst. Darin wird Kommunikation als das Übertragen von Nachrichten mittels bestimmter Signale eines Senders an einen Rezipienten, der die Signale auf Grundlage eines gemeinsamen Codes entschlüsselt, verstanden. Demnach bilden folgende sechs Basiskomponenten eine Kommunikationssituation2:

- Sender (Sprecher)
- Empfänger (Hörer)
- Code (Sprache)
- Kanal ( Übertragungsmedium)
- Nachricht (Botschaft)
- Situation (bestehend aus Raum und Zeit)

Abbildung 2.1: Kommunikationsmodell von Shannon and Weaver

Abbildung in dieser Leseprobe nicht enthalten

Kommunikation dient also als Bezeichnung für jedwede Form von Informationsübermittlung durch Symbole zwischen Lebewesen (Menschen, Tieren) oder Menschen und Daten verarbeitenden Maschinen.

Im sprachwissenschaftlichen Sinn handelt es sich bei Kommunikation um die (zu- meist zwischenmenschliche) Verständigung durch verbale (Sprache) oder nonverbale Mittel, wobei sich die nichtsprachlichen Phänomene in 1. vokale Mittel wie Laut- stärke der Stimme, Stimmlage, Sprechrhythmus, Lachen, Hüsteln (Paralinguistik) und 2. nichtlautliche (motorische) Phänomene wie Mimik, Gestik, Körperhaltung, Blickkontakt, äußere Erscheinung und Kleidung (Kinesik) unterteilen lassen.

Im allgemeinen wird die menschliche Kommunikation aber nicht nur als reine Nach- richtenübertragung, sondern als ”einemenschlicheFähigkeitalsaucheinmenschli- ches Bedürfnis“3 angesehen, ein Verhalten also, ”zudemeskeineAlternativegibt“4.

Die Linke et al. (1994) entnommene Abbildung 2.2 soll deshalb verdeutlichen, wie sich Kommunikation von anderen menschlichen Verhaltens- und Handlungsweisen unterscheidet. Die vorliegende Arbeit folgt im weiteren der Terminologie von Linke et al. (1994).

Abbildung 2.2: Kommunikation als besondere Form des Verhaltens

Abbildung in dieser Leseprobe nicht enthalten

Charakteristische Eigenschaften der menschlichen Kommunikation sind:

- die Verstehensgrundlage: ein gemeinsamer Code zwischen den Kommunikationspartnern
- die Erwartungen und Partnerbilder: die Ausrichtung der Beiträge der Kommunikationspartner auf die Erwartungen der Partner
- die der Kommunikationssituation angemessene Auswahl und Anpassung der Präzision und Geschwindigkeit der Äußerungen
- die Zwecksetzung: koordiniertes Handeln der Kommunikationspartner
- die Zielbindung: ein Feedback, eine angemessene Rückmeldung zu erhalten
- das Ökonomiestreben: Kommunikation ist charakterisiert durch den Trend zu ökonomischem Verhalten.

2.1.1 Kommunikationssituation und Kommunikationsarten

Verschiedene Formen menschlicher Kommunikation ergeben sich aus dem, der Kommunikationssituation zu Grunde liegenden räumlich-zeitlichen Verhältnissen von Sprecher und Hörer und dem damit verbundenen Übertragungskanal,demCodeunddem verwendeten Medium. Tabelle 2.15 illustriert die Unterschiede verschiedener Kommunikationsarten und -situationen.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2.1: Unterschiede der Kommunikationsarten Dabei bestimmt die Tätigkeit, mit der die Informationen übertragen werden, ganz wesentlich die Form der Äußerung:

”miteinerSpraydosewerdenkeinelängerenTex- te produziert, mit einem Textverarbeitungssystem werden keine Betonungen durch aufwärts oder abwärts geschwungene Zeilen vorgenommen.“6

Die zwischenmenschliche Kommunikationsart, die in dieser Arbeit eingehender betrachtet und mit ihrem Mensch-Maschine-Pendant verglichen werden soll, ist der Dialog. Im folgenden wird der Begriff Dialog und die mit ihm verbundenen Termini definiert und erläutert.

2.1.2 Gesprächslinguistische Grundlagen - Dialog

Definitionen

Neben Dialog finden sich für das in der vorliegenden Arbeit betrachtete sprachliche Phänomen folgende Termini ähnlicher oder synonymer Bedeutung und Verwendung: Diskurs, Konversation, Gespräch, Unterhaltung, Wechselrede. Klare begriffliche Differenzierungen sind jedoch nicht verallgemeinert.

Dialog von griechisch dialegesthai - durch(einander)reden, sich unterhalten, wur- de in deutscher Übersetzung früh als Zwiegespräch wiedergegeben, wobei er aber hinsichtlicher der Sprecherzahl nicht spezifiziert ist. In der sprachwissen- schaftlichen Diskussion ist der Begriff nicht eindeutig bestimmt, er dient viel- mehr der ”kompensierendenBezeichnungvonempirischensprachlichenPhäno- menen, die die enge Satzbegrenzung traditioneller und gegenwärtiger Linguistik überschreiten, insbesondere unter dem Gesichtspunkt der Interaktionalität sprachlichen Geschehens [. . . ]“7.

Diskurs Dabei handelt es sich um einen Sammel- bzw. Oberbegriff für verschie- dene Aspekte von Text. Harris (1952) spricht von de“, van Dijk (1974) von ”zusammenhängendeRe- ”geäußertemText“,Bellert, 1972 von ”kohärentem Text“, Brown und Yule (1983) von einem struierte[n] Text“ und Pike (1967) vom ”vomSprecherfüreinenHörerkon-

”ErgebniseinesinteraktivenProzesses im soziokulturellen Kontext“. In der Pragmatik wird Diskurs zur Bezeichnung von strukturierten Ensembles von Sprechhandlungen verwendet. Dabei werden zwei Diskursarten unterschieden:

- Sprechhandlungssequenz: Frage vs. Antwort, Aufgabe stellen vs. Aufgabe lösen
- Sprechhandlungsverkettung: Vortrag, Predigt, Erzählung Gespräch

”GesprächesinddieFormmündlicherKommunikation,beiderwenigsten zwei Teilnehmer ihre Äußerungen zeitlich unmittelbar prospektiv und reaktiv miteinander verketten.“8 Ein Gespräch ist eine zentrierte Interaktion zweier (oder mehr) Kommunikationspartner mit freiem Wechsel der Sprecher- und Hörerrolle. Der Begriff Gespräch stellt jedoch ebenfalls einen Sammelbegriff für verschiedene Formen - allerdings meist der gesprochenen Sprache - dar und wird äquivalent zu Dialog, Diskurs und Konversation verwendet.

Zusammenfassend lässt sich sagen, dass es sich bei Dialog, Diskurs bzw. Gespräch um eine Form der Wechselrede von zwei oder mehreren Personen handelt, wobei derselbe Partner einmal Hörer und einmal Sprecher ist. Die Gesprächspartner sind in Kommunikationssituationen eingebettet, die sie räumlich und/oder zeitlich verbinden. Diese allgemeine Definition soll als Grundlage für die Verwendung der genannten Begriffe in dieser Arbeit dienen.

Dialogphasen

Ein Dialog lässt sich in verschiedene Phasen unterteilen. Den Beginn bildet die Anfangs- oder Eröffnungsphase, die Gesprächskonstituierung, die meist durch Gruß- floskeln vollzogen wird und das Gespräch in einen Situtationszusammenhang bettet. Dieser erste Gesprächsteil dient der Konstituierung bzw. Rückversicherung sozialer

Beziehungen (fremde Partner werden in den Hauptteil (Dialogkern) über, der inhaltlich-sachlich orientiert ist. Auf diesen folgt die Gesprächsbeendigungsphase.

Im VERBMOBIL-Projekt9 wurden Eröffnungs- (Vorfeld) und Beendigungsphase (Nachfeld) noch weiter untergliedert, so dass sich fünf Dialogphasen ergaben:

1. HELLO: Begrüßung der Dialogpartner; Vorstellung der eigenen Person
2. OPENING: Einführung des auszuhandelnden Themas
3. NEGOTIATION: Sprechen über das Thema und Entschluss fassen (z.B. für ein Treffen)
4. CLOSING: Beendigung des Gesprächs
5. GOODBYE: Verabschiedung der Dialogpartner

Einige dieser Dialogphasen sind durch so genannte Routineformeln gekennzeichnet, ”ganzeSyntagmen,dieinstereotypenSituationenundzustereotypenZweckenent- weder unverändert immer wieder gebraucht werden (Wie geht’s) oder als feste Mu- ster mit nur einer oder zwei Leerstellen zur Äußerung bestimmter Sprechakte be- nutzt werden (Würden Sie bitte? )“10. Am Anfang und Ende eines Dialogs findet sich meist die Grußformel ohne bestimmte Illokution, die lediglich als Initiator bzw. Terminator des Gesprächs fungiert und einen situativen Rahmen herstellt. Im Vor- feld des Dialog finden sich Routineformeln wie Ich hätte eine Frage, Entschuldigen Sie bitte, aber ... und im Nachfeld z.B. Ich bedanke mich recht herzlich. Derartige Routineformeln mit Illokutionen wie ,aufmerksamkeitsheischende Entschuldigung’ oder ,Danksagung’ bilden illokutionäre (illokutive) Sequenzen im Dialog. Im Dialog- kern finden sich weitere illokutionäre Akte, die im folgenden Unterkapitel dargestellt werden.

Dialogakte

Ein Zweig der linguistischen Pragmatik ist die Sprechakttheorie, für die Austin (1962) anknüpfend an die Spätphilosophie Wittgensteins den Grundstein legte.

Searle, ein Schüler Austins, machte die Sprechakttheorie als Teil einer allgemei- nen Handlungstheorie für die Sprachwissenschaft interessant. Im deutschsprachigen Raum kann Dieter Wunderlich (1970) als wichtigster Vertreter der Sprechakttheorie angesehen werden.

Die Sprechakttheorie geht davon aus, dass Dialoge über Sprechakte, nach Searle die kleinste Einheit der sprachlichen Kommunikation, gesteuert werden. Austin (1962), Searle (1969) und Wunderlich (1972) unterteilten den Sprechakt in mehrere Teilakte. Tabelle 2.2 zeigt diese im Überblick:

Abbildung in dieser Leseprobe nicht enthalten

3. perlokutiver/perlokutionärer Teilakt perlokutiver Akt Tabelle 2.2: Sprechaktmodelle

Austins lokutiver Teilakt teilt sich in phonetischen Akt, phatischen Akt und rheti- schen Akt. Der phonetische Akt, bzw. der Äußerungsakt bezeichnet die sprachliche Realisierung von Phonemen, Morphemen, Wörtern und Sätzen usw. Der phatische Akt bezieht sich auf das Aussprechen der Wörter, die anhand der grammatischen Konstruktionsregeln einer bestimmten Sprache aneinandergefügt werden. Die Fest- legung der Referenz und der (deskriptiven) Bedeutung einer Äußerung findet im rhetischen Akt bzw. im propositionalen Akt statt. Austins illokutiver Teilakt be- zeichnet die Bestimmung der tatsächlichen Rolle einer Äußerung im Kontext als Frage, Warnung, Aufforderung usw. aufgrund der deskriptiven Bedeutung der Spre- cherintention. Searle sieht seinen vergleichbaren illokutiven Akt als die Handlung, die man vollzieht, indem man etwas sagt. Die Wirkungen und Effekte auf den Hörer und dessen (un)mittelbare Reaktionen werden von Austin unter dem perlokutiven Teilakt subsumiert. Searle beschreibt den perlokutiven Akt als den Akt, den man vollzieht, dadurch, dass man etwas sagt.

Die einzelnen Teilakte werden nicht in zeitlicher Abfolge vollzogen, sondern sind vielmehr parallel vorhandene Aspekte einer Sprechhandlung. Die Teilakte 1 und 2 sind sprecherseitig, Teilakt 3 betrifft vornehmlich den Hörer, kann aber, z.B. bei wechselseitig verpflichtenden Sprechakttypen wie ,Versprechen’ oder ,Wetten’, auch den Sprecher mit einbinden. Dieser Teilakt wird in der Sprechakttheorie als Indika- tor dafür herangezogen, ob ein Sprechakt geglückt oder missglückt ist, ob also der Hörer die Illokution der Sprecherintention gemäß herausarbeiten konnte.

Die Sprechakttheorie wurde in vielfältiger Weise modifiziert und erweitert. Eine die- ser Modifikationen stellt das Konzept der Dialogakte und ihre Anwendung in dia- logführenden Systemen dar. Im VERBMOBIL-Projekt (Alexandersson et al. 1998 und Alexandersson 1997) beispielsweise dienen Dialogakte der Repräsentation der illokutionären Rolle der jeweiligen Äußerung.Siedrücken also die primäre kommuni- kative Intention aus und sind somit Searles illokutionären Akten vergleichbar, wobei Dialogakte allerdings viel spezifischer und genauer untergliedert sind als Sprechakte. In VERBMOBIL gibt es ca. 25 verschiedene Dialogakte, die in fünf Hauptgruppen eingeteilt sind:

1. REQUEST
2. SUGGEST
3. CONVENTION
4. INFORM
5. FEEDBACK

Dialogführung

Die kleinste Einheit in einem Dialog ist der Rede- oder Sprechbeitrag (turn). Die Ein- heit turn lässt sich jedoch nur schwer definieren. Turns werden daher meist anhand formaler Kriterien bestimmt: ein turn ist durch Sprechpausen eingegrenzt bzw. nach einem turn kann ein Sprecherwechsel stattfinden. Dadurch lassen sich turns von Äußerungen unterscheiden: Ein Sprecher kann z.B. zwar das Rederecht besitzen, aber nichts äußern oder aber er äußert etwas, ohne das Rederecht zu besitzen. Ein Sprechbeitrag hat meist einen triadischen Aufbau. Dabei stellt der erste Teil ei- ne Verbindung zum vorangegangenen, der dritte eine Beziehung zum folgenden turn her. Erst wenn eine Beziehung etabliert ist, wird das erste Thema eingeführt.

Die Organisation solcher turns im Gesprächsverlauf, der Sprecherwechsel (turnta- king), ist eine der wichtigsten Sprecheraktivitäten im Dialogprozess. Das turntaking stellt ein interaktives System dar, das einen lückenlosen Gesprächsablauf ermöglicht, da es von den Sprechpartnern selbst spontan während des Dialogprozesses gehand- habt wird. Das bedeutet, die Entscheidung, wer über was wie lange zu wem spricht, wird von den Gesprächsteilnehmern jeweils an den Dialogstellen gefällt, an denen ein Sprecherwechsel bzw. die Über- oder Weitergabe des Rederechts möglich ist. Da- bei wird entweder einer vom aktuellen Sprecher bestimmten Person das Rederecht erteilt (Fremdwahl) oder demjenigen, der als erster den Dialog fortsetzt (Selbstwahl) oder aber der aktuelle Sprecher spricht weiter. Grundsätzlich gelten im Gesprächs- verlauf folgende Regeln: 1. es spricht immer nur eine Person, 2. wer nach einem Turn als nächster das Wort ergreift, hat das Anrecht auf den nächsten Turn, wobei diese zweite Regel nicht greift, wenn 3. der nächste Turn schon für jemanden reserviert ist (having the floor). Die Rederechtübergabe bzw. -übernahme kann folgendermaßen ablaufen:

- ohne Gesprächspause (gap) zwischen letztem und folgendem Turn
- mit sehr kurzer Sprechpause zwischen letztem und folgendem Turn
- mit längerer Pause oder Schweigen
- der vorangegangene Turn in der Endphase und der folgende Turn überlappen sich (overlap)
- durch Unterbrechung des letzten Turns (nicht in Endphase), wobei wesentliche Teile des Beitrags nicht mehr realisiert werden können

Der Sprecher ist die Zentralfigur innerhalb eines Dialoges. Er ist gleichzeitig auch immer Hörer und Gegensprecher. Für den Hörer gilt das gleiche wie für den Sprecher.

Auch er ist nicht nur passiver Zuhörer, sondern aktiver Sprechpartner und Gegensprecher. Die Sprechpartner üben ihrer jeweiligen Rolle gemäß bestimmte Aktivitäten (Dialogkontrollfunktionen) aus, die das Gespräch konstituieren, strukturieren und den Dialogverlauf bestimmen.

Auf Sprecher und Hörerseite gibt es jeweils Signale, die anzeigen, dass das Gespräch fortgesetzt bzw. ein Sprecherwechsel vollzogen werden soll. Funktioniert der Spre- cherwechsel nicht reibungslos, gibt es verschiedene Reparaturmechanismen derar- tige Organisationspannen zu beheben. Wird beispielsweise zwischen zwei turns zu lange geschwiegen, versucht der letzte Sprecher entweder einen bereits beendeten Gesprächsbeitrag zu verlängern, einen neuen Gesichtspunkt oder ein neues Thema anzuschneiden oder aber einen neuen Sprecher durch explizite Fremdwahl zu bestim- men. Der Hörer reagiert auf Schweigen mit der Äußerung von Pausenfüllern oder Kommentarfloskeln (tja, jaja, so ist das halt ). Beim Unterbrechen hat der Unterbre- cher die Möglichkeit sich selbst wieder zu unterbrechen und sich für die Unhöflichkeit zu entschuldigen oder aber der Unterbrochene kann so tun, als habe er sowieso mit dem Reden aufhören wollen.

Tabelle 2.3 gibt einen Überblick über die Sprecher- und Höreraktivitäten beim Sprecherwechsel:

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2.3: Signale der Gesprächsfortsetzung bzw. des Sprecherwechsels

Neben der hauptsächlich auf Sprecherseite liegenden Aktivität der Sprecherwechelor- ganisation, geht vom Sprecher die sogenannte Hörersteuerung aus. Dabei handelt es sich um Rückmeldesignale, mit denen der Sprecher die Aktionen des Hörers steuert. Der Sprecher kann etwa dessen Aufmerksamkeit fordern, z.B. durch Interjektionen, Vokative und Imperative wie hör mal oder sein Einverständnis unterstellen mit gell oder nicht wahr. Der Hörer kann auf derartige Sprecheraktivitäten mit sprachlichen Ausdrücken und nichtsprachlichen Signalen wie hm, ja oder Kopfnicken reagieren. Dabei gibt der Hörer Auskunft über seine perzeptuelle Verarbeitung, über die In- terpretation des Gesagten und über die Evaluation des Gesagten (Überraschung, Einverständnis, Unglaube). Diese Rückmeldung kann positiv oder negativ sein, je nachdem, ob der Hörer den erfolgreichen Verlauf der Kommunikation bestätigen oder aber auf Probleme und Schwierigkeiten innerhalb der Kommunikation aufmerksam machen will. Für dieses sogenannte Hörer-Feedback stehen dem Hörer in der gespro- chensprachlichen Kommunikation verschiedene verbale und nonverbale Mittel zur Verfügung:

- Blickkontakt
- Körperzuwendung
- Mimik/Gesichtsausdruck
- Gestik
- Kopfnicken, -schütteln
- Lächeln, Lachen
- Rückmeldungspartikel = Kontaktsignale = Rückmeldesignale wie mhm, ja richtig, genau
- kommentierende Bemerkungen wie ach ja, wirklich?, eben, tja, soso
- Satzvervollständigungen
- Bitten um Klärung
- kurze Statements

Grundsätzlich umfassen Dialoge zwei Arten von Äußerungen.Bouwhuis (1991) un- terscheidet: 1. informationstragende Äußerungen von 2. Äußerungen zur Dialogor- ganisation, die keine wirklichen Informationen tragen. Allwood (1991) bezeichnet diese zwei Arten als: ”owncommunicationmanagement“und ”interactivecommuni- cation management“. Wobei ersteres allein die Sprecherseite betrifft (was wird wie gesagt) und letzteres den Informationsfluss hinsichtlich des Hörers bestimmt. Im VERBMOBIL-Projekt werden derartige Diskurspartikel, die nur Teile oder Segmente aber keine vollständigen Äußerungen sind, dennoch eine wichtige Funktion für den Dialog besitzen, in vier Klassen unterteilt:

- struktrurierende Partikel wie ja, also (uptake: signalisiert die Übernahme eines turns), ja?, oder? (check: markiert die Übergabe eines turns an den Dialog- partner), ach nein (repair marker: benutzt der Sprecher zur Verbesserung)
- Partikel, die die Einstellung des Sprechers zum Ausdruck bringen wie leider, ruhig (negativ, positiv oder neutral gegenüber einer vorangegangenen Äuße- rung)
- Höflichkeitspartikel wie denn, doch
- und Kohärenz markierende Partikel, die die Äußerung in den Kontext einbet- ten

Besonders wichtig werden derartige Kontrollstrukturen verbaler Art in der Tele- fonkommunikation, bei der das Feedback ausschließlich vokalsprachlich stattfinden kann, da der visuelle Kanal vollständig fehlt und Informationen für den Dialog- partner daher nicht durch Mimik oder Gestik übermittelt werden können. Dennoch funktioniert auch dort die Dialogführung zumeist reibungslos, was die Ergebnis- se der Untersuchung der Mensch-Mensch-Kommunikation dieser Arbeit bestätigen. Im Bereich der Mensch-Maschine-Kommunikation allerdings zeigen die vorliegenden Resultate, dass der Dialogführung und deren Mitteln und Methoden bei der Entwick- lung dialogfähiger maschineller Systeme mehr Beachtung geschenkt werden sollte, da besonders auf dieser Ebene gravierende Probleme sichtbar werden.

”KompetenzbeiderlokalenDialogführungerweistsichdarin,aufeinenSprecherbei- trag mit einem angemessenen Folgebeitrag zu reagieren. Kompetenz bei der globalen

Dialogführung besteht dagegen darin, einen Dialog so zu lenken, daß er insgesamt als ,sinnvoll’ angesehen werden kann. [. . . ] Für den Entwurf dialogführender Systeme wäre es von großem Vorteil, wenn es einen Korpus von Regeln gäbe, die die Dia- logsequenzierung steuern. Bislang allerdings blieben alle Versuche erfolglos, solche Regeln zu ermitteln.“11

Kapitel 3 Mensch-Maschine-Kommunikation

Am Anfang des Computerzeitalters waren Rechner nur vereinzelt in industrieller und wissenschaftlicher Umgebung zu finden und ihre Anwender meist technikin- teressierte Experten, die keine Mühe und Zeit scheuten, alles Notwendige für einen sinnvollen Computer-Einsatz zu erlernen - die Bedienung der verschiedenen Eingabe- modi: Lochkarte, Tastatur, Maus, Touchscreen sowie Programmier- und Komman- dosprachen. Die Interaktion zwischen Mensch und Computer sah sehr beschränkt und einseitig aus. Auf dem Rechner lief eine einzige Applikation und das Programm verhielt sich passiv: der Anwender ordnete eine Aktion an (Befehl) und der Com- puter führte diese aus. Es handelte sich also um eine Folge einzelner unverbundener Aktion-Anwort (action-response) Paare, bei denen der Computer die vorangegange- nen Schritte des Benutzers nicht im Auge behalten musste, sondern sich nur um den aktuellen Befehl kümmerte. Außerdem fand diese Interaktion über einige wenige Ein- und Ausgabekanäle statt und meist lagen zwischen der Benutzeranfrage und der Re- aktion der Maschine Stunden oder sogar Tage. Da nur wenige Experten mit den Ma- schinen in Berührung kamen, wurde dem Gebiet der Mensch-Maschine-Interaktion lange Zeit wissenschaftlich wenig Aufmerksamkeit geschenkt. Mit Ausnahme eini- ger weniger Veröffentlichungen z.B. von Bush (1945) begann das wissenschaftliche Interesse erst in den 60er Jahren des vergangenen Jahrhunderts, v.a. mit Artikeln von Licklider (1960). Dann nämlich begann der Computer Eingang in immer mehr menschliche Lebensbereiche (nicht nur in der Arbeitswelt, sondern auch im Freizeit- bereich zu Zwecken der Unterhaltung und Kommunikation mit anderen Menschen) und Berufsbilder zu finden. Und die Computernutzer kamen aus allen Bereichen und Schichten der Gesellschaft, wobei viele von ihnen weder besonders technikinteressiert noch technisch versiert waren und sind.

Heutzutage kann ein Anwender viele Applikationen gleichzeitig ausführen und zwi- schen ihnen hin- und herwechseln. Die Programme verhalten sich nicht mehr passiv: sie können Daten be- und verarbeiten ohne direkte Supervision durch den Anwender. Sie können den Benutzer unterbrechen, um Informationen einzuholen oder Ergebnis- se an ihn zurückzugeben. Die Mensch-Maschine-Kommunikation hat an Komplexität zugenommen. Nicht nur, dass der Anwender mit mehreren Anwendungen gleichzeitig ”kommuniziert“,esgibtsogarProgramme,diedieKommunikationselbstinitiieren. Darüber hinaus hat sich auch die Zahl der möglichen Ein- und Ausgabemodalitäten erhöht, die dem Benutzer die Computeranwendung intuitiv leichter zugänglich und verständlicher machen sollen.

Als Modell der Mensch-Maschine-Kommunikation wird häufig folgendes Schema von Maas (1983) herangezogen:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.1: Modell der Mensch-Maschine-Kommunikation

Der Nachteil dieses Modells von Maas besteht allerdings darin, dass Wissen und Konventionen jeweils Sender und Empfänger einzeln zugeordnet sind, dass sie also nicht als gegenseitig bekannt und von beiden zumindest partiell gemeinsam benutz- bar dargestellt sind. Dies widerspricht einerseits der Bedeutung von Konvention, d.h., dass Sender und Empfänger in Teilen über den selben Code verfügen und so über die vermittelte Nachricht ein wechselseitiges oder gemeinsames Wissen schaf- fen. Andererseits verdeutlicht es eben die Unterschiede von Mensch-Mensch- und Mensch-Maschine-Kommunikation, v.a. hinsichtlich der Wissensrepräsentation und -verarbeitung. Weitere Unterschiede zwischen beiden Kommunikationsarten ergeben sich zum einen aus der Verschiedenartigkeit von Mensch und Maschine auf physika- lischer Ebene:

- Computer sind streng kausale Maschinen, das menschliche Gehirn aber ge- horcht weder kausalen Abfolgen, noch lässt sich ein Neuronennetz zweimal ge- nau in ein und denselben Zustand bringen. Theoretisch ist also das Verhalten eines Rechners stets vorhersagbar (wenn dies auch mit steigender Komplexität der Soft- und Hardware immer schwieriger wird), das eines Individuums nicht.

- Für einen Rechner definiert ein Programmierer explizite Datenstrukturen und einen streng logischen Ablaufplan für einen beschränkten Problembereich, wo- bei alle möglichen Situationen, mit denen der Rechner konfrontiert werden könnte, im Auge behalten werden müssen. Im Gegensatz dazu organisiert sich das menschliche Gehirn selbständig, woraus folgt, dass zu jeder Lebenssituation ein angemessenes, nicht regelgeleitet-algorithmisches Verhalten hervorgebracht wird.

- Verarbeitungsprozesse im Gehirn sind holistisch, d.h.

”keineInformation(kein Aktionspotential) existiert und erlangt Bedeutung unabhängig von anderen Impulsmustern. [. . . ] Im Gegensatz dazu stehen die algorithmischen Verarbeitungsmechanismen im Rechner: entweder seriell oder parallel.“12

- Computer sind nicht in der Lage,

”durcheigeneErfahrungen-seiensiein- nerliche körperliche oder äußerliche perzeptuelle - eine Lebensgeschichte zu erhalten. [. . . ] Sie sind nicht in der Lage, selbständig Kontakt zur Außen- welt aufzunehmen. Alles, was man hier an Abhilfe leisten kann, ist, sowohl den inneren wie auch den äußeren Kontext eines sprachverstehen-wollenden Systems Stück für Stück vorzudefinieren. Dieser künstlich geschaffene, rein in- nere Kontext ist es, vor dessen Hintergrund alles Verstehen bei der Maschine als Simulation ablaufen muss.“13 - Dieser ”künstlichgeschaffeneKontext[...]istjedochselbstwiederkontextlos; d.h. der simulierte Weltkontext des Computers besteht weitgehend aus nack- ten, unbewerteten Daten, die erst während ihrer Verarbeitung im Inneren der CPU eine gewisse Relevanz für das Verstehenssystem erlangen. [. . . ] Im Rechner existiert keine ’intrinsische’ Bewertungsinstanz, die wie beim Menschen z.B. Sinnesdaten eine Relevanz für die jeweilige Situation zurechnet, und sie so eventuell als für diese spezielle Situation wichtige Daten auszeichnet. Menschen sind aufgrund ihres Seins überhaupt nicht in der Lage, Daten kontextfrei und damit unbewertet zu verarbeiten [. . . ].“14

- Das Gehirn benötigt keine vorstrukturierten Daten, ”umdierelevantenMerk- male einer Situation auszumachen und in entsprechender Weise darauf zu rea- gieren. [. . . ] Für einen Rechner [. . . ] müssen alle Fakten und Merkmale einer Situation als gleich relevant - und damit irrelevant - eingestuft werden [. . . ].“15

Zum anderen ergeben sich Unterschiede daraus, dass

- Menschen zielgerichtet handeln, Computer sich nur verhalten können (Reaktion auf Anfragen und Befehle),
- Menschen eigene kommunikative Ziele, Computer nur vorgedachte haben,
- Menschen situationsabhängig flexibel vorgehen können,
- Menschen ad hoc ein Partnerbild erstellen können, Computer aber abhängig vom vorher erstellten (möglicherweise eingeschränkt dynamisch erweiter- oder veränderbaren) Benutzerbild sind,
- menschliche Kommunikation auf Verstehen ausgerichtet ist, Computer dagegen nicht verstehen können, sondern nur logisch-syntaktische Operationen vollziehen, über die eine Verständigung für bestimmte Zwecke möglich ist,
- Menschen ein explizites, Computer nur ein implizites Sprachwissen haben,
- Menschen uneingeschränkt in natürlicher Sprache kommunizieren, Computer dies aber nur sehr eingeschränkt können,
- andere sprachliche Mittel eingesetzt werden (Paraphrasen, Metaphern, Deixis werden in der menschlichen Kommunikation eingesetzt, um Missverständnisse zu vermeiden, sind aber in der Computersprache selten zu finden, da sie entweder überflüssig erscheinen oder schwer zu programmieren sind.).

Da sich zwischenmenschliche und Mensch-Maschine-Kommunikation wesentlich von- einander unterscheiden, ziehen es einige Autoren16 vor, nicht von Mensch-Maschine- Kommunikation sondern vielmehr von Mensch-Maschine-Interaktion zu sprechen und den Begriff der Kommunikation dem zwischenmenschlichen Bereich vorzubehal- ten. Der Terminologie von Linke et al., 1994 folgend ist jedoch partnerorientiertes symbolisches Handeln Kommunikation und lässt sich somit auch auf die Mensch- Maschine-Kommunikation (auf den menschlichen Kommunikatonspartner bezogen) anwenden. Dabei wird jedoch vorausgesetzt, ”daßeinMensch,deraneinenormale Form der Kommunikation gewöhnt ist, zumindest teilweise seine daraus resultieren- den Erwartungen auf die Kommunikation mit dem Computer überträgt.“17 Für den Kommunikationspartner Computer bleibt es jedoch durchaus fraglich, ob er sich intentional und partnerorientiert verhält. Einige Experten halten es jedoch auch für unangemessen, den Begriff der Interaktion im sozialwissenschaftlichen Sinn auf das Verhalten zwischen Mensch und Maschine anzuwenden.

”UnterInteraktionwirdindenSprach-undSozialwissenschaftenimwei- testen Sinn jede Art von wechselseitiger Bezugnahme von zwei oder meh- reren Personen bezeichnet. Die Grundform einer Interaktion ist die zwi- schen ego und alter, einem Ich und einem Nicht-Ich. Die Individuen orien- tieren sich am Verhalten und den vermuteten Erwartungen des anderen. Solch eine wechselseitige Orientierung der Handlungspartner ist jedoch nur im Rahmen einer vorgegebenen sozialen Struktur möglich, d.h. beim Vorliegen gemeinsamer normativer Muster, Symbole und Kommunika- tionstechniken. Im Umgang mit einer ’intelligenten’ Maschine ist daher Vorsicht geboten, den Interaktionsbegriff in dieser Form aufrecht zu er- halten, da beide Akteure dieser Handlungseinheit die Erwartungen sowie positive oder negative Einschätzungen und Bewertungen der Situation nicht ohne weiteres erfassen können. Die Erwartungen des Benutzers an den Computer sind ein Resultat aus seinen Erfahrungen im Umgang mit dieser Art von Maschinen, sie sind weniger situationsabhängig noch kön- nen beide Agenten in einer vorgegebenen Sozialstruktur gesehen werden. Es kann also nicht davon ausgegangen werden, daß z.B. die Maschine aufgrund einer sozialen Stellung moralische Wertungen und Ansprüche artikuliert, schlechte Laune hat oder den Benutzer ’böse’ ansieht. Die Erwartungen des Computers an den Benutzer werden durch das vorge- gebene Programm und dessen Logik festgelegt, sie sind für den Benutzer ohne genaue Programmkenntnisse nicht abschätzbar. Eine solche ’Inter- aktion’ kommt daher durch Informations- und Datenaustausch zustan- de, die beim Menschen Handlungen hervorrufen und bei der Maschine Zustandsänderungen bewirken. Es ist daher problematisch, hier im sozi- alwissenschaftlichen Sinne von ’Interaktion’ zu sprechen.“18

Im weiteren Verlauf der Arbeit wird sowohl der Begriff Mensch-Maschine-Interaktion als auch der Begriff Mensch-Maschine-Kommunikation Verwendung finden, wobei ersteres die generellere Form des Umgangs mit Maschinen beschreibt (aus Sicht beider Interaktionspartner) und letzteres sich eher auf die sprachliche Interakti- on i.w.S. bezieht. Des weiteren sollen die Betrachtungen zur Mensch-Maschine- Interaktion innerhalb dieser Arbeit auf die Bedeutung von Maschine als Computer beschränkt bleiben. Deshalb können im folgenden die Termini Mensch-Maschine- Kommunikation/Interaktion oder Mensch-Computer-Kommunikation/Interaktion als synonym erachtet werden.

3.1 Natürlichsprachliche Systeme

Von großer Bedeutung in der Mensch-Maschine-Interaktion ist die Schnittstelle zwi- schen Mensch und Maschine, die Art und Weise also, wie beide miteinander intera- gieren können. Dabei ist es ein großes Ziel der Mensch-Maschine-Interaktion (human computer interaction HCI), eine Schnittstelle zu finden, die fehlertolerant und für den Benutzer leicht erlernbar ist. Lange Zeit war dabei die geschriebene Sprache die ein- zige Ausdrucksform, die sich darüber hinaus in einer eigens für diese Form entwickel- ten, formalen Sprache bewegte. Im Laufe der computertechnologischen Entwicklung wurde immer wieder darauf verwiesen, dass natürlichsprachliche Schnittstellen (na- tural language interfaces NLI) die Zukunft der Mensch-Maschine-Interaktion bedeu- ten, weil Menschen in ihrem alltäglichen Leben umfangreiche Kommunikationsfä- higkeiten erlernt haben (durch ihre eigene natürliche Sprache) und NLIs somit die benutzerfreundlichste und effizienteste Art und Weise der Kommunikation mit einem Computer darstellen. Seit langem gibt es deshalb Versuche, die natürliche Sprache des Menschen in die Mensch-Maschine-Interaktion zu integrieren. Dabei soll letzt- lich nicht einfach eine weitere Schnittstelle zum Computer geschaffen werden, die den Datenaustausch zwischen Mensch und Maschine effektiver macht, sondern vielmehr ein intelligentes Werkzeug bereitgestellt werden, mit dem Kommunikation in einer durchaus humanen Form stattfinden kann. Doch andere Eingabemodi (z.B. graphical user interfaces GUI) lösten viele der Interaktionsprobleme, die eigentlich von NLIs gelöst werden sollten. Ferner gingen einige Experten davon aus, dass es Computern nie möglich sein wird, natürliche Sprache zu verstehen19 und anzuwenden. Deswegen verbreiteten sich NLIs nicht in der von einigen Wissenschaftlern20 erwarteten Weise und bis heute herrscht die Bedienung per Tastatur, Maus und Bildschirm vor.

Dennoch sind bei den bisherigen Entwicklungen Natürlichsprachliche Systeme (NLS) entstanden, die in Generierung und Analyse von Sprache Wissen über Sprache ver- wenden. Die Interaktion mit derartigen Systemen kann in Form von geschriebener oder aber in (kontinuierlich) gesprochener natürlicher Sprache stattfinden. Systeme, ”diegesprochenenatürlichsprachlicheEingabeninterpretierenkönnen,angemessen reagieren und eventuell auch sprachlich antworten“21, werden als sprachverstehende Systeme bezeichnet. Mittlerweile finden sich in industriellem und wissenschaftlichem Umfeld zahlreiche mit Sprachschnittstellen ausgestattete Applikationen: z.B. auto- matische Übersetzungssysteme (auch für kontinuierlich gesprochene Sprache) bzw. Übersetzungshilfen, öffentliche Zugangssysteme für Datenbanken, Steuerungssyste- me für Industrieroboter, Diktier- und Vorleseprogramme sowie natürlichsprachliche Auskunftssysteme mit echten Dialogfähigkeiten (sogenannte natürlichsprachliche Dialogsysteme).

3.2 Dialogsysteme

Ein natürlichsprachliches Dialogsystem ist ein Informationssystem, bei dem der Be- nutzer in einen Dialog mit dem Computer tritt und mit Informationen bestimm- ter Domänen versorgt wird (zur Zeit hauptsächlich Fahrplanauskünfte, Bibliotheks- dienstleistungen, Adressauskünfte und didaktische Programme). In einem solchen System interagieren Benutzer und Informationssystem über eine natürlichsprachli- che Schnittstelle.

Neben der Bezeichnung Dialogsystem finden sich in der Literatur die Bezeichnungen Sprachdialogsystem, maschinelles Informationssystem, maschinelles Auskunftssystem und für sehr einfache Dialogsysteme Frage-Antwort-System (FAS).

3.2.1 Architektur

Die in der heutigen Zeit eingesetzten unimodalen Dialogsysteme - im Unterschied zu multimodalen Dialogsystemen, ”beidenenauchGestenundMimikzurKommunika- tion eingesetzt werden können und mobilen Systemen, bei denen Blickrichtung und Aufenthaltsort des Benutzers als weiterer Kontext angesehen werden“22 - weisen im wesentlichen folgende Grundstruktur auf:23

- natürlichsprachliche Eingabe über Telefon
- Umwandlung des Telefonsignals in eine vom Rechner verarbeitbare Form
- Analyse der Eingabe
- Inhaltserschließung der Benutzeräußerung bezüglich des Diskursbereiches
- formale Repräsentation der Eingabe
- formale Frage-Beantwortung durch Rückgriff auf die Datenbasis
- formale Repräsentation der Ausgabe bzw. der Rückfragen an den Benutzer
- Synthese der Ausgabe
- natürlichsprachliche Ausgabe über Telefon

Diese einzelnen Aufgaben, die ein rein gesprochensprachliches Telefonauskunftssystem erfüllen sollte, werden weiter untergliedert und in verschiedenen Komponenten moduliert. Abbildung 3.2 zeigt das Modell eines unimodalen Sprachdialogsystems mit den Komponenten zur Spracherkennung, -verarbeitung und -synthese und den Verlauf des Verarbeitungsprozesses einer natürlichsprachlichen Benutzereingabe bis hin zur natürlichsprachlichen Systemausgabe.

Abbildung 3.2: Dialogsysteme

Abbildung in dieser Leseprobe nicht enthalten

3.2.2 Verarbeitung

Der erste Verarbeitungsschritt ist die Signalaufzeichnung, d.h. die über das Tele- fon vermittelten elektrischen Signale werden in eine vom Rechner verarbeitbare Form umgesetzt. Daraufhin kann mit der eigentlichen Analyse der eingegangenen Daten begonnen werden. Zunächst wird die Benutzeräußerung einer Verarbeitung im Spracherkennermodul (ASR = Automatic Speech-Recognition) unterzogen. Da- bei werden die akustischen Signale in eine geschriebensprachliche oder eine andere symbolische Repräsentation überführt. Die Spracherkennung ist im weitesten Sinne ein Mustererkennungsverfahren (Pattern Matching Task). Das empfangene Sprach- signal wird hinsichtlich einzelner Charakteristiken und Merkmale analysiert und mit vorliegenden (vorher gelernten) Mustern (Worten oder Phonemen) verglichen und anschließend wird das am besten passende Muster ausgewählt. Die Entwicklungen der vergangen Jahre (größere Rechenleistung, effizientere Suchalgorithmen) führte zu verbesserter Performanz der Spracherkenner, die unter optimalen Bedingungen bis zu 95%ige Erkennungsraten liefern. Dennoch bestehen noch immer Schwierigkeiten hinsichtlich einiger Faktoren wie z.B. der großen Varianz menschlicher Sprachsigna- le (Einmaligkeit der Stimme und Artikulation, dialektale Färbung, Gesprächsge- schwindigkeit und Stil), hinsichtlich der Verarbeitung unbeschränkter Dialogabläufe und der Filterung lauter Nebengeräusche. Spracherkennungssysteme lassen sich da- her mit Blick auf die Bewältigung dieser Schwierigkeiten klassifizieren. Die wichtig- sten Klassifizierungsmerkmale sind der Erkennungsmodus (Einzelwort, Wortketten, kontinuierliche Sprache, Filterung von Nebengeräuschen), der Grad der Sprecherab- hängigkeit (sprecherabhängig, sprecheradaptiv, sprecherunabhängig) und der Voka- bularumfang. Im Vordergrund heutiger Entwicklungen stehen Sprachdialogsysteme mit relativ unbeschränktem Dialogablauf, die sprecherunabhängig und unter eher widrigen Umgebungsbedingungen gute Erkennungsraten liefern. Zufrieden stellende Erkennungsraten sind von großer Bedeutung für die nachfolgenden Systemkompo- nenten.

Die vom Spracherkenner erstellte formale Repräsentation der Benutzeräußerung wird im nächsten Schritt dem Sprachverstehensmodul (NLU = Natural-Language-Understanding) übergeben. In diesem Modul wird die symbolische Repräsentation in eine vom Sy- stem abhängige logische Form umgewandelt. Hierbei werden syntaktische Analysen der Benutzeräußerungen vorgenommen, die in den erzeugten Spracherkennerhypo- thesen enthaltene semantische Information extrahiert und mit Hilfe des Dialogma- nagers die Systemreaktion auf die Benutzeräußerung abgeleitet. Dabei wird aus der Folge von Dialogakten des Benutzers und des Systems in geeigneter Weise die näch- ste Reaktion des Dialogsystems (z.B. als Folge von Dialogakten) bestimmt, wobei Anfragen an interne und externe Datenbanken gestellt werden können. Auf dieser Ebene wird also auf sprachliches, Diskurs- bzw. episodisches sowie referentielles bzw. Weltwissen zurückgegriffen. Danach muss die Systemantwort ebenfalls in eine symbo- lische Repräsentation umgesetzt werden, aus welcher das Sprachgenerierungsmodul (NLG natural language generation) eine Antwort erzeugt. Im einfachsten Fall wird eine vorher festgelegte Standardphrase ausgewählt und mittels Sprachsynthese (TTS text to speech) in ein akustisches Sprachsignal umgewandelt. Schließlich wird das Sprachsignal auf den zum Benutzer führenden Kanal, also dem Telefon ausgegeben.

Die Gestaltung eines Dialogsystems sollte sich an den Bedürfnissen, Fähigkeiten und Kenntnissen potentieller Anwender ausrichten.

”OrientiertmansichamMensch- Mensch-Dialog, so müßte man vom System fordern, daß es sich auf jeden Benutzer individuell einstellt und dabei auch noch abhängig vom Grad der Vertrautheit des Benutzers mit dem System reagiert.“24 Allerdings setzt dabei die Leistungsfähigkeit der Spracherkennungs- und Sprachverstehenssysteme Grenzen. Eine Möglichkeit, die Fehlerrate bei Spracherkennung und -verstehen gering zu halten, ist die Steuerung und Beschränkung der Interaktionsmöglichkeiten des Benutzers. Allerdings beeinflusst dieses Vorgehen die Natürlichkeit des Dialogs.

Möglicherweise ist davon auszugehen, dass spontan geäußerte Sprache in zukünfti- gen Dialogsystemen eine zunehmend wichtigere Rolle spielen wird, ist es doch dank der fortschreitenden technischen Entwicklung mittlerweile möglich, neben den reinen Sprachsignalen auch sprachbegleitende Mimik und Gestik von Sprechern in die digi- tale Verarbeitung einzubeziehen. Da es sich bei dem dieser Arbeit zugrunde liegenden Untersuchungsgegenstand jedoch um rein gesprochensprachliche Telefondialoge (also unimodale Dialoge) handelt, sollen andere Modalitäten als die Sprache selbst außer Acht gelassen werden und im folgenden unimodale Dialogsysteme im Vordergrund stehen.

3.2.3 Klassifikation von Dialogsystemen

Sprachdialogsysteme lassen sich nach verschiedenen Kriterien klassizieren, unter anderem hinsichtlich der Spracherkennerfähigkeiten in Bezug auf den Grad der Sprecherabhängigkeit (sprecherabhängig, sprecheradaptiv, sprecherunabhängig), hinsichtlich sprachlicher Restriktionen (natürliche vs. beschränkte Dialoge), hinsichtlich der Inputmodi (unimodal vs. multimodal) und hinsichtlich der Dialoginitiative (systemgesteuerter Dialog - directed dialogue, gemischte Initiative - mixed-initiative dialogue und nutzergesteuerter Dialog - user-driven dialogue).

3.2.4 Evaluation von Dialogsystemen

Die vier Kriterien, die zur Evaluation von Dialogsystemen herangezogen werden, zeigt Tabelle 3.1 im Überblick.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 3.1: Evaluation von Dialogsystemen

3 Mensch-Maschine-Kommunikation 35

3.3 Vor- und Nachteile natürlicher Sprache in Informationssystemen

Die Vorteile der natürlichen Sprache als Schnittstelle zum Computer und seinen Anwendungsprogrammen sind von Beginn an hervorgehoben worden. Das Hauptar- gument dabei ist, dass die natürliche Sprache ein allgegenwärtiger Mechanismus im alltäglichen Leben eines Menschen ist und somit auch gut von jedem Computerlaien beherrscht werden kann. Es muss keine formale oder anders geartete Anfragesprache erlernt werden und es bedarf nur minimaler Einarbeitungszeit für den Benutzer. Dies soll unter anderem dazu führen, dass psychologische Sperren abgebaut werden und somit ein Zugang zu Computersystemen für jedermann besteht. Ferner gehen einige Autoren davon aus, dass sich komplizierte Fragen in natürlicher Sprache problemlo- ser ausdrücken lassen. Daneben ermöglicht der Einsatz natürlicher Sprache neuartige Anwendungen wie z.B. das Abfragen von E-Mail über Telefon oder die Gestaltung von Anwendungen, bei denen der Benutzer neben der gesprochensprachlichen Kom- munikation gleichzeitig anderen Tätigkeiten nachgehen kann (Autofahren, Maschine bedienen) - natürliche Sprache also als zusätzliche Eingabemodalität, entweder als Komponente eines multimodalen Systems (kombiniert mit manuellem Input) oder aber als einzige Eingabemodalität, wenn andere Eingabemodalitäten nicht möglich, nicht praktikabel, nicht nützlich oder nicht erwünscht sind.

Für Betreiber von Sprachdialogsystemen ergeben sich weitere Vorteile finanzieller sowie funktioneller Art. So ist ein Dialogsystem Tag und Nacht verfügbar und stets höflich und unerschöpflich geduldig. Durch geringeren Personaleinsatz und verbesserte Personalplanung ergeben sich einerseits Kosteneinsparungen und andererseits Verbesserungen im Kundenservice durch geringere Wartezeiten und die Verfügbarkeit der Mitarbeiter im Servicebereich.

Eine natürlichsprachliche Dialogschnittstelle bietet Benutzern und Betreibern nicht zu unterschätzende Vorteile, dennoch ist sie nicht für alle Anwendungen sinnvoll und praktikabel. Bei einigen hat sich vielmehr die Gerätspezifische Handhabung bewährt und konventionalisiert (z.B. Telefon). Es müsste in Zukunft also weiter erforscht werden, in welchen Bereichen und Domänen sich der Einsatz natürlichsprachlicher Systeme lohnt, wo er hilfreich und nützlich und wo er weniger von Vorteil oder sogar hinderlich wäre. Denn es gibt einige Kriterien, die gegen ein natürlichsprach- liches Interface sprechen. So erscheint die natürliche Sprache weniger präzise und explizit und stellt die maschinelle Sprachverarbeitung vor schwer zu lösende lingui- stische Probleme (Ellipsen, unakzeptable Sätze, Vagheit der Ausdrücke, Ambiguität, Deduktionsprozesse), die in Sprachdialogsystemen zu langwierigen Klärungsdialogen führen. Darüber hinaus gibt natürliche Sprache dem Benutzer die Illusion unbegrenz- ter maschineller Intelligenz, was Differenzen zwischen Benutzererwartungen und tat- sächlichen Fähigkeiten eines Systems hervorruft. Wird nämlich zur Steuerung eines Systems eine formale Sprache verwendet, so müssen die Anwender diese zunächst erlernen und erfahren dabei gleichzeitig die Funktionsweise des Systems. Anders bei natürlichspachlichen Systemen. Hier muss der Anwender keine neue Interaktions- sprache erlernen und verliert damit eine Möglichkeit, das verwendete System besser verstehen zu lernen. Anwender neigen dann dazu, unvollständige Anfragen zu stel- len oder aber Funktionen aufzurufen, die das System überhaupt nicht bietet. Um diese Unstimmigkeiten in Einklang zu bringen, können einerseits Schnittstellen ent- wickelt werden, die möglichst alle Erwartungen des Benutzers erfüllen (was bisher aber nur für beschränkte Domänen möglich ist und sich nicht ohne weiteres auf andere Domänen übertragen lässt) oder andererseits sollten Systeme entstehen, die es dem (trainierten) Benutzer erlauben, ein konstistentes konzeptuelles Modell von der Domäne und dem System selbst (mit all seinen Funktionen) zu entwerfen, so dass sie die Arbeitsweise des Systems besser verstehen können. Eine Möglichkeit, dies zu erreichen ist das Feedback (vgl. z.B. Zolton-Ford, 1984 und Slator et al., 1986), das z.B. dafür eingesetzt werden kann, die Eingabesprache des Benutzers zu beschränken.

[...]


1 Krause, 1992b, S.2

2 vgl. Wagner, 2001, S. 64

3 Sagawe, 1994, S. 33

4 Wagner, 2001, S. 64

5 Morik, 1995, S. 8

6 Morik, 1995, S. 9

7 Glück, 1993, S. 139

8 Schu, 2001, S, 1014 ”beschnuppert“).DanachgehtdasGespräch

9 vgl. dazu Neu, 2000, Alexandersson et al., 1998 und Alexandersson, 1997

10 aus Kawashima, 2000, S. 327; nach Heiner Pürschel

11 Janetzko, 1998, S. 293f.

12 Reischer, 2000, S. 17f.

13 Reischer, 2000, S. 19

14 Reischer, 2000, S. 19

15 Reischer, 2000, S. 20

16 vgl. z.B. Herrmann, 1986

17 Sagawe, 1994, S. 33

18 Sagawe, 1994, S. 32f.

19 Winograd and Flores, 1986

20 Waltz, 1995

21 Brietzmann, 1992, S. 103

22 Müller, 2003, S. 1f.

23 Da es sich bei den in der vorliegenden Arbeit untersuchten Dialogen um Dialoge mit einem simulierten unimodalen Dialogsystem mit Interaktion über Telefon handelt, werden im folgenden zum einen nur unimodale Dialogsysteme betrachtet und muss zum anderen der Übertragungskanal Telefon mit berücksichtigt werden.

24 Fellbaum, 1992, S. 163

Ende der Leseprobe aus 164 Seiten

Details

Titel
Untersuchungen zur Pragmatik der sprachlichen Interaktion mit Dialogsystemen
Hochschule
Ruprecht-Karls-Universität Heidelberg  (Lehrstuhl für Computerlinguistik Neuphilologische Fakultät)
Note
1,5
Autor
Jahr
2003
Seiten
164
Katalognummer
V75319
ISBN (eBook)
9783638849746
ISBN (Buch)
9783638849135
Dateigröße
1533 KB
Sprache
Deutsch
Schlagworte
Untersuchungen, Pragmatik, Interaktion, Dialogsystemen
Arbeit zitieren
Manja Baudis (Autor:in), 2003, Untersuchungen zur Pragmatik der sprachlichen Interaktion mit Dialogsystemen, München, GRIN Verlag, https://www.grin.com/document/75319

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Untersuchungen zur Pragmatik der sprachlichen Interaktion mit Dialogsystemen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden