Homepage > Katalog > Ingenieurwissenschaften - Wirtschaftsingenieurwesen

Entwicklung von Sprachassistenten als intelligente Mensch-Maschine-Schnittstelle im Business-Kontext

Name: Entwicklung von Sprachassistenten als intelligente Mensch-Maschine-Schnittstelle im Business-Kontext
Price: 49.99 EUR
Availability: InStock
Author: Viktoria Medvedenko
ISBN: 9783346304759

Ein Prototyp und seine Usability

Masterarbeit, 2018

160 Seiten, Note: 1,0

Viktoria Medvedenko (Autor:in)

Leseprobe

Inhaltsverzeichnis

1 Einleitung
1.1 Motivation
1.2 Ziel und Forschungsfragen
1.3 Methodische Vorgehensweise
1.4 Struktur der Arbeit

2 Theoretische Grundlagen
2.1 Business-Kontext
2.2 Mensch-Maschine-Interaktion
2.3 Künstliche Intelligenz
2.4 Sprachassistenzsysteme

3 Analyse der aktuellen Anwendung von Sprachassistenzsystemen
3.1 Aktuelle Anwendung im privaten Kontext
3.1.1 Nutzung von Sprachassistenzsystemen
3.1.2 Bestehende Sprachassistenzsysteme
3.2 Aktuelle Anwendung im Business-Kontext
3.2.1 Nutzung Künstlicher Intelligenz
3.2.2 Bestehende (Sprach-)Assistcnzsystcmc
3.3 Implikationen für den Business-Kontext
3.3.1 Chancen von Sprachassistenzsystemen
3.3.2 Risiken von Sprachassistenzsystemen

4 Prototypen von Sprachassistenten: Eine Anwendung von Design-Thinking
4.1 Design-Thinking
4.2 Interviewtechnik
4.3 Identifikation von Use-Cases
4.4 Anforderungsanalyse
4.5 Prototyping
4.6 Usability-Test

5 Konzeption einer Architektur für Sprachassistenz im Business-Kontext
5.1 Use-Cases für Sprachassistenz im Business-Kontext
5.2 Entwicklungsumgebungen für Sprachassistenten
5.3 Allgemeine Anforderungen an die Architektur
5.4 Konzipierte Architektur

6 Entwicklung eines Prototyps für Sprachassistenz im Microsoft-Umfeld
6.1 Auswahl und Beschreibung des Use-Cases
6.2 Auswahl und Beschreibung der Microsoft-Umgcbung
6.3 Konkrete Anforderungen an den Prototyp
6.4 Entwickelter Prototyp
6.4.1 Umgesetzte Anforderungen
6.4.2 Entwicklung im Zeitverlauf
6.4.3 Interaktionsablauf zwischen Nutzer und Sprachassistent
6.4.4 Codestruktur des Prototyps

7 Evaluation
7.1 Evaluation der Use-Cases
7.2 Evaluation der Entwicklungsumgebungen
7.3 Evaluation der konzipierten Architektur
7.4 Evaluation des entwickelten Prototyps
7.5 Evaluation des eigenen Vorgehens

8 Zusammenfassung und Ausblick
8.1 Beantwortung der Forschungsfragen
8.2 Ausblick auf weitere Forschung

A Anhang zu Interviews

B Anhang zur Implementierung

Literaturverzeichnis

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

2.1 Mensch-Maschine-Interaktion

2.2 Support-Vector-Machines

2.3 Schritte einer Interaktion

3.1 Übersicht der bestehenden Assistenzsysteme

4.1 Anforderungen an eine Innovation

4.2 Schritte des Design-Thinking-Prozesses

4.3 Übersicht der durchgeführten Interviews

4.4 Auszug der Folien für Interviews zur Use-Case-Identifikation

4.5 Auszug der Folien für Interviews zur Anforderungsanalyse

4.6 Software-Qualitätskriterien gemäß ISO/IEC

4.7 Agiles Vorgehensmodell nach Serum

4.8 Auszug der Folien für Usability-Tests

4.9 Beispiel-Interaktion mit dem Prototyp

5.1 Interaktionsszenarios nach Arbeitssituationen und Funktionalitäten

5.2 Allgemeine Architektur für Sprachassistenz im Business-Kontext

5.3 Morphologischer Kasten - Optionen zur Entwicklung einer Architektur

6.1 Microsoft Bot Framework

6.2 Morphologischer Kasten - Optionen zur Implementierung des Prototyps

6.3 Übersicht der Sprint Backlogs mit jeweils umgesetzten Funktionalitäten

6.4 Schematischer Interaktionsablauf des Prototyps

6.5 Codestruktur des Prototyps als Module-View

7.1 Evaluation der Funktionalitäten

7.2 Evaluation der Arbeitssituationen

7.3 Beispiele für die Anwendung der Architektur

7.4 Übersicht aller Eingaben der Usability-Tester

7.5 Eingaben der Usability-Tester in Runde 1 und 2

7.6 Eingaben der Usability-Tester nach technischer Affinität

A.l Foliensatz zur Identifikation von Use-Cases

A.2 Foliensatz zur Anforderungsanalyse

A.3 Foliensatz zu Usability-Tests

A.4 Screenshots zu Szenario 1 - Passwort vergessen

A.5 Screenshots zu Szenario 2 - Kein VPN

A.6 Screenshots zu Szenario 3 - Exchange Login

B.1 Screenshots der LLTS-Oberfläche - Intents

B.2 Screenshots der LLTS-Oberfläche - Entities

B.3 Detaillierter Interaktionsablauf des Prototyps

Tabellenverzeichnis

1.1 Alternatives Leseschema

4.1 Übersicht der befragten Experten

4.2 Interaktionsszenarios aus Experteninterviews

4.3 Auszug des Product Backlogs

4.4 Übersicht der befragten Usability-Tester

5.1 Funktionsumfang verschiedener Entwicklungsplattformen

A.l Aussagen durch weniger technikaffine Usability-Tester in Runde 1

A.2 Aussagen durch technikaffine Usability-Tester in Runde 1

A.3 Aussagen durch weniger technikaffine Usability-Tester in Runde 2

A.4 Aussagen durch technikaffine Usability-Tester in Runde 2

B.1 Product Backlog für den Prototyp

1. Einleitung

1.1 Motivation

Für die private Nutzung sind Sprachassistenten wie Siri, Google Assistant, Cortana oder Alexa mittlerweile weit verbreitet. Zu deren regelmäßigen Nutzern zählen bereits 46 % der Bevölkerung in den USA [Pewl7], Allerdings hat sich bisher kein Sprachassistent zur gezielten Unterstützung im Arbeitsalltag etabliert [Coml7], So interagieren Mitarbeiter mit ihren Geräten am Arbeitsplatz noch nicht täglich über Sprachbefehle wie „Stelle einen Termin mit meinem Chef für Dienstag ein.“ oder „Was sind die aktuellen Verkaufszahlen?“.

Dabei bestehen Überlegungen zu Sprachassistenzsystemen im Business-Kontext nicht erst seit Kurzem: Optimistisch prophezeite Whit Andrews, Vice President bei Gartner Research, im Jahre 2012, dass Ende 2017 ein Viertel aller Mitarbeiter über fünf Mal am Tag in natürlicher Sprache mit Geschäftsanwendungen kommunizieren würde [AKK12], Damals hatten die Leistungen von Watson und die Verbesserungen von Siri Interesse bei zahlreichen Organisationen geweckt, doch die Bereitstellung von Lösungen für Mitarbeiter ließ auf sich warten [Ragl7], Stattdessen konzentrierten sich Unternehmen auf den Einsatz von Dialog-Systemen und Chatbots zur Kommunikation mit ihren Kunden [HJ18], Mittlerweile sind auch die Investitionen in Künstliche Intelligenz (KI) gestiegen [Boul7], wodurch wiederum neue Möglichkeiten für die Integration von Sprachassistenzsystemen in den Arbeitsalltag entstehen: Vertreter deutscher Großunternehmen sehen im Vergleich zum bisherigen Kl-Einsatz das höchste Potential in den Bereichen „Intelligente Automatisierungstechnologien“, „Digitale Assistenten“ und „Sprachgesteuerte Anwendungen“ [Sopl7], Ein Bedarf ist damit erkennbar. Auch das Angebot ist seit Mitte 2017 angestiegen: Während der Erstellung dieser Masterarbeit sind fast gleichzeitig drei neue Lösungen angekündigt worden, die Sprachassistenzsysteme im Büro verankern sollen [AmalS] [I.A18] [Goel7], Aus technischer Sicht stellt ein Sprachassistenzsystem am Arbeitsplatz zunächst eine neue Schnittstelle zur Interaktion mit Geräten dar. Muss ein Nutzer z.B. über Tastatur, Maus oder Touchscreen bisher ganz eindeutige Signale an den Computer geben, kann ein Sprachassistent auch ungenaue Angaben und verschiedene Formulierungen in natürlicher Sprache verstehen. Diese konversationale Schnittstelle kann auch weitere Funktionalitäten beinhalten, durch die ein „assistierender Kollege mit künstlicher Intelligenz“ entsteht [GuslS], Bei einer angemessenen Implementierung einerseits und der Akzeptanz des Mitarbeiters andererseits ermöglicht eine solche Lösung, den Ablauf des Arbeitsalltags grundlegend zu verändern: So kann der Sprachassistent auch komplexere Aufgaben im Namen des Nutzers erledigen, indem er implizit andere Geschäftssoftware bedient. Personalisierung erlaubt wiederum, Vorlieben und Gewohnheiten des Mitarbeiters zu erlernen und bei der beidseitigen Kommunikation zu berücksichtigen. Nicht zuletzt kann ein Sprachassistent durch Zugriff auf Big Data und Enzyklopädie-Wissen die „menschliche Intelligenz um künstliche Intelligenz erweitern“ [Viol7], Insgesamt würden dadurch Mitarbeiter entlastet, Vorgänge beschleunigt sowie Arbeitszeit und somit Kosten gespart. Ein Unternehmen, das Sprachassistenten im Business-Kontext einsetzt, profitiert daher von einem Wettbewerbsvorteil [GuslS].

1.2 Ziel und Forschungsfragen

In dieser wissenschaftlichen Arbeit wird untersucht, wie Sprachassistenzsysteme zum Einsatz im Business-Kontext konzipiert und mit bestehenden Technologien umgesetzt werden können. Dabei wird einerseits die Usability aus Sicht des Endnutzers, andererseits die Technologie aus Sicht des Entwicklers betrachtet.

In diesem Kontext widmet sich die Arbeit den folgenden zwei Forschungsfragen:

1. Wie kann allgemein eine Anwendung für Sprachassistenzsysteme zur Unterstützung im Business-Kontext entwickelt werden?

Die Antwort auf diese Frage umfasst mehrere Komponenten: Bezüglich der Usability werden relevante Use-Cases für den Einsatz von Sprachassistenzsystemen im BusinessKontext vorgeschlagen und allgemeine Anforderungen an eine Lösung aufgezeigt. Auf der technologischen Seite werden verschiedene Entwicklungsumgebungen empfohlen und eine allgemeine fachliche Architektur präsentiert.

2. Wie kann in der Microsoft-Umgebung eine Anwendung für Sprachassistenzsysteme zur Unterstützung im Business-Kontext entwickelt werden und welcher Usability- Zuwachs entsteht dabei für Endnutzer?

Zur Beantwortung dieser Frage wird das allgemeine Konzept aus der ersten Forschungsfrage in einem konkreten Prototyp umgesetzt. Ergebnis ist ein Cortana-Skill, welcher als IT-Support-Helpdesk fungiert und Mitarbeiter bei der Behebung von technischen Problemen unterstützt. Mit Blick auf die technische Entwicklung werden Möglichkeiten und Grenzen der Micro soft-Umgebung dargestellt sowie die Codestruktur des Prototyps dokumentiert. Ebenso werden konkrete Anforderungen an die Usability des Prototyps präsentiert und die Eignung der entwickelten Lösung bewertet.

Es sei darauf hingewiesen, dass in dieser Arbeit kein eigenes Sprachassistenzsystem entwickelt wird. Vielmehr erfolgt eine Machbarkeitsanalyse, inwiefern mit bestehenden Entwicklungsumgebungen bereits eine Programmierung für den Einsatz im Business-Kontext möglich ist. Bei der Prototyp-Entwicklung liegt der Fokus auf der Gestaltung eines als natürlich wahrgenommenen Dialogs zwischen Benutzer und Sprachassistent. Aspekte, wie Sicherheit und Datenschutz bei der Interaktion, sowie die Einbettung in eine Produktivumgebung eines Unternehmens, werden in den Hintergrund gestellt.

1.3 Methodische Vorgehensweise

Sowohl die Konzeption der allgemeinen Architektur als auch die Entwicklung des konkreten Prototyps orientieren sich an der Methodik des „Dcsign-Thinking“. Bei dieser Vorgehensweise stehen die potentiellen Endnutzer eines Produkts oder Services im Mittelpunkt [HASH, S.5], So gilt es zunächst, den Blickwinkel der Endnutzer zu untersuchen. Im Rahmen der Masterarbeit wurden hierfür sechs Tiefeninterviews durchgeführt, um geeignete Use-Cases zum Einsatz von Sprachassistenten im Arbeitsalltag zu identifizieren.

Im Anschluss erfolgte die Auswahl eines spezifischen Use-Cases zur Entwicklung des Prototyps. Für das gewählte Interaktionsszenario wurden in sechs weiteren Experteninterviews Anforderungen an den Prototyp definiert. Diese Anforderungen wurden bei der Implementierung berücksichtigt und dienten am Ende zur Bewertung des Prototyps.

Die technische Umsetzung des Prototyps war in zwei übergreifende Runden unterteilt: In jeder Runde wurden spezifische Anforderungen realisiert und das Ergebnis durch potentielle Endnutzer evaluiert. Dazu wurden am Ende beider Runden jeweils sechs Usability-Tests durchgeführt. Innerhalb eines Tests interagierte ein potentieller Endnutzer szenariobasiert mit dem Prototyp und gab qualitatives Feedback. Diese Rückmeldungen flössen wiederum in die Weiterentwicklung des Prototyps ein. Insgesamt wurden daraus allgemeine Aussagen über die Interaktion zwischen Mitarbeitern und Sprachassistenten abgeleitet.

Diese Masterarbeit wird in Kooperation mit der Management- und Technologieberatung „Campana & Schott GmbH“ verfasst. Sämtliche Interviewpartner und Usability-Tester sind Mitarbeiter des Unternehmens. Aufgrund der Partnerschaft zwischen Microsoft und Campana & Schott kann bei der Bearbeitung der Forschungsfragen begünstigt auf Ressourcen und Expertise im Umgang mit Microsoft-Technologien zugegriffen werden.

1.4 Struktur der Arbeit

Zunächst werden in Kapitel 2 die in der Arbeit verwendeten Fachbegriffe definiert und theoretische Grundlagen erläutert, die für das weitere Verständnis relevant sind. Dabei werden die Grundzüge der Künstlichen Intelligenz umrissen und die Komponenten eines Sprachassistenzsystems aus wissenschaftlicher Sicht dargelegt.

Die Analyse in Kapitel 3 beschäftigt sich mit aktuellen Trends der Nutzung von Sprachassistenzsystemen im privaten wie im professionellen Umfeld. Gleichzeitig werden Chancen und Risiken von Sprachassistenzsystemen beleuchtet.

In Kapitel 4 wird das genaue Vorgehen mittels Design-Thinking geschildert, wobei die Abläufe und Ergebnisse der verschiedenen Interviews sowie die Schritte beim Prototyping aufgezeigt werden. Dieses Kapitel dient gleichzeitig als Fallstudie und kann wie die Analyse in Kapitel 3 unabhängig vom Rest der Arbeit gelesen werden.

Im Anschluss wird in Kapitel 5 das allgemeine Konzept in Form einer fachlichen Architektur präsentiert. Ergänzend werden relevante Use-Cases für Sprachassistenten im BusinessKontext aufgezeigt, Anforderungen an Usability und Technologie definiert und ein Überblick über bestehende Entwicklungsumgebungen geschafft.

Codestruktur und Interaktionsablauf des konkreten Prototyps werden in Kapitel 6 illustriert. Zusätzlich wird eine Analyse der technischen Möglichkeiten und Limitierungen für die Microsoft-Entwicklungsumgebung durchgeführt.

Eine kurze Evaluation der Use-Cases, der Entwicklungsumgebungen und des allgemeinen Konzepts sowie eine ausführliche Bewertung des konkreten Prototyps erfolgen in Kapitel 7. Gleichzeitig wird das eigene Vorgehen bei der Erstellung der wissenschaftlichen Arbeit kritisch betrachtet.

Zum Schluss werden die Ergebnisse dieser Arbeit zusammengefasst und die zuvor aufgestellten Forschungsfragen beantwortet. Nach der Zusammenfassung schließt Kapitel 8 mit einem Ausblick auf weitere Forschung.

Im Anhang sind Screenshots, Abbildungen, Tabellen und Code-Auszüge aufgeführt, die tiefere Einblicke in die Interviews und den Implementierungsprozess ermöglichen. Diese Ressourcen werden in den entsprechenden Text-Passagen referenziert.

Da innerhalb dieser Struktur an verschiedenen Stellen jeweils Usability- und TechnologieAspekte beschrieben sind, wird in Tabelle 1.1 ein alternatives Leseschema angeboten: Bei überwiegendem Interesse an Usability und Mensch-Maschine-Interaktion sollten die auf der linken Seite gelisteten Abschnitte bevorzugt gelesen werden. Leser, die sich besonders mit Künstlicher Intelligenz und Entwicklungsumgebungen für Sprachassistenten beschäftigen, können sich an den Abschnitten auf der rechten Seite orientieren.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1.1: Alternatives Leseschema

2. Theoretische Grundlagen

In diesem Kapitel werden die in der Arbeit verwendeten Begriffe definiert und Grundlagen erklärt, die der Leser für das weitere Verständnis benötigt. Zudem erfolgt auf Basis der Begriffsbestimmung eine genauere Abgrenzung des Themas.

Im Speziellen wird in dieser Masterarbeit die Integrierbarkeit von Sprachassistenten in den Business-Kontext untersucht. Übergreifend hängt dieses Thema u.a. mit der Frage zusammen, wie Menschen bisher mit Maschinen interagieren und inwiefern sich diese Interaktion durch Künstliche Intelligenz verändern kann. Daher werden im Folgenden zunächst ausgewählte Grundlagen zum Business-Kontext und zur Mensch-Maschine-Interaktion erläutert. Im Anschluss werden Grundzüge der Künstlichen Intelligenz und deren Methoden skizziert, sowie verschiedene Implementierungsansätze für Sprachassistenzsysteme vorgestellt.

2.1 Business-Kontext

In diesem Abschnitt wird der Begriff Business-Kontext im Sinne der Masterarbeit definiert. Insbesondere soll dabei auch ein Verständnis für das Arbeitsumfeld von Mitarbeitern geschaffen werden, da sie im Zentrum der Untersuchungen stehen. Zunächst wird dazu der Stellenwert von Mitarbeitern im Unternehmen hervorgehoben:

Ein Unternehmen kann als ein organisierter Zusammenschluss von Personen verstanden werden, in dessen Rahmen die Wertschöpfung und der Verkauf von Produkten oder Dienstleistungen mit einer Gewinnerzielungsabsicht erfolgen [KetlS, S. 1 ff.]. Um diese Gewinne zu maximieren, streben Unternehmen danach, den Umsatz zu erhöhen und die Kosten zu senken. Einige wichtige Stellhebel für die Umsatzmaximierung sind Produkt- und Dienstleistungsinnovationen, die Kundenzufriedenheit oder auch die Marktpositionierung gegenüber Konkurrenten. Bezüglich der Kosten wird versucht, Einkaufspreise zu senken oder den Ressourceneinsatz zu verringern. Zu Ressourcen zählen aus betriebswirtschaftlicher Sicht neben Werkstoffen und Betriebsmitteln auch Mitarbeiter und deren Arbeitsleistung [Gutl3, S. 3 ff.]. Um eine hohe Produktivität von Mitarbeitern sicherzustellen, zielen Unternehmen darauf ab, bereits möglichst qualifizierte Personen einzustellen und sie selbst weiterzuentwickeln. Ebenso wird versucht, effiziente und effektive Arbeitsabläufe sowie eine angenehme Arbeitsatmosphäre zu schaffen und passende Arbeitsmittel bereitzustellen [Zeul6, S. 4], Im angelsächsischen Sprachraum werden Mitarbeiter oft als „White-Collar-Worker“ oder „Blue-Collar-Worker“ klassifiziert [Cro62]: Einem „White-Collar-Worker“ lassen sich Aufgaben wie Administration, Design, Analyse, Planung, Mitarbeiterführung und Handel zuordnen. „Blue-Collar-Worker“ führen hingegen in erster Linie mechanische Tätigkeiten aus, um materielle Gegenstände brauchbar zu machen, z.B. in der Produktion oder auf einer Baustelle. Die Farbkodierung entspricht der Kleiderordnung aus dem 19. Jahrhundert, nach der Büro-Mitarbeiter weiße Hemden und Handwerker blaue Overalls trugen [HP83, S. 47].

Ausgehend von dieser Unterscheidung wird im weiteren Verlauf der Masterarbeit der Begriff „Business-Kontext“ im Sinne von „Arbeitsumfeld eines White-Collar-Workers im Büro“ verwendet. Sprachassistenzsysteme sind zwar auch für die Unterstützung von Blue- Collar-Wor kern relevant, weil die Hände für die eigentliche Tätigkeit frei bleiben. In dieser wissenschaftlichen Arbeit werden jedoch ausschließlich White-Collar-Worker in Betracht gezogen. Eine weitere Abgrenzung erfolgt durch den Fokus auf Bürotätigkeiten. Damit werden White-Collar-Worker in anderen Arbeitsumgebungen, wie Krankenhäusern oder Schulen, ausgeschlossen. Ferner dient der Begriff „Business-Kontext“ auch zur Unterscheidung vom „privaten Kontext“, in dem Personen nicht in ihrer Rolle als Mitarbeiter agieren.

Aus einer übergreifenden Perspektive betrachtet, wird das heutige Arbeitsumfeld eines jeden White-Collar-Workers im Büro durch verschiedene Megatrends beeinflusst [Zukl7]: Dazu zählt beispielsweise der Ansatz „New Work“, durch den Arbeitnehmern Freiräume für Kreativität, selbständiges Handeln und persönliche Entfaltung aktiv eingeräumt werden. Gleichzeitig entsteht durch die „Wissenskultur“ ein einfacherer Zugang zu einer stetig wachsenden Wissensmenge. Entsprechend dem Megatrend der „Konnektivität“ erfolgen Organisation und Kommunikation von Menschen und Maschinen in Netzwerken. Dies geht für Mitarbeiter auch mit durchgängiger Erreichbarkeit einher.

Aus einer detaillierteren Perspektive betrachtet, ist ein Büroarbeitsplatz ein komplexer Ort mit eigenen Regeln und Strukturen, an dem sich Büromitarbeiter einen großen Teil ihres Lebens aufhalten. Einem Unternehmen ist dabei wichtig, dass dieser Arbeitsplatz die Produktivität der Mitarbeiter fördert. In dieser Masterarbeit wird an unterschiedlichen Stellen erwähnt, welche positiven und auch negativen Auswirkungen Sprachassistenten auf ein solches Arbeitsumfeld eines White-Collar-Workers implizieren. Daher werden nachfolgend ihre mentalen, sozialen und physischen Charakteristika beschrieben.

Im Vergleich zu Blue-Collar-Workern arbeiten White-Collar-Worker primär an informatorisch-mentalen Aufgaben. Diese zeichnen sich durch (1) eine Informationsaufnahme über Sinnesorgane, (2) die Informationsverarbeitung durch Verknüpfung mit Gedächtnisinhalten und (3) die Informationsabgabe durch Sprache, Gesten oder weitere Handlungen aus [SBL10, S. 287], Bei solchen wissensintensiven Arbeitsplätzen stehen daher die psychischen Stärken im Vordergrund. Oft werden hohe Anforderungen an die Lernfähigkeit und Kreativität der Arbeitnehmer gestellt [RHBH17], Durch die Informationsflut, komplexe Vorgänge der Entscheidungsfindung und das Tragen von Verantwortung entsteht eine permanente mentale Belastung und Beanspruchung [KLL17], Daraus können sich psychische Erkrankungen wie „Burn-Outs“ entwickeln, womit Depressionen, Befindlichkeitsstörungen und chronische Erschöpfung assoziiert werden [KH12], Darunter leiden wiederum die Produktivität und Einsatzfähigkeit eines Mitarbeiters. Ein Unternehmen sollte daher eine Arbeitsatmosphäre schaffen, in der sich Mitarbeiter langfristig wohlfühlen können.

Dabei spielt auch der soziale Faktor eine wichtige Rolle: Viele Kollegen teilen sich über mehrere Jahre hinweg Tag für Tag einen gemeinsamen Arbeitsraum und verbringen oft mehr Zeit miteinander als mit eigenen Familienmitgliedern. So ist es förderlich, wenn ein Arbeitnehmer eine gute Beziehung mit seinen Kollegen, Vorgesetzten und eigenen Mitarbeitern aufweist. Nicht zuletzt sind die Beziehungen und der Platz eines Mitarbeiters in der Unternehmenshierarchie mit einem gewissen Ansehen verbunden. Bei sozialen Konflikten besteht am Arbeitsplatz jedoch keine Möglichkeit auszuweichen [Merl4, S. 1], Aufgrund von geringer Bewegung bei vorwiegend sitzenden Tätigkeiten ergeben sich auch gesundheitliche Risiken, wie die Verkürzung der Rückenmuskulatur und die Schwächung von Bauch-, Bein- und Gesäßmuskeln. Dadurch können chronische Schmerzen und letztlich Arbeitsunfähigkeit verursacht werden [Bunl2], Aufgrund der durchgängigen Arbeit am Bildschirm ist auch eine Gefährdung des Sehvermögens gegeben [KLL17], Damit ein WhiteCollar-Worker bei der Arbeit gesund bleibt und sich konzentrieren kann, müssen zudem zahlreiche physische Anforderungen an Klima, Beleuchtung und Schalldämpfung erfüllt sein [RHBH17], Solche Faktoren mögen zwar trivial erscheinen, können bei minimalen Abweichungen die Konzentration jedoch erheblich beeinflussen [KLL17], z.B. wenn es zu warm, zu hell oder zu laut ist. Diesem Thema widmet sich das Forschungsgebiet der „Ergonomie“. Dabei müssen auch Ausstattung und Arbeitsmittel - am Büroarbeitsplatz insbesondere Tisch, Stuhl und Bildschirm - an die Fähigkeiten und Eigenschaften des Mitarbeiters angepasst sein bzw. muss sich der Mitarbeiter an diese anpassen können [Bul94].

Die genannten Herausforderungen für ein konzentrationsförderndes Arbeitsumfeld sind für das Gesamtverständnis im Rahmen dieser Masterarbeit relevant. Im Vordergrund steht jedoch die Interaktion mit technischen Arbeitsmitteln. Daher werden im nächsten Abschnitt die Grundlagen der sogenannten „Mensch-Maschine-Interaktion“ detaillierter vorgestellt.

2.2 Mensch-Maschine-Interaktion

Dieser Abschnitt widmet sich Grundlagen der Mensch-Maschine-Interaktion und der Usability im Business-Kontext: Für viele Büromitarbeiter repräsentieren heutzutage Stand- Monitore, tragbare PCs und Smartphones die primären Arbeitsmittel [KFF17], Damit finden die Informationsaufnahme und -abgabe im Rahmen ihrer informatorisch-mentalen Arbeitsvorgänge statt. Diese Bedienung erfolgt über eine „Benutzerschnittstelle“, auch „MenschMaschine-Schnittstelle“ oder im Englischen „Human-Machine Interface“ (HMI) genannt.

Eine Schnittstelle ist zunächst als Grenze zwischen zwei Systemen definiert, an der diese Systeme aufeinandertreffen und miteinander interagieren oder kommunizieren [CBB+11, S. 261], Bei einer Mensch-Maschine-Schnittstelle stellt entsprechend ein Mensch das eine System, eine Maschine das andere System dar. Der Informationsaustausch zwischen beiden Systemen wird als „Mensch-Maschine-Interaktion“ bezeichnet.

Gemäß DIN EN ISO 9241.10 wird die Benutzerschnittstelle genauer definiert als „alle Bestandteile eines interaktiven Systems, die Informationen und Steuerelemente zur Verfügung stellen, die für den Benutzer notwendig sind, um eine bestimmte Arbeitsaufgabe mit dem interaktiven System zu erledigen“ [ISO98], Demzufolge ist z.B. auch eine Lampe ein interaktives System und der Lichtschalter die dazugehörige Benutzerschnittstelle. Diese Informationsübertragung ist in Abbildung 2.1 visualisiert und wird im Folgenden am Beispiel von Stand-Monitoren, tragbaren PCs und Smartphones im Business-Kontext erklärt.

Die optische Informationsausgabe aller drei Geräte bietet dabei den höchsten Informationsgehalt für den Mitarbeiter. Durch Texte, Bilder und Videos kann er besonders komplexe Sachverhalte visuell aufnehmen. Uber einen Lautsprecher an PC und Smartphone erregen zudem akustische Signale wie Klingel- oder Benachrichtigungstöne die Aufmerksamkeit des Mitarbeiters. Auch ein auf lautlos eingestelltes Smartphone kann durch Vibration auf taktilem Wege Informationen an den Menschen aussenden.

Nach einer visuellen, auditiven oder haptischen Informationsaufnahme kann der Mitarbeiter z.B. eine Entscheidung treffen und Informationen wieder an das Gerät abgeben. Diese Informationsabgabe erfolgt traditionellerweise manuell über Tastatur, Maus, Touchpad, physische Knöpfe oder Touchscreen. Mit Hilfe von Sprachassistenzsystemen kann ein Benutzer dem Gerät seine Informationen verbal vortragen. Weitere Grundlagen hierzu sind in Abschnitt 2.4 beschrieben. Gesten werden standardmäßig zwar noch nicht erkannt, aber über die Gesichtserkennung per Kamera kann der Besitzer des Smartphones bereits identifiziert werden [YYL+13], Nicht zuletzt beinhalten Laptops und Smartphones auch zahlreiche Sensoren, über die z.B. der Bildschirm eines Smartphones vom Hoch- zum Querformat und vice versa gedreht werden kann. Andere Trackingsysteme erfassen über Bewegungen z.B. auch den Standort des Geräts oder aktuell vom Nutzer durchgeführte Tätigkeiten [MHL+15].

Oft wird argumentiert, dass eine solche sitzende, tippende, klickende und lesende Interaktion mit einer Maschine aus biologischer Sicht für den Menschen unnatürlich sei [PD10, S. 105][GB14], Gleichzeitig ist sie nach dem aktuellen technologischen Stand die wohl geeignetste Möglichkeit, wissensintensive Tätigkeiten und Entscheidungen innerhalb eines Unternehmens auszuführen. Deswegen wird versucht, die Mensch-Maschine-Interaktion am Arbeitsplatz möglichst ergonomisch zu gestalten und so die informatorisch-mentalen Vorgänge des Mitarbeiters durch taugliche Systeme zu unterstützen.

Im Hinblick auf die Ergonomie von Informationssystemen wird von „Usability“ gesprochen. Anders als oft vermutet, ist dieser Begriff nicht mit „Benutzerfreundlichkeit“, sondern mit „Gebrauchstauglichkeit“ zu übersetzen. Gemäß DIN EN ISO 9241.11 ist die „Gebrauchstauglichkeit das Ausmaß, in dem ein Produkt, System oder Dienst durch bestimmte Benutzer in einem bestimmten Anwendungskontext genutzt werden kann, um bestimmte Ziele effektiv, effizient und zufriedenstellend zu erreichen“ [ISO98], Dabei werden Effektivität, Effizienz und Zufriedenheit als die ausschlaggebenden Charakteristika erachtet. Nielsen erweitert dieses Konzept auf die fünf Eigenschaften „easy to learn“, „efficient to use“, „easy to remember“, „few errors“ und „subjectively pleasing“ [NieOl, S. 26], Solche Attribute beschreiben nicht nur die Benutzerschnittstelle, sondern das gesamte System. Daher wird Usability auch in holistischen System-Qualitätsmodellen als ein Faktor übernommen [SM09, S. 20], Dazu zählen z.B. die Software-Qualitätskriterien nach ISO/IEC 25010, worin Usability in die nachfolgenden Subkriterien unterteilt wird [ISO17]:

- Appropriateness Recognisability. Der Grad, zu dem der Anwender erkennen kann, ob ein Produkt oder System für seine Bedürfnisse geeignet ist.
- Learnability. Der Grad, zu dem ein Produkt oder System von bestimmten Nutzern verwendet werden kann, um zu lernen, es mit Effektivität, Effizienz, Risikofreiheit und Zufriedenheit in einem definierten Nutzungskontext zu gebrauchen.
- Operability. Der Grad, zu dem ein Produkt oder ein System Eigenschaften aufweist, die eine einfache Bedienung und Kontrolle ermöglichen.
- User Error Protection. Der Grad, zu dem ein System den Benutzer davor schützt, Fehler zu begehen.
- User Interface Aesthetics. Der Grad, zu dem eine Benutzeroberfläche eine angenehme und zufriedenstellende Interaktion für den Benutzer ermöglicht.
- Accessibility. Der Grad, zu dem ein Produkt oder System von Menschen mit den unterschiedlichsten Eigenschaften und Fähigkeiten genutzt werden kann, um ein festgelegtes Ziel in einem definierten Nutzungskontext zu erreichen.

Für eine ausführliche Beschreibung aller Kriterien sei auf den Anhang A.l verwiesen.

Zur Messung solcher Kriterien im Rahmen des „Usability Engineering“ existiert eine Vielzahl an praktischen Methoden. Seffah und Metzker schlagen eine Taxonomie mit sieben besonders häufig genutzten Methodenklassen vor [SM09, S. 29 f.]:

1. Inquiry: Aktuelle Nutzer nach ihren Eindrücken befragen.
2. Testing: Potentielle Endnutzer bei der Verwendung beobachten.
3. User Requirements Analysis: Erwartungen der Endnutzer erfassen.
4. Prototyping: Nutzerfeedback zu einer einfachen ersten Version erhalten.
5. Cognitive Modeling: Typisches Nutzerverhalten simulieren.
6. Inspection: Beurteilung von Kriterien durch Usability-Experten einholen.
7. Analytical and Predictive Methods: Verbesserungsvorschläge und eine Vorhersage von Herausforderungen durch Usability-Designer einholen.

Insgesamt wird mit solchen Methoden nicht nur die Produkteigenschaft „Usability“ bewertet, sondern auch die „User Experience“ (UX) aus Nutzersicht erfasst. Dieser Begriff bezeichnet gemäß DIN EN ISO 9241.210 „Wahrnehmungen und Reaktionen einer Person, die aus der tatsächlichen und/oder der erwarteten Benutzung eines Produkts, eines Systems oder einer Dienstleistung resultieren“ [ISO98], Für ein Unternehmen ist die UX der Mitarbeiter bei der Interaktion mit Stand-Monitoren, tragbaren PCs, Smartphones sowie Informationssystemen relevant: Im besten Fall integrieren sich diese Ressourcen reibungslos in die informatorischmentalen Arbeitsprozesse des Mitarbeiters. Dadurch steigt die Produktivität, während die Frustration über bestehende Prozesse sinkt. Im schlechtesten Fall entstehen jedoch neue, als umständlich wahrgenommene Abläufe, aufgrund deren sich der Mitarbeiter künstlich an die Systemschnittstelle anpassen muss. Optimalerweise ermöglicht eine angemessene UX nicht nur mehr Zeit und Konzentrationsfähigkeit für die eigentlichen Arbeitsinhalte und Entscheidungen, sondern ruft sogar Enthusiasmus bei der Anwendung hervor.

Eine von Spezialisten und potentiellen Endnutzern positiv bewertete Usability und UX reicht jedoch nicht dafür aus, dass Mitarbeiter in der Praxis tatsächlich mit dem System interagieren möchten. Die „User Acceptance“ bestimmt letztlich, ob die „Bedürfnisse und Erwartungen der Endnutzer validiert werden können“ [PC 15] und die Anwendung akzeptiert wird.

Zusammenfassend soll durch die Betrachtung von Usability, User Experience und User Acceptance die Interaktion zwischen Mensch und Maschine möglichst natürlich werden, damit sich der Mensch nicht mit den dahinter liegenden technischen Vorgängen beschäftigen muss. Als besonders „natürlich“ könnte dabei erachtet werden, mit einer Maschine genauso zu interagieren wie mit einem anderen Menschen. Dieser Vorstellung widmet sich u.a. der Bereich der Künstlichen Intelligenz, dessen Grundlagen im folgenden Abschnitt beschrieben sind.

2.3 Künstliche Intelligenz

Im Rahmen dieser Masterarbeit wird übergreifend von einer „intelligenten Mensch-MaschineSchnittstelle“ gesprochen. Bei der zuvor anhand von Abbildung 2.1 beschriebenen MenschMaschine-Interaktion widmet sich der Mensch der informatorisch-mentalen Aufgabe des „Erkennens und Entscheidens“. Die Schnittstelle nimmt hingegen nur Informationen des Menschen auf und gibt Informationen aus, ohne deren Inhalt zu verstehen. Mit einer „künstlichen Intelligenz“ könnte auch die Schnittstelle eigene Schlussfolgerungen zwischen Informationseingabe und -ausgabe ziehen. Analog dazu beschäftigt sich das Forschungsgebiet der Künstlichen Intelligenz (KI) - im Englischen „Artificial Intelligence“ (AI) - mit „technischen Verfahren, die es [Maschinen] ermöglichen, wahrzunehmen, zu schlussfolgern und zu handeln" [Win92], Ebenso wird KI als „die Wissenschaft der Gestaltung intelligenter Agenten“ [PMG98] definiert. Damit werden einerseits die technischen Verfahren und andererseits die Handlungsautonomie einer Maschine betont. Inwiefern ein Sprachassistent als intelligenter Agent wahrnehmbar ist und welche KI-Verfahren bei der technischen Umsetzung zum Tragen kommen, wird in Abschnitt 2.4 beschrieben. Zunächst wird daher in diesem Abschnitt näher auf die Agententheorie und die KI- Verfahren eingegangen.

Ein Agent ist „alles, was so beschrieben werden kann, dass es seine Umgebung durch Sensoren wahrnimmt und in dieser Umgebung durch Aktoren handelt“ [RNIO, S. 34], Zwischen der Aufnahme solcher „Wahrnehmungen“ aus der Umgebung und der Durchführung von „Aktionen“ in der Umgebung werden intern im Rahmen des „Agentenprogramms“ bestimmte Funktionen ausgeführt [RNIO, S. 36], Darin wird festgelegt, welche Aktionen basierend auf welchen Wahrnehmungen aus der Umgebung erfolgen sollen. Auch die Definition der Umgebung, mit der ein Agent auf eine spezifische Weise interagiert, ist relevant. Eine Umgebung lässt sich durch folgende Kriterien unterscheiden [RNIO, S. 42 ff.]:

- Vollständig beobachtbar vs. teilweise beobachtbar: Wenn die Sensoren des Agenten zu jedem Zeitpunkt den gesamten für die Aufgabe relevanten Zustand wahrnehmen können, ist die Umgebung vollständig beobachtbar, sonst teilweise beobachtbar.
- Einzelner Agent vs. Multiagenten: Ein Agent, der eine Aufgabe für sich löst, ist ein „einzelner Agent“. Sobald jedoch ein anderer Agent die Umgebung ebenfalls beeinflusst, handelt es sich um eine Multiagcntcn-Umgcbung. Im letzteren Fall wird zwischen kooperativ und kompetitiv unterschieden, abhängig davon, ob die Agenten z.B. durch Maximieren der eigenen Nutzenfunktion die der anderen erhöhen oder senken.
- Deterministisch vs. stochastisch: Wenn der nächste Zustand ausschließlich vom aktuellen Zustand und der Aktion des Agenten abhängt, ist die Umgebung deterministisch, ansonsten stochastisch. Aktionen anderer Agenten sind zu ignorieren.
- Episodisch vs. sequentiell: In einer sequentiellen Umgebung kann die aktuelle Entscheidung künftige Entscheidungen beeinflussen, in einer episodischen nicht.
- Statisch vs. dynamisch: Der Zustand einer dynamischen Umgebung kann sich ändern, während der Agent das Programm ausführt, der einer statischen Umgebung nicht.
- Diskret vs. kontinuierlich: In einer diskreten Umgebung sind Zustände, Zeit und Wahrnehmungen diskrete Mengen mit einer endlichen Anzahl an Elementen, während sie in einer kontinuierlichen Umgebung kontinuierliche Werte annehmen können.
- Bekannt vs. unbekannt: In einer bekannten Umgebung kennt der Agent deren Regeln, in einer unbekannten nicht.

Beim Schach handelt es sich beispielsweise um eine vollständig beobachtbare, deterministische, sequentielle, statische, diskrete Umgebung mit kompetitiven Multiagenten, während eine medizinische Diagnose als teilweise beobachtbare, stochastische, sequentielle, dynamische und kontinuierliche Umgebung mit einem einzelnen Agenten eingestuft wird.

Die Intelligenz eines Agenten wird z.T. über den Begriff der Rationalität beschrieben: „Für jede mögliche Wahrnehmungssequenz sollte ein rationaler Agent eine Aktion auswählen, von der erwartet wird, dass sie seine Erfolgsmessgröße maximiert, basierend auf der Wahrnehmungssequenz und dem eingebauten Wissen des Agenten“ [RN10, S. 37], Aufbauend auf dieser Definition wird die „Task Environment“ beschrieben als „Probleme, für die ein rationaler Agent die Lösung ist“ [RN10, S. 40], Damit wird das übergreifende Verständnis geschaffen, dass ein rationaler Agent für eine ganz spezifische Aufgabe konzipiert ist. Dieses Phänomen wird auch als „Narrow AI“ beschrieben und damit von „General AI“ und „Super AI“ abgegrenzt. Bei dieser Unterscheidung wird die „Intelligenz“ eines Agenten mit der eines Menschen verglichen [WG12, S. 2 ff.]: „Narrow AI“ bezeichnet Agenten, die nur in einer bestimmten Domäne agieren können, um ein ganz spezifisches Problem zu lösen. Bei „General AI“ wird davon ausgegangen, dass der Agent - ähnlich einem Menschen - domänenübergreifend wahrnehmen, schlussfolgern und handeln sowie Wissen aus einer anderen Umgebung übertragen kann, ohne immer korrekt oder optimal zu sein. „Super AI“ wiederum bezeichnet einen Agenten, dessen Intelligenz die menschliche in verschiedenen Umgebungen übersteigt. Fraglich ist jedoch, ob General und Super AI überhaupt umsetzbar sind.

Einer ähnlichen Frage widmet sich der „Turing-Test“. Diesen besteht ein Computer, wenn ein Mensch, der dem Computer Nachrichten sendet, nicht unterscheiden kann, ob die Ausgaben von einer Person oder einem Computer stammen [TuröO]. Eine optimistische Antwort darauf wurde im „Dartmouth Proposal“ 1955 postuliert: „Jeder Aspekt des Lernens oder jede Eigenschaft von Intelligenz kann so präzise beschrieben werden, dass eine Maschine geschaffen werden kann, die diese simuliert“ [MMRS55],

In dieser Annahme wird auch das Thema „Lernen“ als wesentlicher Aspekt der KI dargestellt. Tatsächlich beschäftigt sich das Forschungsgebiet ausführlich mit der Konzeption von Agenten und Systemen, die lernen können. So existieren bereits zahlreiche Verfahren, von denen im Folgenden einige kurz vorgestellt werden. Diese sind für das weitere Verständnis der Grundlagen zu Sprachassistenten in Abschnitt 2.4 relevant. Auf ausführliche Rechenbeispiele und Herleitungen wird allerdings verzichtet. Vielmehr sollen verschiedene Herangehensweisen aufgezeigt werden. Im Speziellen werden die Ansätze von „Supervised Learning“, „Unsupervi- sed Learning“, „Reinforcement Learning“ und „Neuronalen Netzen“ beleuchtet. Diese stellen innerhalb des „Machine Learning“ ein Untergebiet der KI dar. Dabei ist hervorzuheben, dass die nachfolgenden Verfahren größtenteils auf statistischen Berechnungen basieren.

Supervised Learning

Beim Supervised Learning (SL) beobachtet der Agent Beispiele für Input-Output-Paare und lernt eine Funktion, die den Input auf den Output abbildet [SI17, S. 67], Dieser Lernprozess ist insofern „überwacht“, als von außen Feedback gegeben wird, welcher Input auf welchen Output abzubilden ist.

Nach dem Lernen durch Beispiele soll die Anwendung selbst neuen, unbekannten Input dem korrekten Output zuordnen. Dabei lassen sich jedoch die Phänomene „Overfitting“ bzw. „Un- derfitting“ beobachten, wobei die Beispieldaten zu genau bzw. nicht genau genug modelliert werden [SI17, S. 81], Deswegen erfolgt oft eine Unterteilung der Beispieldaten in Trainingsund Testdaten. Testdaten werden beim Lernvorgang nicht eingesetzt, sondern dienen anschließend zur Überprüfung der gelernten Abbildung.

Gegenstand des Supervised Learning ist mathematisch die Approximation einer Funktion, die den Input auf den Output abbildet. Ist der Output als reelle Zahl kodiert, wird beim Approximationsproblem eine Regression verwendet. Soll der Input hingegen einer diskreten Menge von Klassen zugeordnet werden, so wird eine Klassifizierung vorgenommen.

Bei linearer Regression wird z.B. versucht, eine Gerade oder im mehrdimensionalen Fall eine Hyperebene zu wählen, welche die Datenpunkte approximiert [SI17, S. 98], In der Statistik wird diese Funktion oft mit der „Methode der kleinsten Quadrate“ optimiert. Dabei werden die Gewichte der Funktion so gewählt, dass die Summe der quadratischen Abstände zwischen Funktion und allen Datenpunkten minimal wird. Gelernt werden also die Gewichte.

Der naive Bayes-Klassifikator ist eine Methode der Klassifikation und basiert auf dem „Satz von Bayes“ [Ertl6, S. 237]: Der Problemstellung liegen dabei Häufigkeiten vor, wie oft definierte diskrete Variablen in welcher Ausprägung beobachtet wurden. Es soll ermittelt werden, wie wahrscheinlich eine bestimmte Ausprägung der Outputvariable ist, wenn konkrete Ausprägungen der Input variablen vor liegen. Berechnet wird daher die bedingte Wahrscheinlichkeit, dass der Output einer bestimmten Klasse angehört, unter der Bedingung, dass bestimmte Ausprägungen der Inputvariablen beobachtet wurden. Durch die Annahme der bedingten Unabhängigkeit kann die Berechnung auf die Multiplikation bekannter Wahrscheinlichkeiten reduziert werden. Dadurch können auch für größere Datenmengen Vorhersagen des Outputs meist effizient und effektiv berechnet werden. Allerdings stimmt die „naive Annahme“ der bedingten Unabhängigkeit in der Realität nicht immer.

Die folgenden Verfahren kommen als Regressor oder Klassifikator zum Einsatz. Beispielhaft wird jeweils die Klassifikation erläutert.

Beim Entscheidungsbaum entsprechen die Knoten den Inputvariablen und die Kanten verschiedenen Ausprägungen [Ertl6, S. 217 ff.]. Die Blätter beinhalten die finale Entscheidung für die Output variable. Zur Generierung eines solchen Entscheidungsbaums wird darauf geachtet, dass Input variablen, welche die Outputvariable am meisten beeinflussen, näher an der Wurzel liegen. Gelernt wird daher, welche Inputvariablen besonders aussagekräftig sind. Im besten Fall ist die Outputvariable durch eine begrenzte Anzahl an Inputvariablen vollständig erklärt, sodass die restlichen Input variablen nicht benötigt werden.

Zur Anwendung von Support- Vector-Machines (SVM) sind Datenpunkte verschiedener Klassen z.B. wie auf der linken Seite von Abbildung 2.2 gegeben [RNIO, S. 744 ff.]: Ziel ist es, eine separierende Linie zwischen den beiden Klassen A und B zu ziehen, die möglichst weit von den jeweiligen Grenzpunkten entfernt ist. Zwei Grenzlinien sind gestrichelt dargestellt; der finale Separator liegt als durchgezogene Linie genau mittig dazwischen. Das mathematische Problem besteht darin, den Abstand zwischen den beiden Grenzlinien zu maximieren. Mithilfe der dualen Repräsentation kann dieses Problem auch bei sehr großen Datenmengen auf jene Punkte reduziert werden, die „Support-Vektoren“ darstellen. In der Abbildung sind dies die drei umkreisten Punkte, welche den Separator „stützen“. Dieser Trick bietet einen Geschwindigkeitsvorteil bei der Berechnung. Ein weiterer Trick kommt bei nicht linear separierbaren Datenpunkten zum Einsatz [RNIO, S. 747], wie z.B. auf der rechten Seite von Abbildung 2.2 aufgezeigt. Bildet man diese Datenpunkte mit einer Funktion - im Beispiel (xjyx^, v^xi^) - auf einen höherdimensionalen Raum ab, sind die Punkte der verschiedenen Klassen wieder linear separierbar. Mit dem sogenannten „Kernel-Trick“ kann auf die Transformation jedes einzelnen Datenpunkts verzichtet werden, da die Berechnung der einfach kalkulierbaren „Kernel-Funktion“ ausreicht.

Im Falle von linear nicht separierbaren Datenpunkten kann auch das Verfahren k-Nearest- Neighbours verwendet werden [KBB+15, S. 101], Anders als bei SVM liegt der Fokus dabei jedoch nicht darauf, eine lineare Grenze zu ziehen, sondern eine Region für die jeweilige Klasse zu definieren. Dafür werden im Inputraum zahlreiche Punkte betrachtet und jeweils ermittelt, zu welcher Klasse der Großteil ihrer k nächsten „Nachbarn“ gehört. Die genaue Region hängt daher vom Parameter k ab, wobei ein kleines k eher zu Overfitting führt.

Unsupervised Learning

Beim Unsupervised Learning (UL) lernt der Agent bestimmte Muster aus Input-Daten [SI17, S. 67], Dieser Lernprozess ist insofern „nicht überwacht“, als der Agent von außen kein Feedback zur Korrektheit des Musters erhält. Im Gegenteil wird versucht, Muster zu finden, die zuvor unbekannt waren. Dazu erfolgt ein Clustering, das die Daten erst noch Klassen zuordnet. Verschiedene Clustering-Algorithmen durchlaufen hierbei die Schritte (1) Initialisierung, (2) Zuordnung von Datenpunkten zu Clustern und (3) Aktualisierung der Cluster, wobei (2) und (3) anschließend iterativ wiederholt werden, bis die Cluster unverändert bleiben.

Das Clustering-Verfahren k- Means ordnet jeden Datenpunkt genau einem von k Clustern zu. Der Algorithmus durchläuft dazu die folgenden Schritte [Doul3, S. 145]:

1. kzufällige Punkte werden im Raum der Inputvariablen als Cluster-Zentren platziert.
2. Alle Datenpunkte werden dem jeweils nächstgelegenen Zentrum und damit dessen Cluster zugeordnet.
3. Für alle Datenpunkte desselben Clusters wird ein neues Zentrum bestimmt, indem der Mittelwert - im Englischen „mean“ - aus den jeweiligen Datenpunkten berechnet wird.

Anstelle des Mittelwerts nutzt das Verfahren k-Medoids den Median und ist damit robuster gegenüber Ausreißern. In beiden Fällen wird der gesamte Raum eindeutig in die verschiedenen Cluster eingeteilt. Die Annahme, ein Datenpunkt müsse genau einem Cluster angehören und der Raum aus disjunkten Bereichen bestehen, wird beim Fuzzy Clustering aufgehoben [KBB+15, S. 389], Stattdessen gehört jeder Punkt mit einem Gewicht zwischen 0 und 1 zu jedem Cluster. Dabei gilt: „Je geringer der Abstand, umso höher das Gewicht“. Der Algorithmus Fuzzy c-Means unterscheidet sich von k-Means darin, dass (1) zu Beginn zufällige Gewichte jedes Datenpunkts zu c Clustern generiert und (3) deren Zentren anhand des gewichteten Mittelwerts aktualisiert werden [BEF84].

Eine Zugehörigkeit zu mehreren Clustern ist auch unter Nutzung eines Gaussian Mixture Model möglich. Der Grundgedanke dabei ist, dass jeder beobachtete Datenpunkt in der Realität ursprünglich aus einer Mischverteilung von multivariaten Normal Verteilungen resultiert. Diese heißen im Englischen „Gaussians“. Ein Cluster wird als eine Normal Verteilung innerhalb der Misch Verteilung approximiert. Der dazugehörige Expectation-Maximization- Algorithmus sieht folgende Schritte vor [RN10, S. 818 f.]:

1. Die Parameter der Mischverteilung werden arbiträr initialisiert. Dabei besitzt jede Normalverteilung neben Mittelwert auch Kovarianz und ein Gewicht. Die Misch Verteilung ergibt sich aus der über die Normal Verteilungen gewichteten Summe.
2. Expectation-Schritt: Berechnung der bedingten Wahrscheinlichkeit für jeden Datenpunkt und jede Normalverteilung, dass der Punkt von der jeweiligen Normal Verteilung erzeugt wurde.
3. Maximization-Schritt: Mittelwert, Kovarianzen und Gewichte der Mischverteilung werden angepasst. Hierzu ist die Likelihood zu maximieren, dass die Daten durch diese Misch Verteilung generiert wurden.

Reinforcement Learning

Im Vergleich zu den vorigen Methoden stehen beim Reinforcement Learning (RL) der Agent und seine Interaktion mit der Umgebung im Vordergrund. Das Lernen erfolgt auf Basis einer Folge von Belohnungen oder Bestrafungen [SI17, S. 67], Durch Belohnungen wird der Agent in seiner Strategie „bestärkt“ und erhält so zeitverzögertes Feedback.

Auch diese Form des Lernens basiert auf Konzepten der Statistik wie z.B. Markov Entscheidungsprozessen [Ertl6, S. 317]: Zur Modellierung des Problems werden hierfür (1) Zustände, (2) Aktionen in jedem Zustand, (3) ein Markov-Modcll zum Übergang zwischen Zuständen und (4) eine Belohnungsfunktion in Abhängigkeit vom Zustand definiert. Durch das Markov-Modell wird charakterisiert, dass die Wahrscheinlichkeit, einen Zustand s' aus einem Zustand s zu erreichen, ausschließlich von s und nicht von der Historie früher angenommener Zustände abhängt. Zur Lösung des Problems wird versucht, eine (5) geeignete Strategie zu finden, welche Aktion in jedem Zustand ausgesucht werden soll. Eine Strategie ist optimal, wenn sie (6) den höchsten erwarteten Nutzen für den Agenten generiert.

Meistens kennt der Agent weder (3) ein vollständiges Modell der Umgebung noch (4) die Belohnungsfunktion [RN10, S. 830], Allerdings kann er unterschiedliche Aspekte lernen: Beim passiven Lernen soll der Nutzen verschiedener Zustände gelernt werden, während beim aktiven Lernen zusätzlich die Strategie herauszufinden ist.

Eine passive Methode ist z.B. das Temporal-Difference-Learning: Basierend auf einer fixen Strategie wird während jedes Zustandsübergangs der Nutzen des aktuellen Zustands an den Nutzen des nachfolgenden Zustands angepasst. Nach einer gewissen Anzahl an Zustandsübergängen konvergieren die Nutzenwerte zu einem Gleichgewicht [RNIO, S. 837].

Bei aktiven Methoden des Reinforcement Learnings ist die Strategie noch zu lernen. Das Temporal-Difference-Verfahren lässt sich hierzu so ändern, dass beim Zustandsübergang auch die Wahl der Aktion an den Nutzen des nachfolgenden Zustands angepasst wird. Dieses Anpassen der bestehenden Strategie durch Ausnutzen derselben wird Exploitation genannt. Ein einfacher Greedy Agent kann so jedoch nach nur kurzer Zeit auf einer suboptimalen Strategie beharren, in der er sich selbst immer wieder bestärkt. Dieser Herausforderung kann durch Exploration entgegengewirkt werden. Dabei wählt der Agent zufällig eine andere Aktion aus und beobachtet deren Auswirkungen im weiteren Verlauf [Kubl7, S. 332], Im Kontext des Multi-Armed Bandit-Problems wird versucht, dieses Verhältnis zwischen Exploration und Exploitation zu optimieren [RN10, S. 841].

Neural Networks

Das Forschungsgebiet der Neuronalen Netze (NN) ist von den menschlichen Gehirnaktivitäten als „Netzwerk von Gehirnzellen“ inspiriert [Ertl6, S. 265 ff.]. Mathematisch wird dieses in ein Netzwerk aus Knoten bzw. „Neuronen“ übersetzt, die aus einem oder mehreren Inputs einen Output erzeugen. Dieses Netzwerk kann daher zur Klassifizierung genutzt werden.

Ein einzelnes Neuron i beinhaltet - vereinfacht dargestellt - einen Wert a und ist über gerichtete Kanten mit anderen Neuronen verbunden. Bei der „Aktivierung“ des Neurons leitet es seinen Wert a über die Kanten an die nachfolgenden Neuronen. Jeder Kante von einem Neuron i zu einem Neuron j ist dabei ein Gewicht witj zugeordnet. Gemäß der biologischen Metapher wird die Kante als „Synapse“ interpretiert, die ein Signal zwischen Neuronen überträgt. Ein höheres Gewicht wgj bedeutet, dass i einen größeren Reiz auf j ausübt. Der Wert aj für das nachgeschaltete Neuron j wird dann anhand einer definierten Funktion in Abhängigkeit der apre und wprej für alle vorgeschalteten Neuronen pre berechnet. Die aj können oft Werte aus den Mengen {0,1} (0,1) R+ oder (—1,1) annehmen [KBB+15, S. 33].

Allgemein wird zwischen zwei Netzwerk-Arten unterschieden: In einem Feed-Forward Network sind die Kanten ausschließlich in eine Richtung orientiert. Der Output des gesamten Netzwerks basiert dabei direkt auf dem aktuellen Input aus der Umgebung. Bei Recurrent Networks hingegen werden Outputs wieder als Inputs innerhalb des Netzwerks zugeführt. So entsteht ein dynamisches System, dessen Gesamtoutput auch von vorherigen Inputs abhängt, was als „Gedächtnis“ interpretierbar ist [KBB+15, S. 35].

Feed-Forward Networks sind üblicherweise in Ebenen aufgebaut, wobei zwischen Input-, Hidden- und Output-Layern unterschieden wird. Neuronen des Input-Layers erhalten ihren Wert direkt aus der Umgebung, während Neuronen des Output-Layers ihren Wert wieder an die Umgebung ausgeben. Bei einer Klassifizierungsaufgabe kann dabei z.B. jedes OutputNeuron die Zuordnungswahrscheinlichkeit zu einer Klasse beinhalten. Zwischen Input- und Output-Layern befinden sich die Hidden-Layers, die von der Umgebung selbst abgekoppelt sind. „Deep Learning“ bezeichnet deswegen Neuronale Netze mit mehreren „tiefer im Netz versteckten“ Hidden-Layern [Ertl6, S. 299 ff.].

Mithilfe des Backpropagation-Algorithmus erfolgt in Neuronalen Netzen ein Lernvorgang [KBB+15, S. 64 ff.]: Gelernt werden dabei die Gewichte der verbundenen Neuronen. Wie beim Supervised Learning liegen dem System Inputdaten und bekannte zugehörige Outputdaten vor. Diese lassen sich als Input- und Outputvektoren darstellen, wobei die einzelnen Einträge jeweils einem Neuron im Input- bzw. Output-Layer entsprechen. Sinnvoll ist, einen Outputvektor aus dem Trainingsdatensatz so zu kodieren, dass der Eintrag für die korrekte Klasse eine 1 und alle anderen Einträge eine 0 beinhalten. Initial erfolgt eine zufällige Auswahl der Gewichte des Netzes. Beim Lernen werden diese Gewichte durch jeden Datenpunkt aus dem Trainingsdatensatz angepasst. Dazu wird jedes Mal der korrekte Outputvektor, bestehend aus Nullen und einer 1, mit dem vom Netz generierten Outputvektor verglichen. Der „Error“ zwischen diesen Ist- und Soll-Vektoren dient dann dazu, die Gewichte zwischen den Neuronen der letzten und der vorletzten Ebene zu ändern: Für alle Kanten, die zum korrekten Outputneuron k mit der 1 führen, sollen jene Gewichte wi;k vergrößert werden, die in allen Neuronen i einen besonders hohen Wert ai aufweisen. Die Synapse sollte also den Reiz eher übertragen, wenn er beim vorigen Neuron bereits groß war. Für kleine ai wird wi;k entsprechend gesenkt. Für die Outputneuronen mit einer 0 gilt die umgekehrte Logik. Im nächsten Schritt werden (1) die Werte der vorletzten Ebene aktualisiert, (2) der Error zur vorvorletzten Ebene betrachtet und (3) mit dem gleichen Vorgehen erneut die Gewichte verändert. Auf diese Weise wird der Error „rückwärts durch alle Ebenen des Netzes propagiert“, sodass sich alle Gewichte an den Outputvektor anpassen.

2.4 Sprachassistenzsysteme

Sprachassistenzsysteme werden geläufig als Agenten mit künstlicher Intelligenz verstanden, die sich mit Menschen über natürliche Sprache hörbar verständigen. Tatsächlich werden derzeit verschiedene Methoden aus dem Gebiet der KI für die technische Umsetzung eines Sprachassistenten eingesetzt. Als eine übergreifende Einheit mit eigenem Bewusstsein und einem menschenähnlichen Umgang mit Sprache lassen sich bisherige Lösungen jedoch nicht charakterisieren. Sie bestehen bislang auch den Turing-Test nicht, da sie als Maschinen erkannt werden. Vielmehr erfolgt eine Unterteilung des Systems „Sprachassistent“ in verschiedene Problemstellungen, die separat gelöst werden. In diesem Abschnitt werden daher drei Themen behandelt: (1) wie der Begriff „Sprachassistent“ im Rahmen dieser Masterarbeit verwendet wird, (2) inwiefern ein Sprachassistent als Agent betrachtet werden kann sowie (3) welche Ansätze zur Implementierung der verschiedenen Systemkomponenten existieren.

Zunächst ist ein Verständnis des Begriffes der „natürlichen Sprache“ und der damit verbundenen Fehleranfälligkeit relevant: Unter natürlicher Sprache werden von Menschen gesprochene Sprachen verstanden, die sich historisch und kulturell über mehrere Generationen entwickelt haben und fortwährenden Änderungen unterliegen. Im Gegenteil dazu sind künstliche Sprachen konstruiert, um u.a. die Vagheit und Mehrdeutigkeit der Umgangssprache zu beseitigen [GR16], Aufgrund dieser Ungenauigkeiten stellt das Verständnis von natürlicher Sprache für eine Maschine eine Herausforderung dar. Deswegen verlangen künstliche Programmiersprachen eine formal genaue und logische Formulierung. Programmiersprachen, Maus und Tastatur repräsentieren für den menschlichen Nutzer Schnittstellen, die im aktuellen Nutzungskontext ausschließlich eindeutige Signale übermitteln können. Dass der Nutzer in Wirklichkeit dieses Signal meint oder die Computer-Ausgabe korrekt versteht, kann jedoch nicht garantiert werden. Solche Missverständnisse zwischen Mensch und Maschine sind auch bei formal genauen Schnittstellen, gerade aufgrund der für Menschen unnatürlichen Formalität, Teil der Mensch-Maschine-Interaktion. Bei einer mündlichen Spracheingabe und -ausgabe in natürlicher Sprache kommen zusätzlich akustische wie inhaltliche Fehlerquellen hinzu, die eine korrekte Interpretation auf beiden Seiten erschweren. Ebenso ist zu beachten, dass bei mündlicher Konversation - anders als bei sorgfältig verfassten Textdokumenten - die natürliche Sprache durch den Menschen spontan und flexibel eingesetzt wird. Dabei können Grammatik- und Satzbaufehler, Wiederholungen, Präzisierungen oder Anpassungen des zuvor Gesagten, Denkpausen, Homonyme, eine undeutliche Aussprache, Vokabular eines Dialekts etc. auftreten. Die Maschine darf daher Texte nicht nur nach Lehrbuch verstehen, sondern muss auch Eigenschaften der konversationalen Sprache berücksichtigen.

Neben der sprachlichen Komponente umfasst der Begriff „Sprachassistenzsystem“ auch dessen unterstützenden Charakter. Im Rahmen dieser Masterarbeit wird ein „Assistenzsystem“ im allgemeinen Sinne als Software-Agent definiert, der für einen Nutzer definierte Aufgaben erledigt [Ludlö, S. 1], „Assistenz“ kann dabei anhand der Autonomie des Systems graduell unterschieden werden: Auf einer ersten Stufe kann ein Assistenzsystem einfache Funktionen automatisch ausführen. „Die komplexeste Form von Assistenz versucht, die Intention des Nutzers [...] zu erkennen, daraus die aktuelle Aufgabe [...] abzuleiten und geeignete Schritte vorzuschlagen“ [Ludlö, S. 6], Der letztere Komplexitätsgrad trifft in besonderem Maße auf Sprachassistenten zu, weil dabei die Ableitung der Nutzerintention eine wesentliche Rolle spielt, wie im Laufe dieses Abschnitts genauer erläutert wird.

Als „Sprachassistenzsystem“ wird innerhalb dieser Arbeit ein Assistenzsystem bezeichnet, das mit dem Nutzer über gesprochene natürliche Sprache interagiert. Anders als man geläufig erwarten könnte, ist dabei eine Abgrenzung gegenüber dem Begriff „Chatbot“ erforderlich, da heutige Implementierungen von Sprachassistenzsystemen und Chatbots auf ähnlichen Verfahren und Überlegungen beruhen [KD18, S. 2], Beiden ist die konversationale Schnittstelle über natürliche Sprache gemein. Der Unterschied ist jedoch, dass die Konversation mit einem Chatbot nicht hörbar, sondern schriftlich erfolgt. Die Trennung wird jedoch dadurch vage, dass bei zahlreichen heutigen Chatbots auch eine hörbare Eingabe möglich ist und dass viele üblicherweise als Sprachassistenten bezeichnete Systeme auch angeschrieben werden können. Aus Sicht eines Nutzers ist der Funktionsumfang eines Chatbots i.d.R. auf Intentionen eines bestimmten Bereichs - z.B. Käufe, Produktberatung und Retouren - reduziert. Von einem Sprachassistenzsystem wird hingegen erwartet, dass dieser ähnlich einer General AI ganz unterschiedliche Intentionen versteht, wie z.B. Musik abspielen, Essen bestellen, Dokumente öffnen oder Nachrichten versenden. Weiters fassen die Marktforschungsunternehmen Gartner Research und Forrester Research Chatbots und Sprachassistenzsysteme unter den Begriffen „Virtual Assistant“ [GarlS] bzw. „Virtual Agent“ [KMVD18] zusammen.

Gartner unterscheidet ferner drei Arten von Assistenzsystemen basierend auf der primären Zielgruppe [Kar 17]: „Virtual Personal Assistants“ (VPA) richten sich in erster Linie an Privatpersonen im persönlichen Alltag, während „Virtual Customer Assistants“ (VGA) als Kontaktpunkt zu Kunden dienen, um bestimmte Dienste oder Auskünfte bereitzustellen. „Virtual Employee Assistants“ (VEA) hingegen sollen Mitarbeiter eines Unternehmens bei ihren Arbeitstätigkeiten entlasten. Wie zu Beginn des Grundlagen-Kapitels angedeutet, liegt in dieser Masterarbeit der Fokus auf Virtual Employee Assistants zur Unterstützung von White-Collar-Workern im Büro. Ebenso liegt der Schwerpunkt auf der hörbar sprachlichen Interaktion mit solchen Agenten, sodass Chatbots in den Hintergrund gerückt werden. Die Existenz von Chatbots sowie VPAs und VC As wird im weiteren Verlauf jedoch durchaus berücksichtigt. Khan und Das unterscheiden VEAs weiter in drei Kommunikationsmodi [KD18, S. 98 f.]: Durch den Business-to-Business (B2B)-Modus können Geschäftsbeziehungen unterstützt werden, z.B. durch die Abfrage von Service-Agreements oder den Einkauf von Rohstoffen eines anderen Unternehmens. Mit dem Business-to-Employee (B2E)-Modus können z.B. Hersteller von Produktivitätssoftware die Sprachbedienung der Anwendung anbieten. Im Employee-to-Employee (E2E)-Modus können wiederum Mitarbeiter ihren Kollegen z.B. interne Nachrichten oder Auskünfte zu spezifischen Prozessen bereitstellen.

Wie zu Beginn von Abschnitt 2.3 angedeutet, kann ein Sprachassistenzsystem in der Kl- Theorie als Agent interpretiert werden. Dessen Wahrnehmungen entsprechen den Nutzereingaben, die Aktionen den Sprachausgaben. Das Agentenprogramm beschreibt dann interne Funktionen für die vorprogrammierte Task Environment. Darin können die verschiedenen Themen der VPAs, VC As und VEAs abgebildet werden. Sprachassistenzsysteme sehen sich hierzu einer vollständig beobachtbaren Umgebung gegenüber, über welche die natürlichsprachigen Aussagen des Nutzers wahrgenommen werden. Die wahre inhaltliche Botschaft und die genaue Intention des Nutzers sind jedoch nicht vollständig zu beobachten. Da der nächste Zustand im Regelfall vom jetzigen Zustand, den Aktionen des Agenten und des Nutzers abhängt, kann die Umgebung in erster Linie als deterministisch erachtet werden. Eine episodische Umgebung würde bedeuten, dass der Sprachassistent nach der Reaktion auf eine Nutzeranfrage den Kontext wieder vergisst. Da jedoch auch ein mehrmaliger Wortwechsel innerhalb des gleichen Kontexts möglich sein soll, ist die Umgebung sequentiell. Während der Sprachassistent nach einer passenden Antwort sucht oder diese konstruiert, kann der Nutzer zwar grundsätzlich seine Intention ändern. Es kann aber angenommen werden, dass diese im Regelfall statisch bleibt. Da der Nutzer seine Aussage unterschiedlich formulieren und verschiedene Intentionen ausdrücken kann, sollte die Menge der möglichen Wahrnehmungen nicht diskret sein, sodass die Umgebung kontinuierlich ist. Gleichzeitig ist die Umgebung als unbekannt einzustufen, da keine speziellen Regeln für die Interaktion vorliegen. Es handelt sich zudem um eine kooperative Multiagenten-VmgeliVLng, worin der Sprachassistent versucht, dem Menschen von Nutzen zu sein.

Durch diese abstrakte Interpretation eines Sprachassistenzsystems als übergreifenden Agenten ist jedoch noch keine Anwendung implementiert. Insbesondere sind Sensoren, Aktoren und Agentenprogramm genauer zu eruieren. In der Praxis wird das System „Sprachassistent“ dazu in fünf einzelne technische Komponenten unterteilt, die gleichzeitig Schritte bei der Interaktion mit Menschen darstellen. Diese sind in Abbildung 2.3 dargestellt und werden im Folgenden kurz beschrieben [MCG16, S. 20]:

1. Speech Recognition: Worte erkennen, die von einem Nutzer gesprochen wurden.
2. Spoken Language Understanding: Worte interpretieren, d.h. ihre Bedeutung und die Intention des Nutzers verstehen.
3. Dialog-Management: Passende Antwort finden oder Rückfragen vorbereiten, falls die Eingabe des Nutzers nicht verstanden wurde.
4. Response Generation: Formulierung und ggf. Darstellung der Antwort konstruieren.
5. Text- to- Speech Synthesis: Antwort sprechen und ggf. anzeigen.

Diese Schritte lassen sich als Auszug der Abbildung 2.1 interpretieren, welche die MenschMaschine-Interaktion darstellt. Dabei werden die sprachliche Eingabe und die akustische Ausgabe extrahiert und detailliert. Vor allem die mittleren Schritte ermöglichen der Maschine eine intelligente Verarbeitung der Informationen und Handlungsautonomie. So kann nicht nur der Mensch erkennen und entscheiden, sondern auch die sprachliche Schnittstelle.

Jeder Nutzer nimmt bei der Interaktion mit einem Sprachassistenzsystem unbewusst alle fünf Schritte bzw. Komponenten wahr. Wie zuvor erwähnt, ist die Kommunikation zwischen Mensch und Maschine in natürlicher Sprache jedoch aufgrund deren Ungenauigkeit fehlerhaft. Wenn der Sprachassistent nun nach Schritt 5 eine Antwort ausgibt, die vom Nutzer nicht verstanden oder als unpassend interpretiert wird, kann er die Fehlerquelle nicht immer bei einem der Schritte lokalisieren. Jede einzelne Komponente stellt technologisch eine eigene Herausforderung dar. Im Folgenden werden daher verschiedene Ansätze aus der Forschung zur Lösung der jeweiligen Problemstellung pro Schritt präsentiert.

Schritt 1: Speech Recognition

Das Ziel von „Automatic Speech Recognition“ (ASR) ist die „Entwicklung von Systemen, die gesprochenen Input von jedem Sprecher mit hoher Genauigkeit erkennen“ [OCM11, S. 399], Für die Erreichung dieses Ziels sind verschiedene Herausforderungen zu berücksichtigen [JM09, S. 1-5]: Zunächst ist ein großer Wortschatz relevant, damit die Worte einer natürlichen Sprache unabhängig von Satzstruktur oder Bedeutung erfassbar sind. Ebenso ist zu bedenken, dass jeder Mensch eine andere Stimme besitzt und daher jedes Element des Wortschatzes bei jedem Sprecher anders klingt. Derselbe Mensch spricht dasselbe Wort basierend auf dem aktuellen physischen und emotionalen Zustand sowie in verschiedenen Kontexten zudem verschieden aus. Ein weiteres Problem gesprochener Sprache ist, dass Laute der einzelnen Worte ineinander übergehen, sodass ein System diese nicht direkt trennen kann. Dies ist ein Nachteil gegenüber mit Buchstaben geschriebenen Sprachen, in denen die Worte durch Leerzeichen getrennt sind. Spracherkennung wird auch von Hintergrundgeräuschen beeinträchtigt, was eine Trennung zwischen menschlicher Sprache und anderen Signalen erfordert. Nicht zuletzt hängt die Genauigkeit der ASR von der Qualität des eingesetzten Mikrophons ab, sowie davon, aus welcher Richtung und Entfernung hineingesprochen wird.

Ähnlich zu den im Abschnitt über KI vorgestellten Methoden wird auch für Speech Recognition typischerweise ein statistischer Ansatz angewandt. Dabei erfolgt eine Modellierung anhand der bedingten Wahrscheinlichkeit, dass ein Laut, Wort oder Satz W aus einer Sprache gesagt wurde, unter der Bedingung, dass die Tonsequenz X aufgenommen wurde [JM09, S. 237]: Es wird hierbei nach dem W gesucht, der diesen Ausdruck maximiert. Gemäß dem Satz von Bayes entspricht diese bedingte Wahrscheinlichkeit wiederum P (W|X) = P (X|W)P(W) /P (X), wobei der Nenner ignoriert werden kann, da er für alle betrachteten W gleich bleibt. In dieser Darstellung des ASR-Problems entsprechen die Faktoren P (X |W) dem sogenannten „akustischen Modell“ und P (W) dem „Sprachmodell“.

Beim akustischen Modell wird also die bedingte Wahrscheinlichkeit ermittelt, dass W die Sequenz X erzeugt hat. Seit den 1970er-Jahren wurde für die Modellierung eine Kombination aus Markov-Modellen und Gaussian Mixture Models eingesetzt [JM09, S. 238]: Im Markov-Modell entspricht ein Zustand z.B. einem Sublaut, während die Zustandsübergänge den zeitlichen Verlauf abbilden. Die aufgenommene Sequenz wird auf das Markov-Modell abgebildet, sodass bei jedem Zustand ein Sublaut aus der Sequenz beobachtet wird. Jeder beobachtete Sublaut ist als Mischverteilung verschiedener Dimensionen wie Frequenz und Amplitude modelliert. Damit lässt sich der beobachtete Sublaut klassifizieren. Zusammengesetzt ergeben die Zustände des Markov-Modells ein Wort in phonetischer Schrift. Ein Nachteil des Verfahrens ist jedoch, dass die Anwendung des Markov-Modells die Annahme der Unabhängigkeit von Zuständen, d.h. von Lauten, erfordert. Innerhalb eines gesprochenen Wortes sind Laute jedoch durchaus voneinander abhängig. Ebenso nutzt die Mischverteilung festgelegte Dimensionen, die nicht zwingend sämtliche Facetten der Sprache abbilden. „Etwa seit dem Jahr 2010 wurde [dieses Modell] durch Deep Neural Networks ersetzt“ [MCG16, S. 80], Damit lassen sich eine größere Menge an Dimensionen modellieren, 15 Mal längere Sequenz-Stücke direkt klassifizieren und eine höhere Genauigkeit erreichen [YD15], So kann die Anwendung von Deep Neural Networks bei der Spracherkennung als Grundlage für die Markteinführung von VPAs in den darauffolgenden Jahren erachtet werden.

Das Sprachmodell „beinhaltet Wissen über erlaubte Wortsequenzen“ [MCG16, S. 81], Dazu können z.B. manuell erstellte Grammatiken angewandt werden, die mögliche Strukturen für verschiedene Wortarten vorgeben [JM09, S. 319], Allerdings ist der Prozess aufwändig und die daraus resultierende Grammatik gewährleistet weder Fehlerfreiheit noch Vollständigkeit. Stattdessen sind auch „N-Gramm Sprachmodelle“ anwendbar, die mit einer gewissen Wahrscheinlichkeit das nächste Wort Vorhersagen, wenn die vorhergehenden n — 1 Wörter bekannt sind [JM09, S. 189], Bei der Spracherkennung ist dieses Verfahren auch zur Unterscheidung von Homophonen sinnvoll. Dabei handelt es sich um Wörter, die gleich ausgesprochen, aber unterschiedlich geschrieben werden, z.B. „Meer“ und „mehr“. Trotz der identischen Sequenz von Sublauten im akustischen Modell kann basierend auf den vorhergehenden Worten die korrekte Schreibweise vorhergesagt werden. Beide Modelle werden im Schritt des Decodings miteinander kombiniert [MCG16, S. 83].

Schritt 2: Spoken Language Understanding

Beim Spoken Language Understanding (SLU) - dem zweiten Schritt der Interaktion - wird versucht, die Bedeutung der erkannten Worte zu interpretieren. Raymond und Riccardi [RR07] beschreiben das Ziel auch als „Extraktion von Konzepten und ihren Relationen aus spontaner Sprache“. Damit unterscheidet sich SLU vom Gebiet der Textanalyse, worin geschriebene und oft lange Texte verarbeitet werden. Für SLU existieren zahlreiche unterschiedliche Ansätze, wobei die inhaltliche Bedeutung eines gesprochenen Textes heterogen repräsentierbar ist. Im Folgenden werden zunächst Ansätze zur allgemeinen Kategorisierung einer Aussage und im Anschluss zur vollständigen Erfassung der Bedeutung vorgestellt.

Die Intent-Identifikation dient bei kommerziellen Anwendungen wie Sprachassistenzsystemen, Robotern und Callcenter-Dialogsystemen einer gröberen Unterscheidung von Aussagen [MCG16, S. 165], In Abschnitt 5.2 wird ausgeführt, dass alle großen Anbieter von Entwicklungsumgebungen für Sprachassistenzsysteme wie Apple, Google, Microsoft, Amazon und IBM dieses Format zumindest für Drittentwickler anbieten. Dabei sind die drei Begriffe „Utterance“, „Intent“ und „Entity“ relevant [KD18, S. 27 ff.]: Eine Utterance ist ein Beispielsatz, der vom System verstanden werden soll, z.B. „Ich möchte den Sitzplatz C2 reservieren“. Durch einen Intent soll die dahinter liegende Nutzerintention modelliert werden, mit der eine bestimmte Handlung des Systems verbunden ist, z.B. die tatsächliche Sitzplatzreservierung oder eine Auskunft über aktuelle Reservierungen. Jedem Intent werden exemplarisch Utterances zugeordnet. Diese können als Set von Trainingsdaten interpretiert werden, wobei Utterances dem Input entsprechen, während der Intent dem zu lernenden Output gleicht. In einer Utterance können Entities - manchmal auch „Slots“ genannt - auftreten, die als Schlüsselwörter aus einer beobachteten Utterance zu extrahieren sind, z.B. der Sitzplatz „C2“. Dies ist insofern relevant, als andernfalls für jeden Sitzplatz eine neue Intention angelegt werden müsste. Stattdessen werden in den vordefinierten Utterances eines Intents die Entities als Platzhalter markiert: „Ich möchte den Sitzplatz csitzplatz-entity > reservieren“. Für typische Formate wie Orts- und Zeitangaben existieren vordefinierte Entitäten.

Die Aussage eines Nutzers wird somit dem Intent zugeordnet, dessen Beispiel-Utterances sie besonders ähnelt. Vorteile dieses Vorgehens sind, dass „a priori keine Einschränkungen vorliegen, wie ein Nutzer seine Aussage formulieren kann, und [die Klassifizierung] auf Basis einer nachvollziehbar kleinen Menge an Trainingsdaten durchführbar ist“ [TM11, S. 11], Zudem hängt die Zuordnung nicht von jedem einzelnen Wort ab, sodass Fehler aus der vorherigen Spracherkennung die Weiterverarbeitung nicht unbedingt behindern.

Die Klassifikation des Intents und die Extraktion von Entities repräsentieren zwei unterschiedliche Aufgaben. Anfänglich wurden diese nacheinander ausgeführt, wobei z.B. SupportVector-Machines zur Intent-Klassifizierung [HTW03] und Neuronale Netze [YPZ + 14] zur Entity-Extraktion genutzt wurden. Mittlerweile werden beide Aufgaben gleichzeitig - häufig mit Recurrent Neural Networks - bearbeitet [SYC+15][HTTC+16].

Ein anderer Ansatz für SLU besteht darin, die vollständige Bedeutung einer Aussage zu modellieren, anstatt sie übergreifenden Klassen von Intentionen zuzuordnen. Dazu existieren verschiedene Methoden aus dem Bereich der Sprachverarbeitung, die auch für Sprachassistenzsysteme und in Kombination mit Intent-Klassifizierung eingesetzt werden können. Sie sollen im Folgenden kurz Erwähnung finden [MCG16, S. 166-170]:

- Part-of-Speech Tagging: Jedem Wort einer Aussage wird dessen syntaktische Rolle im Satz zugewiesen, z.B. Nomen, Verb, Adverb oder Präposition. Diese Zuordnung kann durch Grammatiken oder Sequenzen in Markov-Modellen ermöglicht werden.
- Named Entity Recognition: Anders als beim Part-of-Speech Tagging werden nicht alle Worte markiert, sondern Entitäten wie Eigennamen und Ortsangaben extrahiert.
- Relation Extraction: Die Beziehung zwischen Entitäten wird ermittelt, d.h. wann und wo wer wem was getan hat.
- Semantic Role Labeling: Im Unterschied zum Part-of-Speech Tagging wird einem Wort nicht seine syntaktische, sondern semantische Rolle im Satz zugeordnet. Anders als bei der Relation Extraction liegt der Fokus nicht auf Entitäten, sondern Prädikaten.

Es existieren auch zahlreiche statistische Ansätze, um eine semantische Repräsentation einer Aussage zu finden. Ähnlich zum ASR-Problem kann das SLU-Problcm dabei als die bedingte Wahrscheinlichkeit formuliert werden, dass eine Bedeutung M gemeint ist, gegeben die aufgenommene Aussage W. Um die Bedeutung M zu finden, welche diese bedingte Wahrscheinlichkeit P(M |W) maximiert, eignen sich verschiedene Lern-Algorithmen, z.B. „Dynamische Bayes-Netzwerke“ [Lcf'06] oder Support-Vector-Machines [LMP01], Deep Neural Networks werden ebenfalls eingesetzt, um z.B. „syntaktische und semantische Beziehungen von Worten zu ihren benachbarten Worten zu repräsentieren“ [MSC+13]. Die sonst bei Grammatiken verwendeten Kategorien „Noun Phrase“, „Verb Phrase“ sowie „Noun“ und „Verb“ sind hierbei als Vektoren dargestellt.

Schritt 3: Dialog-Management

Die Identifikation der Nutzer-Intention reicht für eine erfolgreiche Konversation nicht aus. Anschließend muss das System dieses Verständnis im Rahmen des Dialog-Managements (DM) auch weiterverarbeiten können und „entscheiden, welche Aktion oder Antwort [es] als Reaktion auf den Input des Nutzers durchführen soll“ [JM09, S. 716].

Durch Dialog-Management wird die gesamte Logik der Unterhaltung implementiert. Das Design einer geeigneten Strategie für Dialog-Management ist nicht trivial, sondern „der Kern des Conversational Interface Engineering [...] und ausschlaggebend für die Zufriedenheit des Nutzers“ [MCG16, S. 210], Im Allgemeinen sind im Dialog-Management vor der Generierung einer jeden Antwort an den Nutzer zwei Strategien zu beachten [MCG16, S. 209]: die Interaktionsstrategie und die Fehlerbehandlungsstrategie. Letztere wird wirksam, wenn auf Basis des aktuellen Informationsstands Unklarheit darüber herrscht, was der Nutzer zuletzt gesagt oder gemeint hat. In einem reibungslosen Kommunikationsablauf ist hingegen die Interaktionsstrategie wirksam, um das Gespräch inhaltlich voranzutreiben.

Wird Intcnt-Idcntifikation genutzt, dient die Interaktionsstrategie dazu, die Intention des Nutzers zu bearbeiten, bis die angefragten Informationen dargestellt oder die gewünschten Aktionen durchgeführt sind. Dieses Ziel kann nach nur einem Sprecherwechsel zwischen Nutzer und Sprachassistenzsystem erreicht werden oder mehrere Interaktionen erfordern. Die Häufigkeit des Sprecherwechsels, im Englischen „Turn-Taking“, hängt davon ab, ob der inhaltliche Fortschritt vom Nutzer oder vom Dialog-System initiiert wird [JM09, S. 717 ff.]: Im Falle einer systemgeführten Interaktion leitet der Sprachassistent den Nutzer durch die Interaktion und stellt verschiedene Fragen, die für die Bearbeitung des Intents relevant sind. Allerdings ist dabei der Nutzer in seinen Möglichkeiten eingeschränkt und die Abarbeitung der Fragen kann mechanisch sowie unflexibel wirken. Bei einer nutzergeführten Interaktionsstrategie stellt umgekehrt der Nutzer Fragen bzw. Aufforderungen und der Sprachassistent antwortet. Der Nachteil dieser Strategie ist, dass der Nutzer seine Aussage auf eine Weise formulieren kann, die vom System nicht verstanden wird.

Kann eine Aussage des Nutzers nicht mit Sicherheit interpretiert werden, tritt die Fehlerbehandlungsstrategie in Kraft. Dabei entsteht kein inhaltlicher Fortschritt im Hinblick auf die Bearbeitung des Intents. Stattdessen wird versucht, für den aktuellen Gesprächsinhalt ein gemeinsames Verständnis zwischen Nutzer und System zu vereinbaren, was als „Grounding“ bezeichnet wird [JM09, S. 720 ff.]: Das System sollte jedoch nicht bei jeder Aussage des Nutzers nach Klärung fragen oder sich das Verständnis bestätigen lassen. Diese Bestätigung kann dabei implizit oder explizit erfolgen: Bei einer expliziten Bestätigung stellt das System eine Ja-Nein-Frage, um vom Nutzer zu erfahren, ob das Verständnis korrekt ist, z.B.: „Ich möchte den Sitzplatz C2 reservieren.“ - „Soll ich den Sitzplatz C2 buchen?“ - „Ja.“. Im impliziten Fall wird das Verständnis der aufgenommenen Äußerung in die nächste ausgegebene Frage bzw. Aussage eingebaut. Es wird erwartet, dass der Nutzer widerspricht, sollte das Verständnis nicht korrekt gewesen sein. Antwortet der Nutzer auf die neue Frage bzw. Aussage, wird das vorige Verständnis als bestätigt angenommen, z.B.: „Ich möchte den Sitzplatz C2 reservieren.“ - „Für welche Uhrzeit soll ich den Sitzplatz C2 buchen?“. Im Fall der Ablehnung kann ein Problem entstehen, wenn der Nutzer einen ausführlichen Änderungswunsch formuliert, der vom System nicht verstanden wird. Unabhängig davon können an jeder Stelle der Konversation Missverständnisse auftreten. Stellt der Nutzer also fest, dass eine vollkommen unpassende Gesprächsrichtung eingeschlagen wird, sollte er jederzeit eingreifen können. Dieser Eingriff wird als „Conversational Repair“ bezeichnet [JM09, S. 722].

In den meisten Fällen wird das Dialog-Management inklusive der genannten Strategie manuell implementiert. Dafür existieren unterschiedliche Ansätze: Für systemgeführte Abfragen mit relativ klaren Antwortformulierungen kann der Finite-State-Ans atz genutzt werden. Dabei beeinflusst die Antwort des Nutzers den Übergang zwischen einer endlichen Menge an Zuständen. In jedem Zustand erfolgt ein sogenannter „Prompt“, d.h. eine Abfrage mit einer festen Auswahl an Möglichkeiten [PSDL09], Eine höhere Flexibilität liegt dem Frame-Based- Ansatz zugrunde: Zur Erfüllung der Nutzer-Intention werden dabei verschiedene Parameter in einer beliebigen Reihenfolge abgefragt [COHM05], Traum und Larsson beschreiben den Information-State-Ansatz, bei dem ein Dialog-System zu jedem Zeitpunkt einen definierten Informationszustand aufweist und dafür verantwortlich ist, diesen anzupassen [TL03], Diese Informationen können aus verschiedenen Quellen stammen, u.a. der Aussage des Nutzers, Datenbanken oder Backend-Systemen. Beim Plan-Based-Ansatz wird hingegen nicht der Systemzustand, sondern der mentale Zustand des Nutzers modelliert [WCWT11].

Statt Zustände und Ziele manuell zu konstruieren, wird mit statistischen Ansätzen versucht, Strategien automatisch zu lernen: So kann im Corpus-Based-Ansatz der aktuelle Zustand mit Zuständen aus einem Korpus echter Mensch-Maschine-Dialoge verglichen und so die nächste Aktion gewählt werden [LJK+10], Durch Example-Based-Ansätze wird dieser Korpus aus Beispiel-Dialogen bereitgestellt [MKM+03], Ein Problem bei solchen Ansätzen ist, dass Zustände und Aktionen falsch ausgewählt werden können, was bei finanziellen Transaktionen oder medizinischen Diagnosen kritisches Fehlverhalten bewirken kann. Mit Reinforcement Learning kann z.B. ein Markovscher Entscheidungsprozess genutzt werden, um die Aussagen, Aktionen und Ziele eines Nutzers und den Dialog zu modellieren. Mit dem Dialog-Modell werden die Historie erfasst und Grounding sowie Error-Handling durchgeführt [YGTW13].

Schritt 4: Response Generation

Im Schritt dor Response Generation (RG) werden der genaue Inhalt und die Formulierung der Antwort festgelegt, die dem Nutzer mitgeteilt werden soll. Zusätzlich zur sprachlichen Ausgabe kann auch eine multi-modale Ausgabe vorbereitet werden, z.B. für einen Bildschirm.

Wie das Dialog-Management wird auch die Response Generation oft manuell erstellt: Uber Vorlagen können Parameter, die z.B. zuvor aus der Aussage des Nutzers extrahiert wurden, in der Antwort wieder eingefügt werden. Insbesondere dient RG auch der effektiven Gestaltung von Prompts [Lewl6]: Diese werden als „directive“ bezeichnet, wenn das Sprachassistenzsystem die Antwortmöglichkeiten explizit angibt. „Non-directive“ Prompts geben hingegen keine feste Auswahl vor und akzeptieren eine frei vom Nutzer formulierte Antwort. Dies kann allerdings Unsicherheit beim Nutzer darüber hervorrufen, wie er seine Aussage verständlich formulieren soll. Wenn der Nutzer jedoch eine Antwort gibt, die keiner Auswahlmöglichkeit zugeordnet bzw. nicht anderweitig verstanden werden kann, sollte ein „Reprompt“ erfolgen.

Wenn die auszugebenden Inhalte und Formulierungen jedoch nicht vorhersehbar sind, muss das System diese selbst generieren. Damit beschäftigt sich die „Natural Language Generation“ (NLG). Diese ist insbesondere für Question-Answering relevant [RDOOj: Um beispielsweise nach einer Auswertung aktueller Daten fragen zu können, müssen die numerischen Daten zuerst auf Muster, Trends, kausale oder andere Zusammenhänge untersucht werden. Auch eine Zusammenfassung von textuellen Daten erfordert zuerst die Verarbeitung der Inhalte, bevor das System selbständig eine Formulierung für die Ausgabe generiert.

Schritt 5: Text-to-Speech Synthesis

Mit Text-to-Speech Synthesis (TTS) wird das Ziel verfolgt, die zuvor generierten Worte mit einer möglichst menschenähnlichen Stimme hörbar auszugeben. Jurafsky und Martin unterscheiden dabei die Stufen „Text-Analyse“ und „Waveform Synthesis“ [JM09, S. 272], die als Umkehrung von Sprach- und akustischem Modell der SLU verstanden werden können:

Zu Beginn der Text-Analyse wird der auszugebende Text normalisiert, um z.B. einen Punkt am Satzende von Punkten in Abkürzungen, Datumsangaben oder Zahlen zu unterscheiden. Zur Klassifikation bestimmter Worte als Marker für Satzgrenzen wird oft Supervised Learning verwendet. Homographe, d.h. gleich geschriebene Worte mit unterschiedlicher Aussprache, stellen eine weitere Herausforderung dar: Ein Beispiel ist „Montage“ als Plural von Montag und „Montage“ im baulichen Sinne. Dazu wird Part-of-Speech-Tagging genutzt. Im Anschluss erfolgt eine phonetische Analyse, bei der die Aussprache jedes einzelnen Wortes in einem entsprechenden Wörterbuch nachgeschlagen wird. Für Wörter, deren Aussprache nicht definiert ist, wird die Sequenz nach bestimmten Regeln konstruiert. Sollte diese falsch erzeugt werden, kann sie mithilfe der „Speech Synthesis Markup Language“ (SSML) manuell angepasst werden. Insbesondere die Aussprache von Eigennamen ist auf diesem Wege modifizierbar. Nach der phonetischen wird eine prosodische Analyse durchgeführt, die u.a. Tonhöhe, Lautstärke, Geschwindigkeit und Rhythmus aufzeigt. Dadurch können z.B. der Unterschied zwischen Frage und Aussage sowie verschiedene Emotionen zum Ausdruck kommen.

Bei der Waveform Synthesis erfolgt die Übersetzung der einzelnen Worte in Wellenform, indem zuvor eingesprochene Sequenzen aus einer Datenbank aneinandergereiht werden. Damit die einzelnen Sequenzen hintereinander nicht abgehackt klingen, kann die Tonhöhe an den Grenzstellen zusätzlich angepasst werden.

3. Analyse der aktuellen Anwendung von

Sprachassistenzsystemen

In diesem Kapitel wird der aktuelle Einsatz von Sprachassistenzsystemen behandelt. Dabei erfolgt zunächst eine Analyse derzeitiger Anwendungen im privaten Kontext und danach im Business-Kontext. Das Kapitel schließt mit einer Betrachtung der Chancen und Risiken von Sprachassistenten im Business-Kontext basierend auf Sekundärdaten.

Wie in den Grundlagen beschrieben, klassifiziert Gartner ein solches Assistenzsystem je nach Nutzergruppe als Virtual Personal Assistant, Virtual Customer Assistant oder Virtual Employee Assistant [Karl?]. Die Zuordnung muss jedoch nicht immer eindeutig sein, wie im Venn-Diagramm in Abbildung 3.1 visualisiert ist. Diese Einordnung bestehender Assistenten durch Gartner von Juni 2017 wird in der Darstellung auf den Stand von Januar 2018 aktualisiert. In den folgenden Abschnitten wird u.a. auf diese Lösungen eingegangen.

Abbildung in dieser Leseprobe nicht enthalten

3.1 Aktuelle Anwendung im privaten Kontext

Zunächst werden relevante Nutzungsstatistiken für Sprachassistenzsysteme im privaten Kontext dargestellt, um die Relevanz und Aktualität des Themas zu quantifizieren. Darauf folgt eine Vorstellung aktuell bestehender Virtual Personal Assistants. Insbesondere werden dabei die fünf bekanntesten Sprachassistenzsysteme Siri, Google Assistant, Cortana, Alexa und Watson aus Sicht des Endnutzers vorgestellt.

3.1.1 Nutzung von Sprachassistenzsystemen

Die weite Verbreitung von Siri, Google Assistant, Cortana und Alexa ist anhand der Nutzerzahlen erkennbar: Laut Aussagen der Hersteller beläuft sich die Zahl der Geräte mit regelmäßiger Nutzung im Januar 2018 bei Siri auf über 500 Millionen [ClolS] und bei Google Assistant auf über 400 Millionen [CH18], Cortana wurde im Mai 2017 monatlich von 141 Millionen Nutzern verwendet [Holl7], Seitens Amazon liegen bis Januar 2018 keine offiziellen Aussagen über die Nutzerzahlen für Alexa vor, doch laut einer Studie der „National Public Radio Inc.“ Ende Dezember 2017 sind alleine in den USA über 28 Millionen Echo-Geräte im Einsatz [StelS], Dabei ist zu beachten, dass einerseits ein Gerät mehrere Nutzer erlaubt, andererseits ein Haushalt mehrere Echo-Geräte aufweisen kann. Deswegen lässt sich aus dem Absatz der Hardware nicht direkt auf die Nutzerzahl schließen.

Laut einer Erhebung durch Tractica im August 2016 lag die Anzahl der weltweiten Nutzer von Sprachassistenten bei über einer halben Milliarde. Gleichzeitig werden für 2018 über 1 Milliarde und für 2020 über 1,6 Milliarden Nutzer prognostiziert [Tral6a].

In Deutschland gaben in einer Umfrage unter 1.000 Befragten im März 2017 etwa 90 % an, von mindestens einem der Sprachassistenten Siri, Google Assistant, Cortana oder Alexa gehört zu haben [Norl7], Gemäß dem Bundesverband Digitale Wirtschaft c.V. haben bis November 2017 bereits 56 % der Internetnutzer in Deutschland einen Sprachassistenten zumindest ausprobiert [Tesl7], Im März 2017 nutzten laut eigener Aussage 12,9 % der Befragten Google Assistant, 10,8 % Siri, 6,4 % Cortana und 4,4 % Alexa regelmäßig [Norl7], Davon sind jeweils etwa 90 % mit der Stimme des entsprechenden Sprachassistenten sehr bzw. eher zufrieden [Bral7], Mit der Stimme von Alexa sind fast 50 % der deutschen Nutzer sehr zufrieden. Da nur etwa 30 % der Nutzer mit den Stimmen der drei anderen Assistenten sehr zufrieden sind, kann dieser Effekt als signifikant aufgefasst werden [SN17].

In den USA werden die neuesten Funktionalitäten dieser vier Sprachassistenten stets zuerst eingeführt. Dort verwendeten 46 % der in einer Telefonumfrage des Pew Research Center im Mai 2017 Befragten bereits regelmäßig einen Sprachassistenten [Pewl7], Im April 2017 verwendeten gemäß einer Statista-Umfrage laut eigener Aussage 32 % regelmäßig Siri, 33 % Google Assistant, 21 % Cortana und 17 % Alexa [Stal7a], Von etwa 39 Millionen „SmartSpeaker-Geräten [Natl7b] sind 70,6 % Amazons Echo- und 23,8 % Google-Home-Geräte [cMal7]. So kann Amazon einen Marktvorsprung verzeichnen. Wie in Deutschland ist auch in den USA die Zufriedenheit mit Alexas Stimme höher: So geben 66 % der Alexa-Nutzer an, mit der Stimme sehr zufrieden zu sein, während bei den drei anderen Assistenten etwa 55 % der Nutzer sehr zufrieden sind [Stal7b], Dass diese Prozentzahlen insgesamt höher ausfallen als in Deutschland kann daran liegen, dass in den USA solche Bewertungen aus kulturellen Gründen tendenziell besser ausfallen oder die englischen Versionen der Stimmen technisch ausgereifter sind.

Die Nutzung von Sprachassistenten unterscheidet sich nicht nur nach Ländern, sondern auch nach dem Alter der Nutzer: Aus den Ergebnissen einer aktuellen Studie von Capgemini Consulting über die Verwendung von Sprachassistenten in den USA, Deutschland, Großbritannien und Frankreich lässt sich berechnen, dass der Nutzer-Anteil mit dem Alter sinkt: Während in der Gruppe der 18- bis 21-Jährigen 76 %, bei den 22- bis 32-Jährigen 70 % und bei den 33- bis 45-Jährigen 62 % Sprachassistenzsysteme nutzen, beläuft sich dieser Anteil bei den 46- bis 60-Jährigen auf d % und bei den über 61-Jährigen auf 31 % [BTJ+18, S. 30], Auch die aufgerufenen Anwendungen unterscheiden sich nach Alter [Higl7]: Die Gruppe der „Millcnials“, der Personen mit einem Geburtsjahr zwischen 1980 und 2000 angehören, verwendet Sprachassistenzsysteme am häufigsten mobil für die Suche nach Kinozeiten, Geschäften und Öffnungszeiten, für aktuelle Verkehrsmeldungen und Navigation. Die „Generation X“, welche Personen umfasst, die zwischen 1964 und 1980 geboren wurden, verwenden Sprachassistenzsysteme weniger für mobile Anwendungen, sondern bevorzugt zu Hause für das Aufrufen von Kontakten, Einkaufslisten, aktuellen Nachrichten und das Nachschlagen von Liedern, die in dem Moment im Radio abgespielt werden. „Baby Boomers“ wiederum, die zwischen 1946 und 1964 geboren wurden, verwenden Sprachassistenten primär für das Abhören von Nachrichten auf dem Anrufbeantworter und das Nachschlagen von Umrechnungen, Feiertagen, Rezepten und der Wettervorhersage.

3.1.2 Bestehende Sprachassistenzsysteme

In diesem Abschnitt werden die bekanntesten, von internationalen Technologie-Unternehmen angebotenen Virtual Personal Assistants und ihre aktuellen Features vorgestellt.

Siri wurde im Oktober 2011 mit der Markteinführung des iPhone ^s als erstes Sprachassistenzsystem einer weltweit großen privaten Nutzergruppe zur Verfügung gestellt [HB11], Mittlerweile ist Siri zusätzlich auf dem iPad, Mac, der Apple Watch und dem Apple TV bedienbar [Appl7c], Der Nutzer kann auf dem jeweiligen Gerät iOS Apps und bestimmte App-Funktionalitäten aufrufen sowie typische Anfragen wie Erinnerungen, Kontaktieren, Umrechnungen, Wissensfragen u.ä. bearbeiten. Durch die Anbindung an Apple Music lassen sich auf diesen Geräten auch zahlreiche Musiktitel abspielen. Ebenso ist mit dem Kartendienst Apple Maps die mobile Navigation und die Suche nach Geschäften per Sprachbefehl aufzurufen. Uber Apple CarPlay kann das Infotainmentsystem der meisten Fahrzeughersteller [Appl7a] an das iPhone angeschlossen und während der Autofahrt über Siri bedient werden. Im Smart-Home-Kontext ist über Siri zudem das Apple HomeKit steuerbar. Dabei können die Sprachbefehle in der Apple Home App des iPhones oder vom Lautsprecher Apple Homepod registriert werden. So lassen sich z.B. Lampen, Thermostate, Klimaanlagen, Sensoren, Kameras etc. steuern [Appl7b].

Mit Google Now wurde im Juli 2012 zunächst auf dem Smartphone Galaxy Nexus ein zu Siri konkurrierender Sprachassistent für das Android-Betriebssystem eingeführt [Ingi2], Neben dem Aufrufen von Android-Apps diente Google Now in erster Linie als sprachliche Schnittstelle zur Google Suchmaschine. Als Suchergebnisse ließen sich nicht nur Webseiten darstellen, sondern auch Bilder, Videos, Nachrichten, Umrechnungen, Produkte etc. und auf Basis des Google Knowledge Graph auch Wissen über Personen, Orte und Gegenstände sowie deren Beziehungen zueinander [Gool7f], Anders als bei Siri lag der Fokus bei Google Now darauf, dem Nutzer mit personalisierten Benachrichtigungen in Form von Now Cards zu assistieren. Dazu wertet das System z.B. Reservierungsbenachrichtigungen, Kalendereinträge, die Browser-Historie oder häufig genutzte Zugverbindungen aus. Darauf aufbauend weist es z.B. auf Stauinformationen, Wettermeldungen, neue Videos, Sportergebnisse etc. hin, die für den individuellen Nutzer zum jeweiligen Zeitpunkt interessant sein könnten. Dadurch sollen relevante Inhalte bereits angezeigt werden, „bevor der Nutzer selbst danach sucht“ [Gool7c]. Mit Google Now on Tap wurde im Mai 2015 zusätzlich die Möglichkeit eingeführt, zu den aktuell auf dem Bildschirm angezeigten Texten und Inhalten passende Suchergebnisse bzw. Empfehlungen anzuzeigen [Well5], Im Mai 2016 wurde Google Now durch Google Assistant abgelöst. Dieses System übernahm die zuvor genannten Funktionalitäten von Google Now. Zusätzlich wurde es um die Fähigkeit erweitert, wie eine Person in natürlicher Sprache zu antworten und einen Dialog zu führen, statt lediglich Suchergebnisse vorzulesen oder Aktionen durchzuführen [Puri6], Zudem ist Google Assistant nicht nur auf AndroidSmartphones, -Smartwatches und -Tablets verfügbar. Für Smart-Home-Anwendungen können auch der eigene Lautsprecher Google Home sowie Lautsprecher anderer Hersteller wie LG, Panasonic oder Sony eingesetzt werden. In Googles Messaging-App Allo wird Google Assistant zudem wie ein Kontakt angeschrieben. Gleichzeitig lässt sich der Assistent zu bestehenden Unterhaltungen mit anderen Kontakten hinzugefügen, um z.B. bei der Auswahl eines Restaurants oder eines Kinofilms zu unterstützen [Gool7c], Wie Siri bei Apple Carplay ist Google Assistant im Infotainmentsystem Android Auto verwendbar [BolilS].

Cortana wurde im April 2014 zunächst auf dem Windows Phone 8.1 eingeführt [Larl4] und steht seit 2015 auf allen Windows- 10-Gcrätcn sowie der Spielekonsole Xbox One zur Verfügung [Ashl5], Die Bezeichnung „Cortana“ stammt vom gleichnamigen Kl-Charakter in Microsofts Spiele-Serie Halo. Der Funktionsumfang ist ähnlich wie jener von Siri und Google Now: Einerseits bietet Cortana - ähnlich wie Google Now - personalisierte Benachrichtigungen und integriert Microsofts Suchmaschine Bing. Andererseits stellt Cortana - ähnlich wie Siri - von Beginn an einen eigenen Charakter dar und führt im Rahmen der Möglichkeiten eine Unterhaltung mit dem Nutzer in natürlicher Sprache. Die Bedienung erfolgt primär im „Cortana-Canvas“, das sich auf einem Computer-Bildschirm standardmäßig als Karte links unten oder im Vollbildmodus öffnet. Zudem unterstützt Cortana - wie Google Now on Tap - in Microsofts Web-Browser Edge dabei, nach bestimmten Worten und Inhalten wie Geschäften, Shopping-Empfehlungen oder Songtexten zu suchen [Hucl6a], Cortana ist zwar auf jedem Windows- 10-Gcrät verfügbar, anders als Siri und Google Assistant jedoch erst vom Nutzer zu aktivieren [Fill6], Meldet sich der Nutzer zusätzlich mit einem MicrosoftAccount an, werden personalisierte Daten im „Cortana-Notebook“ gespeichert [Hucl6b], Wie mit Siri und Google Assistant lassen sich auch mit Cortana bestimmte Smart-Homc-Gcrätc z.B. von Philips Hue, Nest, Insteon, Smart Things und Wink steuern [Pakl7], Zudem ist Cortana auch als Stimme der Mixed-Reality-Brille Microsoft HoloLens eingerichtet [Dacl6], Anders als Siri und Google Assistant kann Cortana auch Dokumente und Einstellungen auf dem eigenen Computer durchsuchen und an die zuletzt verwendeten Anwendungen erinnern. Zudem ist eine Anbindung an Microsofts Office 365 und LinkedIn möglich.

Anders als Siri, Google Assistant und Cortana wurde Amazons Alexa im November 2014 nicht für bereits bestehende Endgeräte eingeführt. Der Gebrauch ist vielmehr mit dem Kauf eines speziellen Echo-Geräts verbunden [Lorl4], Bei der ersten Echo-Generation erfolgt die Interaktion ausschließlich in gesprochener Form, sodass der Nutzer die Aufrufe nur mündlich durchführen und Ergebnisse nur in auditiver Form erhalten kann. Seit Mitte 2017 werden mit dem Echo Show und dem Echo Spot auch Geräte mit einem Bildschirm verkauft [Lial7], Wie bei Amazons E-Book-Reader „Kindle“ wurde damit im Grunde eine vereinfachte und auf spezifische Funktionalitäten zugeschnittene Form eines Computers auf dem Markt eingeführt. Da jedes Echo-Gerät einen Stromanschluss benötigt, ist der mobile Gebrauch nicht möglich. Dadurch ist Alexa aber für Smart-Home-Anwendungen zur Bedienung von Beleuchtung, Fernsehern, Überwachungskameras, Kaffeemaschinen, Staubsaugerrobotern etc. prädestiniert [EmmlS], Außerdem sollen in Kooperation mit BMW und Garmin Speak auch Fahrzeuge mit Alexa ausgestattet werden [Köl7], Wie die zuvor genannten Hersteller bietet auch Amazon eine Verbindung zum eigenen Geschäftsmodell: So können auf Amazon verfügbare Produkte bestellt sowie Musik, Hörbücher und Videos von Amazon Prime abgerufen werden. Diese Features werden für den amerikanischen Markt durch über 25.000 Alexa-Skills von Drittentwicklern erweitert [MutlS], Im Herbst 2017 wurde zudem eine Partnerschaft zwischen Microsoft und Amazon angekündigt: Alexa soll sich über Cortana aufrufen lassen und vice versa. Cortana kann so von zahlreichen Alexa-Skills und Alexa von der Verbindung zu Office 365 profitieren [Hegl7].

Diese vier Sprachassistenten weisen im Wesentlichen einen ähnlichen Funktionsumfang auf. Auch die Integration in den Smart-Homc-Bcrcich sowie in Infotainment-Systeme von Fahrzeugen ist allen gemein. Der Interaktionsablauf bei der Anwendung der einzelnen Funktionalitäten ist jedoch unterschiedlich. Die Beschreibungen basieren im Wesentlichen auf dem Stand von Januar 2018. Die Hersteller können durch Software-Updates, die Bereitstellung neuer Hardware oder Partnerschaften mit anderen Dienstleistern relativ schnell weitere Funktionalitäten hinzufügen. Im Vergleich dazu ist IBM Watson jedoch anders aufgestellt.

Watson, benannt nach dem ersten IBM-CEO Thomas John Watson, ist das Ergebnis eines 2007 initiierten Projektes zur Entwicklung eines Computersystems, das mit Hilfe von „computational linguistics, information retrieval, knowledge representation and reasoning, and machine learning“ [Lewl2] offene Wissensfragen beantworten kann. Es wurde zunächst speziell dafür implementiert, zu den in der Quiz-Show Jeopardy! gebotenen Antworten die passenden Fragen zu finden und so das Spiel zu gewinnen. 2011 wurde dieses Vorhaben erfolgreich umgesetzt, wobei Watson mit einem nicht zu vernachlässigenden Abstand gegenüber zwei früheren Siegern in der Fernseh-Sendung gewann [Marli], Dabei hatte das System keinen Zugriff auf das Internet, sondern auf eine eigene Datenbank mit 4 Terabyte Speicherplatz, welche Enzyklopädien wie Wikipedia, Wörterbücher, Zeitungsartikel und Bücher enthielt. IBM Watson ist bis heute nicht als Sprachassistent für private Nutzer im Einsatz, um Sprachbefehle entgegenzunehmen und Aktionen auszuführen. Vielmehr werden die Technologien hinter IBM Watson verwendet, um in verschiedenen Expertise-Domänen zu unterstützen: Beispielsweise werden medizinische Fragestellungen auf Basis bekannter Diagnosen und aktueller Forschungsergebnisse beantwortet [IBM17b], Ebenso sollen juristische Fälle anhand von Gesetzestexten und Präzedenzfällen gelöst werden [Danl5], Dabei muss die Ausgabe der Ergebnisse nicht immer in gesprochener Form erfolgen. So wurden im Januar 2017 in einer japanischen Versicherung 34 Sachbearbeiter durch eine Anwendung von IBM Watson ersetzt, die Schadensfälle beurteilt und die Höhe der Auszahlungen an die Geschädigten ermittelt [Rot 17].

Bis Januar 2018 arbeitete auch Facebook an einem Assistenten namens „Facebook M“, der im Facebook Messenger - wie Google Assistant in Allo - passende Empfehlungen geben sollte [PetlS], Unter dem Namen „WeChat Secretary“ wurde 2015 eine vergleichbare Lösung für WeChat, eine in Asien verbreitete Instant-Mcssaging-App, eingeführt. Diese soll englisch-sprachige Einwohner in China bei der Verwendung verschiedener Dienstleistungen unterstützen [WeS17], Der Assistent wird allerdings nicht von WeChat-Betreiber Tencent selbst bereitgestellt. Mit „Samsung S Voice“ und dem Nachfolger „Bixby“ steht auf Samsung- Smartphones neben Google Assistant ein weiterer Sprachassistent zur Verfügung. Darüber lassen sich Funktionalitäten wie Wecker oder SMS-Versand durchführen [SamlS], Es werden jedoch weder personalisierte Empfehlungen erstellt, noch Wissensfragen beantwortet. Uber den „Blackberry Assistant“ können, bis zur Umstellung auf Android im Dezember 2019, auch Blackberry-Smartphones und darauf befindliche Apps sprachgesteuert werden [Füll 7], Die Telekom kündigte im November 2017 zudem einen Sprachassistenten für den deutschen Sprachraum an, der alle Daten in Deutschland entsprechend den lokalen Datenschutzgesetzen speichert: „Telekom Magenta“ soll über einen eigenen Lautsprecher für Smart-Home- Anwendungen und Telefonate eingesetzt werden sowie Alexa-Skills integrieren [Weil7].

Unabhängig von den großen Technologie-Unternehmen werden VPA.s mit ähnlichen Features auch von Start-Ups angeboten: Sher.pa wurde zunächst speziell für den spanischen Sprachraum entwickelt und bietet ähnlich wie Google Now personalisierte Empfehlungen in Form von Karten [UE18], Bei olly handelt es sich um einen Sprachassistenten, der sich durch einen eigenen Charakter, den Ausdruck von Emotionen und personalisierte Reaktionen auszeichnet. Der Assistent ist hierzu in ein Gerät integriert, das sich bei der Interaktion zum Nutzer hin dreht, über verschiedene Farbmuster eigene Gefühle ausdrückt und über eine Kamera den Nutzer und seine aktuelle Tätigkeit wahrnimmt [EmolS].

3.2 Aktuelle Anwendung im Business-Kontext

Da der Gebrauch von Sprachassistenzsystemen im Business-Kontext bisher vergleichsweise gering ausfällt, wird die Perspektive für diesen Abschnitt um Künstliche Intelligenz, Chatbots und Virtual Customer Assistants erweitert: Aus Sicht eines Unternehmens stellen Sprachassistenten nämlich eine Form von Künstlicher Intelligenz dar. Deswegen wird in diesem Abschnitt zunächst die Relevanz von KI für den Business-Kontext hervorgehoben. Anschließend werden bestehende Virtual Employee Assistants und Virtual Customer Assistants mit und ohne auditive Schnittstelle vorgestellt.

3.2.1 Nutzung Künstlicher Intelligenz

„Unternehmen erkennen deutlich den Wert, der mit der Integration künstlicher Intelligenz (KI) in ihre Geschäftsprozesse verbunden ist. Die Zahl der Proof-of-Concept- und Pilotprogramme nimmt weiter zu und größere kommerzielle Implementierungen der Kl-Technologie werden von Unternehmen auf der ganzen Welt verkündet“ [TralS], In Zukunft soll der weltweite Umsatz mit Unternehmensanwendungen im Bereich Künstliche Intelligenz von etwa 360 Millionen US-Dollar im Jahr 2016 auf über 30 Milliarden in 2025 steigen [Tral6b], Dies bietet Potential für etablierte Unternehmen und die Gründung zahlreicher Startups.

Im Gartner Hype Cycle zu Künstlicher Intelligenz vom Juli 2017 wird spezifiziert, dass „Virtuelle Assistenten“ derzeit am „Gipfel der überzogenen Erwartungen“ stehen und eine „breite Bereitstellung“ in fünf bis zehn Jahren zu erwarten ist [BA17], Dies bedeutet in der Theorie, dass Berichterstattungen oft mit übertriebenem Enthusiasmus unrealistische Erwartungen wecken. Ähnlich werden auch die im Kontext dieser Masterarbeit tangierten Themen Connected Home und Io T-Plattformen sowie Machine Learning und Deep Learning eingeschätzt. Gleichzeitig sind Cognitive Expert Systems, die Experten bei der Lösung komplexer Probleme unterstützen sollen, bereits am „Tal der Enttäuschungen“ kategorisiert. Dort erfolgt eine geringe Berichterstattung, weil die vorigen Erwartungen nicht erfüllt wurden. Der intelligente Arbeitsplatz und Conversational User Interfaces hingegen sind noch nicht am Hype-Gipfel angelangt. Auch General AI befindet sich bisher erst am Anfang des Zyklus und wird Marktreife nicht in absehbarer Zeit erreichen.

Da Künstliche Intelligenz grundsätzlich eine Menge an Methoden umschreibt, die von konkreten Anwendungen losgelöst sind, können diese im Business-Kontext unterschiedlich eingesetzt werden: In einem Report von Tractica im Januar 2018 werden insgesamt etwa 300 unterschiedliche Use-Cases für 27 verschiedene Branchen präsentiert, z.B. Predictive Maintenance, Gesichts-, Emotions- und Gestenerkennung, Echtzeit-Videoanalysen, automatisierte Reporterstellung und Personaleinsatzplanung, Workflow-, Projekt- und Stakeholder-Management und die automatisierte Generierung von Code und Webseiten [TralS], In einer Studie des National Business Research Institute in den USA gaben 61 % der Unternehmen an, 2017 bereits mindestens eine Form von Künstlicher Intelligenz im eigenen Unternehmen zu nutzen [Natl7a], Beinahe 25 % verwenden Predictive Analytics, während sich die restlichen Angaben auf unterschiedliche Use-Cases verteilen. Bei über 70 % der befragten Unternehmen ist die Nutzung von Künstlicher Intelligenz in der Innovationsstrategie verankert und über 60 % erweiterten im vergangenen Jahr das Budget für solche Umsetzungsvorhaben. Die Investitionsentscheidung wird dadurch erleichtert, dass viele Projekte daten-orientiert und daher leicht messbar sind [TralS], So lassen sich bereits während eines kleinen Pilotprojekts die Vorteile anhand der Leistungsdaten schnell nachweisen.

In Deutschland setzen, wie aus einer Studie von Februar 2017 hervorgeht, bereits 46 % der großen Unternehmen in mindestens einem Unternehmensbereich KI ein [Sopl7], Von den restlichen Unternehmen planen weitere 40 % einen Einsatz in der Zukunft. 21 % verwenden Predictive Analytics, was im Vergleich zu den USA jedoch nicht die meistgenutzte Anwendung darstellt. Mit 31 % ist Robotic Process Automation (RPA) die am häufigsten gebrauchte KI-Technologie. Mit RPA kann eine Software über die Benutzerschnittstellen von Geschäftsanwendungen die gleichen Interaktionen ausführen wie menschliche Mitarbeiter und diese automatisieren. Die Hälfte der Unternehmen vermutet das höchste Potential für die Zukunft bei intelligenter Automatisierungstechnologie, z.B. durch Industrieroboter in der Produktion. Das ist vermutlich darauf zurückzuführen, dass viele größere Unternehmen in Deutschland dem produzierenden Gewerbe angehören [IFR18], Das zweithöchste Potential wird von 43 % der Unternehmen dem Einsatz von Digitalen Assistenten zugesprochen [Sopl7], Im Vergleich zu anderen Kl-Anwendungen ist die Diskrepanz zwischen dem wahrgenommenen Potential und dem aktuellen Einsatz bei Sprachgesteuerten Anwendungen und Digitalen Assistenten mit am größten. Dies deutet auf einen Bedarf der Unternehmen nach Sprachassistenten und somit auf eine potentielle Marktlücke hin. Mit welchen Lösungen bereits versucht wird diese Lücke zu schließen, wird im nächsten Abschnitt dargestellt.

[...]

Ende der Leseprobe aus 160 Seiten

Details

Titel: Entwicklung von Sprachassistenten als intelligente Mensch-Maschine-Schnittstelle im Business-Kontext
Untertitel: Ein Prototyp und seine Usability
Hochschule: Karlsruher Institut für Technologie (KIT)
Note: 1,0
Autor: Viktoria Medvedenko (Autor:in)
Jahr: 2018
Seiten: 160
Katalognummer: V940856
ISBN (eBook): 9783346304742
ISBN (Buch): 9783346304759
Sprache: Deutsch
Schlagworte: entwicklung, sprachassistenten, mensch-maschine-schnittstelle, business-kontext, prototyp, usability

Arbeit zitieren: Viktoria Medvedenko (Autor:in), 2018, Entwicklung von Sprachassistenten als intelligente Mensch-Maschine-Schnittstelle im Business-Kontext, München, GRIN Verlag, https://www.grin.com/document/940856

Kommentare