Lade Inhalt...

Evolutionäre Algorithmen in der Spracherkennung

Hausarbeit (Hauptseminar) 2004 10 Seiten

Informatik - Programmierung

Leseprobe

Abstract

Dieser Text stellt einige evolutionar optimierte Klassi­fikatoren vor, mit Fokus auf Erkennung von Phonemen in der Spracherkennung. Das sind zum einen GA-Clustering, ein genetischer Vektor-Quantisierer; außerdem ein GP- Klassifikator, welcher Programme entwickelt, die direkt aus dem rohen Zeitsignal Phoneme extrahieren; und schließ­lich Evolutionare Neuronale Netze mit GA-Optimierung von Verbindungsgewichten, Topologie oder Aktivierungsfunk­tionen.

1. Einleitung

Evolutionare Algorithmen werden zunehmend zur An­wendung in Lernverfahren der Mustererkennung inter­essant, insbesondere zur Erkennung von Sprache. Ziel die­ses Textes ist es, die Anwendungsmoglichkeiten von EAs für die Spracherkennung aufzuzeigen. Es werden exempla­risch einige evolutionär optimierte Klassifikatoren vorge­stellt. Das sind zum einen GA-Clustering, ein genetischer Vektor-Quantisierer; außerdem ein GP-Klassifikator, wel­cher Programme entwickelt, die direkt aus dem rohen Zeit­signal Phoneme extrahieren; und schließlich Evolutionäre Neuronale Netze mit GA-Optimierung von Verbindungsge­wichten, Topologie oder Aktivierungsfunktionen.

Der Rest dieser Arbeit ist folgendermaßen gegliedert: Abschnitt 2 gibt einen knappen Überblick uber die Pha­sen eines typischen Spracherkennungsprozesses. Im An­schluss wird die Extraktion von Features aus dem Zeitsi­gnal erlautert. Abschnitt 4 fuhrt einige Begriffe zum Lernen und Erkennen von Phonemen ein. Die nachsten Abschnit­te stellen die genannten Anwendungsgebiete vor, wobei im Abschnitt 8 über evolutionare Neuronale Netze zuerst die Grundlagen behandelt werden.

2. Signalfluss von Spracherkennungssytemen

Der typische Vorgang der Spracherkennung [7] lasst sich grob folgendermaßen zusammenfassen:

1. Vorverarbeitung des Audiosignals. Das kann z.B. Rauschunterdrückung oder Filterung sein.
2. Feature-Extraktion. Dabei wird das Zeitsignal in eine Sequenz von Feature-Vektoren transformiert. Features sind Merkmale wie z.B. das Spektrum.
3. Phonem-Klassifikation. Ein Feature-Vektor wird auf eine Phonemklasse abgebildet.
4. Worterkennung. In der Folge von Phonemen werden Wörter gesucht, in der Regel durch Vergleichen mit so­genannten Hidden-Markov-Models. Bei Einzelworter­kennung wird nur das ahnlichste Wort ausgegeben. Bei kontinuierlicher Sprache wird eine Menge von mehre­ren moglichen Worten ausgegeben.
5. Eine anschließende kontextabhangige Analyse (gram­matisch oder statistisch) wahlt in kontinuierlicher Sprache das plausibelste Wort aus der Menge aus.

3. Feature-Extraktion

Das rohe Zeitsignal wird in kurze (typischerweise 10- 20ms) gleichgroße überlappende Abschnitte (Frames) zer­schnitten, und jeder Frame wird mit einer Amplitudenhull- kurve multipliziert [7].

Es folgt pro Frame eine Berechnung von mehreren dis­kriminierenden Merkmalen, und diese werden zu einem

Feature-Vektor

Abbildung in dieser Leseprobe nicht enthalten

zusammengefasst.

Gängige Features:

- Fourier-Leistungsspektrum (quadrierte Fourier­Koeffizienten) [7]:

Abbildung in dieser Leseprobe nicht enthalten

Dies ist eine Transformation vom Zeitbereich in den Frequenzbereich. Die Welle wird als Summe von Si­nuswellen mit verschiedener Phasenlage und Amplitu­de zerlegt. Die Berechnung nach obiger Formel ware zu ineffizient. Stattdessen verwendet man die Fast­Fourier-Transform (FFT).

- Mel Cepstrum / Mel Frequency Cepstrum Coefficients (MFCC) [7]: Das Signal wird von einer Filterbank aus dreieckigen Bandpassfiltern zerlegt, und die Energie pro Frequenzband berechnet.

Abbildung in dieser Leseprobe nicht enthalten

H[Abbildung in dieser Leseprobe nicht enthalten] : Frequenzgang des k-ten von M" dreieckigen Filters (Abb. 1) in Abhängigkeit von Frequenz ω.

F[Abbildung in dieser Leseprobe nicht enthalten] : Fourier-Koeffizient

M': Anzahl der diskreten Frequenzen

Abbildung in dieser Leseprobe nicht enthalten

[Abbildung in dieser Leseprobe nicht enthalten]: MFCC an der Stelle l

Die Auflösungen von Frequenz und Pegel sind loga- rithmisch, wie das menschliche Ohr. Daher ist das Mel Cepstrum biologisch plausibler als FFT. Nicht zuletzt deshalb ist es die popularste Feature-Menge.

- Zeitliche Differenzen von Features wie FFT, Mel Cep- strum.

Es ist nicht ungewohnlich, verschiedene Arten von Fea­tures in einen Vektor zu kombinieren. Zur Unterschei­dung zwischen Sprache und Stille/Hintergrund/Rauschen (wichtig zur Erkennung von Wortgrenzen) wird ein Level- Detektor verwendet, der die Short-Time-Energy (Energie ei­nes Frames) misst. Beim Auftreten eines Sprach-Frames werden die FFT- oder MFCC-Koeffizienten anhand der Short-Time-Energy normalisiert, was die Erkennung von Phonemen unabhangig von der Lautstarke ermoglicht.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1. Mel Cepstrum Filterbank. Fre­quenzgänge der dreieckigen Bandpassfilter.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2. Klassen sind Regionen im Feature-Raum. Hier: Erkennung von Vokalen aus 2 Features. [6]

4. Phonemklassifikation

In der Spracherkennung gibt es viele Wortuntereinhei­ten, in die man das Audiosignal zerlegen kann, z.B. Sil­be, Halbsilbe, Doppelsilbe, Phon, Phonem und andere [7]. In dieser Arbeit definiere ich den in der Literatur nicht ganz einheitlich festgelegten Begriff Phonem als die kleins­te Wortuntereinheit, das heisst, ein Audiosegment mit un­gefahr konstantem Spektrum.

Koartikulatorische Effekte beim Übergang zwischen Phonemen konnen die Erkennungsrate degradieren. Ver­besserung bringt die Berücksichtigung des Kontextes (be­nachbarte Frames) oder zeitliche Änderungen der FFT oder MFCC als zusatzliche Features.

Ziel ist die Zuordnung eines Feature-Vektors auf eine von K Klassen:

Abbildung in dieser Leseprobe nicht enthalten

Anschaulich gesehen sind Klassen Regionen im Feature­Raum (Abb. 2).

4.1. Unsupervised Learning

Beim Unsupervised Learning, auch genannt Clustering und Vector Quantization, werden dem Klassifikator N Trai­ningsbeispiele Xi (Trainingsmenge S) ohne Angabe der gewünschten Ausgabe präsentiert.

Abbildung in dieser Leseprobe nicht enthalten

Der Feature-Raum wird selbstständig in K Sektoren (Clus­ters), entsprechend K Klassen, partitioniert. Dabei wachst die lokale Granularitat (Dichte von Clusters) mit der loka­len Dichte von Beispielvektoren (je mehr Beispiele in ei­nem Gebiet, desto feiner die Auflösung dort). Jeder Cluster Ck wird repräsentiert durch einen Vektor zj, dem Cluster­Zentrum oder Code-Book-Vektor. Diese bilden das Code­Book. Ein Eingabevektor wird auf die Klasse mit minima­len euklidischen Abstand des Cluster-Zentrums abgebildet. Der Vektor wird sozusagen auf den nachsten Code-Book- Vektor gerundet. Damit erhalt man eine adaptive Datenre­duktion des Feature-Raums.

4.2. Supervised Learning

Beim Supervised Learning wird zu jedem Trainingsbei­spiel die Klasse mitangegeben. Diese dient beim Training als gewiinschte Ausgabe des Klassifikators (Target-Wert = Output-Wert).

Abbildung in dieser Leseprobe nicht enthalten

Ziele sind nicht nur das Lernen der Beispiele (korrekte Separation der Trainingsmenge), sondern auch die Genera- lisierungsfahigkeit: Neue Eingabevektoren aus einer Test­menge sollen mit moglichst hoher Wahrscheinlichkeit kor­rekt klassifiziert werden. Die Trainingsmenge wird somit interpoliert, das heisst aus den Beispielen versucht das Sys­tem, die tatsachliche Klassenzugehorigkeitsfunktion zu ap­proximieren.

5 K-Means-Algorithmus

Ein einfacher und popularer Clustering-Algorithmus ist K-Means [7]:

1 Initialisierung von ¿j: Wahle aus Trainingsmenge S zufallig K Punkte als Clusterzentren aus.

2. WIEDERHOLE

3. Klassifiziere Trainingsbeispiele gemass nächstem Cluster-Zentrum

Abbildung in dieser Leseprobe nicht enthalten

4. Aktualisiere Clusterzentren als Schwerpunkte:

Abbildung in dieser Leseprobe nicht enthalten

5. BIS keine Änderung mehr

Es ist ein Gradientenabstiegsverfahren (schrittweise Op­timierung entgegen der Ableitung der Fehlerfunktion) und stagniert deshalb leicht in einem lokalen Minimum.

6 GA-Clustering

GA-Clustering [6] kombiniert K-Means mit einem ge­netischen Algorithmus. Die Koordinaten eines Cluster­Zentrums, reell kodiert, bilden ein Gen im Chromosom. Zur Initialisierung wahlt man zufallig eine Teilmenge der Trai­ningspunkte als Clusterzentren aus. Die Fitness-Funktion ist die Clustering-Metrik:

Abbildung in dieser Leseprobe nicht enthalten

Selektion erfolgt proportional zur Fitness (Roulette- Wheel-Selection). Als Crossover gibt es Single-Point mit konstanter Wahrscheinlichkeit. Die Mutation geschieht mit fester Wahrscheinlichkeit nach der Regel:

Abbildung in dieser Leseprobe nicht enthalten

mit δ g [-1; +1] uniforme Zufallsvariable und v eine Va­riable im Chromosom.

Den Experimenten in [6] zufolge liefert GA-Clustering deutlich bessere Losungen als K-Means.

7 GP-Klassifikator

In [8] wird ein GP-Klassifikator zur Phonemerkennung vorgestellt, welcher auf genetisch optimierten Program­men basiert. Besonders erstaunlich ist, dass die Feature­Extraktion ubersprungen wird. Stattdessen wird ein Frame aus dem zeitlichen Audiosignal direkt quasi als Feature­Vektor verwendet. Dieses Vorgehen stellt eine Ausnahme unter den Phonemerkennungsalgorithmen dar, denn meis­tens wird das Signal in den Frequenzbereich transformiert.

[...]

Details

Seiten
10
Jahr
2004
ISBN (eBook)
9783638438919
Dateigröße
784 KB
Sprache
Deutsch
Katalognummer
v46763
Institution / Hochschule
Friedrich-Alexander-Universität Erlangen-Nürnberg – Institut für Informatik, Lehrstuhl Informatik II Programmiersysteme
Note
Schlagworte
Evolutionäre Algorithmen Spracherkennung Hauptseminar Einsatz Evolutionärer Strategien Eingebetteten Systemen

Autor

Teilen

Zurück

Titel: Evolutionäre Algorithmen in der Spracherkennung