Linguistik

Phonetik: Wie Lauterkennungssysteme funktionieren

Hinweis

Aufgrund der messbaren akustischen Eigenschaften von Lauten werden in der Kriminologie Sprecher identifiziert, und Lauterkennung ist die Voraussetzung für die Entwicklung von Spracherkennungssystemen, die heute auch kommerziell zur Anwendung kommen. Computerprogramme wie "IBM Via Voice" oder "Dragon Naturally Speaking" haben bereits eine hohe Erkennungsrate und können die Lauteingabe in Orthographie umsetzen. Dies erscheint einfach, dahinter steckt aber eine Menge an Forschung und erst in den letzten Jahren ist die Lauterkennung zumindest befriedigend optimiert worden.

Die technischen Schwierigkeiten der Spracherkennung beruhen zunächst auf der Tatsache der allophonischen Variation. Die Aussprache eines Phonems hängt sowohl von Alter, Geschlecht und individuellen Stimmmerkmalen des Sprechers ab als auch von den Lautübergängen zu den folgenden und vorangegangenen Lautsegmenten. Um diesen Problemen Herr zu werden, gab es in der Vergangenheit verschiedene Forschungsansätze auf den Gebieten der künstlichen Intelligenz und der künstlichen neuronalen Netze. Die neuere Forschung folgt den Ansätzen statistischer Verarbeitungsparadigmen. Der dabei beschrittene Weg vom akustischen Signal bis zur Ausgabe auf dem Bildschirm lässt sich in die Phasen der Signalanalyse, der akustischen Modellierung und der grammatischen Modellierung unterscheiden.

Die Signalanalyse hat das Ziel, die Datenmenge zu reduzieren und möglichst typische und robuste Merkmale der Laute zu extrahieren. Alle 10 ms wird daher das Signal aufgenommen und in größeren Einheiten zuMerkmalsvektoren zusammengefasst. Die Merkmalsvektoren können durch sich überlappende, kugelförmige oder ellipsoide Wolken im hochdimensionalem Raum charakterisiert werden, deren Form und Lage sprecherabhängig sind und in einer vorangegangenen Trainingsphase ermittelt werden. Die Merkmalsvektoren, die in der Signalanalyse bestimmt werden, beschreiben nun Punkte in diesem Raum, die von Wolke zu Wolke springen. Je näher ein Merkmalsvektor dem Mittelpunkt der Wolke liegt, desto höher ist die Wahrscheinlichkeit, dass er zu dem entsprechenden Phonem gehört.

Bei der akustischen Modellierung wird nun versucht, aus der Folge der Merkmalsvektoren eine Worthypothese aufzustellen. Dabei stehen nur die Wörter zur Verfügung, die im Lexikon des Spracherkenners gespeichert sind. Bei einem großen Vokabular ist das Lexikon als Baum organisiert, d. h. die Wörter, die mit gleichen Phonemen oder Phonemketten beginnen, werden zusammengefasst, wobei jeder Knoten einem Phonem entspricht. Auf diese Weise werden die Menge des Datenmaterials und der Suchaufwand drastisch.

Da die Sprechgeschwindigkeit stark schwanken kann, wird nun ein Modell benötigt, das die zeitliche Verzerrung der Vektorfolgen kompensiert. Um die Wahrscheinlichkeitsverteilungen der Merkmalsvektoren für die einzelnen Phoneme zu modellieren, wird jedes Phonem durch ein sogenanntes Hidden-Markov-Modell repräsentiert. Diese stochastischen Modelle bestehen aus Zuständen und Zustandsübergängen, den Transitionen. Mit ihnen lassen sich die zeitlichen Abläufe innerhalb eines Phonems optimal modellieren. Ein Phonemmodell besteht dabei aus sechs hintereinander angeordneten Zuständen von je zehn Millisekunden Länge, wobei jeder Zustand Transitionswahrscheinlichkeiten für drei mögliche Übergänge enthält. Zu jedem folgenden Kurzzeitanalyseintervall ist der Verbleib im aktuellen sowie der Übergang zum folgenden Zustand möglich. Für jedes Wort werden also hintereinander die Phonemmodelle, die es repräsentieren, mit allen sechs Zuständen durchlaufen. Nach diesem Modell entspricht die Folge der direkten Übergänge von einem Zustand zum nächsten einer Phonemdauer von 60 Millisekunden, was etwas kürzer ist als die mittlere Phonemlänge im Deutschen. Sie beträgt 80 Millisekunden. Um die akustischen Wahrscheinlichkeiten zu bestimmen, werden nun die Hidden-Markov-Modelle mit der zeitlichen Folge der Merkmalsvektoren kombiniert.

Der naheliegendste Ansatz wäre es, eine mit Wahrscheinlichkeitsfolgen versehene Grammatik zu verwenden, und zwar in der Form, dass verschiedene Wortformen nach Stamm, also der Grundform, und Endung segmentiert werden. Solche Verfahren sind auch Gegenstand der Forschung, konnten jedoch bisher nicht umgesetzt werden. Stattdessen findet ein viel simpleres Verfahren Anwendung: Nach der Kettenregel der Wahrscheinlichkeitsrechnung wird ein Satz als Reihe von Wahrscheinlichkeiten der Wortfolge berechnet, wobei jedes Wort von allen vorausgegangenen Wörtern abhängt. Da es aber zu viele unterschiedliche Kombinationen von Vorgängern gibt, werden nur die letzten beiden Wörter betrachtet. Eine solche Dreiwortfolge nennt man Trigramm. Die den Wahrscheinlichkeitswerten p zugrundliegenden Häufigkeiten der Trigramme f(x) werden empirisch in einer Reihe von Trainingstexten bestimmt, die für das Anwendungsgebiet typisch sind. Da aber schon bei einem 20 000 Wörter umfassenden Vokabular die Anzahl der möglichen Trigramme 200003 = 8 * 1012beträgt, kann nur ein kleiner Teil der Trigramme berücksichtigt werden. Hinzu kommt, dass viele Trigramme mehrfach auftreten, was ihre Anzahl weiter verringert. Ein nicht gesehenes Trigramm würde jedoch eine Wahrscheinlichkeit von Null erhalten, weshalb auch die Satzhypothese nach der Kettenregel die Wahrscheinlichkeit Null erhielte. Daher werden Glättungsverfahren eingesetzt und die relativen Häufigkeiten von Bigrammen und Unigrammen mit berücksichtigt. Auf diese Weise wird Sorge getragen, dass auch Satzhypothesen mit nicht gesehenen Trigrammen möglich sind.

Bei der grammatischen Modellierung tritt wiederum das gleiche Problem auf, wie bei der Wortmodellierung: Effizienz und Genauigkeit müssen mit den vorhandenen Ressourcen auskommen. Soll die Satzhypothese genau sein, ist der Zeitaufwand immens. Trifft man die Wahl der Schnelligkeit, bleibt die Erkennungsrate auf der Strecke. Das Zauberwort lautet hier Strahlsuche (beam search). Pro Zeittakt wird nach einem heuristischen Verfahren ein Bündel möglicher Hypothesen verfolgt. Um den Suchstrahl klein zu halten werden die weniger aussichtsreichen Alternativen schließlich verworfen. Auf diese Weise findet man nicht die exakte Lösung, die Genauigkeit bleibt jedoch ausreichend.

Man sollte meinen, dass Trigramme kein ausreichendes Mittel darzustellen, um eine erfolgreiche Satzhypothese zu erstellen. Wahrscheinlichkeitsketten in Gestalt von Dreiwortfolgen brechen häufig ab und beginnen von neuem. Grammatische Informationen sind zudem nicht enthalten. Mit dem Satz Der junge Junge fiel viel und fällt noch immer viel auf dem Feld. lässt sich wohl die beste Diktiersoftware zu einer fehlerhaften Ausgabe verleiten, Dennoch: Die Trigramm-Statistik funktioniert recht gut. Das Spracherkennungssystem von IBM, ViaVoice Millennium™, bietet folgende Lösung an: Der junge Junge viel fiel und fällt noch immer viel auf dem Feld.

Das Beispiel birgt sieben strittige Fälle, in denen zugunsten der einen oder der anderen Schreibung entschieden werden muss: die Homophonien junge/Junge, viel/fiel undfällt/Feld. Berücksichtigt man, dass wir es mit einem Rechner zu tun haben, der nicht die geringste Ahnung von der menschlichen Sprache hat, ist die Erkennungsleistung gut, aber es stellt sich die Frage, warum im Kontext der richtigen Satzhypothese die Lexeme viel und fiel vertauscht worden sind. Hier darf man sich nicht vom menschlichen Sprachverstehen täuschen lassen, sondern muss sich die Trigrammstruktur vor Augen führen. Betrachten wir also einmal die Trigramme im Einzelnen. Der junge Junge, noch immer viel und auf dem Feld sind gängige Wendungen, die mit einiger Sicherheit in einem Trainingstextkorpus auftauchen können. Daher verwundert es nicht, dass in diesem Teil des Satzes keine Fehler auftreten. Diese Dreiwortkombinationen sind als Trigramme gespeichert. Bleibt im Mittelteil die Wortfolge fiel viel und fällt. Hier wurden in der Ausgabe des Spracherkenners die Worte fiel und viel vertauscht, und hier zeigt sich auch eine Tücke des Trigrammmodells. Die Trigramme Junge fiel viel bzw. fiel viel und sind in hohem Maße unwahrscheinlich. Die Wendung fiel und fällt wirkt dagegen schon plausibler: Der Kurs dieser Aktie fiel und fällt noch immer.

Hier haben wir es also mit einem Fehler zu tun, der auf einer abbrechenden Trigrammkette beruht und das nur wegen des kleinen Wörtchens viel. In einem 'normalen' Satz mit ähnlich einfachen Wörtern hat man es freilich mit anderen Formen von Homophonien zu tun, wie mit einer Entscheidung zwischen in und im, große und großen, etc. Solche Fragen lassen sich mithilfe von Trigrammstatistiken gut lösen, zumal die Satzteile im Deutschen häufig eine Länge von drei Wörtern besitzen. Sofern diese nicht zu unwahrscheinlich oder homophon sind, wird im Allgemeinen auch die richtige Hypothese gefunden. Im übrigen lassen sich auch Beispiele finden, die nicht einmal der Mensch ohne größeren Kontext zu vereindeutigen vermag: [dɛɐ gəfaŋənə floː], der Gefangene floh, der gefangene Floh, wenn auch die erste NP wahrscheinlicher ist als die zweite.

Literatur

Kramer, André, Timm Lehmberg & Peter Schlobinski (2002). "Spracherkennung/Diktierprogramme und orthografische Fehler." In: Sprache als Form. Festschrift für Utz Maas zum 60. Geburtstag. Hg. von Michael Bommes, Christina Noack und Doris Tophinke. Opladen, S. 198-211.

Schukat-Talamazzini, Ernst Günter (1995). Automatische Spracherkennung. Grundlagen, statistische Modell und effiziente Algorithmen. Braunschweig, Wiesbaden: Vieweg.


Peter Schlobinski

Ihre Meinung

Kommentare zu dieser Seite