Automatische Spracherkennung
Inhaltsverzeichnis
Grundlegendes
Unter automatischer Spracherkennung wird die computerbasierte Erkennung gesprochener Sprache und deren korrekte Darstellung als Text verstanden. Die automatische Spracherkennung (ASR, Automatic Speech Recognition) bezeichnet den rechnergestützten Prozess der Erkennung und Umwandlung gesprochener Sprache in Text. Ziel ist es, gesprochene Inhalte möglichst präzise und effizient in eine maschinenlesbare Form zu überführen. Neben der reinen Umwandlung gesprochener Sprache umfasst ASR oft auch die Interpretation und Analyse des Inhalts, um ihn für spezifische Anwendungen nutzbar zu machen. Hierbei kommt eine Vielzahl von Technologien und Algorithmen zum Einsatz, darunter Hidden Markov Modelle (HMM) und neuronale Netzwerke (Ruske, 1994, S. 1; Botsch, 2023, S. 244).
Probleme und Anforderungen
Die menschliche Sprache weist eine hohe Komplexität auf, die bei der automatischen Verarbeitung erhebliche Herausforderungen mit sich bringt. Diese umfassen insbesondere folgende Aspekte:
Kontinuität der Sprache
Gesprochene Sprache ist oft fließend, sodass klare Abgrenzungen zwischen einzelnen Wörtern fehlen. Dies erschwert es, Wortgrenzen zu identifizieren und den gesprochenen Text korrekt zu segmentieren (Ruske, 1994, S. 6).
Variabilität der Sprache
Die Aussprache eines Wortes kann stark variieren, abhängig von Dialekt, Sprechgeschwindigkeit, Tonlage und anderen Faktoren. Systeme müssen robust genug sein, um diese Variabilität zu verarbeiten, ohne an Genauigkeit zu verlieren (Botsch, 2023, S. 245).
Dies kann folgende Ursachen haben:
Zunächst ist die Sprecherabhängigkeit zu nennen. Jeder Sprecher verfügt über eigene stimmliche Merkmale, die von vielen Faktoren, wie zum Beispiel Alter, Geschlecht und Gesundheitszustand, geprägt werden. Auch die Sprechweise jedes Menschen ist unterschiedlich (Tempo, Artikulation, Dialekt, etc.). Weiterhin bestehen Unterschiede in der Qualität der Aufnahme.
Schon früh gelang es, Systeme zu entwickeln, die in schalldichten Räumen mit hochwertigen Mikrofonen mündliche Äußerungen erkennen konnten. Doch um die automatische Spracherkennung flächendeckend nutzen zu können, gilt es auch mit einer qualitativ schlechteren Übertragung über das Telefonnetz erfolgreich zu sein und auch akustische Störquellen wie Rauschen oder auch Hintergrundgeräusche herauszufiltern.
Um das Problem der Variabilität zu lösen, muss das Erkennungsmuster, mit dem das System das Eingangssignal vergleicht, einerseits so weit gewählt werden, dass alle Realisierungen (also von verschiedenen Sprechern, in verschiedenen Tonlagen, etc.) erkannt werden. Andererseits darf dieses Muster aber auch nicht zu generell gehalten werden, um die Verwechslung mit anderen, ähnlichen Wörtern zu vermeiden.
Umgebungsgeräusche
Hintergrundgeräusche und minderwertige Aufnahmequalität können die Erkennung zusätzlich erschweren. Fortschrittliche Filter- und Signalverarbeitungsmethoden sind erforderlich, um Störungen zu minimieren (Ruske, 1994, S. 4).
Komplexität grosser Wortschätze
Mit zunehmender Grösse des Wortschatzes steigt der Rechenaufwand exponentiell. Daher müssen effiziente Algorithmen eingesetzt werden, um den Erkennungsprozess trotz großer Datenmengen zu optimieren (Botsch, 2023, S. 245).
Technologische Grundlagen
ASR-Systeme bestehen aus mehreren Verarbeitungsschritten, die hier kurz erläutert werden:
Vorverarbeitung des Sprachsignals
Analoge Sprachsignale werden digitalisiert und in sogenannte Kurzzeitspektren zerlegt. Diese Spektren bilden die Grundlage für die weitere Verarbeitung (Ruske, 1994, S. 11).
Merkmalsextraktion
Akustische Merkmale wie Frequenzspektren und Lautheit werden extrahiert. Dabei kommen Methoden wie die lineare Prädiktion oder Mel-Frequenz-Cepstrum-Koeffizienten (MFCC) zum Einsatz (Ruske, 1994, S. 16).
Klassifikation
Moderne Klassifikationsmethoden wie HMMs oder neuronale Netze analysieren die extrahierten Merkmale, um die wahrscheinlichsten Wörter oder Wortfolgen zu identifizieren (Botsch, 2023, S. 246).
Sprachmodellierung
Sprachmodelle wie Trigramme oder Transformer-Modelle berechnen die Wahrscheinlichkeit von Wortfolgen und ermöglichen so eine semantische Analyse der erkannten Sprache (Ruske, 1994, S. 167; Botsch, 2023, S. 247).
Die Abbildung zeigt stark vereinfacht den Aufbau eines Spracherkennungssystems.
Im ersten Schritt werden die analogen Eingangssignale, also die Sprache, digitalisiert. Bei der Vorverarbeitung müssen weiterhin die Datenmengen auf das Wesentliche reduziert werden und auch die in 2.2 erklärten Störfaktoren, die auf die Variabilität der gesprochenen Sprache zurückzuführen sind, herausgefiltert werden. Die Daten liegen nach der Vorverarbeitung als so genannte Referenz- oder Merkmalvektoren vor.
Um die passenden Phoneme zu finden, werden Hidden-Markov-Modelle (HMM) eingesetzt. Dazu werden die akustischen Modelle der Phoneme in Einzelteile zerlegt (je nach Phonemlänge ein Anfangsteil, mehrere Mittelteile und ein Schlussteil). Diese im System gespeicherten Modelle werden dann mit den Eingangssignalen verglichen. Man verwendet verschiedene Algorithmen, um das wahrscheinlichste Phonem zu berechnen.
Aus diesen Phonemen setzt dann ein Wörterbuch die möglichen Wörter oder Wortfolgen zusammen.
Zum Abschluss des Erkennungsprozesses kommt ein Sprachmodell zum Einsatz, welches die Wahrscheinlichkeit der Wortkombination, also den Satzzusammenhang, berechnet und somit das vom Sprecher gemeinte Wort aus der Liste der möglichen Wörter herausfiltern soll. Dazu kann entweder ein Grammatikmodell oder eine Trigrammstatistik verwendet werden:
Grammatikgesteuerte Systeme: Kommt ein Grammatikmodell zum Einsatz, muss jedem Wort eine genaue grammatikalische Funktion zugeordnet werden. Daher kommen diese Systeme nur zum Einsatz, wenn ein eingeschränkter Wortschatz erkannt werden soll.
Wahrscheinlichkeitsorientierte Systeme: Bei der Entwicklung von Spracherkennungssystemen haben sich wahrscheinlichkeitsorientierte Systeme bei großem Wortschatzumfang als erfolgreicher herausgestellt. Diese Art von Sprachmodellen berechnen die Kombinationswahrscheinlichkeit von (meistens) drei Wörtern. Man nennt sie deshalb Trigrammstatistiken. Durch diese Vorgehensweise wurde sogar in den meisten Fällen eine Lösung für das Problem der Homophone (z.B.: Rad /Rat) gefunden. Die Statistikwerte werden dem System durch das Einspeisen von Beispieltexten zugeführt.
Anwendungsgebiete
Die Einsatzmöglichkeiten der automatischen Spracherkennung sind vielfältig und umfassen unter anderem:
Sprachsteuerung und Assistenten
Systeme wie Alexa, Siri oder Google Assistant basieren auf ASR-Technologien und ermöglichen intuitive Interaktionen mit Geräten (Botsch, 2023, S. 244).
Barrierefreiheit
ASR-Systeme bieten Lösungen für Menschen mit Behinderungen, z. B. durch automatische Untertitelung von Videos (Ruske, 1994, S. 186).
Medizinische Anwendungen
In der medizinischen Dokumentation oder Diagnostik wird ASR eingesetzt, um Prozesse zu beschleunigen und Genauigkeit zu verbessern (Ruske, 1994, S. 195).
Aktueller Stand
Dank Fortschritten im maschinellen Lernen, insbesondere durch neuronale Netze, hat die automatische Spracherkennung in den letzten Jahren erhebliche Fortschritte gemacht. Systeme wie Deep Neural Networks (DNN) oder Transformer-Modelle ermöglichen eine kontextbasierte Erkennung und verbessern die Präzision auch bei komplexen Aufgaben (Botsch, 2023, S. 247). Zukünftige Entwicklungen fokussieren auf die Verbesserung der Robustheit gegenüber Hintergrundgeräuschen, die Erweiterung sprachlicher Kontexte sowie die Integration multimodaler Daten wie Gestik oder Gesichtsausdrücke (Ruske, 1994, S. 169).
Links
- https://www.news.uzh.ch/de/articles/media/2025/Spracherkennung.html
- https://hub.hslu.ch/ikm/2021/03/04/automatische-spracherkennung-in-kommunikation-und-marketing/
- Wikipedia, deutsche Ausgabe, Artikel über Spracherkennung. Online verfügbar unter: [1], Stand: 17.08.2005
- Internetseite des Projektes "Verbmobil" am DFKI. Online verfügbar unter: [2]
(Alle Links zuletzt am 15.01.2025 besucht)
Quellen
- Botsch, B. (2023). Maschinelles Lernen – Grundlagen und Anwendungen. Springer. https://doi.org/10.1007/978-3-662-67277-8
- Ruske, G. (1994). Automatische Spracherkennung: Methoden der Klassifikation und Merkmalsextraktion (2., verbesserte und erweiterte Auflage). R. Oldenbourg Verlag.
- Gibbon, Dafydd (1997): Gesprochene Sprache. http://coral.lili.uni-bielefeld.de/Classes/Summer97/ExpPhon/gibbonchap2eps/ . ( 9.7.2008 )
- Kolb, Dorothee (1997): Natürlichsprachige Mensch-Maschine-Kommunikation unter Verwendung gesprochener Sprache. Magisterarbeit, Saarbrücken. S. 76. IB-282-4239
- Marktübersicht Spracherkennungssoftware: http://www.softguide.de/software/spracherkennung.htm (9.7.2008)
- Schukat-Talamazzini, E. G. (1995): Automatische Spracherkennung, Friedr. Vieweg und Sohn Verlagsgesellschaft mbH, Braunschweig/Wiesbaden
Verwandte Begriffe
- Spracherkennung
- Informationslinguistik
- Spracherzeugung
- Sprachsynthese
- Sprechererkennung
- speech recognition