Invariante Merkmale für die automatische Spracherkennung auf der Basis von komplexen Modellen der Spracherzeugung und der auditorischen Wahrnehmung

Projekt: DFG-ProjekteDFG Einzelförderungen

Projektdaten

Projektbeschreibung

Während sprecherspezifische Systeme zur automatischen Spracherkennung bereits vielfach eingesetzt werden (z.B. für Diktieraufgaben), ist die Verwendbarkeit der sprecherunabhängigen Spracherkennung für die Mensch-Maschine-Kommunikation noch stark eingeschränkt. Als Gründe sind neben einer zu geringen Robustheit gegenüber äußeren Einflüssen, wie Hintergrundgeräuschen und Nachhall, die großen Variationen zwischen den Sprechern (Vokaltraktdimension, Geschlecht, Alter, Dialekt usw.) zu nennen, an die sich heutige Systeme nur unzureichend anpassen können. In Vorarbeiten des Antragstellers konnte bereits nachgewiesen werden, dass die Robustheit gegenüber Sprecher-Eigenschaften durch den Einsatz von Methoden der Invariantengewinnung deutlich gesteigert werden kann. Im vorliegenden Forschungsvorhaben soll die Erzeugung invarianter Merkmale weiter verbessert werden, indem die Invariantenberechnung auf der Basis einer genaueren physikalischen Modellierung der Vokaltrakteinflüsse und unter Verwendung von komplexen Modellen der auditorischen Wahrnehmung des Menschen erfolgt. Globales Ziel ist es, die Erkennungsleistung in sprecherunabhängigen Anwendungen und unter dem Einfluss äußerer Störungen deutlich zu verbessern und die automatische Spracherkennung als Modus für die Mensch-Maschine-Kommunikation besser nutzbar zu machen.

Ergebnisbericht

Während sprecherspezifische Systeme zur automatischen Spracherkennung bereits vielfach eingesetzt werden (z. B. für Diktieraufgaben), ist die Verwendbarkeit der sprecherunabhängigen automatischen Spracherkennung für die allgemeine Mensch-Maschine-Kommunikation noch stark eingeschränkt. Als Gründe sind neben einer zu geringen Robustheit gegenüber äußeren Einflüssen, wie Hintergrundgeräuschen und Nachhall, die großen Variationen zwischen den Sprechern (Vokaltraktdimension, Geschlecht, Alter, Dialekt usw.) zu nennen, an die sich heutige Systeme nur unzureichend anpassen können. In Vorarbeiten des Antragstellers konnte bereits nachgewiesen werden, dass die Robustheit gegenüber Sprecher-Eigenschaften durch den Einsatz von Methoden der Invariantengewinnung deutlich gesteigert werden kann. Im vorliegenden Forschungsvorhaben sollte die Erzeugung invarianter Merkmale weiter verbessert werden, indem die Invariantenberechnung auf der Basis einer genaueren physikalischen Modellierung der Vokaltrakteinflüsse und unter Verwendung von komplexen Modellen der auditorischen Wahrnehmung des Menschen erfolgt. Globales Ziel war es, die Erkennungsleistung in sprecherunabhängigen Anwendungen und unter dem Einfluss äußerer Störungen zu verbessern und die automatische Spracherkennung als Modus für die Mensch-Maschine-Kommunikation besser nutzbar zu machen. Die zum Zeitpunkt der Antragstellung bekannten Methoden zur Extraktion von vokaltraktlängenunabhängigen Merkmalen basierten auf der Annahme, dass sich Unterschiede in den Vokaltraktlängen in Form einer nahezu linearen Verzerrung der Frequenzachse ausdrücken, die sich durch eine Logarithmierung der Frequenzvariablen in eine Translation überführen lässt. Es existierten allerdings auch grundlegende Arbeiten, in denen gezeigt wurde, dass die Einflüsse der Vokaltraktlängen durchaus komplexer sind. Im Rahmen des Projekts sollte daher die übliche Frequenzverzerrung durch eine den physikalischen Zusammenhängen nähere Transformation ersetzt werden. Hierzu wurden sowohl ein modell- als auch ein datengetriebener Ansatz verfolgt. Ein wesentliches Ergebnis der Arbeiten ist die Erkenntnis, dass eine vom Phonemkontext abhängige Verwendung der gewonnenen Transformationen zu erheblich größeren Verbesserungen der Erkennungsleistung führt als die Verwendung einer globalen Warpingfunktion. Die datengetriebene Vorgehensweise erwies sich gegenüber dem modellbasierten Ansatz als deutlich überlegen. In einem weiteren Teil der Arbeiten wurde das Prinzip der invarianten Integration auf ein komplexeres auditorisches Modell erweitert. Das auditorische Modell erzeugt ein sogenanntes stabilisiertes auditorisches Bild, welches das Eingangssprachsignal innerhalb eines dreidimensionalen skalen-kovarianten Raumes darstellt. Im Projekt konnte erstmals gezeigt werden, dass die auf diesem Raum basierenden invarianten Merkmale die Erkennungsleistung besonders bei gestörten Sprachsignalen signifikant verbessern. Insgesamt konnte mit den im Projekt entwickelten Methoden die Erkennungsleistung der sprecherunabhängigen automatischen Spracherkennungssysteme weiter gesteigert und näher an die menschliche Leistung gebracht werden. Dies gilt besonders für Anwendungen, in denen keine umfangreiche Sprecheradaptation ausgeführt werden kann, weil entweder der Aufwand zu groß wäre oder weil nur kurze Äußerungen zu erkennen sind, bei denen nicht genügend viel Adaptationsmaterial vorliegt.

Statusabgeschlossen
Tatsächlicher Beginn/ -es Ende01.01.1131.12.13

UN-Ziele für nachhaltige Entwicklung

2015 einigten sich UN-Mitgliedstaaten auf 17 globale Ziele für nachhaltige Entwicklung (Sustainable Development Goals, SDGs) zur Beendigung der Armut, zum Schutz des Planeten und zur Förderung des allgemeinen Wohlstands. Die Arbeit dieses Projekts leistet einen Beitrag zu folgendem(n) SDG(s):

  • SDG 9 – Industrie, Innovation und Infrastruktur

Strategische Forschungsbereiche und Zentren

  • Forschungsschwerpunkt: Biomedizintechnik
  • Querschnittsbereich: Intelligente Systeme

DFG-Fachsystematik

  • 4.12-04 Akustik

Fingerprint

Erkunden Sie die Forschungsthemen zu diesem Projekt. Diese Zuordnungen werden Bewilligungen und Fördermitteln entsprechend generiert. Zusammen bilden sie einen einzigartigen Fingerprint.