Invariant features for automatic speech recognition based on complex models of speech production and auditory perception

Project: DFG ProjectsDFG Individual Projects

Project Details

Description

Während sprecherspezifische Systeme zur automatischen Spracherkennung bereits vielfach eingesetzt werden (z.B. für Diktieraufgaben), ist die Verwendbarkeit der sprecherunabhängigen Spracherkennung für die Mensch-Maschine-Kommunikation noch stark eingeschränkt. Als Gründe sind neben einer zu geringen Robustheit gegenüber äußeren Einflüssen, wie Hintergrundgeräuschen und Nachhall, die großen Variationen zwischen den Sprechern (Vokaltraktdimension, Geschlecht, Alter, Dialekt usw.) zu nennen, an die sich heutige Systeme nur unzureichend anpassen können. In Vorarbeiten des Antragstellers konnte bereits nachgewiesen werden, dass die Robustheit gegenüber Sprecher-Eigenschaften durch den Einsatz von Methoden der Invariantengewinnung deutlich gesteigert werden kann. Im vorliegenden Forschungsvorhaben soll die Erzeugung invarianter Merkmale weiter verbessert werden, indem die Invariantenberechnung auf der Basis einer genaueren physikalischen Modellierung der Vokaltrakteinflüsse und unter Verwendung von komplexen Modellen der auditorischen Wahrnehmung des Menschen erfolgt. Globales Ziel ist es, die Erkennungsleistung in sprecherunabhängigen Anwendungen und unter dem Einfluss äußerer Störungen deutlich zu verbessern und die automatische Spracherkennung als Modus für die Mensch-Maschine-Kommunikation besser nutzbar zu machen.

Key findings

Während sprecherspezifische Systeme zur automatischen Spracherkennung bereits vielfach eingesetzt werden (z. B. für Diktieraufgaben), ist die Verwendbarkeit der sprecherunabhängigen automatischen Spracherkennung für die allgemeine Mensch-Maschine-Kommunikation noch stark eingeschränkt. Als Gründe sind neben einer zu geringen Robustheit gegenüber äußeren Einflüssen, wie Hintergrundgeräuschen und Nachhall, die großen Variationen zwischen den Sprechern (Vokaltraktdimension, Geschlecht, Alter, Dialekt usw.) zu nennen, an die sich heutige Systeme nur unzureichend anpassen können. In Vorarbeiten des Antragstellers konnte bereits nachgewiesen werden, dass die Robustheit gegenüber Sprecher-Eigenschaften durch den Einsatz von Methoden der Invariantengewinnung deutlich gesteigert werden kann. Im vorliegenden Forschungsvorhaben sollte die Erzeugung invarianter Merkmale weiter verbessert werden, indem die Invariantenberechnung auf der Basis einer genaueren physikalischen Modellierung der Vokaltrakteinflüsse und unter Verwendung von komplexen Modellen der auditorischen Wahrnehmung des Menschen erfolgt. Globales Ziel war es, die Erkennungsleistung in sprecherunabhängigen Anwendungen und unter dem Einfluss äußerer Störungen zu verbessern und die automatische Spracherkennung als Modus für die Mensch-Maschine-Kommunikation besser nutzbar zu machen. Die zum Zeitpunkt der Antragstellung bekannten Methoden zur Extraktion von vokaltraktlängenunabhängigen Merkmalen basierten auf der Annahme, dass sich Unterschiede in den Vokaltraktlängen in Form einer nahezu linearen Verzerrung der Frequenzachse ausdrücken, die sich durch eine Logarithmierung der Frequenzvariablen in eine Translation überführen lässt. Es existierten allerdings auch grundlegende Arbeiten, in denen gezeigt wurde, dass die Einflüsse der Vokaltraktlängen durchaus komplexer sind. Im Rahmen des Projekts sollte daher die übliche Frequenzverzerrung durch eine den physikalischen Zusammenhängen nähere Transformation ersetzt werden. Hierzu wurden sowohl ein modell- als auch ein datengetriebener Ansatz verfolgt. Ein wesentliches Ergebnis der Arbeiten ist die Erkenntnis, dass eine vom Phonemkontext abhängige Verwendung der gewonnenen Transformationen zu erheblich größeren Verbesserungen der Erkennungsleistung führt als die Verwendung einer globalen Warpingfunktion. Die datengetriebene Vorgehensweise erwies sich gegenüber dem modellbasierten Ansatz als deutlich überlegen. In einem weiteren Teil der Arbeiten wurde das Prinzip der invarianten Integration auf ein komplexeres auditorisches Modell erweitert. Das auditorische Modell erzeugt ein sogenanntes stabilisiertes auditorisches Bild, welches das Eingangssprachsignal innerhalb eines dreidimensionalen skalen-kovarianten Raumes darstellt. Im Projekt konnte erstmals gezeigt werden, dass die auf diesem Raum basierenden invarianten Merkmale die Erkennungsleistung besonders bei gestörten Sprachsignalen signifikant verbessern. Insgesamt konnte mit den im Projekt entwickelten Methoden die Erkennungsleistung der sprecherunabhängigen automatischen Spracherkennungssysteme weiter gesteigert und näher an die menschliche Leistung gebracht werden. Dies gilt besonders für Anwendungen, in denen keine umfangreiche Sprecheradaptation ausgeführt werden kann, weil entweder der Aufwand zu groß wäre oder weil nur kurze Äußerungen zu erkennen sind, bei denen nicht genügend viel Adaptationsmaterial vorliegt.

Statusfinished
Effective start/end date01.01.1131.12.13

UN Sustainable Development Goals

In 2015, UN member states agreed to 17 global Sustainable Development Goals (SDGs) to end poverty, protect the planet and ensure prosperity for all. This project contributes towards the following SDG(s):

  • SDG 9 - Industry, Innovation, and Infrastructure

Research Areas and Centers

  • Academic Focus: Biomedical Engineering
  • Research Area: Intelligent Systems

DFG Research Classification Scheme

  • 402-04 Acoustics

Fingerprint

Explore the research topics touched on by this project. These labels are generated based on the underlying awards/grants. Together they form a unique fingerprint.