Zur Hauptnavigation wechseln Zur Suche wechseln Zum Hauptinhalt wechseln

Auditory Filterbank Based Frequency-Warping Invariant Features for Automatic Speech Recognition

Jan Rademacher, Alfred Mertins

Abstract

Auditory filterbanks have a long history in the preprocessing stage of automatic speech recognition systems, with the most prominent examples being the mel frequency cepstral coefficients (MFCCs). In this paper, we study the usefulness of auditory-filterbank analyses as a preprocessor for the generation of frequency-warping invariant features. The results indicate, that gammatone-filterbank analyses following the equivalent rectangular bandwidth (ERB) scale yield the most robust feature sets. The performance improvements are most significant when the vocal tract lengths in the training and test sets differ, which is important when, for example, children speech is to be recognized with a system that was mainly trained on adult data.

OriginalspracheEnglisch
Seiten1-4
Seitenumfang4
PublikationsstatusVeröffentlicht - 01.04.2006
VeranstaltungSprachkommunikation 2006 - ITG-Fachtagung
- Kiel, Deutschland
Dauer: 04.02.200804.04.2008

Tagung, Konferenz, Kongress

Tagung, Konferenz, KongressSprachkommunikation 2006 - ITG-Fachtagung
Land/GebietDeutschland
OrtKiel
Zeitraum04.02.0804.04.08

UN SDGs

Dieser Output leistet einen Beitrag zu folgendem(n) Ziel(en) für nachhaltige Entwicklung

  1. SDG 9 – Industrie, Innovation und Infrastruktur
    SDG 9 – Industrie, Innovation und Infrastruktur

Fingerprint

Untersuchen Sie die Forschungsthemen von „Auditory Filterbank Based Frequency-Warping Invariant Features for Automatic Speech Recognition“. Zusammen bilden sie einen einzigartigen Fingerprint.

Zitieren