Zur Hauptnavigation wechseln Zur Suche wechseln Zum Hauptinhalt wechseln

TEVR: Improving Speech Recognition by Token Entropy Variance Reduction

Hajo Nils Krabbenhöft, Erhardt Barth

Abstract

This paper presents TEVR, a speech recognition model designed to minimize the variation in token entropy w.r.t. to the language model. This takes advantage of the fact that if the language model will reliably and accurately predict a token anyway, then the acoustic model doesn't need to be accurate in recognizing it. We train German ASR models with 900 million parameters and show that on CommonVoice German, TEVR scores a very competitive 3.64% word error rate, which outperforms the best reported results by a relative 16.89% reduction in word error rate. We hope that releasing our fully trained speech recognition pipeline to the community will lead to privacy-preserving offline virtual assistants in the future.
OriginalspracheEnglisch
Seitenumfang10
FachbucharXiv.org
Herausgeber (Verlag)arXiv
DOIs
PublikationsstatusVeröffentlicht - 25.06.2022

UN SDGs

Dieser Output leistet einen Beitrag zu folgendem(n) Ziel(en) für nachhaltige Entwicklung

  1. SDG 3 – Gesundheit und Wohlergehen
    SDG 3 – Gesundheit und Wohlergehen
  2. SDG 4 – Qualitativ hochwertige Bildung
    SDG 4 – Qualitativ hochwertige Bildung
  3. SDG 9 – Industrie, Innovation und Infrastruktur
    SDG 9 – Industrie, Innovation und Infrastruktur
  4. SDG 11 – Nachhaltige Städte und Gemeinschaften
    SDG 11 – Nachhaltige Städte und Gemeinschaften
  5. SDG 12 – Verantwortungsvoller Konsum und Produktion
    SDG 12 – Verantwortungsvoller Konsum und Produktion
  6. SDG 14 – Lebensraum Wasser
    SDG 14 – Lebensraum Wasser
  7. SDG 15 – Lebensraum Land
    SDG 15 – Lebensraum Land

Strategische Forschungsbereiche und Zentren

  • Zentren: Zentrum für Künstliche Intelligenz Lübeck (ZKIL)
  • Querschnittsbereich: Intelligente Systeme

Fingerprint

Untersuchen Sie die Forschungsthemen von „TEVR: Improving Speech Recognition by Token Entropy Variance Reduction“. Zusammen bilden sie einen einzigartigen Fingerprint.

Zitieren