Für die Verbesserung der Sprachverständlichkeit in verhallten Räumen und für neue Anwendungen in der audiovisuellen Kommunikation ist eine geeignete Vorverarbeitung von Lautsprechersignalen notwendig. Zur Entzerrung von Raumeinflüssen werden dabei lineare Filter vor die Lautsprecher geschaltet, wobei die übliche Forderung darin besteht, dass diese Filter den Inversen der Lautsprecher-Raum-Mikrofon-Systeme entsprechen. Eine solche Forderung ist allerdings oft nur mit großem Aufwand zu erfüllen und kann bei ungünstig gelegenen Kanalnullstellen zu starken Rauschanhebungen und zu unnötig aufgewandten Sendeleistungen führen. Günstigere Eigenschaften zeigen die in der Arbeitsgruppe des Antragstellers in Vorarbeiten entwickelten Verfahren zur Verkürzung von Raumimpulsantworten. Derartige Ansätze sind in den letzten Jahren intensiv für die Datenübertragung verfolgt worden, sie wurden aber, abgesehen von den eigenen Vorarbeiten, bislang noch nicht zur Entzerrung akustischer Kanäle und im Hinblick auf die Verbesserung der Sprachverständlichkeit untersucht. Im vorgeschlagenen Forschungsvorhaben sollen daher die neuen Methoden zur Verkürzung und Formung von Raumimpulsantworten weiter ausgearbeitet und technisch nutzbar gemacht werden. Hierbei sollen sowohl ein- als auch mehrkanalige Systeme sowie die gemeinsame Entzerrung und Übersprechkompensation betrachtet werden.
In den letzten Jahren hat die Optimierung von Lautsprecher-Raum-Systemen eine wachsende Bedeutung erlangt. Gründe hierfür sind der Wunsch nach verbesserter Sprachverständlichkeit in verhallten Räumen und neue Anwendungen in der audiovisuellen Kommunikation, die von komfortablen, mehrkanaligen Freisprecheinrichtungen bis hin zur Schaffung virtueller akustischer und visueller Räume reichen. Um dabei Abhilfe gegen die Verhallung im Wiedergaberaum und unerwünschte Übertragungswege zu schaffen, werden Entzerrungsfilter vor die Lautsprecher geschaltet, die nach Möglichkeit so entworfen sein sollen, dass das aus Vorfiltern, Lautsprechern, Raum und Mikrofonen (bzw. Hörern) bestehende Gesamtsystem ein ideales Verhalten aufweist. Bei einkanaligen Systemen bedeutet dies, dass die Signale ohne wahrnehmbaren Nachhall an den Ohren des Zuhörers eintreffen sollen. Bei mehrkanaligen Systemen kommt hinzu, dass vorgegebene Signale nur an bestimmten Ohren der Zuhörer eintreffen und an dem jeweils anderen Ohren nicht hörbar sein sollen. Hinzu kommt, dass die Vorfilternetzwerke ausreichend robust sein müssen, so dass kleine Kopfbewegungen der Zuhörer das gesamte Übertragungsverhalten nur minimal beeinflussen. Zum Zeitpunkt der Antragstellung waren verschiedene Least-Squares-Methoden zur Erzielung eines glatten Frequenzgangs im Wiedergaberaum und einer Übersprechkompensation bekannt. Abgesehen von den Vorarbeiten des Antragstellers und einer Arbeit von Gillespie und Atlas (2002), die allerdings auf die Vorverarbeitung für die Spracherkennung abzielte, wurde in allen weiteren bekannten Arbeiten versucht, die Vorfilter so zu entwerfen, dass die Impulsantworten des Gesamtsystems vorgegebenen Wunsch-Impulsantworten möglichst nahe kommen. Die neueren Vorarbeiten des Antragstellers unterschieden sich von den gängigen Methoden dadurch, dass sie lediglich zum Ziel hatten, das Abklingverhalten der Impulsantworten, aber nicht ihre genaue Form vorzugeben. Indem nur hörbare Artefakte unterdrückt und nicht wahrnehmbare Verzerrungen beibehalten wurden, entstanden neue Freiheitsgrade, die beim Filterentwurf genutzt werden konnten, um eine bessere Entzerrung und/oder Robustheit der Lösung zu erzielen. Im Forschungsvorhaben sollten diese neuen Ansätze genauer untersucht und hinsichtlich ihrer Filtereigenschaften und Robustheit gegenüber Kopfbewegungen optimiert werden. Sowohl für einkanalige als auch für mehrkanalige Übertragungen war zu klären, wie das vorhandene psychoakustische Wissen über die Deutlichkeit der Signalübertragung und die Wahrnehmbarkeit von Nachhall in optimaler Weise in die Entwürfe eingebracht und genutzt werden kann. Weiterhin sollten Methoden zur Verbesserung der räumlichen Robustheit untersucht und genutzt werden. Ein wesentliches Ergebnis der durchgeführten Arbeiten war, dass das Energie-Abklingverhalten der Gesamtimpulsantworten umgekehrt proportional zu einer der im Entwurf verwendeten Gewichtsfunktionen verläuft, wenn das bislang übliche quadratische Gütemaß durch eine Maximumsnorm ersetzt wird. Dieses grundlegende Ergebnis ermöglichte es erstmals, das Abklingverhalten der Gesamtimpulsantworten exakt nach gegebenen Vorgaben zu formen. Als besonders geeignete Fensterfunktion hat sich die von Fielder (2001) gefundene mittlere temporale Maskierungsschwelle erwiesen. Bei nicht zu stark verhallten Räumen und ausreichend langen Vorfiltern wird damit erreicht, dass der verbleibende Nachhall unter der mittleren Wahrnehmungsschwelle nach Fielder (2001) verläuft und damit nicht wahrgenommen werden kann. Diese Ergebnisse zum Zusammenhang zwischen der Fensterbewertung und der temporalen Maskierungsschwelle sowie ein weiterer, auf der p-Norm basierender Entwurfsalgorithmus wurden in den IEEE Transactions on Audio, Speech, and Language Processing veröffentlicht (Mertins et al., 2010). Der allgemeine p-Norm-Ansatz ermöglicht einen fließenden Übergang zwischen den Least-Squares-Verfahren (p = 2) und der Maximumsnorm (p → ∞) und erreicht für Werte von p im Bereich 10 ≤ p ≤ 20 eine sehr gute Konvergenz und ein nahezu ideales Verhalten. Während die zum Zeitpunkt der Antragstellung bekannten Entwurfsmethoden noch zu starken Verzerrungen des Frequenzgangs führten, die nachträglich korrigiert werden mussten, liefert das p-Norm- Verfahren in der Regel automatisch Filter mit glattem Frequenzgang. Nur für Räume mit extrem großer Nachhallzeit, bei denen es mit vertretbarem Filteraufwand nicht möglich ist, den Nachhall unter die Wahrnehmungsschwelle zu bringen, entstehen auch hierbei spektrale Verzerrungen, die korrigiert werden müssen. Als Abhilfe wurde die p-Norm-basierte Zielfunktion um eine Regularisierung im Frequenzbereich erweitert, die Filter mit glattem Frequenzverlauf bevorzugt und auch hier Lösungen liefert, die keine nachträgliche Frequenzgangkorrektur benötigen. Neben dem Erzielen eines gewünschten Abklingverhaltens und ggf. einer Übersprechkompensation an den Mikrofon- bzw. Ohr-Referenzpositionen war die räumliche Robustheit gegenüber leichten Veränderungen der Abhörpositionen von Interesse. Zum Zeitpunkt der Antragstellung waren hierzu Methoden zur gemeinsamen Entzerrung mehrerer Abhörpositionen und die Perturbationsmethode nach Kallinger und Mertins (2005) bekannt, und es lagen erste Ideen zum Einbringen statistischen Wissens über das Verhalten von Raumimpulsantworten vor. Im Rahmen des Projekts konnte dann für ein- und mehrkanalige Systeme nachgewiesen werden, dass es möglich ist, das Abklingverhalten von Impulsantworten in einem gesamten Volumen zu kontrollieren, wenn dieses unter Einhaltung des räumlichen Abtasttheorems an ausreichend vielen Abtastpositionen im Volumen kontrolliert wird. Weiterhin konnte das statistische Wissen über das Verhalten von Raumimpulsantworten nach Radlovic et al. (2000) unter Einbeziehung der Wahrnehmungsschwelle für den Nachhall explizit in den Systementwurf eingebracht werden. Damit ist es in mehrkanaligen Systemen erstmals möglich, das Übertragungs- und Nachhall-Abklingverhalten auf der Basis einer minimalen Anzahl von Impulsantwortmessungen gezielt und räumlich robust zu kontrollieren. Zukünftige Arbeiten sollen darauf abzielen, die sehr erfolgreiche Entzerrung nach dem p-Norm- Ansatz weiter zu entwickeln und zu verfeinern. Im Vordergrund soll dabei der mehrkanalige Aufbau unter Beachtung der Übersprechkompensation stehen. Zum einen sollen die statistischen Modelle zur Beschreibung der Änderungen von Raumimpulsantworten durch räumliche Bewegungen erweitert und verbessert werden und schließlich in den Entwurf verbesserter Vorfilternetzwerke einfließen. Zum anderen soll die für den Entwurf nötige Rechenzeit deutlich verringert werden, wobei sowohl algorithmische als auch hardware-spezifische Maßnahmen einbezogen werden sollen. Das langfristige Ziel besteht darin, die Vorfilterung an sich frei im Raum bewegende Personen in Echtzeit anzupassen. Anwendungen finden sich zum Beispiel in Freisprecheinrichtungen, in der dreidimensionalen Wiedergabe mit Lautsprechern, aber auch im Rahmen audiologischer Messungen, wo das Ziel darin besteht, Hörgeräte optimal einzustellen, ohne eine Vielzahl räumlich verteilter Lautsprecher zu benötigen. Weiterhin finden sich Anwendungen in der individualisierten Akustik, wo die Anordnungen zur Übersprechkompensation zum Beispiel auch dazu genutzt werden können, um die Wiedergabelautstärke binauraler Präsentationen in Räumen für unterschiedliche Zuhörer separat einzustellen. Neben der Signalpräsentation mit Lautsprechern soll auch das Problem der Nachfilterung von Mikrofonsignalen betrachtet werden, das als dual zum hier vorliegenden Problem der Raumentzerrung angesehen werden kann. Auch wenn beide Probleme mathematisch äquivalent sind, bietet die Nachfilterung von Mikrofonsignalen zusätzliche Möglichkeiten in Form nichtlinearer Verarbeitungen, die bei der Lautsprechersignal-Vorfilterung nicht anwendbar sind. Die praktische Anwendung ist dabei die nachhallfreie Aufnahme von Signalen trotz einer großen Entfernung der Quellen zu den Mikrofonen.