Blind separation of acoustic source signals in a reflective environment

  • Mertins, Alfred (Principal Investigator (PI))
  • Kollmeier, Birger (Associated Staff)

Project: DFG Individual Projects

Project Details

Description

The separation of acoustic source signals from observed mixtures without precise prior knowledge of the sources or the mixing systems (i.e., blind) is a significant problem, the practical solution of which has a multitude of technical applications. While the human ear naturally performs this task even in reverberant environments, technical solutions are currently only available for highly simplified problems (e.g., anechoic conditions, at least as many sensors as sources, known number of sources). The algorithms developed to date are based on simple assumptions about the source processes (either non-Gaussian or non-stationary) and are not specifically tailored to the separation of natural acoustic signals. The human ear, on the other hand, is precisely specialized for this task and utilizes a whole range of features of the presented signals (short-term spectra, envelope analysis, comodulation, onsets). The aim of the proposed project is to use the diverse properties of natural signals (especially speech) to form objects, similar to the way auditory perception does, and thus to develop efficient, problem-adapted separation algorithms. Time-frequency methods will be developed and optimized to cope with the often long reverberation times. The robustness of the solutions in practical applications will be specifically investigated and maximized.

Key findings

Die zum Zeitpunkt der Antragstellung bekannten Methoden für die konvolutive Quellentrennung waren nur für Mischungssysteme mit relativ kurzen Impulsantworten geeignet und versagten meist in realistischen akustischen Szenarien, wo mit extrem langen Nachhallzeiten zu rechnen ist. Ein wesentlicher Grund für das Versagen ist das so genannte Permutationsproblem, das immer dann auftritt, wenn das im Zeitbereich vorliegende konvolutive Quellentrennungsproblem in den Frequenzbereich überführt und durch eine Vielzahl separat zu bearbeitender instantaner Quellentrennungsprobleme ersetzt wird. Zu den zum Zeitpunkt der Antragstellung bereits bekannten Ansätzen zur Lösung bzw. Vermeidung des Permutationsproblems gehörten die Forderung nach einer maximalen Länge der Entmischungsfilter, der dazu äquivalenten Forderung einer "Glattheit" der Übertragungsfunktionen der Entmischungsfilter und nach einer Unkorreliertheit der Einhüllenden der entmischten Signale. Neben der Beschränkung der Filterlängen der Entmischungsfilter sollten im Forschungsvorhaben erstmals objektbildende Merkmale der entmischten Signale und der Entmischungssysteme zur Lösung des Permutationsproblems herangezogen werden, wie sie zum Beispiel vom menschlichen Gehör bekannt sind. Hierzu gehören Common Onsets, Comodulationen und Lokalisationsinformationen. Zudem sollte untersucht werden, ob eine gehörgerechte Frequenzaufteilung bei der Konvertierung des konvolutiven in ein instantanes Quellentrennungsproblem zu Verbesserungen der Quellentrennung führt. Bezüglich der Lösung des Permutationsproblems durch Einschränkung der Filterlängen im Zeitbereich konnte ein neuartiges Verfahren entwickelt und etabliert werden, bei dem zunächst die zur Beurteilung der Güte der Quellentrennung nötige Kontrastfunktion im Frequenzbereich formuliert wird, dann aber eine Integration über alle Frequenzen erfolgt und die resultierende Funktion hinsichtlich der Zeitbereichs-Filterkoeffizienten optimiert wird. Die Wirksamkeit dieses Ansatzes wurde für verschiedene Kontrastfunktionen nachgewiesen und als allgemeines Prinzip etabliert. In Experimenten unter realistischen Bedingungen konnte gezeigt werden, dass die Methode den herkömmlichen Ansätzen deutlich überlegen ist. Zu den Ergebnissen der Arbeit gehört u. A. auch der Nachweis dafür, unter welchen Bedingungen die erzielte Lösung für die Entmischungsfilter eindeutig ist und wann sichergestellt ist, dass bei einer Einschränkung der Filterlängen tatsächlich keine Permutationen auftreten können. Bislang beruhte der Ansatz einer begrenzten Filterlänge lediglich auf plausiblen Annahmen, und es existierte kein Beweis der Eindeutigkeit. Hinsichtlich der expliziten Methoden zur Lösung des Permutationsproblems konnte ein neuartiges Verfahren entwickelt und vorgestellt werden, bei dem die Verteilungsdichten der getrennten Spektralkomponenten modelliert und für die Angleichung der Permutationen in den Frequenzbändern genutzt werden. Dieser Ansatz stellt eine Alternative, aber auch eine Ergänzung zur Lokalisationsmethode dar, bei der Komponenten, die aus der gleichen Raumrichtung eintreffen, der gleichen Quelle zugeordnet werden. Andere objektbildende Eigenschaften der Signale wie Common Onsets oder Amplitudenmodulationen haben sich bei Verwendung als alleiniges Kriterium als nur bedingt geeignet erwiesen, sie konnten aber als ergänzende Merkmale erfolgreich genutzt werden. Neben dem Permutationsproblem war auch das Skalierungsproblem zu untersuchen, das darin besteht, dass die korrekten Skalierungen der Spektralkomponenten der Quellen nicht bekannt sind und ohne Weiteres auch nicht aus den gemessenen Daten abgeleitet werden können. Hierzu konnten wir neue Methoden entwickeln, bei denen die Güte der Quellentrennung durch Beeinflussung der Skalierung weiter gesteigert werden kann, ohne dass wesentliche lineare Verzerrungen hingenommen werden müssen. Alle entwickelten Verfahren haben sich als robust gegenüber einer Fehleinschätzung der Quellenanzahl erwiesen, so dass sie für den praktischen Einsatz in unbekannten Umgebungen gut geeignet sind. Für die angestrebte Nutzung in Hörgeräten muss noch die Konvergenzgeschwindigkeit verbessert werden, so dass die Quellentrennung den in realen Cocktail-Party-Situationen auftretenden zeitveränderlichen Bedingungen folgen kann. Künftige Arbeiten sollen sich mit Kombinationen der im Projekt entwickelten neuen Methoden mit anderen viel versprechenden Ansätzen befassen. Weitere Arbeiten sind hinsichtlich der Echtzeit-Fähigkeit und der Trennung beweglicher akustischer Quellen geplant. Zudem sind Kooperationen mit der Neurologie im Bereich der Kernspintomographie geplant. Denkbare Anwendungen sind die Verbesserung von Hörgeräten durch Unterdrückung von Hintergrund- Sprechern, die Trennung von Sprechern für Überwachungsaufgaben, die Vorverarbeitung für die Spracherkennung mit konkurrierenden Sprechern und Hintergrundgeräuschen und die Analyse funktioneller Kernspintomographie-Daten.

Statusfinished
Effective start/end date01.01.0431.12.08

Collaborative partners

  • University of Oldenburg (Associated Staff) (lead)

UN Sustainable Development Goals

In 2015, UN member states agreed to 17 global Sustainable Development Goals (SDGs) to end poverty, protect the planet and ensure prosperity for all. This project contributes towards the following SDG(s):

  • SDG 3 - Good Health and Well-being
  • SDG 9 - Industry, Innovation, and Infrastructure

Research Areas and Centers

  • Academic Focus: Biomedical Engineering

DFG Research Classification Scheme

  • 4.42-02 Communication Technology and Networks, High-Frequency Technology and Photonic Systems, Signal Processing and Machine Learning for Information Technology

Funding Institution

  • DFG: German Research Association

Fingerprint

Explore the research topics touched on by this project. These labels are generated based on the underlying awards/grants. Together they form a unique fingerprint.