Die Trennung akustischer Quellensignale aus beobachteten Gemischen ohne exaktes Vorwissen über die Quellen oder die Mischungssysteme (d. h. blind) ist ein bedeutendes Problem, dessen praktische Lösung eine Vielzahl an technischen Anwendungen besitzt. Während das menschliche Gehör diese Aufgabe auch in verhallter Umgebung wie selbstverständlich bewältigt, sind technische Lösungen derzeit nur für stark vereinfachte Problemstellungen verfügbar (z.B. reflexionsfreie Bedingungen, mindestens so viele Sensoren wie Quellen, bekannte Quellenanzahl). Die bislang entwickelten Algorithmen stützen sich auf einfache Annahmen über die Quellenprozesse (entweder nichtgaußisch oder nichtstationär) und sind nicht speziell auf die Trennung natürlicher akustischer Signale zugeschnitten. Das Gehör ist dagegen genau auf diese Aufgabe spezialisiert und nutzt dazu eine ganze Reihe an Merkmalen der dargebotenen Signale (KurzzeitSpektren, Einhüllenden-Analyse, Comodulation, "Onsets"). Ziel des vorgeschlagenen Projektes ist es nun, die vielfältigen Eigenschaften natürlicher Signale (insbesondere Sprache) ähnlich wie das Gehör zur Objektbildung zu verwenden und damit zu effizienten, problemangepassten Separationsalgorithmen zu gelangen. Zur Bewältigung der oft langen Nachhallzeiten sollen Zeit-Frequenz-Methoden entwickelt und optimiert werden. Die Robustheit der Lösungen in praktischen Anwendungen soll gezielt untersucht und maximiert werden.
Die zum Zeitpunkt der Antragstellung bekannten Methoden für die konvolutive Quellentrennung waren nur für Mischungssysteme mit relativ kurzen Impulsantworten geeignet und versagten meist in realistischen akustischen Szenarien, wo mit extrem langen Nachhallzeiten zu rechnen ist. Ein wesentlicher Grund für das Versagen ist das so genannte Permutationsproblem, das immer dann auftritt, wenn das im Zeitbereich vorliegende konvolutive Quellentrennungsproblem in den Frequenzbereich überführt und durch eine Vielzahl separat zu bearbeitender instantaner Quellentrennungsprobleme ersetzt wird. Zu den zum Zeitpunkt der Antragstellung bereits bekannten Ansätzen zur Lösung bzw. Vermeidung des Permutationsproblems gehörten die Forderung nach einer maximalen Länge der Entmischungsfilter, der dazu äquivalenten Forderung einer "Glattheit" der Übertragungsfunktionen der Entmischungsfilter und nach einer Unkorreliertheit der Einhüllenden der entmischten Signale. Neben der Beschränkung der Filterlängen der Entmischungsfilter sollten im Forschungsvorhaben erstmals objektbildende Merkmale der entmischten Signale und der Entmischungssysteme zur Lösung des Permutationsproblems herangezogen werden, wie sie zum Beispiel vom menschlichen Gehör bekannt sind. Hierzu gehören Common Onsets, Comodulationen und Lokalisationsinformationen. Zudem sollte untersucht werden, ob eine gehörgerechte Frequenzaufteilung bei der Konvertierung des konvolutiven in ein instantanes Quellentrennungsproblem zu Verbesserungen der Quellentrennung führt. Bezüglich der Lösung des Permutationsproblems durch Einschränkung der Filterlängen im Zeitbereich konnte ein neuartiges Verfahren entwickelt und etabliert werden, bei dem zunächst die zur Beurteilung der Güte der Quellentrennung nötige Kontrastfunktion im Frequenzbereich formuliert wird, dann aber eine Integration über alle Frequenzen erfolgt und die resultierende Funktion hinsichtlich der Zeitbereichs-Filterkoeffizienten optimiert wird. Die Wirksamkeit dieses Ansatzes wurde für verschiedene Kontrastfunktionen nachgewiesen und als allgemeines Prinzip etabliert. In Experimenten unter realistischen Bedingungen konnte gezeigt werden, dass die Methode den herkömmlichen Ansätzen deutlich überlegen ist. Zu den Ergebnissen der Arbeit gehört u. A. auch der Nachweis dafür, unter welchen Bedingungen die erzielte Lösung für die Entmischungsfilter eindeutig ist und wann sichergestellt ist, dass bei einer Einschränkung der Filterlängen tatsächlich keine Permutationen auftreten können. Bislang beruhte der Ansatz einer begrenzten Filterlänge lediglich auf plausiblen Annahmen, und es existierte kein Beweis der Eindeutigkeit. Hinsichtlich der expliziten Methoden zur Lösung des Permutationsproblems konnte ein neuartiges Verfahren entwickelt und vorgestellt werden, bei dem die Verteilungsdichten der getrennten Spektralkomponenten modelliert und für die Angleichung der Permutationen in den Frequenzbändern genutzt werden. Dieser Ansatz stellt eine Alternative, aber auch eine Ergänzung zur Lokalisationsmethode dar, bei der Komponenten, die aus der gleichen Raumrichtung eintreffen, der gleichen Quelle zugeordnet werden. Andere objektbildende Eigenschaften der Signale wie Common Onsets oder Amplitudenmodulationen haben sich bei Verwendung als alleiniges Kriterium als nur bedingt geeignet erwiesen, sie konnten aber als ergänzende Merkmale erfolgreich genutzt werden. Neben dem Permutationsproblem war auch das Skalierungsproblem zu untersuchen, das darin besteht, dass die korrekten Skalierungen der Spektralkomponenten der Quellen nicht bekannt sind und ohne Weiteres auch nicht aus den gemessenen Daten abgeleitet werden können. Hierzu konnten wir neue Methoden entwickeln, bei denen die Güte der Quellentrennung durch Beeinflussung der Skalierung weiter gesteigert werden kann, ohne dass wesentliche lineare Verzerrungen hingenommen werden müssen. Alle entwickelten Verfahren haben sich als robust gegenüber einer Fehleinschätzung der Quellenanzahl erwiesen, so dass sie für den praktischen Einsatz in unbekannten Umgebungen gut geeignet sind. Für die angestrebte Nutzung in Hörgeräten muss noch die Konvergenzgeschwindigkeit verbessert werden, so dass die Quellentrennung den in realen Cocktail-Party-Situationen auftretenden zeitveränderlichen Bedingungen folgen kann. Künftige Arbeiten sollen sich mit Kombinationen der im Projekt entwickelten neuen Methoden mit anderen viel versprechenden Ansätzen befassen. Weitere Arbeiten sind hinsichtlich der Echtzeit-Fähigkeit und der Trennung beweglicher akustischer Quellen geplant. Zudem sind Kooperationen mit der Neurologie im Bereich der Kernspintomographie geplant. Denkbare Anwendungen sind die Verbesserung von Hörgeräten durch Unterdrückung von Hintergrund- Sprechern, die Trennung von Sprechern für Überwachungsaufgaben, die Vorverarbeitung für die Spracherkennung mit konkurrierenden Sprechern und Hintergrundgeräuschen und die Analyse funktioneller Kernspintomographie-Daten.