3D-Genuss to go

Kunstkopf Norbert im Sendesaal des WDR (Bild: Philipp Stade)

Je größer, umso besser: ohrumschließende Kopfhörer sind im Trend. Statt dezenter In-Ear weist man sich heute optisch markant als Liebhaber satter Klangerlebnisse aus. Die Anhängerschaft könnte bald noch größer werden, denn auch die Audiowiedergabe geht in die dritte Dimension – mit einer exklusiven Klangqualität für Kopfhörer.

Daran arbeitet das Team für Technische Akustik am Institut für Nachrichtentechnik.
Der Markt boomt: Mittlerweile verzeichnet die HiFi-Industrie höhere Absatzzahlen mit Kopfhörern als mit Lautsprechern. Nach Angaben des Verbands BITKOM werden Kopfhörer am häufigsten an Smartphones eingesetzt: 48 Millionen Menschen in Deutschland hören so Musik, allein 93 Prozent der 14- bis 29-Jährigen benutzen Kopfhörer. Und für Computerspieler sind audiotechnologische Entwicklungen ebenso interessant wie visuelle. Je plastischer und realistischer der Sound, umso besser.

Auch Benjamin Bernschütz und Johannes Arend legen Wert auf gute Akustik und auf einen hervorragenden Sound. Der Doktorand und der Masterstudent der Medientechnik sind Teil des Forschungsteams von Prof. Dr.-Ing. Christoph Pörschmann. In Projekten mit Namen MARA und MONRA untersuchen sie unter anderem aktuelle Fragestellungen im Bereich der dynamischen Binauraltechnik. Binaural bedeutet zweiohrig. Mit ihr lassen sich Stimmen und Musik naturgetreuer und plastischer wiedergeben als mit konventioneller Stereofonie. Der wiedergegebene Raum entfaltet sich dreidimensional um den Zuhörer, die einzelnen Schallquellen werden nahezu plastisch greifbar. Die Binauraltechnik beschränkt sich allerdings auf die Wiedergabe mit Kopfhörern; für Lautsprecher gibt es aber ähnliche Verfahren, wie zum Beispiel die Wellenfeldsynthese oder Ambisonics.

Der reflexionsarme Raum im achten Stock des IWZ ist einer der Arbeitsräume von Benjamin Bernschütz (l.), Johannes Arend (r.) und Kunstkopf Norbert. (Bild: Costa Belibasakis/ FH Köln)

Um die Besonderheit und die Komplexität der Binauraltechnik zu erklären, müssen Johannes Arend und Benjamin Bernschütz weit ausholen und beginnen bei der klassischen Stereophonie. Denn die trickst unser auditives System aus. Bei der Stereophonie sind für gewöhnlich links und rechts vom Zuhörer zwei Lautsprecher aufgebaut. Die Richtungen der Lautsprecher kann unser auditives System problemlos eindeutig zuordnen. Je nach Art und Weise, wie Signalanteile auf die Lautsprecher geleitet werden, entstehen zwischen ihnen mitunter sogenannte Phantomschallquellen. Dann klingt es beispielsweise so, als würde man den Gesang genau in der Mitte zwischen den Lautsprechern wahrnehmen.

Wir hören aus Gewohnheit falsch

Bei der Wiedergabe über Kopfhörer bricht meistens jede realistische Räumlichkeit zusammen. Der Zuhörer nimmt den Gesang zum Beispiel zwischen den Ohren wahr. Audiotechniker sprechen hier von der Im-Kopf-Lokalisation. Eine andere Möglichkeit ist, dass der Gesang an einer Seite des Kopfes festzukleben scheint. Wenn man dann den Kopf dreht, wandert die Wahrnehmung mit der Kopfbewegung mit. In der Realität passiert das aber nicht: hier bleiben die Signalquellen an ihrem Standort. Aber da wir diese verfremdete Form der musikalischen Wiedergabe gewöhnt sind, machen sich Millionen von Kopfhörer-Nutzern tagtäglich keine Gedanken darüber, dass sie „falsch“ hören.

„Wie wäre es aber, wenn plötzlich alle Instrumente aus dem Kopf heraus springen würden, plastisch vor oder hinter uns in einem Raum zu stehen scheinen, der sich dreidimensional um uns herum entfaltet?“, fragt Benjamin Bernschütz. „Und wenn dann plötzlich der Sänger eine feste Position im Raum einnehmen würde, unabhängig davon, ob wir uns drehen und bewegen?“

Im achten Stock des IWZ-Hochhauses am Campus Deutz ist das bereits möglich – und äußerst beeindruckend. Im ersten Moment glaubt man nicht, dass die Aufnahme des Flamenco-Gitarristen tatsächlich aus den Kopfhörern kommt. Sie scheint vielmehr Teil des Raums zu sein, kommt von vorne und klingt, als stehe man in einem Saal vor einer Bühne. Dreht man sich um 180 Grad, klingt es, als sitzt man mit dem Rücken zum Gitarristen. Die Akustik ist die des kleinen WDR-Sendesaals in Köln. Aber der Gitarrist hat dort nie gespielt, sondern in einem reflexionsarmen Raum (siehe Infokasten Seite 19). Wie funktioniert das? Das Schlüsselwort lautet dynamische Binauralsynthese. Dabei generiert ein Binaural-Renderer in Echtzeit die notwendigen Ohrsignale, die das menschliche auditive System benötigt, um daraus dreidimensionale Richtungsinformationen abzuleiten. Ein Trackingsystem erfasst dabei die Kopfdrehung des Hörers, der Binaural-Renderer passt dynamisch die Signale so an, dass die Quellen und der Raum bei Kopfdrehungen statisch stehen bleiben.

Die dynamische Binauralsynthese in drei Schritten

Schritt 1: In einem reflexionsarmen Raum wird ein Instrument aufgenommen, um sämtliche akustische Reflektionen zu unterdrücken. Die Akustiker sprechen hier von „Freifeldbedingungen“.

Schritt 2: Einziger Zuhörer im Sendesaal des WDR ist der Kunstkopf „Norbert“. Er dreht sich auf dem VariSphear Roboter automatisiert in kleinen Schritten um seine eigene Achse, es werden richtungsbezogene Raumimpulsantworten gemessen. Dabei werden spezielle Testsignale (Sinus-Sweeps) im Raum abgespielt und mit dem Kunstkopf aufgenommen, die für einen menschlichen Zuhörer zunächst nichts mit Musik zu tun haben. Das Messsystem kann daraus aber die binauralen Raumimpuls-antworten ableiten, die für die dynamische Binauralsynthese benötigt werden.

Schritt 3: Bei der Auralisation, d. h. der Hörbarmachung des Raums, setzt man sich einen Kopfhörer auf. Über einen darin befindlichen Sensor wird die Kopfposition mit einem Tracking-System in Echtzeit ausgelesen und an den Binauralrenderer übermittelt. Dieser verknüpft nun das trockene Signal (Schritt 1) mit den passenden Raumimpulsantworten (Schritt 2) entsprechend der Kopfdrehung. Die Verknüpfung ist eine mathematische Operation, die als Faltung bezeichnet wird.

Alter Hut, neue Technik

„Dabei wendet man altbekannte Grundlagen aus der Kunstkopfstereophonie an, die bereits in den 1970er und 80er Jahren einen kurzen und leider eher wenig glamourösen Auftritt hatte“, erklärt der 34-jährige Benjamin Bernschütz. „Damals waren Kopfhörer etwas für ledige HiFi-Freaks, die Samstagabends bei einem guten Glas korrekt temperierten Bordeaux den Klängen einer Pink Floyd-Schallplatte lauschten. Außerdem war die Wiedergabe der Kunstkopfaufnahmen immer statisch, d. h. Kopfdrehungen wurden nicht berücksichtigt. Das war aufgrund der benötigten Sensorik und Rechenleistung auch kaum denkbar und viel zu kostspielig. Die Zeiten waren damals einfach noch nicht reif für binaurales Hören.“ Heute sähe das schon ganz anders aus; die Technologie in den preiswerten Konsumenten-Bereich zu bringen, ist für den Doktoranden nur eine Frage der Zeit.

Im Kölner Labor für Technische Akustik ist der Kunstkopf Norbert ein wichtiges Teammitglied. (Bild: Philipp Stade)

Um dem realen Hören so nah wie möglich zu kommen, ist unter anderem die akustische Vermessung von Räumen Gegenstand der laufenden Forschungsarbeiten. Dazu hat das Kölner Team eine spezielle Messtechnik entwickelt, inklusive eines Messroboters. „Natürlich kann man Raumakustik auch simulieren“, erklärt Johannes Arend, „aber bei der Wiedergabe, der sogenannten Auralisation, der Hörbarmachung des Raums, klingen real gemessene oft wesentlich besser als simulierte Räume.“ Jeder Raum hat seine eigene Akustik. Musiker und Konzertgänger kennen den Unterscheid zwischen guter und schlechter Akustik. Für die klangliche Qualität von Konzertsälen sind deren Architektur, die verwendeten Baustoffe und Verkleidung sowie die Inneneinrichtung entscheidende Kriterien.

Mit verschiedenen Techniken haben Johannes Arend und seine Kollegen den großen und kleinen Sendesaal des WDR in Köln dreidimensional vermessen. Die Raumimpuls-
antwort eines Saals ist „der Fingerabdruck eines Raums“, so Arend. Dabei ist eine Technik die Verwendung von Mikrofon-Arrays, bei der mitunter mehrere tausend Punkte einer imaginären Kugeloberfläche gemessen werden. Benjamin Bernschütz hat dafür ein eigenes Messsystem entwickelt mit Namen Vari Sphear. Das System wurde in der institutseigenen Werkstatt in einer Kleinserie gefertigt und an andere Universitäten und Forschungseinrichtungen geliefert. Auf den Messroboter, dem Herzstück von VariSphear, kann alternativ ein Kunstkopf montiert werden (siehe Infokasten). Mit ihm können komplette Sätze von binauralen Raumimpulsantworten (BRIR) aufgenommen werden. Sie bilden die Grundlage für die dynamischen Binauralsynthese von Räumen. „Unser System ist state of the art“, sagt Medientechniker Arend. „Es ist von seiner Funktionsweise her grob gesagt vergleichbar mit den Green- oder Bluebox Keyingverfahren, die man aus der Fernsehproduktionstechnik kennt.“

Von Physik bis Emotionen

„Die Raumakustik hat auch Einfluss auf die musikalische Performance“, ergänzt Arend. So könne sich beispielsweise in einem Saal mit hoher Nachhallzeit das Spiel des Pianisten verlangsamen. Für sein aktuelles Seminar hat sich der 27-Jährige intensiv mit dem aktuellen Forschungsstand beschäftigt. Es gibt zum Beispiel erste Untersuchungen an der TU Berlin, bei denen Musiker im virtuellen Raum spielen und dabei geprüft wird, ob und wie sich die Veränderungen der akustischen Parameter auf deren Spiel auswirken. Die Berliner Kollegen sind einer der Forschungspartner des Kölner Teams.

„Die Forschungsgegenstände sind enorm vielschichtig und fächerübergreifend“, sagt Bernschütz. „Von der reinen Physik bis hin zu den Emotionen, die Musik in uns auslösen kann, müssen sehr viele Faktoren berücksichtigt werden.“ Am Campus Deutz konzentriert man sich auf das umfangreiche Teilgebiet, das von den physikalischen Grundlagen der Schallausbreitung über die Signalverarbeitung bis zur menschlichen Wahrnehmung reicht. Dazu lösen die Ingenieure eine Menge theoretischer Gleichungen und Integrale und implementieren Algorithmen. Gleichzeitig führen sie eine Vielzahl an Hörversuchen mit Probanden durch.

„Unsere Wahrnehmungseigenschaften sind ein äußerst komplexes und wichtiges Element in der Signalkette“, so Bernschütz. „Deshalb unterscheidet sich unsere Arbeit deutlich von den meisten anderen Ingenieurdisziplinen, bei denen ein System komplett durch reine Physik und Mathematik beschrieben wird. Bei uns lassen sich vielfach technische Systeme vereinfachen oder Datenraten reduzieren, wenn man ganz gezielt die Eigenschaften der menschlichen Wahrnehmung berücksichtigt. Ein perfektes Beispiel ist hier der revolutionäre MP3 Audiocodec und seine Derivate, die eben genau auf solchen Prinzipien basieren.“

Theoretisch könnte schon jetzt jeder Smartphone-Nutzer die dreidimensionale Audiotechnik genießen; die Rechnerleistung der Mobilgeräte ist für viele Szenarien völlig ausreichend. Aktuell fehlen dafür allerdings noch die Trackingsysteme in den Kopfhörern und die entsprechenden Rendering-Applikationen. Außerdem bedarf es noch einer Formatdefinition, damit Musik oder Hörspiele sinnvoll produziert, verbreitet und abgespielt werden können. Das bedeutet aber auch, dass beispielsweise die Musik speziell für die binaurale Technologie eingespielt werden muss. „Die Produzenten von Musik, Hörspielen oder Computerspielen müssen die neue Technologie noch für sich entdecken“, so Bernschütz. „Aber das ist vermutlich nur eine Frage der Zeit.“

Text: Monika Probst

April 2014

Kontakt & Service

3D-Genuss to go

Wir hören aus Gewohnheit falsch

Alter Hut, neue Technik

Von Physik bis Emotionen