Das Tonstudio

Die Idee & Das Setup

Die Idee war es einen Raum zu konzipieren, welcher unter anderem mittels auditiven Signalen, die Raumwahrnehmung für einen Interagierenden verändert. Außerdem sollen die akustischen Eigenschaften des Raumes auch mit dem Optischen übereinstimmen.

Hardware Setup

Aufgebaut ist das Projekt wie folgt.

8 Richtmikrofone
8 Lautsprecher
1 RME Micstasy (MicPreamp)
1 RME Fireface 800 (Audio Interface)

4 Lautsprecher strahlen aus den jeweiligen 4 Ecken der Wände. Die restlichen 4 Lautsprecher stehen in der Mitte der jeweiligen Wand. Ein Soundsystem aus 8 Lautsprechern, welche den Bewohner des Zimmers und damit den Interagierenden beschallt. Die 8 Richtmikrofone sind über den 8 Lautsprechern positioniert und simulieren jeweils eine reflektierende Fläche. Die 8 Richtmikrofone werden über ein Audio Interface in den Hauptcomputer gespeist, welcher die Signale weiterverarbeitet und durch die darunter liegenden Lautsprecher wiedergibt.

Kalibrierung der Lautsprecher

Die Lautsprecher befinden sich hinter den Leinwänden. Dies führt zu einer Dämpfung besonders in höheren Frequenzen. Deshalb müssen die Lautsprecher kalibriert werden. Dazu werden die HISS-Tools der University of Huddersfield verwendet, die es ermöglichen mithilfe von Impulsantworten (IRs) und Faltung ein Kalibrierungsprofil für jeden Lautsprecher zu erstellen.

Über den Lautsprecher werden Sweeps wiedergegeben, die mit einem Messmikrofon aufgezeichnet werden. Die Sweeps werden in IRs mit minimaler Phase in allen Frequenzen, aber demselben Frequenz-Amplitudenverlauf umgewandelt. Um eine größere Genauigkeit und eine gleichmäßigere Korrektur zu erhalten werden zwei IRs von unterschiedlichen Positionen aus aufgenommen und ein Durchschnitt der Beiden errechnet. Die resultierende IR wird schließlich invertiert.

Das Outputsignal kann mit dieser Invertierten IR gefaltet werden wodurch der Lautsprecher einen nahezu linearen Frequenzverlauf erhält. Ein Vorteil dieser Methode ist es auch, dass Unterschiede zwischen verschiedenen Lautsprechertypen minimiert werden können und das Raumeinflüsse weitestgehend eliminiert werden.

Der Max Patch kann alle notwendigen Schritte automatisiert vornehmen. Der Reihe nach werden über alle Lautsprecher Sweeps wiedergegeben und die IR zur Korrektur errechnet.

Lautsprecher: Adam A5X
Rot: vor der Leinwand
Grün: hinter der Leinwand


deutlicher Höhenabfall ab 1,2 kHz
Frequenzschwankungen in unteren Frequenzen sind auf Raummoden zurückzuführen

Zum Zeitpunkt der Dokumentation, war das Kalibrierungssystem noch nicht voll funktionsfähig, weswegen vorerst eine manuelle Kalibrierung der Lautsprecher mithilfe der Messsoftware Room Eq Wizard und EQs vorgenommen wurde.

Quelle:
HISS-Toolbox (University of Huddersfield)

Interface des Lautsprecherkalibrierungstool basierend auf der HIRT-Toolbox

In dem Interface lassen sich die zu messenden Lautsprecher anwählen (Speaker 1), um dann zwei Positionen zu messen (measure Pos1 /2) . Anschließend kann die Korrektur errechnet werden (calculate IR-Filter). Die Ergebnisse der Messung und der Korrekturfilter werden in den 8 Graphen angezeigt.

Nachhallsystem

Raumklang bzw. Nachhall entsteht durch die Reflexionen des Schalls an den Wänden eines Raumes. Die Reflexionen niedriger Ordnung sind eine nahezu unveränderte Kopie des Signals. Durch die hohe Anzahl an Reflexionen und deren Überlagerung, die nach kurzer Zeit entstehen wird das Schallfeld zunehmen diffus und erhält einen noise ähnlichen Charakter. Die Größe des Raumes definiert wie Lang die Reflexionen brauchen, bis sie zur Quelle zurückkehren. Außerdem kann ein großer Raum mehr Schallenergie aufnehmen und wieder abgeben, was einen Einfluss auf die Nachhallzeit hat.

Der Algorithmus für das Nachhallsystem basiert auf einer Methode, die auf dem Paper „ Diffuse Reverberation Model for Efficient Image-Source Simulation of Room Impulse Responses“ (Eric A. Lehmann, Anders M. Johansson) basiert. Der Klang eines Raumes kann in zwei Komponenten zerlegt werden, nämlich frühe Reflexionen und diffuser Nachhall. In dem Paper wird gezeigt, das für eine korrekte Raumwahrnehmung nur Reflexionen bis zur 3. Ordnung benötigt werden. Unser System erzeugt die frühen Reflexionen durch eine Delaymatrix. Eine Wand wird immer durch ein Lautsprecher und ein Mikrofon simuliert. Theoretisch würden sich die Reflexionen höherer Ordnung bereits durch die 1. Reflexion ergeben, die von den Mikrofonen wieder aufgenommen und wieder Reflexionen simulieren. Allerdings besteht ein großer Unterschied zwischen einer echten Wand und dieser “Wandsimulation”, weswegen unser System die Reflexionen intern berechnet und wiedergibt.

Der diffuse Nachhall des Raumklang, besitzt einen Noise-ähnlichen Charakter. Es werden Samples mithilfe von Noise-Generatoren erstellt und diese mit EQs dem gewünschten Raumcharakter angepasst. Zusätzlich werden die Samples mit leichten modulationseffekten versehen, um den Nachhall natürlicher zu machen. Die Länge des Samples bestimmt die Nachhallzeit. Durch die Art wie das Fade In und das Fade Out gestaltet sind, kann man das Ein- bzw Ausklangverhalten des Raumes kontrollieren. Das durch die Mikrofone aufgenommene Signal wird mit diesem Signal gefaltet, wodurch sich der diffuse Nachhall des Raumes ergibt.

Das Hallsystem ist so aufgebaut, dass die Komponenten einzeln an und ausschaltbar sind, inklusive der Reflexionen spezifischer Ordnung. Für die künstliche Erzeugung der Reflexionen sind zwei Modi vorgesehen. Man kann wählen ob die Reflexionen erneut in die Matrix eingespeist werden, wodurch sich Reflexionen höherer Ordnung automatisch ergeben würden. Im zweiten Modi werden die Reflexionen bis 3. Ordnung über Matrizen simuliert und direkt an das Soundmodul für den Diffusanteil des Nachhalls gehen. Der Parameter "spread" ermöglicht eine Auffächerung der Reflexionen an der gegenüberliegenden Wand, sodass nicht nur der Lautsprecher der direkt gegenüber des Lautsprechers, sondern ebenfalls die des benachbarten einen gewissen Signal Anteil bekommen. Durch einen weiteren Parameter “Color” kann man zusätzlich noch Einfluss auf die Klangfarbe des Halls nehmen. Der Color-Knob steuert einen EQ mit einem Low- und einem HiShelf-Band, wodurch über ein Parameter der Klang dunkler oder heller werden kann.

Durch die Parameter stehen dem metaSpace einige Möglichkeiten zur Verfügung, um den Raum seine akustischen Eigenschaften zu verleihen, ohne dass die Bedienungsschnittstelle zu komplex wird.

Das Ziel ist es dem User eine echt wirkenden Raumklang hören zu lassen. Statische Hallsysteme haben allerdings oft den Nachteil, dass das Ohr sich sehr schnell daran gewöhnt und den Hall als künstlich wahrnimmt. Deshalb macht es Sinn einige Parameter nach einem Zufallsmuster zu modulieren. In unserem System übernimmt das der Spread-Faktor, der Reflexionen auf die benachbarten Boxen der ermittelten Reflexion verteilt. So klingt der Raum für den Hörer natürlicher und nicht synthetisch.

Quelle:
Diffuse Reverberation Model for Efficient Image-Source Simulation of Room Impulse Responses (Eric A. Lehmann, Anders M. Johansson)

Latenzen

Jedes DSP-System ruft Latenzen hervor. Diese ist stark von dem gewählten Setup und der Leistungsfähigkeit der Processing-Einheit abhängig. Die Latenz zwischen Analog In, durch die Workstation, zu Analog Out beträgt in einem Standard Setup oft mehr als 30 ms, was einer Wegstrecke von über 10m entspricht. Durch die Latenz, die das System verursacht, wird auch die minimale Raumgröße festgelegt, die akustisch korrekt dargestellt werden kann. Das Predelay der ersten Reflektionen entspricht der Entfernung der Wand. Da der Schall jedoch virtuell nur die Hälfte der Wegstrecke zurücklegt (nur Rückweg), kann man diesen Wert halbieren, wodurch sich bei einer Latenz von 30ms eine minimale Raumgröße von 5m x 5m ergeben würde.

Durch die Verdoppelung der Samplerate des Digitalen Systems kann die Latenz halbiert werden, da so die Samples doppelt so schnell berechnet werden, allerdings erfordert dies natürlich auch deutlich mehr Rechenleistung. Die Entscheidung viel daher auf 96kHz als guten Kompromiss zwischen geringer Latenz und Prozessorbelastung. Auch der Input/Output Buffer hat großen Einfluss auf die Latenz. Je geringer der Buffer desto geringer, die Latenz, was jedoch auch wieder eine größer Belastung für die Workstation bedeutet und zu Dropouts im Sound führen kann.

Die optimalen Einstellungen sind von den Leistungsanforderungen unserer Algorithmen abhängig und müssen während der Tests evaluiert werden.

Userpositionsabhängige Funktionen

Für den Prototyp sind die Lautsprecher sehr nah hinter der Leinwand platziert. Das heißt, dass an bestimmten Positionen die Entfernung des Hörers zu einem Lautsprecher weniger als 50cm betragen kann, gegenüber 3m zum gegenüberliegenden Lautsprecher. Dadurch würde dieser Lautsprecher überpräsent für die Ohren des Users werden, was aber in diesem Anwendungsfall nicht erwünscht ist, da die akustische Illusion besser wirkt, wenn man die Lautsprecher weder sieht, noch wahrnimmt ob der zu hörende Sound überhaupt aus einem Lautsprecher kommt. Abhängig von der Position des Users werden die Gain Einstellung der Lautsprecher angepasst, sodass überall im Raum ein möglichst homogenes Klangbild herrscht.

Anwendungsbereiche

Die Zukunft der Wohnsituation wird kritisch betrachtet, da Lebensraum durch eine erhöhte Geburtenrate und die Veränderung des demographischen Wandels immer knapper wird. Daher ist die Intention hinter dem Projekt, durch visuelle und auditive Effekte, Räume dynamisch für den Bewohner zu verändern. Durch eine auditive Vergrößerung des Raumes kann das Wohlbefinden des Bewohners qualitativ aufgewertet werden.

Außerdem gibt es die Möglichkeit, die Nachhallverlängerung nicht nur auf Räumlichkeiten, sondern auch auf verschiedene Szenarien außerhalb von vier Wänden abzustimmen. Die Wohnung wirkt wie ein Zimmer unter Wasser, wobei jede Bewegung und jedes Geräusch des Interagierenden, einen Einfluss auf die auditive Umgebung haben kann.

Der Raum soll auch auf auditiver Ebene Tätigkeiten des Users unterstützen. So kann man z.B. durch eine bestimmte Kombination von Sinuswellen beim Arbeiten eine Konzentrationstärkung bewirkt werden.

Das System deckt auch die multimedialen Bedürfnisse des Users ab und kann dazu genutzt werden, um Filme oder Musik abzuspielen. Auch das Entertainment System profitiert von einer akustischen Vergrößerung des Raumes. Man kann sich das Erlebnis eines Kinobesuchs in das eigene Zuhause holen.

Da die Position des Nutzers im Raum getracked wird, können verschiedene Funktionen implementiert werden, wie zum Beispiel eine gezielte Beschallung. Sollen einem Nutzer gezielt Informationen über die Akustische Ebene übermittelt werden, muss sie nur dieser hören, aber nicht eine weitere sich im Raum befindlichen Person. Der Sound wird nur an die dem User am nächsten liegenden Boxen geschickt, um mit möglichst wenig Pegel die gleiche Verständlichkeit zu erreichen. Ein nützlicher Nebeneffekt ist, dass dadurch auch weniger Anteile des Informationssignals in das Nachhallsystem gelangen.

Ein weiterer Anwendungsfall ist, dass durch das Tracking der Blickrichtung eine akustische Fokussierung von Inhalten umsetzbar ist. Es können auf jeder Wand andere Visuelle Inhalte zu sehen sein. Der zugehörige Sound ist allerdings erst dann wahrnehmbar, wenn der Nutzer auf die entsprechende Wand schaut. Das ermöglicht eine Form der Informationsaufbereitung für Nutzer, die auf solche spezielle Funktionen angewiesen sind.