ETC

Reflektierte Fehlschlüsse

Die Erhebung und Auswertung von Energie-Zeit-Kurven (ETC; Energy-Time-Curve) gehört zum Standardrepertoire in der Raumakustik. Beispielsweise lässt sich damit Überprüfen, ob sich die Stärke von Reflexionen innerhalb von Normen und Empfehlungen befinden oder ob raumakustische Massnahmen erforderlich sind. Das Verfahren ist vermeintlich einfach. Wie einige Gedankengänge zeigen, stellt sich die Interpretation allerdings als ausgesprochen heikel dar und weist zahlreiche Tücken auf, die in ein und derselben Situation zu ganz anderen Ergebnissen führen können.

Impulsantwort

Dreh und Angelpunkt jedes modernen Mess-Systems für Raumakustik ist die Impulsantwort. Diese kann beispielsweise durch eine möglichst ideale Impulsschallquelle (z.B. Schuss aus einer Schreckschusspistole) direkt gewonnen werden. Um die Reproduzierbarkeit zu erhöhen, vom Anregungssignal unabhängig zu sein und auch elektroakustische Schallquellen (Lautsprecher) einzusetzen, können Impulsantworten auch indirekt gewonnen werden, etwa durch eine komplexe Division der Messdaten aus einer 2-Kanal-FFT-Messungen oder über eine inverse Faltung (Deconvolution).

Die Impulsantwort beschreibt laut der Systemtheorie ein gemessenes System vollständig und beinhaltet (mehr oder weniger versteckt); sämtliche akustische Eigenschaften, sofern sich das System selbst linear und zeitinvariant verhält (linear, timeinvariant System, LTI-Systeme). In genügend grosser Näherung und mit Ausnahme von "speziellen Effekten", die stets im Auge behalten werden müssen, kann im Allgemeinen davon ausgegangen, dass die Übertragungseigenschaften eines Raum linear sind.

Ausführliche weitere Informationen über LTI-Systeme finden Sie in meinem Artikel über Messungen mit Funkstrecken.

Eine Impulsantwort stellt auf einer linearen Ordinate (Y-Achse) den vom Mikrofon gemessenen Schalldruck bzw. die proportional dazu stehende Ausgangsspannung des Mikrofons dar, der sich wegen des Wechseldrucks bzw. der korrespondierenden Wechselspannung um die horizontale Null-Linie (atmosphärischer Gleichdruck bzw. Gleichspannung) herum bewegt, also negative und positive Werte annimmt. Auf der Abzisse (X-Achse) der Grafik ist die Zeit dargestellt. Bei einem idealen Impuls (Dirac-Stoss, Delta-Impuls) würde die Impulsantwort aus einer einzelnen vertikalen Linie (mit theoretisch unendlich grosser Amplitude) bestehen. Näherungsweise ist dies mit dem in der Grafik dargestellten Signal erfüllt, obschon die Amplitude natürlich in der Realität eine endliche Amplitude aufweisen muss. Dargestellt ist oben die Impulsantwort und unten das logarithmisch quadrierte und normalisierte ETC (dazu später mehr).

Eine reale Impulsantwort (aufgenommen in einem Raum mit einem Lautsprecher) zeigt hingegen ein Wirrwarr an vertikalen Linien, da neben dem Direktschall auch alle unzähligen Reflexionen im Raum, aber auch die komplexen Übertragungseigenschaften (Amplituden- und Phasenfrequenzgänge) des Lautsprechers und des Mikrofons enthalten sind. In einer realen Messung in einem Raum, sieht das dann beispielsweise wie folgt aus:

Logarithmisch quadrierte Impulsantwort (Log-Squared-ETC)

Die Impulsantwort zeigt die Daten also auf einer linearen Schalldruckachse. Da das Schallfeld in einem Raum nach dessen Anregung und Abschaltung der Quelle nach einer Exponential-Funktion abfällt, sind später am Mikrofon auftretende Reflexionen kaum noch zu erkennen, da sie auf der vertikalen Achse nur noch eine ganz geringe Auslenkung aufweisen.

Noch entscheidender ist aber, dass das Gehör - wie alle menschlichen Sinnesorgane - nicht linear funktioniert, sondern die Empfindung anhand einer logarithmischen Funktion (bzw. einer Potenzfunktion) beurteilt. Aus diesem Grunde ist es angezeigt, die Daten der Impulsantwort zu quadrieren und logarithmisch darzustellen, wie dies im obigen Beispiel in der unten Grafikhälfte ("ETC") ersichtlich ist.

Verwirrend ist in diesem Zusammenhang, dass es hierzu zwei unterschiedliche Methoden gibt, de angewandt werden und sich in der Darstellung der Daten und damit auch in deren Interpretation unterscheiden. Nicht einfacher wird die Situation dadurch, dass die Bezeichnung dieser beiden Methoden in den Messprogrammen nicht durchgängig ist. Die meisten Hersteller unterschieden zwischen einer "logarithmisch quadrierten Impulsantwort" und einem "ETC". Andere hingegen verwenden für beide Darstellungsformen den Begriff ETC (dann oft unterschieden als "Log-Squared-ETC" und "Envelope-ETC"). Wieder andere machen es nochmals anders. Ich werde mich in der Folge der letztgenenanten Terminologie bedienen, also von "Log Squared" und "Envelope" sprechen, weil es im Kontext des Artikels zu einer deutlichen Unterscheidung und damit (hoffentlich) geringstmöglichen Missverständnissen beim Leser führt.

Beim Log-Squared-ETC, welches oben dargestellt ist, wird so vorgegangen, dass die einzelnen Werte der Impulsantwort quadriert werden. Die Werte (oder Reflexionen) werden dadurch den dahinterstehen Energiegrössen (in der Akustik: Schallintensitäten) proportional.

Ein dadurch entstehender Effekt ist, dass alle negativen Werte positiv werden, da bei der Multiplizierung einer negativen Zahl mit sich selbst, stets ein positives Resultat entsteht. In einem zweiten Schritt wird dann die vertikale Achse der Darstellung statt linear auf eine logarithmische Dezibel-Skala projiziert. Bei der Grafik oben wurde zusätzlich der Direktschall als 0 dBr (relativ) gesetzt, was unter anderem den Vorteil hat, dass man an der vertikalen Skala nun direkt ablesen kann, um wie viel dB die Reflexionen unterhalb des Direktschalls liegen. In einem Pegel-kalibrierten System können die Werte in der Regel auch absolut, also als dB SPL bzw. dBV/dBu angezeigt werden. Im Gegensatz zur Impulsantwort sind nun auch deutlich spätere Reflexionen im ETC erkennbar. Denn durch die nunmehr logarithmische Skalierung erscheint die exponentiell abnehmende Schallenergie nach der Anregung durch einen Impuls/Knall nun (näherungsweise) als kontinuierlich fallende Gerade entlang der Zeitachse.

Das "Rätsel" der verschwundenen Energie

Nun gibt es allerdings mit dieser Art der Umrechnung ein Problem, welches die korrekte Interpretationen der Daten verfälschen kann: An den Stellen an denen die Impulsantwort durch die Null-Linie läuft, wird auch der entsprechende Wert im ETC als Null dargestellt (0*0=0), gerade so, als wäre zu diesem Zeitpunkt keine Energie vorhanden gewesen. Dies kann zwar, muss aber nicht zwingend der Fall sein.

Anschaulich ist hierzu womöglich der Vergleich mit einem periodisch schwingenden Pendel. Immer dann wenn das Pendel durch den Nullpunkt, senkrecht zum Lot läuft, ist seine Bewegungsgeschwindigkeit am grössten. Gleichzeitig ist seine Auslenkung (Elongation) natürlich gerade minimal, nämlich Null. Den gleichen Sachverhalt beschreibend kann man auch sagen, dass die kinetische Energie maximal, die potentielle hingegen minimal/Null ist.

An den Umkehrpunkten des Pendels ist es genau umgekehrt: Um die Richtung zu wechseln muss das Pendel kurz anhalten, hat also minimale kinetische Energie = minimale Bewegung, gleichzeitig aber maximale potentielle Energie.

Will man also den Energiezustand des Pendels beschreiben, muss man beide Energieformen die kinetische und die potentielle berücksichtigen, oder anders ausgedrückt: man muss die mathematisch komplexe Funktion in Form von Real- und Imaginäranteilen kennen. Würde man unzulässigerweise nur eine der beiden Energieformen berücksichtigen, dann gäbe es Zeitpunkte zu denen die Energie des Pendels Null ist, was aber nicht der Realität entspricht.

Zurück in die Welt der Akustik und von Audio: Als Messmikrofone kommen hier omnidirektionale Druckempfänger zum Einsatz. Wie es der Name schon andeutet, wird dadurch der Schallwechseldruck registriert. Dieser entspricht aber lediglich einer der beiden beteiligten Energieformen. Die zweite Komponente, nämlich die Bewegungsgeschwindigkeit der Luftpartikel, die Schallschnelle, bleibt dabei unberücksichtigt.

Wenn man sich einen periodischen sinusförmigen Verlauf des Schallwechseldrucks vorstellt, gibt es zweifellos Zeitpunkte in denen der Druck Null beträgt, weil die Schwingung gerade durch die Nullstellen läuft. Wie beim Pendel heisst dies aber nicht, dass zu diesem Zeitpunkt keine Energie in der Schallwelle gespeichert ist, sondern nur dass sie in anderer Form vorhanden ist, die wir nicht berücksichtigt haben.

Wenn man nun einen positiven Ausschlag in der Impulsantwort als den 0-Grad-Phasenwinkel einer Schwingung interpretiert, dann ist der negative Ausschlag folglich der 180-Grad-Winkel und die Nulldurchgänge entsprechen dann den 90- und 270-Grad-Positionen.

In einem Log-Squared-ETC kann nun der Fall auftreten, dass man zwei dicht aufeinanderfolgende vertikale Linien sieht, die man als zwei Einzelreflexionen interpretieren kann. In Tat und Wahrheit gibt es aber leidglich eine einzige Reflexion. Die beiden Linien entstehen nur durch die Nullstelle des Drucks zwischen den 0- und 180-Grad-Komponenten ein und desselben Schallsignals.

Envelope-ETC

Um das eben geschilderte Problem und die damit womöglich verbundenen Fehlinterpretationen zu vermieden, kann man stattdessen eine analytische Funktion bilden, indem man die Daten der Impulsantwort auf der Zeitebene mittels einer Hilbert-Transformation komplex erweitert. Damit werden die reinen Realanteile des Schalldrucks um deren Imaginärkomponenten komplementiert. Eine derartige Darstellung wird meist "Envelope-ETC" genannt. In älteren schriftlichen Darstellungen findet man manchmal auch noch den Begriff "Heyser-ETC" (vergl. historischen Exkurs ganz am Ende des Artikels).

Der Effekt dieses Vorgangs ist, dass an der Druck-Nullstelle nun ebenfalls Daten vorhanden sind und statt den falschen zwei "Reflexionen" wird nun lediglich noch eine einzige dargestellt, die sich allerdings über einen grösseren Zeitraum hinweg ausdehnt. Das heisst gleichzeitig auch, dass in einem Envelope-ETC, die Daten zeitlich geglättet werden. Und damit landen wir beim nächsten Problem: Wenn nun nämlich tatsächlich zwei sehr kurz hintereinander folgende Einzel-Reflexionen auftreten, werden diese im Envelope-ETC nicht mehr einzeln ersichtlich sein, was wiederum zu einer Fehlinterpretation und damit womöglich einer unvollständigen akustischen Behandlungsmassnahme führt, indem die eine Reflexion "übersehen" wird.

Log-Squared-ETC vs. Envelope-ETC

Anhand einer hohen Auflösung von Zeit und Pegel, der bereits oben dargestellten Impulsantwort, soll nun der obige Sachverhalt dargestellt und auf die unterschiedlichen Darstellungen eingegangen werden. In der folgenden Grafik sind oben die quadrierte Form (Log-Squared-ETC) und unten die Envelope-ETC dargestellt. Die Ergebnisse fallen trotz Gemeinsamkeiten teils auch augenfällig unterschiedlich aus. Generell ist ersichtlich, dass in der unteren Bildhälfte und wie im Text beschrieben, die zeitliche Ausdehnung der einzelnen Reflexionen grösser ist.

Im Anfangszeitbereich des Signals sieht es im Log-Squared-ETC so aus, als würde kurz nacheinander zwei Signale am Mikrofon eintreffen (orange Pfeile). Tatsächlich handelt es sich aber nur um einziges Signal, den Direktschall. Die "falsche" erste Reflexion entsteht durch den Einschwingvorgang hoher Frequenzen, die durch eine dazwischen liegende Nullstelle laufen. Das Envelope-ETC hingegen zeigt korrekt an, dass es nur ein Signal gibt (roter Pfeil)

Genau gegenteilig verhält es sich mit zwei sehr dicht aufeinanderfolgenden Reflexionen. (Weitgehend) korrekt dargestellt wird dies im Log-Squared-ETC (blaue Pfeile) während das Envelope-ETC fälschlicherweise ein Einzelsignal ausweist (schwarzer Pfeil).

Man beachte als weiteres Beispiel auch, wie völlig unterschiedlich die Bereiche unterhalb der grünen Klammern in den beiden Darstellungen ausgewiesen sind.

Aus den grundlegenden Erklärungen und aus dem konkreten Beispiel ergibt sich, dass weder die eine noch die andere Darstellungsform einen durchgängigen und prinzipiellen Vorteil bieten. Der Akustiker, muss selber wissen und entscheiden, in welchen Fällen er welche Darstellung nutzt und welche Reflexionen in welcher der beiden Varianten die korrekten physikalischen Verhältnisse wiederspiegeln. Messen ist einfach - letztlich separiert die Interpretation der Daten "Men from Boys", um es mal auf diese Weise auszudrücken.

Einfluss Frequenzgang auf Impulsantwort und ETC

Viele Anwender verwenden Breitband ETCs, um einzuschätzen ob in einem Raum störende Reflexionen auftreten, um diese nötigenfalls raumakustisch behandeln zu können, beispielsweise mit Hilfe von Absorbern. Weshalb das ganz und gar keine zulässige Methode ist, werde ich in den folgenden Abschnitten detailliert darlegen.

Die Impulsantwort und damit auch die ETCs sind nämlich sehr stark Hochton-dominiert. In der folgenden Grafik sind die Impulsantworten von zwei Einzel-Signalen dargestellt: einmal ein frequenzlineares (grün) und einmal ein tiefpassgefiltertes (2 kHz, 24 dB/Oct) Signal (rot). Deutlich zu erkennen ist, dass die Amplitude des gefilterten Signals erheblich kleiner ist und sich ausserdem über einen grösseren Zeitbereich hinweg ausdehnt.

Der Grund dafür ist einerseits, dass das gefilterte Signal weniger Frequenzen und damit weniger Gesamtenergie enthält, entsprechend also eine geringere Amplitude aufweist. Viel entscheidender ist aber für unsere Betrachtungen, dass das Signal auf der Zeitachse nach rechts rutscht und zeitlich "verschmiert": Aus der ausgeprägten Spitze ist ein langgestreckter Buckel geworden. Anschaulich kann man das damit begründen, dass im ersten Fall auch sehr hohe Frequenzen enthalten sind, sich das Signal also aufgrund der damit verbundenen kurzen Periodendauern schnell verändert. Im zweiten Fall ist die Periodendauer der höchsten enthaltenen Frequenz aber erheblich grösser. Es dauert also viel länger, bis die Schwingung die maximale Elongation, ihre Amplitude erreicht hat. Folglich wird die Zeitdauer des Signals ausgedehnt und der maximale Ausschlag verschiebt sich zeitlich nach hinten. Dieser Sachverhalt hat eine Reihe von Implikationen in der Praxis und führt dazu, dass Breitband-ETCs untauglich sind, um das relevante Reflexionsverhalten in einem Raum korrekt darzustellen.

Das folgende Beispiel zeigt die Problematik anhand einer Modellierung. Oben ist das (bereits bekannte) real gemessene Log-Squared-ETC eines Raum zu sehen. Von Interesse sind für uns nun die Reflexionen bei 34 Millisekunden (blauer Pfeil). Wie man sehen kann ist die erste, zeitlich klar abgegreenzte Reflexion gegenüber dem Direktschall lediglich um 7 dB reduziert. Damit kann man mit Sicherheit sagen, dass ein starker Kammfiltereffekt im Amplitudenfrequenzgang zu erwarten ist. Die Stärke der Reflexion verletzt alle bekannten Normen und Empfehlungen für kritische Abhörsituationen.

Bringt man an der entsprechenden Reflexionsfläche im Raum nun einen dünnen, und damit nur im Hochtonbereich oberhalb von 2 kHz wirkenden Absorber an, dann sieht das so aus, wie im unteren Teil der Grafik. Die Reflexion ist auf -22 dBr zurückgegangen, also um ganze 15 dB gedämpft worden. Dies entspricht einer beachtlichen Reduktion der Schallenergie um rund Faktor 32. Das Breitband-ETC suggeriert somit, dass nun alles in Ordnung ist. Aber stimmt das auch?

Natürlich nicht! Denn die unterhalb von 2 kHz auftretenden Signalanteile werden noch genau so reflektiert wie zuvor und führen somit immer noch zu akustischen Störungen. In nicht wenigen Fällen kann sich die Situation hörmässig beurteilt sogar noch verschlechtern, weil nun die Reflexion einen gänzlich anderen Frequenzgang aufweist als der Direktschall. Dieser Umstand wird durch das ETC aufgrund der besprochenen Hochton-Dominanz der Darstellung komplett verschleiert. Deutlich wird dies erst anhand der folgenden Grafik, welche diesmal das auf die 1-kHz-Oktave bandpassgefilterte ETC vorher (oben) und nachher (unten) darstellt. Offensichtlich hat sich in diesem Frequenzband nichts geändert.

Um dies noch weiter zu untermauern, zeigt die folgende Abbildung den gefensterten Amplitudenfrequenzgang der beiden Versionen, bei der lediglich der Reflexionscluster selbst isoliert ausgewertet wurde.

Anhand der Grafik mit den bandpassgefilterten ETCs wird nun allerdings auch schon die nächste Problematik ersichtlich: Durch den weiter oben dargestellten Umstand der zeitlichen Verschmierung tiefpassgefilterter Signale, fliessen die einzelnen 1-KHz-Reflexionen nun zwangsläufig mehr oder weniger ineinander über und sind deshalb nicht mehr getrennt wahrnehmbar. Mindestens optisch sieht es so aus, als seien die Reflexionen bei 34 ms nun nur noch um lediglich rund 12 dB gegenüber dem Direktschall reduziert, was unter Umständen zu wenig wäre. Ob dem tatsächlich so ist, insbesondere ob der "Buckel" eine einzelne Reflexion darstellt oder ob es sich um das zeitlich verschmierte Zusammentreffen mehrerer einzelner aus unterschiedlichen Richtungen handelt, können nur eine Kombination von Hirnschmalz, vertieften Analysen der Messdaten und ein subjektiver Höreindruck bestimmen!

Wie auch immer: Die Lektion aus dem dargestellten Sachverhalt ist folgende: Nur bandpassgefilterte und einzeln analysierte ETCs, können die richtigen Informationen liefern, während Breitband-ETCs zwangsläufig zu Fehinterpretationen führen, indem Reflexionen mit weniger Hochtonanteilen systematisch massiv unterschätzt oder gar nicht erst erkannt werden.

Aufgrund des gleichen Sachverhalts kann man nun auch noch ableiten, dass bei der Verwendung von zwei unterschiedlichen Messmikrofonen, welche im Hochtonbereich nicht exakt den gleichen Frequenzgang aufweisen, zwangsläufig unterschiedliche HF-/Breitband-ETCs entstehen werden. Es ist also ein Irrglaube, zu meinen, man könne mit irgendeinem Mikrofon messen und würde daraus dann die selben Daten ersehen können. Dieser Sachverhalt wird in den folgenden Abschnitten theoretisch und anhand von Fallbeispielen näher dargelegt.

Freifeld- vs. Diffusfeld-entzerrte Mikrofone

Im Wesentlich gibt es zur Konstruktion bzw. elektrischen Entzerrung eines Mikrofons zwei Methoden, nämlich Freifeld- und Diffusfeld-Typen. Ein dritter Typ in Form eines Druckfeld-Empfängers spielt in freier Wildbahn, d.h. ausserhalb von Spezialfällen in einer Laborumgebung keine Rolle.

Eine Freifeld-entzerrte Kapsel - der mit Abstand am weitverbreitetste Typus - ist daraufhin getrimmt auf Achse (0 Grad) einen flachen Amplitudenfrequenzgang zu erzielen. Fallen nun Schallanteile, z.B. Reflexionen aus anderen Raumrichtungen auf die Kapsel, dann wird bei tieferen Frequenzen der Schall um das Mikrofongehäuse gebeugt und erzielt deshalb eine identische, Richtungsunabhängige Druckänderung an der Membrane. Höhere Frequenzen und damit Signale mit kürzeren Wellenlängen, werden jedoch progressiv schwächer gebeugt und prallen deshalb mehr oder weniger stark am Gehäuse ab. Ein breitbandiges Signal erscheint somit dann weniger Höhenanteile aufzuweisen, als es tatsächlich der Fall ist - und wird in einem Breitband-ETC entsprechend schwächer dargestellt

Dieser grundlegend unerwünschte Effekt lässt sich minimieren, indem Gehäuse und Kapseldurchmesser des Mikrofons möglichst klein gehalten werden, was aber nicht in allen Fällen möglich ist, weil sich dadurch unter Umständen andere unerwünschte physikalische Effekte ergeben. Als Beispiel seien hier die Empfindlichkeit und der Signalrauschabstand genannt, die sich mit kleinerer Membranenfläche zunehmend verschlechtern.

Ebenfalls reduzieren lässt sich der Effekt durch eine geeignete Form des Gehäuses, weshalb man oft langgestreckte Formen ohne sprunghafte Änderungen der Geometrie vorfindet, um akustische Impedanzsprünge und die damit verbundenen Reflexionen so gut als möglich zu reduzieren. Dies ist exemplarisch anhand des folgenden Bildes, des zu Messzwecken gerne eingesetzten Earthworks M30 zu sehen.

Eine andere Möglichkeit eine Kapsel zu konstruieren besteht darin, den Frequenzgang so zu trimmen, dass bei Schalleinfall aus allen Richtungen gleichermassen, also in einem homogenen, isotropischen Schallfeld ein linearer Frequenzgang entsteht. Treffen Schallanteile nun allerdings aus Richtung 0 Grad auf die Kapsel, findet bei hohen Frequenzen durch den Druckstau, welcher seinerseits durch die Reflexion an der Kapsel-Front verursacht wird, eine Höhenanhebung statt. Auch hier ist eine kleinere Kapsel von Vorteil, indem dann nur sehr kleine Wellenlängen und damit sehr hohe Frequenzen betroffen sind.

Anhand dieser Erklärungen ist nun leicht zu versehen, dass sowohl der Entzerrungstyp, wie auch die Ausrichtung des Mikrofons (z.B. 0 Grad oder 90 Grad zur Schallquelle), sowie die konkreten Konditionen des Schallfeld (aus welchen Raumrichtungen treffen welche Direktschallanteile und Reflexionen auf die Kapsel) zwangsläufig einen Einfluss auf den Amplitudenfrequenzgang und damit auch auf die Breitband-ETC-Darstellungen haben.

Unterschiedliche Mikrofone

Um diesen letztgenannten Punkt zu demonstrieren, habe ich 5 Messmikrofone unter identischen Konditionen in den folgenden Grafiken dargestellt. Die Messungen erfolgten mit einem Lautsprecher in einem normalen Wohnraum. Die Mikrofone wurden dabei nacheinander zentimetergenau an der identischen Position platziert. Alle Mikrofone wurden in 0-Grad-Aufstellung aus Sicht der Messposition gebracht, der Direktschall aus dem Lautsprecher hatte einen horizontalen Einfallswinkel von ca. 20 Grad.

Die folgende Grafik zeigt die Log-Squared-ETCs. Zeitlich dargestellt (horizontale Achse) ist der Anfangszeitbereich von ca. 31 Millisekunden (Eintreffen des Direktschalls) und die ersten Reflexionen bis 43 ms, also insgesamt eine Zeitdauer von rund 22 Millisekunden. Zwecks besserer Darstellung und direkter Vergleichbarkeit wurde der Direktschallpegel auf einen identischen Wert (0 dBr) gebracht.

Auf den ersten Blick fällt auf, dass die Darstellung der Reflexionen zwar ähnlich, aber keineswegs identisch ausfällt. In einer Ausschnittvergrösserung wollen wir uns nun den bereits aus den vorherigen Abschnitten bekannten Reflexionscluster bei ca. 34 ms genauer ansehen. Der Cluster trifft rund 3 ms nach dem Direktschall ein, was einem Umweg von rund einem Meter entspricht. Die erste Reflexion stammt von der Decke, weitere drei von einer gegliederten und unterschiedlich gewinkelten Rückwand.

Was die erste Reflexion (Decke betrifft) kann man beispielsweise feststellen, dass die Pegel relativ zum Direktschall um rund 4 dB differieren (A vs. C). Der Grund hierfür ist, dass es sich bei A um das kleinste bei C hingegen um das grösste Kapselgehäuse handelt. In der Folge wird deshalb die mit viel Höhenanteil versehene Reflexion bei Kandidat C weniger gut um das Gehäuse gebeugt und prallt statt dessen an diesem ab.

Ebenfalls ersichtlich ist, dass die Struktur des Reflexionsclusters je nach Mikrofon deutlich unterschiedlich ausfällt. Zwar werden die zeitlichen Positionen der Reflexionen identisch dargestellt, bezüglich der Pegel und deren Verhältnisse sind aber offensichtlich signifikante Unterschiede festzustellen.

Am meisten aus der Reihe tanzt hierbei Mikrofon D. Der Grund hierfür ist die akustisch ungünstige Bauweise, welche zu Abschattungen und Reflexionen führt und damit die HF-Frequenzgänge aus den unterschiedlichen Raumwinkeln unterschiedlich beeinflusst.

Kehren wir kurz noch einmal zur ersten Grafik in diesem Abschnitt zurück, sehen wir wiederum bei Mikrofon D bei 36,5 ms (blauer Pfeil), dass hier zwei Reflexionen dargestellt werden, während es in Tat und Wahrheit nur eine Reflexion aus dem Raum gab, was mit Ausnahme von C und D von allen anderen Mikrofonen korrekt, wenn auch mit unterschiedlichen Pegeln angezeigt wird.

Bei C ist diese Reflexionen im dargestellten Pegelbereich nämlich gar nicht vorhanden und auch die Reflexion bei 39,5 ms fehlt gänzlich (rote Pfeile). Wir erinnern uns kurz daran, dass dies das Mikrofon mit dem grössten Kapselgehäuse ist und können dann erahnen, dass dadurch Signale mit grossen Winkelabweichungen von der 0-Grad-Achse im Hochtonbereich reflektiert werden und deshalb keine oder nur eine geringe Druckänderung an der Membrane erzeugen.

Wir wollen uns nun noch einmal auf den zuvor betrachteten Reflexionscluster bei 34 ms konzentrieren. Anstelle des oben dargestellten ungefilterten Breitband-ETCs, sehen wir uns in der nächsten Grafik nun aber die bandbegrenzte 2-kHz-Oktave an.

Und siehe da: die Ergebnisse gleichen sich nun sowohl von der Struktur als auch den Pegeln der einzelnen Reflexionen sehr viel stärker. Mit Ausnahme des immer noch etwas aus dem Rahmen fallenden Kandidaten D, kann man sagen, dass sie nahezu identisch ausfallen. Die Schlussfolgerung daraus ist (mindestens auf diesen Reflexionscluster bezogen) also: Die Unterschiede im Breitband-ETC, werden massgeblich durch Gehäusereflexionen verursacht, die oberhalb der 2 kHz-Oktave liegen. Und weiter: das tatsächliche physikalisch Verhalten der Reflexionen oberhalb von 2 kHz ist nur unter sehr guter Kenntnis des verwendeten Mikrofons oder durch zusätzliche Messungen und/oder erweiterte Analysen korrekt interpretierbar.

Einfluss Reflexionsrichtung und Mikrofonausrichtung

Anhand der folgenden Grafik ist nun noch konkreter ersichtlich, wie sich eine unterschiedliche Einfallsrichtung einer Reflexion mit hohen Frequenzanteilen bemerkbar macht. Verwendet habe ich hierfür exemplarisch Mikrofon B und ein künstlich generiertes Schallfeld. Der aus Null Grad einfallende Direktschall ist in grün dargestellt, er ist in allen drei Varianten identisch. Variiert habe ich dann die Einfallsrichtung einer starken Reflexion (knapp vor 4 ms) unter unterschiedlichen Einfallswinkeln, nämlich Null, 90 und 180 Grad, dargestellt in rot.

Erkennbar ist, dass wenn ein und dieselbe Reflexion statt aus 0 aus 90 Grad auf die Kapsel auftrifft, der Pegel um rund 5 dB reduziert wird, bei 180 Grad sogar um über 6 dB. Auch die später folgenden Reflexionen werden offensichtlich mit unterschiedlichen Pegeln angezeigt (deren Einfallsrichtungen wurden aufgrund des Versuchsaufbaus ebenfalls betreffend ihrem Einfallswinkel modifiziert). Bei einer Verwendung von Mikrofon C (grösserer Kapseldurchmesser) oder D (ungünstige Gehäuseform) fallen die Unterschiede noch grösser aus.

Ebenso klar ist nun, dass sich die Ausrichtung des Mikrofons zwangsläufig auswirken wird. Denn je nach Entzerrungstyp und Konstanz der Frequenzabhängigen Richtwirkung verschieben sich dadurch die relativen Höhenanteile, welche unter den unterschiedlichen Raumwinkeln auf die Kapsel auftreffen: Richtet man das Mikrofon beispielsweise 90 statt 0 Grad zur Quelle aus, dann wird der Direktschall nun aufgrund des Höhenabfalls geringer ausfallen, die Reflexion aus 90 Grad zur Mikrofonposition dafür relativ stärker. Das Breitband-ETC wird also insgesamt ganz andere Ergebnisse zutage fördern.

Aufgrund der Ausführungen dürfte bei näherem Nachdenken auch offensichtlich sein, dass sich die angesprochenen Probleme nicht mit Mikrofon-Kalibrierdaten und der darauf beruhenden Frequenzgangkorrektur kompensieren lassen. Dies ist genauso unmöglich, wie wenn man einen billigen Lautsprecher kauft und dann glaubt, ihn mit einem Equalizer zu einem teuren machen zu können. In beiden Fällen gibt es eben nicht nur einen Frequenzgang, sondern derer (unendlich) vieler; für jeden Punkt auf einer um einen Lautsprecher/Mikrofon gedachten Kugeloberflächen einen leicht anderen. Die Korrektur eines einzigen dieser Punkte verschiebt das Problem nur, kann es aber letztlich nicht lösen. Aus diesem Grunde bin ich auch seit vielen Jahren entschiedener Gegner von Frequenzgangkompensationen in Mess-Softwares und empfehle stattdessen gute Messmikrofone, die möglichst frequenzlinear arbeiten und eine möglichst geringe Varianz der Richtcharakteristik aufweisen. Alles andere ist unzulängliches Pseudo-Flickwerk, welches in einem professionellen Umfeld nichts verloren hat!

Empfehlungen zu Reflexionen

Für Räume für kritische Abhören, dazu zähle ich z.B. Tonstudios, Hifi-Hörräume und Heimkinos, gibt es verschiedene Meinungen, Empfehlungen und Vorgaben, welchen Pegel Reflexionen im Anfangszeitbereich maximal aufweisen dürfen, damit keine akustischen Störungen zu erwarten sind.

Die wohl wichtigsten und bekanntesten Vorgaben können der ITU-Empfehlung "BS 1116-1" ("Methods for the subjective Assessment of small Impairment in Audio Systems including Multichannel Sound Systems") und der "Technical Note 3276" der EBU entnommen werden. Übereinstimmend heisst es in beiden Schriftstücken, dass innerhalb der ersten 15 Millisekunden nach dem Direktschall alle Reflexionen gegenüber diesem um mindestens 10 dB gedämpft werden sollen.

Abgesehen davon, dass diese Empfehlungen nicht unumstritten sind und es teilweise sehr gute Gründe gibt, im Einzelfall davon abzuweichen, wird meist der entscheidende Zusatz vergessen: Die angegebenen Werte beziehen sich ausdrücklich auf den Frequenzbereich von 1 bis 8 kHz. Dieser kann aber aus den dargestellten Gründen unmöglich anhand eines Breitband-ETCs bestimmt werden (und auch nicht anhand einer zwischen 1 und 8 kHz bandpassgefilterten Impulsantwort!), sondern nur anhand der Analyse bandpassgefilterter ETCs in Oktaven und/oder Terzen.

Gerade bei den tieferen Frequenzbändern stellt sich dann aber wie bereits dargelegt das Problem, dass die zeitliche Verschmierung so gross wird, dass sich einzelne Reflexionen nicht mehr sauber voneinander unterscheiden lassen und die nun im ETC auftretenden Summen mehrerer kurz aufeinanderfolgender Reflexionen in der Darstellung so gross sind, dass die Einhaltung der Empfehlung in vielen Fällen nicht mehr zu gewährleisten ist bzw. nicht einzeln überprüft werden kann. Unter Umständen muss man dann auf vertiefte weitere Analysen zugreifen, beispielsweise indem man die Frequenzgänge einzelner Reflexionen anhand von zeitlich gefensterten Einzel-Abschnitten kontrolliert. Dies gestaltet sich wegen dem physikalisch prinzipbedingten Zusammenhang von Zeit und Frequenz unter Umständen aber oft ebenfalls als schwierig oder fällt als Option sogar gänzlich weg.

Vollständig im Regen stehen lassen einem die genannten Empfehlungen so oder so bezüglich der angesprochenen Problematik betreffend Kapselgrössen, Mikrofon-Entzerrungstyp oder Ausrichtung etc. Hier gibt es weder richtige noch falsche Verhaltensweisen, sondern - zumindest für mich persönlich - nur den Grundsatz "immer gleich!".

Wer übrigens die Hoffnung hegt, das Problem durch 3D-Abtastungen des Schallfelds zu lösen, muss auch gleich enttäuscht werden: Zwar kann dies unter Umständen und im Einzelfall enorm hilfreich sein. Dummerweise werden allerdings je nach angewandter Methode gleich wieder neue Probleme geschaffen und die grundsätzlich dargelegten Unzulänglichkeiten bleiben oft bestehen oder verschlimmern sich bedingt durch die Kapsel- und Gehäusekonstruktionen der Sensoren sogar noch deutlich.

Einfluss auf andere Messgrössen

Aus der Impulsantwort eines LTI-Systems lassen sich bekanntlich alle akustischen Parameter des gemessenen Systems "destillieren". Fallen nun aber die Impulsantworten in Abhängigkeit von gewähltem Mikrofon, dessen Ausrichtung und den Raumwinkeln der auftreffenden Reflexionen unterschiedlich aus, dann wird dies zwangsläufig auch einen Einfluss auf alle anderen ausgewerteten akustischen Parameter haben.

Exemplarisch dargestellt ist dies folgend anhand eines Vergleichs der Nachhallzeit T20 in Oktavbändern zwischen den Mikrofonen A+B, die deutliche Differenzen aufweisen.

Man mag nun der Meinung sein, die Unterschiede seien nicht sonderlich gross. Aber ohne Zweifel sind sie vorhanden und sie betragen beispielsweise in der 1-kHz-Oktave immerhin rund 5%. Je nach akustischer Situation können die Differenzen natürlich auch deutlich grösser (aber auch kleiner) ausfallen.

Betrachten wir nun etwas detaillierter, wie die unterschiedlichen Reflexionsmuster bei A (im folgenden ETC orange) und B (grau) zu den unterschiedlichen T20-Werten führen. Ausgewählt habe ich hierzu die 1-kHz-Oktave, bei der die Differenz am grössten ausfiel. Das Oktavband-gefilterte ETC fällt zwischen den beiden Mikrofonen teils deutlich unterschiedlich aus, wie die folgende Grafik zeigt, welche den Zeitabschnitt von 31 bis 180 ms über einen Pegelbereich von rund 20 dB darstellt.

In heutigen Mess-Systemen und in Übereinstimmung mit ISO 3382, wird die Nachhallzeit üblicherweise anhand der Schröder-Rückwärts-Integration aus der quadrierten und bandpass-gefilterten Impulsantwort bestimmt. Die vorherige Grafik zeigt diese Schröderkurven im 1-kHz-Oktavband für die beiden Mikrofone in Form der blauen (Mikrofon B) und grünen (A) Kurve. Die rot-gestrichelten Linien markieren die dazugehörende lineare Regression, welche anschliessend auf einen 60 dB-Abfall extrapoliert wird, um daraus die Nachhallzeit-Grösse T20 im 1-kHz-Band zu bestimmen.

Erkennbar ist, dass die untere Regressionslinie von Mikrofon A steiler abfällt, als diejenige von Mikrofon B und deshalb zu einem kürzeren T20-Wert führt. Ersichtlich ist dies auch anhand der Anfangs- und Endzeitpunkte der Regressionen, welche ich mit blauen Rechtecken markiert habe. Beträgt die Pegel-Differenz im Anfangszeitbereich noch rund 1 dB ist sie am Ende bereits auf rund 2 dB angestiegen, eine Folge der unterschiedlichen Steilheiten der Regressionen.

Als weiteres Beispiel sind unten die Modulations-Transfer-Indizes dargestellt, welche die Basis für den Einzahl-STI (Speech Transmission Index, Sprachverständlichkeits-Index) darstellen. In diesem konkreten Beispiel sind die Abweichungen zwar nur gering (man beachte, dass ich vertikal stark reingezoomt habe und nur der Indexbereich von 0,7 bis 1 dargestellt ist). Trotzdem sind die Unterschiede vorhanden und wirken sich auf den STI-Einzahlwert aus (dunkelrote, gestrichelte horizontale Linien). Auch hier können die Abweichungen natürlich je nach konkreter Situation und Mikrofon auch grössere oder kleinere Auswirkungen haben.

Auffallend ist übrigens auch wie stark die Indizes in der 125-Hz-Oktave auseinanderdriften. Ich bin noch nicht dazugekommen, diesen Punkt genauer zu untersuchen. Meine Vernutung ist aber, dass dies mit den Grössen und mechanischen Abstimmungen der Membranen zusammenhängt, die auf die tieffrequenten, schnellen Modulatoren unterschiedlich träge reagieren. Dies würde auch zum von mir bereits vor längerem beobachteten Umstand passen, dass bei der Messung von kurzen Nachhallzeiten oder dem kurzen Abklingen von einzelnen Raummoden, teilweise erhebliche Mikrofonabhängige Differenzen resultieren. Man meint dann zwar, Eigenschaften des Raums zu messen, misst aber in Wirklichkeit die Charakteristik des Mikrofons!

Psychoakustische Einflüsse

Als ob das alles nicht schon kompliziert genug wäre: Am Rande sei hier noch darauf verwiesen, dass abgesehen von den (mess-)technischen Problematiken, die erläutert wurden, auch noch psychoakustische Aspekte zu berücksichtigen sind, also die Frage, wie sich ein bestimmtes physikalisches Ereignis auf die subjektive Empfindung auswirkt. Dieses Themengebiet ist sehr komplex und naturgemäss mit einer sehr hohem inter- und intraindividuellen Varianzbreite behaftet: Subjektive Empfindungen unterscheiden sich sowohl zwischen Personen als auch innerhalb einer Person meist sehr stark.

Was Reflexionen betrifft müssen dabei insbesondere auch deren Richtungen (absolute und relative 3D-Winkel von Direktschall und Reflexionen) inklusive der entstehenden frequenzabhängigen Modifikationen durch die kopfbezogene Übertragungsfunktion (HRTF) berücksichtigt werden. Ein "normales" ETC enthält hingegen keinerlei Richtungsinformationen, weshalb man sich nötigenfalls mit ergänzenden geometrischen Analysen oder manuellen oder per Rendering generierten 3D-Auswertungen der Impulsantworten behelfen muss.

Markus Zehner Akustik

Konsequenzen für die Messpraxis

Die Motivation dieses (und anderer) Artikel ist es, für die zugrundelegende Problematik zu sensibilisieren und die Sachverhalte darzustellen. Hingegen kann und will ich niemandem vorschreiben, welches Mikrofon er verwendet, wie er es ausrichtet und wie er die gemessenen Daten auswertet und interpretiert. Es gibt hierzu im Detail weder Empfehlungen noch Normen, die eine Hilfestellung oder Anleitung erteilen, welche über Grundsätzliches hinausgeht und damit auch kein von "offizieller Stelle" erteiltes "Richtig" oder "Falsch".

Für mich persönlich ist die wichtigste Schlussfolgerung in Anlehnung an ein bekanntes Sprichwort: "traue keiner Messung, die Du nicht selbst gemacht hast". Mindestens auf dem Niveau auf dem ich arbeite und arbeiten will, sind deshalb beispielsweise Fernberatungen, bei welchem der Kunde mit seinem eigenen Equipment misst und die Daten dann dem Akustikberater zwecks Auswertung und Empfehlungen zusendet, ein absolutes No-Go. Ebenso akzeptiere ich keine von anderen Akustikern oder Ingenieurbüros erhobene Messungen oder Datenauswertungen. Nur wenn ich mit meinem, stets gleichbleibenden und mir deshalb besten bekannten Equipment und den für mich definierten Methoden und Prozederes gemessen habe, weiss ich zuverlässig, dass ich Daten zur Verfügung habe, die mindestens innerhalb meiner eigenen Projekte eine maximale Vergleichbarkeit und deshalb eine adäquate Interpretation gewährleisten.

Ansonsten bleibt vorerst nur die Schlussbemerkung, dass akustische Messungen in der Praxis oftmals sehr viel relativer ausfallen, als einem lieb sein kann! Es ist nicht anzunehmen, dass dies der letzte Artikel zu dieser Thematik war.

Exkurs: Historischer Hintergrund ETCs

1967 stellte der US-amerikanische Ingenieur (Jet Propulsion Laboratory, California Institute of Technology) Richard C. Heyser ein neues Konzept für akustische Messungen vor, welches er Time Delay Spectrometry (TDS) nannte. Die Motivation bestand darin, das akustische Verhalten von Lautsprechern messen zu wollen, ohne dass hierfür ein reflexionsarmen Labor-Raum nötig war.

Heysers Idee war es, den Lautsprecher mit über die Frequenz gleitenden Sinustönen anzuregen und ein parallel mitlaufendes, zeitliche synchronisiertes "Tracking-Filter" zu verwenden um Reflexionen aus der Messung auszublenden. Durch die Einstellung eines zeitlichen Versatzes des Tracking-Filters, war es aber auch möglich die Übertragungsfunktion einzelner Reflexionen bzw. einzelner zeitlicher Abschnitte zu analysiseren. In heutigen Messprogramm sind vergleichbare Resulate durch eine zeitliche Fensterung der Impulsantwort erzielbar.

Mithilfe einer zeitlich gestaffelten Bild-Darstellung mehrerer Messungen mit unterschiedlichem Zeit-Offset, konnte Heyser Wasserfalldiagramme generieren und somit das zeitliche Verhalten frequenzabhängig darstellen. Um die drei Dimensionen zu kennzeichnen, welche sich darstellen und analysieren liessen wurde die Testmethode bei der späteren Kommerzialisierung als "Time-Enegery-Frequency", oder kurz TEF bezeichnet, wobei die Dimension Time/Zeit die wirklich bahnbrechende Neuerung war. Amplitudenfrequenzgänge konnte man mit Analyzern schon seit längerem in Echtzeit messen, allerdings nur im eingeschwungenen Zustand eines Systems (z.B. mit rosa Rauschen) und einer damit einhergehenden "Zeitblindheit". Im Gegensatz dazu lieferte Heysers Messtechnik die komplexe Übertragungsfunktion, beinhaltete also auch den Phasenfrequenzgang.

Ein bestechender Vorteil der TDS war es, dass die gewünschten Resultate unmittelbar nach bzw. schon während der Messung vorlagen, ohne dass es eines Post-Prozessings bedurfte, wodurch faktisch Echtzeitmessungen realisierbar waren. Ausserdem liessen sich die Messungen prinzipiell mit (teilweise modifizierten) Komponenten durchführen, welche bereits existierten.

Vier Jahre später, also 1971 beschrieb Heyser in mehreren Aufsätzen wie sich aus der Messung der komplexen Übertragungsfunktion mittels TDS über den Zwischenschritt einer inversen Fouriertransformation zur Gewinnung der Impulsantwort und deren Erweiterung mit einer Hilbert-Transformierten, das Energieverhalten über die Zeit darstellen liess - das (Envelope-)ETC erblickte das Licht der Welt. Wollte man bis dato mehrere zeitliche Abschnitte analysieren, musste für jeden einzelnen eine eigene Sweep-Messung gemacht werden. Nun konnte man das zeitliche Verhalten via Impulsantwort mit einer einzigen Messung darstellen und auswerten, was natürlich eine enorme Zeitersparnis darstellte.

Ende der 1970er Jahre wurden die TDS-Messtechnik und die ETC zu entscheidenden Treibern für die Entwicklung von Don Davis' "Live-End/Dead-End"-Konzept (LEDE) für Regieräume. Die Schlussfolgerungen die Davis bei der Entwicklung von LEDE zugrundelegte, beruhten massgeblich auf umfangreichen Analysen mittels TDS-Messungen und (ab 1979) ETC-Auswertungen.

Umgekehrt wurde Davis ein wichtiger Faktor für die kommerzielle Verbreitung von TDS. Über seine Firma "Synergetic-Audio-Concepts" verkaufte er sowohl die TDS-Lizenzen, als auch die nötige Hardware, damals noch sündhaft teure und schwere Elektronik-Standard-Komponenten, welche mit einem Heyser-Frontend kombiniert wurden.

Einen grösseren kommerziellen Schub schaffte TDS Mitte der 1980er Jahre, als Crown Techron mit dem "TEF 10" ein Komplett-System lancierte, welches mit 20 kg (einigermassen) tragbar und auch (einigermassen) bezahlbar war (rund 15'000 US-Doller, man bedenke aber das damlige Wechselkursverhältnis).

Heutzutage sind TEF/TDS-Mess-Systeme praktisch nicht mehr am Markt präsent. Kommerziell hergestellt und vertrieben werden sie noch von Gold Line. Für die Messplattform AFMG EASERA ist optional ein kostenpflichtiges TEF/TDS-Plug-In erhältlich.

Fragen, Kommentare, Newsletter-Anmeldung

Hat Ihnen dieser Artikel gefallen? Möchten Sie mehr davon? Haben Sie Anmerkungen oder Fragen? Schreiben Sie mir eine E-Mail: info@zehner.ch oder füllen Sie untenstehendes Formular aus. Gerne informiere ich Sie mit meinem Newsletter auch über Überarbeitungen und neue Artikel auf diesen Seiten.

Warten Sie nach dem Absenden des Formulars, bis die Bestätigungsseite erscheint!