Lade Inhalt...

Dithering-Methoden beim Mastering mit speziellem Augenmerk auf verlustbehaftete MP3-Datei

Studienarbeit 2014 51 Seiten

Tontechnik

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Grundlagen Dithering
2.1 Anwendungsbereiche
2.2 Wandlung und Fehler
2.2.1 Die Sample & Hold-Stufe
2.2.2 Der Quantisierer
2.2.3 Quantisierungsfehler/ Quantisierungsrauschen
2.2.4 Klirrfaktor/ THD
2.2.5 Signal to Error-Ratio
2.3 Dither und Dithering-Verfahren
2.3.1 Wie funktioniert Dithering?
2.3.2 Truncate
2.3.3 Linear-Dither
2.3.4 RPDF- und TPDF-Dither
2.3.5 Noise-Shaping
2.3.6 Gambit POW-R
2.3.7 MBit+
2.3.8 UV-22
2.3.9 Sonderfunktion: Auto-Blanking
2.4 Probleme beim Dithering
2.4.1 Nur einmal am Ende der Signalkette
2.4.2 Nur wenn nötig anwenden
2.4.3 Original sollte nicht 0dBFS sein

3. Dithering bei 16Bit und MP3
3.1 Voraussetzungen
3.2 Anwendungen
3.3 Versuchsaufbau
3.4 Analyse der Versuche
3.4.1 THD nach Friesecke
3.4.2 Quantisierungsfehler im Vergleich Pro Tools zu Logic
3.4.3 Quantisierungsfehler umfangreich
3.4.4 Dithering mit Sinus
3.4.4 Dithering mit Musikprobe

4. Fazit

Abbildungsverzeichnis

Quellenverzeichnis

Anhang I - Interview

Anhang II - Externe Daten-Sammlung

Danksagungen

1. Einleitung

Dithering wird bei etlichen Gelegenheiten, vom Mixing-Prozess bis hin zum Mastern, eingesetzt. Beim Mixing-Prozess erfolgt die Anwendung oft im Hintergrund. Sobald Audiomaterial bearbeitet wird, sei es durch Pegeländerungen, dem Einsatz von Equalizern oder vielen anderen Berechnungen, ändert sich die Wortbreite.[1] So beispielsweise auch, wenn Plug-Ins angesteuert werden, die mit einer anderen Bittiefe arbeiten als die Projekt-Session. Abhängig davon, ob das Plug-In mit einer höheren oder niedrigeren Wortbreite als das Projekt arbeitet, wird vorher oder anschließend Dithering angewendet. Bei gleicher Wortbreite ist dies nicht der Fall. Dies ist Anwendern oft nicht bewusst. Hier hat man wenig Einfluss, da das Dithering fest im Plug-In integriert und meist voreingestellt ist.

Beim Mastering sieht es anders aus. Hier wird Dithering an entscheidender Stelle zur Qualitätssteigerung des Endproduktes vom Anwender bewusst eingesetzt.

Dabei ist es je nach Abhörmonitoren und dem Gehör des Tontechnikers oftmals schwer Unterschiede zu hören, weil diese teils sehr gering sind. Das kann vielleicht zu der Meinung führen, es sei nicht so wichtig, ob oder welches Dither-Verfahren man verwendet. Die Meinungen für eine korrekte Anwendung sind breit gefächert.[2],[3],[4] Es ist somit sinnvoll, sich mit diesem Thema auseinanderzusetzen.

In dieser Arbeit liegt das Augenmerk auf dem Dithering-Verfahren im Mastering-Prozess. Während das Thema „Mastering für Audio CDs“ bereits oft in der Literatur beschrieben wurde[5] sollen hier die nötigen Voraussetzungen des Audiomaterials für ein optimales Resultat nach der Konvertierung zum MP3-Format, sowie die Folgen durch den Einsatz oder dem Nicht-Einsatz von Dithering-Tools analysiert und aufgezeigt werden.

Es werden zunächst die Grundlagen erläutert, damit man versteht warum Dithering überhaupt benötigt wird und wie Dithering funktioniert. Hier werden auch diverse Dithering-Methoden vorgestellt und erläutert, sowie Probleme aufgezeigt die bei falscher Anwendung von Dithering entstehen können. Weiter werden Voraussetzungen beschrieben, die für einen einwandfreien Einsatz von Dithering erfüllt sein müssen.

Nach den Grundlagen soll zunächst der Quantisierungsfehler anhand von Versuchen mit Sinustönen analysiert werden. Das hilft zu verstehen, wie sich der Fehler in Abhängigkeit von Aussteuerung, Wortbreite und Samplerate bemerkbar macht. Danach werden Ditherverfahren anhand eines weiteren Versuches verglichen und analysiert. Es soll das Verhalten je nach Lautstärke, Bittiefe und Abtastrate des Ausgangsmaterials, je nach angewandtem Dither und je nach gewünschtem Endformat (CD oder MP3) aufzeigen und Unterschiede hörbar machen. Anschließend wird der letzte Versuch mit einem kurzen Musikstück durchgeführt, um einen realen Praxisbezug zu haben. In diesem Versuch werden auch unterschiedliches Ausgangsmaterial, diverse Dithervarianten und unterschiedliche Endformate verglichen.

Durch diese Versuche soll aufgezeigt werden, dass klangliche Unterschiede bei verschiedenen Dithering-Methoden hörbar sind und Dither auch falsch angewendet werden kann. Somit erweist sich die Auswahl des Dithering-Tools als eine wichtige Entscheidung für das entstehende Endprodukt. Das wird in der folgenden Aussage von Bob Katz gut beschrieben:

„Toningenieure müssen lernen, mit Wortlängen umzugehen und sie zu ihrem Vorteil zu nutzen; auch die korrekte Anwendung von Dither-Techniken gehört dazu. Doch wir sollten bei unseren Problemen nicht die Relation aus den Augen verlieren. Wenn ein Mix missraten ist oder die Musik nicht funktioniert, dann wird man dem Dither wahrscheinlich keine besondere Aufmerksamkeit schenken. Ist jedoch alles andere in einem Projekt optimal und gilt es, die Klangqualität beizubehalten, dann kommt korrektem Dithering große Bedeutung zu.“[6]

Das Ziel der Facharbeit ist es, bei der Auswahl des richtigen Ditherwerkzeuges, je nach gegebenen Voraussetzungen, zu helfen. Mit dem gewonnenen Wissen sollen Anwender in Zukunft Dither im Mastering-Prozess, mit speziellem Augenmerk auf die verlustbehaftete MP3-Datei, richtig einsetzen und ihre Ergebnisse qualitativ verbessern können.

2. Grundlagen Dithering

2.1 Anwendungsbereiche

Aufnahme, Mixdown und Mastering erfolgen in der Regel mit einer höheren Auflösung als der des eigentlichen Tonträgers. Dithering ist ein Verfahren welches eingesetzt wird, wenn die Bittiefe, auch als Wortbreite oder Worttiefe bezeichnet, einer Audiodatei reduziert werden soll.

„Wird ein Signal quantisiert, fügt dieser Prozess eine Verzerrung hinzu, die zum Original-Eingangssignal in Beziehung steht, was Harmonische hervorrufen kann.“[7]

Um durch den Vorgang entstehende Fehler, die in Form von Verzerrungen auftreten zu verringern, wird Dithering an dieser Stelle angewendet. Als Nachteil entsteht dadurch aber ein zusätzliches Rauschen. Dieses ist allerdings für unser Gehör angenehmer, falls überhaupt hörbar, als Verzerrungen. Somit stellt Dithering einen Kompromiss dar, dessen Vorteile in den meisten Fällen überwiegen.[8]

Dither und diverse Dithertechniken werden in den folgenden Kapiteln genauer beschrieben. Doch um zu verstehen, warum und wie Fehler bei der Reduzierung der Bittiefe entstehen, und somit nachvollziehen zu können, warum sich Dithering dabei oft als sinnvoll - wenn nicht sogar als unumgänglich - für ein gutes Resultat erweist, sind zunächst einige Grundlagen zu erläutern.

2.2 Wandlung und Fehler

Um ein analoges Signal zu digitalisieren, muss es viele Prozesse durchlaufen. Ein entscheidender Teil davon wird als PCM (Pulse Code Modulation) bezeichnet. Er besteht aus der Sample & Hold Stufe, wo die Signale diskretisiert werden und dem nachfolgendem Quantisierer, der erhaltene Spannungswerte in Binärworte, also Einsen und Nullen, übersetzt. Bei diesem Prozess entstehen Fehler, sogenannte Quantisierungsfehler, welche im Folgenden beschrieben werden.

2.2.1 Die Sample & Hold-Stufe

Die Sample- & Hold-Stufe (zu deutsch: „Abtast- und Halte-Stufe“) hat zum einen die Aufgabe, das analoge Audiosignal abzutasten. Das bedeutet, dass es regelmäßig Spannungswerte aus dem analogen Eingangssignal entnimmt. Die zeitlichen Abstände der Abtastung werden durch die Abtastrate, der sogenannten Sampling- oder Samplerate, in der Einheit Hertz (Hz) angegeben. Diese müssen exakt gleich sein, um weitere Fehler wie zum Beispiel Jitter (was aber hier nicht näher erläutert werden soll) zu vermeiden. In der Regel ist dies auch der Fall.[9]

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Abtastung einer Eingangsspannung[10]

Abbildung 1 zeigt zuerst, wie das analoge Eingangssignal abgetastet wird. In der unteren Hälfte sieht man nur die definierten Werte. Wenn man das obere Bild zudeckt und so wie der Quantisierer nur die definierten Werte aus der unteren Grafik kennt, ist es schwer, das Eingangssignal zu rekonstruieren. Das Ergebnis wird also zwangsläufig vom Original abweichen.

Die Samplerate beschreibt die Anzahl der Werte, die pro Sekunde aus dem analogen Signal abgegriffen werden. Beispielsweise kann dies mit 44.100 mal pro Sekunde erfolgen, was dem Standard einer Audio CD entspricht. Hierbei ergibt sich ein Abstand zwischen zwei Abtastungen von 23µsek. Je höher also die Samplerate, desto kleiner wird der Abstand des Abtastintervalls. Demnach kann, wie auch auf Abbildung 2 zu sehen ist, bei einer höheren Samplerate das originale Signal genauer abgebildet werden. Dies hängt allerdings auch von der Frequenz ab, die gerade abgetastet wird. Tiefe Frequenzen können leichter rekonstruiert werden als hohe Frequenzen, weil sich der Wechsel zwischen Wellenberg und Wellental nicht so schnell vollzieht, und somit mehr Abtastungen innerhalb einer Schwingung erfolgen.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Abtastintervall und resultierende Quantisierung bei unterschiedlicher Samplerate[11]

In der Abbildung 2 wird die Eingangsspannung durch die blaue Welle, hier eine Sinuswelle, dargestellt. Die senkrechten Linien beschreiben den Zeitpunkt der Abtastung. Das digitalisierte Resultat wird anhand der roten Linien ersichtlich.

Zum anderen muss die Sample- & Hold-Stufe die abgetasteten Spannungswerte bis zur nächsten Abtastung halten. Dies geschieht durch einen Kondensator, welcher genau auf die Samplerate abgestimmt ist.

Nun muss für jede dieser Abtastungen ein möglichst genauer Wert bestimmt werden. Dafür werden dem nachfolgenden Quantisierer diese Momentanwerte übermittelt.

2.2.2 Der Quantisierer

Der Quantisierer ist ein Sensor, welcher die ihm zugeführten Rohdaten in Zahlenwerte umwandelt. Innerhalb einer Abtastrate muss er dem zugeführten Spannungswert einen möglichst genauen Datenwert zuordnen und diesen als Binärwort ausgeben. Die Datenwerte, auch als Quantisierungsstufen bezeichnet, die ein Quantisierer zur Verfügung hat, hängen von der Bittiefe ab, die dem System im Wandlungsprozess bereitgestellt werden. Je mehr Bits verwendet werden, desto mehr Datenwerte sind vorhanden und in Folge dessen werden auch die Abstände dieser Quantisierungsstufen, die als Quantisierungsintervalle bezeichnet werden, kleiner. Pro zusätzlichem Bit verdoppelt sich die Anzahl der Quantisierungsstufen und somit halbiert sich der Abstand dieser. Demzufolge kann der von der Sample-& Hold-Stufe zugeführte Spannungswert mit mehr Bits genauer beschrieben werden.

„Die Spannungsquantisierung von Audiomaterial erfolgt normalerweise linear, das heißt in gleich großen Spannungsstufen. Hierzu wird über das Signal ein Zahlenraster bestehend aus 2N Spannungsstufen gelegt. N ist die Wortbreite des A/D-Wandlers.“[12]

Die Quantisierung kann linear erfolgen (Linear-PCM), also in identischen Abständen, oder nicht-linear (Non-Linear-PCM), also in nicht gleichen Abständen der Quantisierungsstufen. Beim letzteren werden mögliche Problembereiche, bei denen es eher zu Verzerrungen kommen könnte, mit kleineren Abständen belegt, wodurch sich aber größere Abstände in anderen Bereichen ergeben. Bei dem Floating-Bit Verfahren können die Abstände anhand komplizierter Algorithmen überall sehr klein gehalten werden.

Dennoch kann das eingehende Signal in keinem der Fälle exakt 1:1 abgebildet werden, da es nicht unendlich viele Quantisierungsstufen gibt. Deswegen muss er immer auf den nächstgelegenen Datenwert zu dem Zeitpunkt der Abtastung gerundet werden. Dadurch ergibt sich ein treppenförmiges Resultat (siehe Abbildung 1 und 2).[13] Der Spannungswert kann mal mehr und mal weniger dem ursprünglichen Wert entsprechen. Im besten Fall genau, im schlimmsten Fall der Hälfte eines Quantisierungsintervalls. Dies ist auch auf der Abbildung 3 zu erkennen. Diese Rundung führt zu Fehlern, die sich oft akustisch in Form von Verzerrungen bemerkbar machen und als Quantisierungsfehler bezeichnet werden.[14]

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: Zeit- und Spannungsquantisierung bei unterschiedlicher Samplerate und Worttiefe[15]

In der Abbildung 3 wird durch die senkrechten Linien das Abtastintervall, durch die waagerechten Linien das Quantisierungsintervall visualisiert. In der oberen Hälfte, der positiven Auslenkung, wurde eine geringere Samplerate sowie eine geringere Bittiefe gewählt als in der unteren Hälfte, der negativen Auslenkung, um den Vergleich sichtbar zu machen. Man erkennt die kleineren Abstände bei höher gewählten Samplerate- oder Bittiefe-Werten. Die blaue Sinuswelle stellt die Eingangsspannung dar. Die rote treppenförmige Linie bildet das resultierende digitalisierte Signal ab. Hier wird deutlich sichtbar, dass der eingehende Spannungswert mal mehr und mal weniger gerundet werden muss. Das hängt davon ab, wie weit sich der Spannungswert von der nächsten Quantisierungsstufe zum Zeitpunkt der Abtastung befindet.

2.2.3 Quantisierungsfehler/ Quantisierungsrauschen

Der Quantisierungs- oder Rundungsfehler entsteht bei der Quantisierung eines Signals, also beim Zuordnen des Signals in ein Spannungsraster. Dieses ist bei der A/D-Wandlung sowie bei der Reduzierung der Wortbreite der Fall. Auch bei einer Umrechnung der Samplerate kann ein Rundungsfehler auftreten.[16] In Hinblick auf das Thema Dithering ist in dieser Arbeit aber nur der bei einer Verringerung der Worttiefe auftretende Fehler zu betrachten.

Alle Quantisierungsfehler haben gemeinsam, dass ein Rauschsignal entsteht, das mehr oder weniger tonal klingt. Für den Klang des Rundungsfehlers ist aber entscheidend, wie stark das Signal ausgesteuert wird. Bei hoch ausgesteuerten Signalen macht sich der Fehler als weißes Rauschen bemerkbar. Daher wird der Quantisierungsfehler auch als Quantisierungsrauschen bezeichnet. Das Rauschen wird jedoch zunehmend tonaler, je leiser das Signal ausgesteuert wird; infolgedessen vergrößern sich die Quantisierungsintervalle.[17]

„Diese signalabhängige Rauschmodulation wird vom Ohr als störend empfunden, und das Signal wirkt verzerrt, „metallisch klingend“ oder „kalt“.“[18]

„Dieser korrelierte Fehler wird, wenn hörbar, als sehr lästig empfunden.“[19]

In der externen Daten-Sammlung befinden sich Hörbeispiele, welche den Quantisierungsfehler einfach und deutlich darstellen.

Abbildung in dieser Leseprobe nicht enthalten

01 Quantisierungsfehler: Ein 440Hz-Sinuston mit einer Aussteuerung von -0,1dBFS bei unterschiedlicher Wortbreite. Alle vier Sekunden werden Bits in folgender Reihenfolge gekürzt: 24-, 16-, 12-, 10-, 8-, 6-, 4-, 3- und 2Bit. Man hört, dass der Quantisierungsfehler immer stärker wird, bis zum Schluss nur noch Clipping zu hören ist.

02 Quantisierungsfehler: Ein 440Hz-Sinuston mit 8Bit bei unterschiedlicher Aussteuerung. Alle vier Sekunden wird die Aussteuerung in folgender Reihenfolge reduziert. -0,1dBFS, -10dBFS, -20dBFS, -30dBFS und -40dBFS. Das Rauschen wird im Verhältnis zum Sinuston immer stärker und schließlich wird der Quantisierungsfehler immer präsenter. -50dBFS kann nicht mehr dargestellt werden.

03 Quantisierungsfehler: Ein 440Hz-Sinuston mit 12Bit bei unterschiedlicher Aussteuerung. Alle vier Sekunden wird die Aussteuerung in folgender Reihenfolge reduziert. -0,1dBFS, -10dBFS, -20dBFS, -30dBFS, -40 dBFS, -50dBFS und -60dBFS. Das Rauschen wird im Verhältnis zum Sinuston immer stärker und schließlich wird der Quantisierungsfehler immer präsenter. Im Vergleich zum Hörbeispiel 2 wird der Sinuston erst bei leiserer Aussteuerung durch das Rauschen und den Quantisierungsfehler beeinflusst. Das geschieht aufgrund der höheren Worttiefe. -70dBFS kann nicht mehr dargestellt werden.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 4: Der Quantisierungsfehler[20]

In Abbildung 4 ist der Rundungsfehler dargestellt. Auf der linken Seite ist die Skala in dBu (Volt) angegeben, was den analogen Werten entspricht. Hier von +22dBu, was analoge Übersteuerung bedeutet, bis minus unendlich, was durch den Wert 0 Volt dargestellt. Auf der rechten Seite sind die Werte in dBFS (Bit) angegeben. Diese entsprechen den digitalen Werten. Sie werden von 0dBFS, was Clipping bedeutet, bis minus unendlich angegeben, was die Grenze des Footrooms und damit digitale Stille beschreibt. Die Werte kommen einmal positiv, über der Horizontallinie, und negativ, unter der Horizontallinie, vor. Die blaue Welle stellt ein eingehendes, zu quantisierendes Signal dar. In diesem Fall eine Sinuswelle. Die schwarzen Punkte kennzeichnen den gemessenen Spannungswert des eingehenden Signals im Moment der Abtastung durch die Sample & Hold Stufe. Die roten Striche kennzeichnen die möglichen Werte bei unterschiedlicher Bittiefe. Pro weiterem Bit verdoppelt sich die Anzahl der möglichen Werte. Der Abstand zwischen zwei Rundungswerten wird als Quantisierungsintervall bezeichnet.

Hier ist ersichtlich, dass der Original-Sinuston mit wenigen Bits nur schwerlich rekonstruiert werden kann. Außerdem kommt es schnell zur Übersteuerung (Clipping), weil Werte, die sich knapp unterhalb der 0dBFS Grenze befinden, auf diese aufgerundet werden. Je weniger Bit man hat, desto ungenauer erfolgt das Runden; mehr Fehler sind die Folge. Das Runden wird bei zunehmender Bittiefe immer genauer. Hat man bei 2Bit nur 4 Werte zur Verfügung, also entweder Vollaussteuerung und somit Clipping oder einen unendlich niedrigen Wert und somit digitale Stille, und das sowohl auf der positiven als auch auf der negativen Seite, so ändert sich das mit zunehmender Bittiefe. Bei 3Bit sind es schon 8 Werte, also 4 Werte pro Seite und bei 4Bit schon insgesamt 16 Werte, denen die Eingangsspannung zugeordnet werden kann. Bei Bittiefen die in der Praxis üblich sind stehen aber wesentlich mehr Quantisierungsstufen zur Verfügung. Aus 16Bit ergeben sich 65.536 Werte, aus 24Bit sogar 16.777.216 und bei 32Bit sind es 4.294.967.296 Werte. Somit können durch den Quantisierer feinste Unterschiede in den Eingangsspannungen dargestellt werden.

In Abbildung 4 kann man auch erkennen, dass zu bestimmten Zeitpunkten, an denen der Sinuston abgetastet wird, eine Zuordnung auf einen Quantisierungsintervall, entweder dem nächst höher gelegenem oder dem nächst niedriger gelegenem, erfolgen muss. Für diese Zuordnung ist laut Friesecke entscheidend, an welchem Quantisierungsintervall sich der gemessene Spannungswert näher befindet. Es gibt aber auch die Meinung, dass er zufällig auf einen der nächstgelegenen Werte gerundet wird. Dabei wird der Zufall allerdings nicht der Berechnung im Quantisierer unterstellt, sondern dem zugeführtem Wert der Sample- & Hold-Stufe, welche ihm vorgeschaltet ist.

„Durch Spannungsschwankungen in dem Kondensator der Sample- & Hold-Stufe bedingt, werden von dem Quantisierer keine exakten Werte, wie zuvor gemessen, sondern scheinbar zufällige Werte, die zum Zeitpunkt des Abgriffs in dem Kondensator vorhanden sind, für die Rundung verwendet. Die Zuordnung durch den Quantisierer erfolgt dann aber zu dem nächst gelegenem Quantisierungsintervall.“[21]

2.2.4 Klirrfaktor/ THD

Man kann den Quantisierungsfehler auch anders betrachtet so beschreiben, dass das ursprüngliche Signal durch den Rundungsfehler verzerrt wurde. Der sich ergebende Klirrfaktor ist technisch messbar und akustisch wahrnehmbar.[22] Der Klirrfaktor, auch Total Harmonic Distortion (THD) genannt, hängt also direkt mit dem Quantisierungsfehler zusammen. Letzterer hängt wiederum mit der Worttiefe zusammen.

Während durch lineare Bearbeitungen keine Verzerrungen verursacht werden, entstehen durch die Rechteck-Schwingung, welche am Quantisierer erzeugt wird, nicht-lineare Verzerrungen. Denn die Rechteck-Schwingung erzeugt neue Schwingungen, sogenannte Obertöne, die aus ungeradzahligen Harmonischen, den sogenannten symmetrischen Verzerrungen, bestehen.[23]

Als THD bezeichnet man den Anteil der nicht linearen Verzerrungen am Gesamtsignal. Je geringer der Klirrfaktor, desto besser. Um diesen zu berechnen, kann folgende Formel[24] angewendet werden. Die Angabe erfolgt in Prozent.

Abbildung in dieser Leseprobe nicht enthalten

Beispiel: THD bei Vollausteuerung in einem 8Bit-System

Abbildung in dieser Leseprobe nicht enthalten

Abb. 5: THD im Zusammenhang mit der Bittiefe[25]

Der Abbildung 5 kann entnommen werden, wie sich der Klirrfaktor (THD) in Prozent auf das Gesamtsignal auswirkt, wenn dem System zusätzliche Bit zur Verfügung gestellt werden. Mit steigender Bittiefe wird der Klirrfaktor bedeutsam niedriger und verringert sich exponentiell.

“Eine Klirrfaktor-Messung findet normalerweise bei der Frequenz 1kHz statt, kann jedoch auch an anderen Frequenzen gemessen werden.”[26]

Allerdings gilt es hierbei zu bedenken, dass die ergebenen Werte für den Klirrfaktor bei einer Vollaussteuerung gelten. Realistische Signale, die in der Praxis vorkommen, bewegen sich üblicherweise in niedrigeren Bereichen. Ein sehr dynamisches Musikstück kann beispielsweise eine Lautstärke von knapp unter der Vollaussteuerung bis -50dBFS und niedriger aufweisen. Dazu kommen die Problemstellen, wie Fade-Outs und andere Pausen in den Aufnahmen. Beispielsweise können minimale Pausen in perkussiven Passagen ohne Begleitinstrumente oder Sprechpausen in einem Gesangs-Part ohne Begleitung entstehen. An diesen Problemstellen ist die Aussteuerung zu einem gewissen Zeitpunkt sehr gering bis nahezu minus unendlich. In diesen Fällen hat man in der beschriebenen Formel unter dem Bruchstrich statt der Vollaussteuerung einen geringeren Wert, der in der Folge einen höheren Klirrfaktor mit sich führt. Dieses kann der folgenden Abbildung entnommen werden.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6: THD bei unterschiedlichen Aussteuerungen und Bittiefen nach Friesecke[27]

Aus Abbildung 6 wird ersichtlich, wie sich der Klirrfaktor bei unterschiedlicher Aussteuerung mit unterschiedlicher Bittiefe verändert. Selbst wenn der Klirrfaktor bei 0dBFS gering ist, fällt auf wie stark er mit abnehmender Aussteuerung wird. Eine Änderung der Aussteuerung um -20dBFS hat eine Verzehnfachung der THD zur Folge. Ein Klirrfaktor von 3% gilt laut Friesecke im allgemeinen als noch zumutbar[28], wird aber, je nach Abhöre, bestimmt wahrgenommen. Somit scheidet eine 8 Bittiefe für ein anständiges Ergebnis aus, denn bereits ab - 20dBFS ist der Klirrfaktor zu hoch. Der Klirrfaktor kann selbst mit 16dB, was für lange Zeit als ausreichend befunden wurde, bei leisen Signalen unter etwa -65dBFS zu einem Klirrfaktor von über 3% führen. Diese Aussteuerung ist zwar eher selten, wird aber, wie bereits beschrieben, an diversen stellen der Aufnahme erreicht. Spätestens beim Ausklingen am Ende des Liedes. Sie kann je nach Musikstil häufiger erreicht werden und somit zu Problemen führen. Hier wird deutlich, dass sich eine Bittiefe von mindestens 20Bit, besser sind 24Bit, für das Projekt als sinnvoll erweist.

2.2.5 Signal to Error-Ratio

Signal to Noise-Ratio drückt in analogen Systemen die maximale System-Dynamik in dBu (Dezibel in Volt) aus. Diese liegt zwischen dem lautesten und dem leisesten Signal, welches aufgezeichnet werden kann. Also von Verzerrung bis zum leisesten Signal, bevor das Rauschen (Noise) des Bandes so stark eingestreut wird, dass das eingehende Signal überlagert wird.

In digitalen Systemen wird dieser Bereich Signal to Error-Ratio genannt. Hier wird die System-Dynamik in dBFS (Dezibel Full Scale) angegeben. Sie umfasst den Bereich zwischen dem lautesten Signal, bevor ein Clipping entsteht und dem leisesten Signal was dargestellt werden kann, also digitaler Stille. Dabei ist der Quantisierungsfehler (Error) bei sinkendem Pegel immer stärker wahrnehmbar. Anders ausgedrückt gibt die S/E-Ratio in dBFS an, wie groß der Pegelunterschied zwischen Gesamtsignal und Quantisierungsfehlersignal ist. Dabei ist ein größtmöglicher Wert anzustreben. Pro zusätzlichen Bit, den man dem System zur Verfügung stellt, verdoppelt sich die S/E-Ratio und steigt somit um 6,02dB.[29]

„Der Signal-Rauschabstand eines digitalen Systems ist von der Wortbreite N und dem Quantisierungsrauschen abhängig.“[30]

Allerdings kann steigen hier missverstanden werden. Der Dynamikbereich vergrößert sich zwar, allerdings nicht in dem lautere Signale, sondern leisere Werte dargestellt werden können. Denn im digitalen System wird der sogenannte Footroom immer weiter nach unten verlagert. Der Wert von 6,02dB gilt aber nur für ein Signal ohne den entstehenden Quantisierungsfehler bzw. Obertöne die entstehen können. Zusätzlich kann dem Ergebnis ein Wert von 1,76dB hinzuaddiert werden, denn der Umfang reicht noch aus um weitere Obertöne auszugeben. Dieses wäre zum Beispiel bei einer Rechteck-Schwingung der Fall.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 7: S/E-Ratio und THD im Zusammenhang mit der Bittiefe[31]

In Abbildung 7 erkennt man, dass zu jedem Bit, welches dem System dazu gegeben wird, die Signal to Error-Ratio um einen Wert von 6,02 Dezibel ansteigt. Die S/E-Ratio steigt also linear mit der Bittiefe. Bei 16Bit hat man somit eine S/E-Ratio von 96,32dB, bei 24Bit 144,48dB und bei 32Bit 192,64dB S/E-Ratio. Einige Systeme erlauben gar 48Bit, womit eine S/E-Ratio von 288,96dB erreicht wird. Dem kann jeweils noch der Wert von 1,76dB hinzuaddiert werden, um den gesamten Umfang der möglichen Dynamik darzustellen. Es ist also sinnvoll eine hohe Bittiefe für die Aufnahme und nachfolgende Arbeitsschritte zu wählen, wobei ab einem gewissen Wert die Unterschiede zwar noch technisch zu erkennen sind, aber in den meisten Fällen akustisch keine Rolle mehr spielen. Ein Wert von 24Bit hat sich in der Praxis etabliert. Auch stimmt hier das Verhältnis von verwendetem Speicherplatz im Vergleich zu der resultierenden Qualität. Ist der Speicherplatz kein Thema und unterstützen alle Instanzen der Signalkette 32Bit, so erhält man, zumindest technisch gesehen, mit 32Bit ein besseres Ergebnis.

2.3 Dither und Dithering-Verfahren

2.3.1 Wie funktioniert Dithering?

Dither, was im deutschen Zittern bedeutet, bezeichnet das hinzufügen von Rauschen zu dem Ursprungssignal vor dem Quantisierer. Dies geschieht um den Quantisierungsfehler vom Eingangssignal zu dekorrelieren, also geringer zu halten. Es wird eingesetzt wenn die Bittiefe einer Audiodatei reduziert werden soll, zum Beispiel von 24Bit auf 16Bit.

Durch das hinzugefügte Rauschen verschlechtert sich das Audiosignal rein technisch gesehen. Aus dieser Sicht erscheint es paradox, dass man erst Zeit und Geld investiert um Vorverstärker, Wandler und weitere Geräte mit niedrigem Rauschpegel zu beschaffen und zuletzt der Datei wieder Rauschen hinzufügt. Dennoch verringert das hinzugefügte Rauschen den Quantisierungsfehler und damit den Klirrfaktor. Daher führt es meist zu einem angenehmeren Hörempfinden.

„Das abzutastende Signal erscheint durch das Rauschen größer, da das Rauschen mal in positiver, mal in negativer Richtung eine Spannung zum Nutzsignal addiert. Auf diese Weise kann der Wandler das Gesamtsignal eher erfassen.“[32]

Außerdem können dadurch Signale abgetastet werden die sonst unter der Erfassungsschwelle liegen. Mögliche entstehende Quantisierungsfehler werden dabei durch das Ditherrauschen verdeckt.[33] Je stärker das Rauschen dem originalen Signal dazu gemischt wird, desto eher werden Verzerrungen verdeckt, aber desto lauter ist das Rauschen vorhanden und akustisch wahrnehmbar. Allerdings gewöhnt sich unser Gehör an das Rauschen und kann es maskieren.

Beim Dithering werden bestimmte Rauschformen verwendet, die oftmals nicht über alle Frequenzbereiche linear verlaufen. Es gibt diverse Dithering-Instrumente von verschiedenen Herstellern, die sich hauptsächlich in der Auswahl der Amplitudendichteverteilung und dem Leistungsdichtespektrum mal mehr und mal weniger voneinander unterscheiden. Diese sind oft nach ihren Algorithmen benannt.[34] Welches Verfahren angewendet wird hängt von dem vorliegenden Ausgangsmaterial, den durch die Software bedingten Möglichkeiten, dem gewünschten Endformat und der Erfahrung des Toningenieurs ab.

2.3.2 Truncate

Beim sogenannten Truncating, was im deutschen abschneiden bedeutet, wird kein Dithering angewendet. Bei diesem Verfahren werden überzählige Bits einfach entfernt, wodurch allerdings Quantisierungsverzerrungen entstehen können.[35] Auch führt es zum Verlust von Tiefe in der Aufnahme.[36] Daher sollte diese Form von Kürzung der Datenwortlänge vermieden werden, auch wenn dabei kein Dithering-Rauschen entsteht. Aber Truncating findet auch beim Arbeitsprozess in einer DAW statt. So werden beispielsweise bei der linearen Quantisierung (Fixed-Point-Verfahren) weniger Bits genutzt, wenn man ein Signal auf einem Kanal in der Lautstärke minimiert. Jede Art von Bitverlust nennt man Truncation.

2.3.3 Linear-Dither

Bei der ursprünglichen Form von Dithering wird ein weißes Rauschen, mit einem linearen Verlauf über alle Frequenzen, zu dem Eingangssignal dazu gemischt. In der Regel führt diese Dithervariante zu einem akustisch besseren Ergebnis, als wenn kein Dither verwendet wird. Im Vergleich zu neueren Dithering-Verfahren wird das Rauschen hierbei aber eher wahrzunehmen sein.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 8: Sinuston bei 440Hz mit -1dB Aussteuerung in 24Bit, ohne Dither[37]

Auf der Abbildung 8 sind außer dem Sinuston bis -144dB keine weiteren Ausschläge in der Frequenzanalyse erkennbar.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 9: Sinuston bei 440Hz mit -1dB Aussteuerung in 16Bit, mit Linear-Dither[38]

Die Abbildung 9 zeigt die Anwendung eines Linear-Dithers von MBit+ (iZotope) mit den folgenden Einstellungen: Bit-Quantisierung 16Bit/ Type 1/ Ditherwert 1/ Rauschformung None. Man erkennt das lineare Rauschen bei etwa -130dB im gesamten Frequenzspektrum.

2.3.4 RPDF- und TPDF-Dither

Weitere Dithering-Verfahren sind der RPDF- und TPDF-Dither. Sie unterscheiden sich von dem Linear-Dither durch ein rechteckig generiertes Rauschen bei dem RPDF-Verfahren (Rectangular Probability Density Function), oder ein dreieckig generiertes Rauschen bei dem TPDF-Verfahren (Triangular Probability Density Function), welches dem Ursprungssignal, ebenfalls mit einem linearen Verlauf über alle Frequenzen, hinzugefügt wird. Durch die Dreieck-, bzw. Rechteckschwingung enthält das Rauschen mehr Obertöne und somit mehr Energie in dem oberen Frequenzbereich.[39]

2.3.5 Noise-Shaping

Grundsätzlich steckt hinter Noise-Shaping die gleiche Idee wie bei dem herkömmlichen Dithering. Vor dem Quantisierer wird ein Rauschen zu dem Signal hinzugefügt. Allerdings wird das weiße Rauschen nicht mit einer linearen Frequenzverteilung, sondern mit einer „geformten“ Frequenzverteilung (Shaped Noise) hinzugegeben, wobei die durchschnittliche Effektivität beibehalten wird. Dabei werden meistens hohe Frequenzen stärker eingesetzt als tiefe- oder mittlere Frequenzen, da diese weniger falls überhaupt wahrnehmbar sind. Das hängt davon ab in welchem Frequenzbereich sie liegen. Somit kann man dem Signal ein stärkeres Rauschen hinzufügen, dadurch den Quantisierungsfehler, gerade bei leisen Signalen, verringern und trotzdem einen leiseren Rauscheindruck erhalten.[40] Um das besser nachvollziehen zu können soll hier noch angemerkt werden, dass der akustisch wahrnehmbare Frequenzgang des Menschen von ungefähr 20Hz bis 20kHz reicht.

Es gibt diverse Noise-Shaping-Verfahren, welche teilweise im Anschluss kurz erläutert werden. Zuvor soll aber noch erwähnt werden, dass besonders bei Noise-Shaping-Verfahren eine höhere Samplingrate als 44,1kHz (beispielsweise 88,2- oder 96kHz) zu besseren Ergebnissen führen kann. Dies wäre bei einem linearen Frequenzverlauf weniger der Fall. Doch weil beim Noise-Shaping, wie erwähnt, meist hochfrequentes Rauschen eingesetzt wird spielt auch die höhere Samplerate eine wichtige Rolle. Denn gerade hohe Frequenzen werden, wie die folgende Abbildung visualisiert, bei einer höheren Abtastrate originalgetreuer quantisiert.

[...]


[1] Vgl. Katz, Bob: Mastering Audio - Über die Kunst und die Technik, GC Carstensen Verlag, München 2012, S. 67

[2] Siehe: audacity-forum.de (Hrsg.): Which kind of dithering has a maximum of quality?, 2004 - 2012, URL: http://www.audacity-forum.de/thread/194 (Stand 04.07.2014)

[3] Siehe: Tischmeyer, Friedemann: Audio Mastering am Computer: Dithering (Teil 2), 2010, URL: http://www.delamar.de/mastering/audio-mastering-am-computer-dithering-teil-2-8368/ (Stand 04.07.2014)

[4] Siehe: gearslutz.com (Hrsg.), 2012, URL: http://www.gearslutz.com/board/mastering-forum/766542-flat-dither-question-mbit.html (Stand 04.07.2014)

[5] Siehe hierzu: Katz, Bob: Mastering Audio - Über die Kunst und die Technik, GC Carstensen Verlag, München 2012

[6] Katz, Bob: Mastering Audio - Über die Kunst und die Technik, GC Carstensen Verlag, München 2012, S. 63

[7] ebda., S. 63

[8] Vgl. Apple inc. (Hrsg.): Mastered for iTunes, 2012, S. 4 URL: http://images.apple.com/itunes/mastered-for-itunes/docs/mastered_for_itunes.pdf (Stand 01.07.2014)

[9] Vgl. Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 497

[10] Eigene Erstellung, 2014

[11] Eigene Erstellung, 2014

[12] Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 507

[13] Vgl. von Grünigen, Daniel: Digitale Signalverarbeitung, Hanser Verlag, München 2008, S. 241

[14] Vgl. Dickreiter, Michael et al.: Handbuch der Tonstudiotechnik, De Gruyter Verlag, Berlin/ Boston 2014, S. 667 f.

[15] Eigene Erstellung, 2014

[16] Vgl. Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 545 f.

[17] Vgl. ebda., S. 508, 546

[18] ebda., S. 546

[19] Brandenburg, Karlheinz: Übertragungssysteme, Fraunhofer IDMT, WS 2010/ 2011, Vorlesung 2, PDF, S. 50, URL: https://www.tu-ilmenau.de/fileadmin/media/mt/lehre/ba_mt/mm-uebertragungssysteme/uesys_vl02_AD_Wandlung_final_3.pdf (Stand 04.07.2014)

[20] Eigene Erstellung, 2014

[21] Degardin, Pierre: Interview, 2014 (Anhang I)

[22] Vgl. Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 508

[23] Vgl. Dickreiter, Michael et al.: Handbuch der Tonstudiotechnik, De Gruyter Verlag, Berlin/ Boston 2014, S. 619 ff.

[24] Angelehnt an: Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 508 f.

[25] Eigene Erstellung, 2014

[26] Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 824

[27] Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 509

[28] Vgl. ebda.

[29] Vgl. Görne, Thomas/ Warstat, Michael: Studiotechnik, Elektor-Verlag, Aachen 1994, S. 42

[30] Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 508

[31] Eigene Erstellung, 2014

[32] Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 546

[33] Vgl. ebda.

[34] Vgl. ebda.

[35] Vgl. Apple inc. (Hrsg.): Mastered for iTunes, 2012, S. 4 URL: http://images.apple.com/itunes/mastered-for-itunes/docs/mastered_for_itunes.pdf (Stand 01.07.2014)

[36] Vgl. Katz, Bob: Mastering Audio - Über die Kunst und die Technik, GC Carstensen Verlag, München 2012, S. 74

[37] Eigene Erstellung, 2014

[38] Eigene Erstellung, 2014

[39] Vgl. Helmrich, Christian et al.: Improved Psychoacoustic Noise Shaping, AES-E-Library, 2007, S. 2, URL: http://www.aes.org/e-lib/browse.cfm?elib=13963 (Stand 12.08.2014)

[40] Vgl. Friesecke, Andreas: Die Audio-Enzyklopädie, K. G. Saur Verlag, München 2007, S. 546 f.

Details

Seiten
51
Jahr
2014
ISBN (eBook)
9783668542389
ISBN (Buch)
9783668542396
Dateigröße
2.4 MB
Sprache
Deutsch
Katalognummer
v376069
Institution / Hochschule
SAE Institute Köln
Note
100
Schlagworte
Mastering Dithering MP3

Autor

Teilen

Zurück

Titel: Dithering-Methoden beim Mastering mit speziellem Augenmerk auf verlustbehaftete MP3-Datei