Lade Inhalt...

Kodierung und Entkodierung von MP3-Formaten

Referat / Aufsatz (Schule) 2001 11 Seiten

Informatik - Angewandte Informatik

Leseprobe

Inhaltsverzeichnis

MP3 Allgemein

MP3 und das Internet

Kodierung
Kompressionsraten
Psychoakustik
Aufspaltung in Subbänder
Reduktion der Subbänder
Umwandlung in 16 Bit Samples
Komprimierung der Samples
Gruppierung der Samples
Huffmann-Kodierung
Zusammenfassung zu Frames

ID3-TAG

MP3Pro

Quellen

ALLGEMEIN

- MP3 ist ein Speicherformat zur Komprimierung von Audiodaten. Es benötigt etwa 1/10 des Speicherbedarfs einer entsprechenden Wave oder CD-Audio-Datei.

Damit hat eine Minute einen ungefähren Speicherbedarf von einem Megabyte.

- Aus diesem Grund sind die Dateien für die Verbreitung per Internet sehr beliebt.

Es dauert durchschnittlich zehn Minuten um einen Song in annähernder CDQualität aus dem Internet zu laden.

- Sogenannte File-Sharing-Programme sind gratis im Internet erhältlich und dienen

dazu Musik zwischen Privatpersonen auszutauschen. Die bekannteste dieser Börsen ist „Napster“, die schon seit Monaten durch diverse gerichtliche Auseinandersetzungen mit Plattenfirmen im Rampenlicht steht.

- MP3 ist die Kurzform für „MPEG (1) Audio Layer 3“, wobei MPEG wiederum eine

Abkürzung für „Moving Pictures Experts Group“ ist. Der vollständige Name lautet also „Moving Pictures Experts Group 1 Audio Layer 3“.

- MPEG ist ein Format um Videos zu komprimieren der eigentliche Zweck von MP3 bestand daher darin den Ton zu den Videos zu liefern, bevor es sich jedoch „selbständig“ machte und so seine Popularität erlangte.

- Immerhin benutzen laut dem Computermagazin CHIP (Ausgabe 10/2000) 73% der Jugendlichen in Deutschland MP3-Files. Der Unterschied wird kaum bemerkenswert sein.

- Die Vorgänger des Layer 3 waren Layer 1 und 2, deren Datenkompressionen noch nicht ausreichend für eine Verbreitung im Internet waren.

- Layer 1-3 wurden vom Fraunhofer Institut in Darmstadt in Deutschland entwickelt.

Die Abteilung IIS (Institut für integrierte Schaltungen) arbeitet bereits seit 1987 an Verfahren zur Audiokomprimierung mit dem ursprünglichen Ziel Musik per Telefon zu übertragen, was im weitesten Sinne mit dem Internet gelungen ist.

- MP3 ist ein sogenanntes „Headerless-File-Format“. Die Dateien besitzen keinen

Header im herkömmlichen Sinn, sondern sie besitzen mehrere Header für jeweilige Teilbereiche.

MP3 UND DAS INTERNET

Aufgrund der geringen Datenkapazität etablierte sich das MP3-Format in den letzten Jahren immer mehr zu Download im Internet. Es gibt unendliche Mengen an Websites die MP3-Dateien kostenlos anbieten. Viel beliebter sind jedoch Tauschbörsen wie zum Beispiel Napster. Diese basieren auf folgendem Prinzip: Jeder Benutzer lädt sich das Programm aus dem Internet, meldet sich an und schon kann er mit anderen Usern Musik „tauschen“. Das Programm meldet den Benutzer bei jedem Programmstart bei einem der zahlreichen Server an und über die Eingabe des Titels und des Interpreten kann man Files von jedem anderen Benutzer auf diesem Server herunterladen. Man erhält zu fast allen Songs eine Fülle an Ergebnissen. Nach Auswahl der besten Verbindung lädt man die Datei auf seinen Rechner.

Diese Einfachheit ist aber leider zu schön um wahr zu sein. Die Plattenfirmen haben mittlerweile bemerkt, wie ihnen das Geld durch die Finger fließt und greifen ein indem sie Napster wegen Copyrightverletzung verklagen. Seit über einem halben Jahr ist der Prozess im laufen. Im März dieses Jahres musste sich Napster bereit erklären per Filter den Download urheberrechtlich geschützter Titel zu unterbinden. Aber während Napster untergeht sprießen Unmengen an ähnlichen Programmen aus dem Boden, was es den Plattenkonzernen sehr schwer macht den illegalen Tausch von Musik zu stoppen, da fast täglich neue Tools auf den Markt kommen.

Die Entwicklung des Musikdownload von Webseiten verläuft ähnlich: Die Mehrheit der Anbieter verschwindet schon nach kurzer Zeit wieder, aber irgendwo wird eine neue Seite ins Netz gestellt. Per Suchmaschine findet man immer den gefragten Song.

Es haben sich jedoch bereits Plattenfirmen entwickelt, die nur den Markt über Internet verwenden. Gerade bei diesen Firmen haben Nachwuchstalente eine große Chance berühmt zu werden. Songs können um 15 ATS pro Stück auf den heimischen Rechner geladen werden.

KODIERUNG

Der erste Schritt des Kodierens seitens des Benutzers ist das angeben einer Bitrate. Diese gibt die Qualität und gleichzeitig den Speicherbedarf einer MP3-Datei an.

KOMPRESSIONSRATEN

Die Qualität einer MP3-Datei ist bei den meisten Aufnahmeprogrammen vor Beginn der Aufnahme frei wählbar. Laut Fraunhofer Institut liegt die CD-Qualität einer MP3- Datei bei einer Bit-Rate von 112 bis 128 KBit pro Sekunde, andere Messungen setzen die CD-Qualität auf bis zu 160 KBit pro Sekunde. Am häufigsten verwendet und für die meisten Hörer ausreichend ist jedoch 128 KBit.

Abbildung in dieser Leseprobe nicht enthalten

Im Vergleich dazu liegt eine entsprechende CD-Qualität bei Layer 1 bei 384 KBit/s beziehungsweise bei 256 KBit/s bei Layer 2. Eine Wave-Datei arbeitet mit einer Bitrate von 1,4 Mbit/s und arbeitet so etwa mit dem selben Platzbedarf wie ein CDAudio-Track (CDA).

74 oder 80 Minuten Musik (je nach Tonträgergröße) bringt man so auf eine CD, im MP3-Format wären bei einer Bitrate von 128 KBit/s 11,5 beziehungsweise 12,4 Stunden möglich.

PSYCHOAKUSTIK

MP3-Audiokomprimierung basiert darauf überflüssige Informationen herauszufiltern. Die Psychoakustik ist eine Wissenschaft, die sich mit der Wahrnehmung von Schall durch das menschliche Gehör beschäftigt.

z.B.: Man befindet sich in einer Disco. Aus riesigen Boxen dröhnt laute Musik und man versucht miteinander zu sprechen. Dies ist nahezu unmöglich es sei denn man schreit. In der Akustik spricht man dabei von Maskierung. Um die Maskierung aufzuheben müsste der Sprachschallpegel so weit angehoben werden, dass das Störsignal (in diesem Fall die Musik) ihn nicht mehr verdeckt.

Vorgänge wie dieser gehören zu den grundsätzlichen Bereichen der Psychoakustik.

Bild1 zeigt den Arbeitsbereich des menschlichen Gehörs. Unterhalb der Ruhehörschwelle und oberhalb der Schmerzgrenze nehmen wir

Abbildung in dieser Leseprobe nicht enthalten

Bild2

Abbildung in dieser Leseprobe nicht enthalten

Bild2 dient zur Veranschaulichung von Überlagerungen.

Wie in Bild1 ist die Ruhehörschwelle angezeigt.

Töne, die sich unterhalb dieser Schwelle befinden werden nicht wahrgenommen und daher bei der MP3-Aufnahme in ein Rauschen umgewandelt (weggelassen).

Überlagerungen funktionieren folgendermaßen: Man hat zum Beispiel (Bild2) einen Ton mit 1kHz (1) und einen weiteren Ton mit 1,1kHz, der um ca. 18dB leiser ist (2). Der zweite Ton wird vom ersten vollständig überlagert. Ebenso funktioniert dies bei anderen schwächeren Tönen (siehe Bild2). Ein weiterer Ton mit einer Frequenz von 2kHz, der ebenfalls 18dB leiser ist als der erste würde nicht überlagert werden, da er knapp außerhalb der Mithörschwelle des ersten Tons liegt.

Rauschen kann bei der MP3-Aufnahme eine weitere Möglichkeit zur Komprimierung ergeben. Dadurch dass bei der Digitalisierung eines Tons nicht mit unendlicher Frequenz abgetastet werden kann entsteht ein für das menschliche Gehör nicht wahrnehmbares Rauschen (Quantisierungsrauschen). Dieses macht man sich beim MPEG Audio Layer zum Vorbild und hebt so das Rauschen um einen Ton herum an. Vor allem laute kurze Töne maskieren im Frequenzbereich vor und nach sich einen bestimmten Bereich in dem schwächere Signale nicht hörbar wären. Beim MP3- Encoding wird in diesem Bereich der Rauschpegel angehoben, als ob man mit einer niedrigeren Auflösung digitalisieren würde.

Maskierung gibt es aber auch im zeitlichen Bereich: Das Gehör benötigt sowohl bei lauten als auch bei leisen Geräuschen eine so genannte „Recovery Time“ bis es wieder voll funktionstüchtig ist. Besonders auffallend ist dies bei kurzen, schnell ansteigenden, lauten Tönen. Nach einer Verzögerung von etwa 5 ms sinkt die Hörschwelle wieder und erreicht nach etwa 200 ms den normalen Level, die so genannte Ruhehörschwelle. Diesen Effekt nennt man Nachmaskierung. Weniger bedeutend, jedoch umso beeindruckender ist der Effekt der Vormaskierung: Er beruht darauf, dass laute Töne vom Gehirn schneller verarbeitet werden als leise. Der laute Impuls überholt gewissermaßen den leisen auf dem Weg zum Gehirn. Dadurch entsteht eine Vormaskierungszeit von bis zu 20 ms.

Die Anwendung des oben angeführten psychoakustischen Algorithmus geschieht in folgenden Schritten:
- Die Audioinformation wird in Subbänder aufgespalten
- Die Subbänder werden reduziert
- 16-Bit Samples werden erzeugt
- Die Samples werden komprimiert
- Die komprimierten Samples werden zu Blöcken zusammengefasst
- Kodierung nach dem Huffmann-Verfahren
- Zusammenfassung zu Frames

AUFSPALTUNG IN SUBBÄNDER

Nach der Frequenz der akustischen Information erfolgt eine Aufspaltung in 32 Subbänder. Die Bänder sind durch Anpassung an das menschliche Gehör nach einem psychoakustischen Modell unterschiedlich groß.

Die Aufspaltung erfolgt mit Hilfe eines polyphasen Filters. Das heißt, dass die Abtastwerte gleichzeitig dezimiert und gefiltert werden.

Bei Layer 1 und 2 waren die Bänder gleich groß mit einer Bandbreite von je 625 Hz. Der Grund für diese Aufspaltung ist dem Algorithmus eine bessere Angriffsfläche zu verschaffen.

REDUKTION DER SUBBÄNDER

Der MP3-Encoder untersucht nun jedes der Subbänder nach dem psychoakustischen Modell auf verzichtbare Frequenzen. Hierbei erfolgt eine Ermittlung der Maskierungsschwelle, anschließend fallen jene Subbänder weg deren Pegel unterhalb dieser Verdeckungsfunktion liegt. Ein anderer Grund für das Wegfallen eines ganzen Subbands könnte sein, dass es aufgrund der Tonhöhe unhörbar ist, ähnlich einer Hundepfeife.

UMWANDLUNG IN 16-BIT SAMPLES

Die Frequenzbänder werden abgetastet und in 16-Bit-Samples umgewandelt. Die Töne werden in digitale Signale zerlegt und als Zahlenwerte weiter verarbeitet. Die Abtastfrequenz (Sampling Rate) bestimmt dabei die Länge der Abtastintervalle. Dabei können aber weder die Messung der Höhe der Amplitude noch die Größe der Abtastintervalle unendlich genau sein. Aus diesem Grund wird bei der analog- digitalen Wandlung ein Wert zwischen zwei Abtastpunkten gerundet. Dadurch entstehen Rundungsfehler, die sich durch ein so genanntes Quantisierungsrauschen bemerkbar machen. Dieses kann man unhörbar halten indem man eine möglichst hohe Auflösung verwendet: Bei 8 Bit können maximal 256 Stufen dargestellt werden, bei 12 Bit bereits 4096 und bei 16 Bit 65536 Einzelschritte, wodurch kein Rauschen mehr zu hören ist.

Manche Samples werden aber auch mit einer geringeren Abtastfrequenz digitalisiert. Im achten Subband befindet sich beispielsweise ein Ton mit 1kHz und 60dB. Der MPEG-Audio-Encoder berechnet nun die Maskierungsschwelle und erkennt, dass sie 36dB weiter unterhalb liegt. Der akzeptable Signalrauschabstand liegt hier also bei 24dB, was einer Auflösung von 4 Bit entspricht, da die beiden Werte in direktem Zusammenhang stehen. Lässt man bei der Auflösung ein Bit weg steigt der Rauschpegel um 6dB. Da eine Audio-CD meist mit 16 Bit digitalisiert ist kann man hier eine erhebliche Datenreduktion ansetzen.

KOMPRIMIERUNG DER SAMPLES

Im nächsten Schritt werden die Samples weiter komprimiert. Dieser Vorgang hat jedoch nichts mehr mit den ursprünglichen Tönen zu tun. Die Komprimierung basiert ab hier nur noch auf Daten.

Jedes Sample besteht zwar aus 16 Bit, jedoch sind nicht alle unbedingt nötig um einen Pegel darzustellen. So könne beispielsweise die führenden Nullen entfallen. Ergibt sich zum Beispiel bei einem Sample der Wert 0000011101010101, so stutzt der Algorithmus das Ergebnis auf 11101010101. Um aus diesen Angaben wieder die originalen 16 Bit zu rekonstruieren benötigt der Decoder zwei Angaben: den Skalierungsfaktor sowie die Bit Allocation. Der Skalierungsfaktor gibt an an welcher Stelle sich die verbleibenden Bits des Samples im ursprünglichen zustand befunden haben. Die Bit Allocation enthält die Information, wie viele Bits im Sample verblieben sind, da man ja nicht mehr mit einer festen Zahl von 16 Bit rechnen kann. Würde man jedoch diese Werte für jedes Sample einzeln ablegen, wäre nicht viel gewonnen, daher teilen sich je zwölf (in den Subbändern 0 bis 29) bzw. 36 (in den Subbändern 30 und 31) Samples diese Werte.

GRUPPIERUNG DER SAMPLES

Die eben erzeugten 16-Bit-Samples werden nun zu Blöcken zusammengefasst. Es gibt zu diesem Zweck zwei verschiedene Blocklängen: Die kurzen Blöcke mit zwölf Samples und die langen Blöcke mit 36 Samples.

Bei den niedrigen Frequenzen kommen lange Blöcke zum Einsatz. Die langen Blöcke würden jedoch bei höheren Frequenzen keine ausreichende Auflösung erlauben, hier finden die kurzen Blöcke Verwendung. Im so genannten Mixed Block Mode kommen für die beiden Frequenzbänder mit den niedrigsten Frequenzen lange Blöcke zum Einsatz. Für die 30 verbliebenen Frequenzbänder sind die kurzen Blöcke an der Reihe. Damit erlaubt dieser Modus eine bessere Frequenzauflösung bei den niedrigen Frequenzen, ohne Tribut an die Abtastrate bei den hohen Frequenzen zu zahlen.

HUFFMANN-KODIERUNG

Der letzte Schritt der MP3-Komprimierung ist die Huffmann-Kodierung. Dieser Algorithmus kommt beispielsweise auch bei Packprogrammen wie WinZip zum Einsatz. Hierbei ist die Häufigkeit bestimmter Werte von Bedeutung. Zuvor werden allerdings noch die Subbänder angeordnet. Die Subbänder mit niedrigeren Frequenzen enthalten üblicherweise deutlich mehr Werte als diejenigen der hohen Frequenzen. Die Subbänder werden nach ihrer Frequenz in drei Gruppen zusammen gefasst. Jeder Bereich erhält einen eigenen Huffmann-Baum (Bild 3) um den optimalen Kompressionsfaktor zu erreichen.

Als ersten Schritt klammert der Encoder die hohen Frequenzen aus, eine Kodierung ist hier nicht notwendig, da sich ihre Größe aus denen der anderen beiden Regionen ableiten lässt. Der mittlere Frequenzbereich wird behandelt wie er ist und die niedrigen Frequenzen werden erneut in drei Regionen unterteilt, von denen wiederum jede einen eigenen Huffmann-Baum zugewiesen bekommt. Wie so ein Huffmann-Baum aussieht wird innerhalb der MP3-Datei abgelegt.

Der Aufbau eines Huffmann-Baum funktioniert folgendermaßen: Häufig auftauchende Werte erhalten eine kurze Bitfolge, seltene Werte hingegen eine lange, daher ermittelt der Algorithmus zunächst die Verteilung der Werte innerhalb der zu komprimierenden Daten.

Um einen sogenannten Huffman-Baum zu ermitteln, beginnt man mit den beiden seltensten Werten. Ihnen wird eine "0" beziehungsweise eine "1" zugewiesen. Es erfolgt eine Zusammenfassung der beiden Werte, in der Reihenfolge sind sie nun durch die Summe ihrer Häufigkeit repräsentiert. Das gleiche geschieht mit den nächsten beiden seltensten Werten. Dieser Vorgang ist beendet, wenn nur noch ein Wert übrig ist. Das Ergebnis dieser Vorgehensweise ist eine Baumstruktur. Anhand dieser Struktur erfolgt die Kodierung. Jede Verzweigung nach links erhält eine 0, jede Rechtsverzweigung ist durch eine "1" gekennzeichnet. In unserem kleinen Beispiel wäre der weniger häufige

Wert 4 durch die Bitfolge 010 repräsentiert. Der häufigste Wert 6 bekommt dagegen eine schlichte 1 zugeordnet.

Bild 3

Abbildung in dieser Leseprobe nicht enthalten

ZUSAMMENFASSUNG ZU FRAMES

Das Ergebnis der bisherigen Komprimierung wird in sogenannten Frames zusammengefasst. Diese Frames enthalten je 1152 Abtastwerte (32 Subbänder x 36 Samples). Ein Frame besteht aus einem Header, einem Prüfsummencheck, den eigentlichen Audiodaten sowie unter Umständen einem so genannten Bit-Reservoir. Ein solches Reservoir entsteht, wenn sich die Samples innerhalb des Frames so komprimieren lassen, dass nicht die komplette theoretische Bit-Anzahl eines Frames benötigt wird. Auf diese Reservoirs kann der Encoder zurückgreifen, wenn bei einem späteren Frame die vorhandenen Bits nicht ausreichen. Hierbei muss man zwei Begriffe unterscheiden: Framegröße und Framelänge.

Die Framegröße wird durch die Anzahl der Samples bestimmt und ist innerhalb eines Layers konstant. Im Format Layer 1 sind dies stets 384 Samples pro Frame, bei Layer 2 und 3 kommen 1152 auf ein Frame. Die Länge des Frames kann sich jedoch bei Layer 3 durch das Wechseln der Bitrate oder das nicht aufgefüllte Bit-Reservoir unterscheiden. Ebenfalls im Frame enthalten sind die vorher erwähnten Informationen bezüglich des Skalierungsfaktors und der Bit Allocation, um alle Samples wieder rekonstruieren zu können.

Bild 4

Abbildung in dieser Leseprobe nicht enthalten

Ein Datei-Header, wie er von anderen Dateiformaten her bekannt, existiert bei einer MP3-Datei nicht. Bei einer Bilddatei würde ein Header die Information über das ganze Bild beinhalten (z.B.: Größe, Farbtiefe, Auflösung, ...).

ID3-TAG

Beim ID3-Tag handelt es sich um eine Art Inhaltsangabe der MP3-Datei, ähnlich wie dies CD-Text für Audio-CDs darstellt. So beziehen die MP3-Player (Soft- wie Hardware), die Informationen über das abzuspielende Stück aus dem ID3-Tag. Der ID3-Tag war ursprünglich 128 Byte groß und steht am Ende einer MP3-Datei. Ursprünglich konnte man den Titel, den Interpreten, das Album, einen kurzen Kommentar (je 30 Zeichen), das Erscheinungsjahr und das Genre eingeben. Das Genre ist ein nummerisches Feld. Es existiert eine Liste, in der bestimmte Nummern den Genres von Acid Punk bis Southern Rock zugeordnet sind. Mittlerweile wird außerhalb der MP3-Spezifikation der ID3-Tag von unabhängigen Interessensgruppen weiterentwickelt und hat auch schon Zahlreiche Erweiterungen.

Hannes Etzelstorfer ID3-TAG & MP3Pro Seite 10/11 Zum Beispiel kann man bei aktuellen MP3-Playern zusätzlich noch eine Bewertung, Tempo, Stimmung und Situation in Form numerischer Felder, die original CD- Nummerierung, Songtexte, Hinweise und Biographie ohne Längeneinschränkung , sowie die Internetadressen des Interpreten, des Datei- Downloads und des CD-Verkäufers speichern.

Bild 5: So würde eine Übersicht über den

Bild5

MP aktuellen Titel mit fast allen Daten des ID3- Tags aussehen.

3 PRO

Während noch hitzig über MP3 diskutiert und gestritten wird kommt schon bald die neue Version des MPEG -Layers auf den Markt: MP3Pro. Als logische Fortsetzung der bisherigen Versionen sollte diese wohl eigentlich MP4 heißen, aber der Name MP3 ist einfach schon zu populär um ihn fallen zu lassen.

Mit dem neuen Codec wird der Datei-Download mit Sicherheit eine neue Hochblüte erleben, da bei gleicher - oder sogar besserer Qualität - der Speicherplatzbedarf und die damit verbundenen Download-Zeiten nur halb so groß sind. Statt bisher 128 KBit/s werden in Zukunft 64 KBit/s ausreichen. Damit könnte man theoretisch mit einer ISDN64 Leitung die Titel live anhören.

Der neue Codec wurde von Coding Technologies, einer auf Audiokompression spezialisierten deutsch-schwedischen Tochterfirma des Fraunhofer Instituts entwickelt.

Nach dem neuen Verfahren kodierte Dateien sollen zu den bekannten Wiedergabegeräten kompatibel sein (und umgekehrt). Um jedoch auch den verbesserten Klang genießen zu können sollten neue Player verwendet werden. Die erste Beta-Version soll Ende März erschienen sein, Testergebnisse gibt es jedoch noch keine. Die endgültige Markteinführung soll Anfang Juli für Windows 98 und ME sowie für Linux und Mac geschehen.

Parallel dazu wurde eine weitere Neuerung entwickelt: MP3-interaktiv. Dieses Format soll vor allem für Karaoke verwendet werden. Damit werden die Songtexte während des Abspielens eingeblendet.

QUELLEN

- Homepage des Fraunhofer Instituts für integrierte Schaltungen http://www.iis.fhg.de

- Homepage von TecChannel http://www.tecchannel.de

- Homepage von Zdnet http://www.zdnet.de

- Computermagazin „CHIP - Computer & Communications“

- http://www.mp3.com

- Diverse Texte gefunden von den Suchmaschinen Google und Altavista

http://www.google.at & http://www.altavista.at

Details

Seiten
11
Jahr
2001
Dateigröße
739 KB
Sprache
Deutsch
Katalognummer
v107361
Note
sehr gut
Schlagworte
MP3-encoding

Autor

Teilen

Zurück

Titel: Kodierung und Entkodierung von MP3-Formaten