MPEG-4 - Möglichkeiten zur Interaktion


Hausarbeit (Hauptseminar), 2004

30 Seiten, Note: 1,3


Leseprobe


Inhalt

1 Einleitung
1.1 Gegenstand der Arbeit
1.2 Zielsetzung
1.3 Anforderungen an MPEG-4
1.4 MPEG-4 Definitionen

2 MPEG-4-Grundlagen
2.1 Aufbau einer MPEG-Szene
2.2 VRML als Grundlage der Szenenbeschreibung
2.3 MPEG-4-Schichtenmodell und Streaming
2.4 Part: Systems
2.4.1 Binary Format for Scenes
2.4.2 Object Descriptors
2.4.3 MPEG-4 File Format
2.5 Part: Visual
2.5.1 Naturliche Video-Obj ekte
2.5.2 Synthetische Video-Objekte
2.6 Part: Audio
2.6.1 Komprimierung naturlicher Audio-Objekte
2.6.2 Komprimierung synthetischer Audio-Objekte
2.7 Part: Delivery Multimedia Integration Framework (DMIF)
2.8 Profiles

3 Interaktion im Standard
3.1 Arten der Interaktion
3.2 Moglichkeiten der Szenenanderung
3.2.1 Eventmodell von VRML/BIFS
3.2.2 BIFS-Updates
3.2.2.1 BIFS-Commands
3.2.2.2 BIFS-Animation
3.2.3 Java in MPEG-4
3.2.3.1 Script-Knoten
3.2.3.2 MPEG-J
3.3 AFX und Multi-User-Worlds
3.4 AusmaB der Interaktivitat

4 Anwendung des Standards

5 Zusammenfassung und Tendenzen

Abkurzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Literaturverzeichnis

1 Einleitung

1.1 Gegenstand der Arbeit

In den letzten Jahren konnte eine rasante technologische Entwicklung von Endnutzergeraten, wie z.B. PCs, Personal Desktop Assistants (PDAs) oder auch Handys, beobachtet werden. Zudem ergaben sich neue Moglichkeiten in der Ubermittlung multimedialer Inhalte durch immer schnellere Breitband-Internetverbindungen und neue Funknetztechnologien wie UMTS. Diese Entwicklungen bringen die Bereiche Computer, Telekommunikation und Fernsehen naher zusammen und bedingen den Einsatz eines allgemeingultigen Standards um die Datenubertragung bei unterschiedlichen Bandbreiten und Formaten zu vereinheitlichen. Aus dieser Motivation heraus wurde der Standard ISO/IEC 14496, umgangssprachlich MPEG-4 genannt, von der Moving Pictures Expert Group (kurz: MPEG) entwickelt - ein Standard zur Kodierung audio-visueller Daten. Dieser baut in seinen Grundzugen auf den vorhergehenden Standard MPEG-2 auf, welcher aber in dieser Arbeit nicht naher betrachtet werden soll.

1.2 Zieisetzung

Im Rahmen dieser Hauptseminararbeit soll ein grundlegender Uberblick uber den MPEG-4- Standard und seine Moglichkeiten, die Benutzer-Interaktion zu realisieren, gegeben werden. Dazu wird die Spezifikation des Standards betrachtet, es werden verwendete Konzepte und einbezogene Standards aufgezeigt. Nachdem die Anforderungen und Ihre Beachtung im Standard herausgestellt wurden, wird zum grundlegenden Verstandnis der Aufbau einer MPEG-4-Szene dargestellt. Neben der Beschreibung der Konzepte des Standards, sollen vor allem die Moglichkeiten und die Umsetzung der Interaktivitat genauer betrachtet werden.

1.3 Anforderungen an MPEG-4

Die Arbeit am MPEG-4-Standard begann 1993, doch erst 1998 wurde der Standard offiziell veroffentlicht. Gleichzeitig wurden die bisherigen Definitionen als MPEG-4: Version 1 „eingefroren“, womit die Definition und Entwicklungen einer verbesserten Version 2 startete. Dabei blieben die existierenden Tools und Profile der Version 1 bestehen, es wurde lediglich Funktionalitat hinzugefugt, sog. „Extensions“.

Die Entwicklung des MPEG-4-Standards wurde und wird noch heute vorrangig von drei Entwicklungsrichtungen gelenkt [vgl. Pereira2003]:

1. zunehmende Bedeutung von audio-visuellen Medien in samtlichen Netzen
2. wachsende Mobilitat der Endgerate und somit der Teilnehmer und
3. gestiegene Interaktivitat der Medien

Daraus ergeben sich Anforderungen, die durch den Standard beachtet und erfullt werden sollten, z.B.:

- effiziente Beschreibung einer Vielzahl unterschiedlicher Datentypen
- unabhangige Abbildung von verschiedenen Objekten in einer Szene um getrennt auf sie zuzugreifen, sie verandern und wieder verwenden zu konnen
- Verbindung von Audio- und Bildsignalen, synthetischer oder naturlicher Natur, in einer Szene
- Beschreibung der Objekte und der Ereignisse einer Szene sowie
- Fahigkeiten zu Interaktion und Hyperlinking

1.4 MPEG-4 Definitionen

Die herausgestellten MPEG-4-Anforderungen werden von den folgenden Bestandteilen des Standards, welcher in der ursprunglichen ersten Version in 6 Teile (parts) gegliedert war, angesprochen [vgl. Pereira2003]:

- Part 1: Systems - Szenenbeschreibung, Multiplexing, Synchronisation, Buffer Management, und Digitales Rechtemanagement;
- Part 2: Visual - Representation von naturlichen and synthetischen Grafikobjekten
- Part 3: Audio - Representation von naturlichen and synthetischen Audioobjekten
- Part 4: Conformance Testing - definiert Anpassungsvoraussetzungen fur Bit­Streams und Gerate; dieser Teil wird genutzt, um MPEG-4-Implemetierungen zu testen
- Part 5: Reference Software - enthalt Software entsprechend den meisten Teilen von MPEG-4 (normative und nicht-normative Tools)
- Part 6: Delivery Multimedia Integration Framework (DMIF) - definiert ein Session-Protokoll fur das Management von Multimedia-Streaming uber generische Ubertragungstechnologien

Die Parts 1 bis 3 und 6 spezifizieren den Kern der MPEG-4-Technologie, wahrend Parts 4 und 5 "supporting parts" sind und nur der Erleichterung der Implementierung dienen. Parts 1, 2 und 3 sind unabhangig von der Ubertragung und uberlassen dem Part 6 die Kommunikation mit der „Delivery Layer“, der eigentlichen Ubertragungsschicht.

Die hier genannten Parts werden, bis auf die „supporting parts“, im nachfolgenden Kapitel 2 naher beschrieben.

Zusatzlich wurden aufgrund diverser Unzulanglichkeiten und standiger Verbesserungen bzw. Erweiterungen (extensions) in Version 2 des Standards die Parts 7 bis 18 eingefuhrt, deren Entwicklung jedoch groBtenteils noch nicht abgeschlossen ist. Somit sind diese Teile auch noch nicht publiziert und nicht offizieller Bestandteil des Standards.

Tabelle 1-1 gibt einen kurzen Uberblick uber die in Entwicklung befindlichen Teile [vgl. MPEG 2003 a]. Von besonderer Bedeutung in Bezug auf die Interaktion sind hierbei vor allem die MPEG-J-Extensions (Part 11) und die Animation-Framework-Extensions (Part 16).

Abbildung in dieser Leseprobe nicht enthalten

Tab. 1-1 MPEG-4-Erweiterungen (Part 7-18) [MPEG2003 a]

2 MPEG-4-Grundlagen

2.1 Aufbau einer MPEG-Szene

Das MPEG-4-Verfahren folgt einem komplett anderen Ansatz als das vorhergehende MPEG- 2. Es steht nicht mehr die pixelbasierte Komprimierung von Videosignalen und zugehorigen Audiostromen im Vordergrund, sondern die inhaltsorientierte Komprimierung der Medien- Objekte (media objects) der Szene. Dies hat zur Folge, dass in MPEG-4 die Ubertragung audio-visueller Daten nun objektorientiert erfolgt, d.h. die Szene wird in ihre Einzelbestandteile, so genannte primitive Objekte oder auch Elementarobjekte, zerlegt. Dabei unterscheidet man zwischen Audio (AO)- und Videoobjekten (VO), welche wiederum naturlich oder synthetisch erzeugt sein konnen. Ein naturliches Objekt bezeichnet ein per Kamera oder Mikrofon aufgenommenes Signal, wahrend synthetische Objekte durch Computer erzeugt werden.

Um die Objekte nun zeitlich sowie raumlich korrekt in der Szene zu positionieren, kommt der „Szenegraph“, ein gerichteter zyklenfreier Graph, zum Einsatz. Er ahnelt einer Baumstruktur, in welcher die einzelnen Objekte (Objekt-Knoten) als Blatter wiederzufinden sind. Er verfugt uber ein globales Koordinatensystem, in welchem die einzelnen Szenenobjekte, die wiederum ein eigenes Koordinatensystem besitzen, positioniert sind. Zudem ist es uber den Szenengraphen moglich, ahnlich einer virtuellen Kamera, den betrachteten Bildausschnitt beliebig zu variieren.

Der Vorteil des Einsatzes der Objektorientierung in MPEG-4 liegt vor allem darin, dass auf jedes Objekt gesondert zugegriffen werden kann. Somit sind Anderungen am einzelnen Objekt moglich und die Wiederverwendbarkeit der Objekte wird erhoht. Hinzukommt, dass eine kontext-abhangige Skalierbarkeit erreicht wird. Diese macht es moglich, bei niedrigen Datenraten einzelne Objekte schlechter zu kodieren, um die Ladezeiten zu verringern.

Abbildung 2.1-1 soll eine mogliche MPEG-4-Szene und die zugehorige Hierarchisierung durch den Szenengraphen darstellen [vgl. Bartels2003].

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.1-1 MPEG-4-Szene und Hierarchisierung [Bartels2003]

2.2 VRML als Grundlage der Szenenbeschreibung

Die Virtual Reality Modeling Language (VRML, sprich: Worml) ist eine Beschreibungssprache fur 3D-Szenen, also die Darstellung von Objekten im Raum. Sie stellt die Grundlage fur die Beschreibung einer MPEG-4-Szene dar, da aus ihr die Beschreibungssprache des MPEG-4-Standards, BIFS (Binary Format For Scenes), welche in Kapitel 2.4.1 naher erlautert werden soll, abgeleitet wurde.

Zum besseren Verstandnis sollen an dieser Stelle die Grundzuge vom VRML kurz erlautert werden, fur eine detaillierte Betrachtung wird an [Braitmaier2000] verwiesen.

Bei VRML handelt es sich um eine deklarative Sprache, d.h. es steht die Beschreibung der gewunschten 3D-Welt im Vordergrund. Es werden Funktionen wie z.B. Texture Mapping, verschiedene Perspektiven, Lichtquellen und Einbindung von Sounds unterstutzt.

In VRML werden Objekte durch sogenannte Knoten (Nodes) beschrieben, die den Knoten in einem Szenengraphen entsprechen und hierarchisch angeordnet sind. Es existiert ein vordefinierter Satz von 54 Knoten, mit dem der Autor einer Szene bestimmte geometrische Grundkorper und zweidimensionale, primitive Objekte erzeugen kann. Zusatzlich sind in diesem vordefinierten Satz Knoten enthalten, die es erlauben, die Eigenschaften eines Objekts zu beschreiben. Eine Objektbeschreibung in VRML besteht oft aus mehreren Knoten, die mittels eines Gruppen-Knotens (Grouping-Node) zusammengefasst und verwaltet werden. Andere Knoten werden als sogenannte Blatt-Knoten (Leaf-Nodes) bezeichnet. Ein Knoten besteht aus einem oder mehreren Feldern (Fields), welche die Eigenschaften oder das Verhalten des zugehorigen Knotens beschreiben. Felder konnen Werte oder Verweise auf andere Knoten enthalten. So besitzt ein Objekt, das eine Kugel beschreibt, ein Feld das den Radius angibt. Neben diesen Standard-Knoten lassen sich beliebige weitere Knoten mit Hilfe von sogenannten Prototypen definieren. Diese konnen beliebig oft wieder verwendet werden. Der Inhalt einer VRML-Datei besteht aus ASCII-Text, welcher von einem VRML-Browser interpretiert wird. Der Vorteil dabei ist die Plattformunabhangigkeit. Den ausschlaggebenden Grund fur die Wahl von VRML als Grundlage fur BIFS bildet jedoch das Event-Modell von VRML, welches in Kapital 3.2.1 ausfuhrlicher betrachtet werden soll.

2.3 MPEG-4-Schichtenmodell und Streaming

Um die Funktionsweise von MPEG-4 genau zu verstehen, ist es notwendig, sich mit dem Schichtenmodell und dem Streamingverfahren auseinanderzusetzen.

Die Struktur von MPEG-4 bzw. eines MPEG-4-Terminals kann als ein Schichtmodell angesehen werden, welches im Wesentlichen aus drei Schichten besteht [vgl. Repplinger 2000]: der Delivery Layer, gefolgt von der Synchronisation Layer und der Decompression Layer. Diesen Schichtenaufbau soll Abbildung 2.3-1 verdeutlichen.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.3-1 MPEG-4 Terminal Architektur [Repplinger 2000]

Auf der Server-Seite wird jedes einzelne Media Object als ein Elementarstream (Elementary Stream) kodiert. Auch der Szenengraph wird als einzelner Stream verpackt. Dies hat den Vorteil, dass die Darstellung der Szene auf einem Terminal schon beginnen kann, wenn noch nicht alle Daten ubertragen wurden. Bevor die Daten im Netz ubertragen werden konnen, werden sie durch ein Multiplexing-Verfahren zu einem einzelnen „groBen“ Stream zusammengefasst. Bei der Ubertragung der Daten, kommt das Schichtenmodell zum Einsatz.

Die Delivery Layer, gliedert sich im Wesentlichen in zwei Teile. Der erste Teil der Delivery Layer sorgt dafur, dass der eingehende Datenstrom unabhangig von dem Ubertragungsmedium ist. Dabei ist die Transportschicht selbst nicht von MPEG-4 definiert, lediglich die Schnittstelle zu ihr wurde spezifiziert. Hierfur wurde das Delivery Multimedia Integration Framework (DMIF) eingefuhrt, welches spater ausfuhrlicher beschrieben werden soll.

Der zweite Teil besteht hauptsachlich aus einem Demultiplexer, der den ankommenden Datenstrom in elementare Datenstrome (Elementary Streams) zerlegt. Der Szenengraph wird hierbei ebenfalls durch einen elementaren Datenstrom reprasentiert. In der Synchronisationsschicht werden die einzelnen Objekte synchronisiert und mit Zeitstempeln (timestamps) versehen. Hierbei werden auch eventuelle Fehler in der Ubertragung erkannt und korrigiert. In der Decompression Layer werden die einzelnen elementaren Datenstrome an den entsprechenden datentypabhangigen Decoder weitergeleitet und decodiert. Die Szene kann nun zusammengestellt, gerendert und dargestellt werden.

2.4 Part: Systems

Die MPEG-4 Systems konnen als eine Art Toolbox zur Beschreibung der Beziehungen zwischen den Media Objects, den Objekten einer Szene, gesehen werden. Dabei wird dieses Verhaltnis auf zwei Ebenen beschrieben. Einmal auf Ebene des Binary Format for Scenes und zusatzlich auf der Ebene der Object Descriptors. Beide Ebenen sollen nachfolgend kurz erlautert werden. Zusatzlich wird auf das MPEG-4-Dateiformat eingegangen.

2.4.1 Binary Format for Scenes

Mit der Entwicklung des MPEG-4-Standards wurde ein Tool zur Beschreibung von Szeneninhalten gesucht, welches einzelne Audio- bzw. Video-Streams, Updates der Szenen und eine starke Kompression fur effizientes Streaming unterstutzt. Zum Entwicklungszeitpunkt 1997 war dies keinem bestehenden Tool moglich, lediglich VRML war vom Ansatz her vielversprechend. Hauptanforderungen waren Kompositionsmoglichkeiten fur 2D- und 3D-Objekte in 2- oder 3-dimensional em Raum, dynamische Re-Komposition der Szene und Interaktionsmoglichkeiten. So entwickelte die MPEG, ausgehend von VRML97 als Basis, eine binare Sprache fur die Szenenbeschreibung in MPEG-4, dass Binary Format For Scenes (BIFS). BIFS ubernimmt dabei alle Features von VRML wie z.B. die Struktur des Szenegraphen und das komplette 3D-Verhalten. Aufgrund der gehobenen Anforderungen erweitert BIFS die VRML um spezielle Inhalte, wie etwa die Moglichkeit 2D-Inhalte einzubeziehen, Daten-Kompression und Protokolle fur einfache Szenenmodifikationen [vgl. Bartels2003].

Durch BIFS konnen nun, im Gegensatz zu VRML, 2D-Inhalte in eine Szene eingefugt werden, es besteht die Moglichkeit, in einem 3D-Koordinatensystem ein 2D- Koordinatensystem darzustellen und umgekehrt. Eine Szene kann somit 2D- und 3D-Objekte gleichzeitig enthalten, wodurch sich komplett neue Moglichkeiten fur interaktive Inhalte ergeben. Dabei konnen 2D- und 3D-Objekte beliebig uberlagert werden und sogar ganze Szenen auf beliebige Korper texturiert werden. Gleichzeitig ist durch sog. Update-Commands die Anderung einer Szene moglich und somit der wesentliche Grundstein fur User-Interaktion gelegt.

BIFS fuhrt zusatzlich 3 Protokollarten ein [vgl. Signes]:

- BIFS Scene Compression
- BIFS Command und
- BIFS Anim

Scene Compression bedeutet hierbei, dass im Gegensatz zu VRML, welches im Textformat (ASCII) gespeichert und ubertragen wird, BIFS binar kodiert ist. Somit sind BIFS Szenenbeschreibungen ca. 8-15mal kleiner als VRML Szenen, wodurch sich ein wesentlich verbessertes Streamingverhalten ergibt, vor allem bei Netzverbindungen mit niedrigeren Bandbreiten. Diese hohe Kompression ist moglich durch eine verlustfreie Entropie- Kodierung, jedoch sind dabei Kontextabhangigkeiten zu beachten, d.h. die Zusammenhange zwischen den Knoten einer Szene und deren Feldern werden ausgenutzt. Dabei wird davon ausgegangen, dass auf einen bestimmten Knoten auch wieder nur bestimmte andere Knoten in der Hierarchie folgen durfen. Je nachdem wie ein Knoten nun eingesetzt werden kann, bekommt er eine Identifikationsnummer zugewiesen und wird mit der geringst moglichen Anzahl an Bits fur diesen Knotentyp kodiert.

BIFS-Commands und BIFS-Anim sind zur Manipulation der Szene notwendig und spiel en somit eine entscheidende Rolle bei der Umsetzung von Interaktivitat. Aus diesem Grund sollen diese zwei Protokolle in Kapitel 3.2 naher erlautert werden.

Mit Einfuhrung der Version 2 des MPEG-4-Standards wurde auch eine verbesserte BIFS- Version eingefuhrt: Extended BIFS. Diese Version wurde um zusatzliche Inhalte erweitert, welche nachfolgend kurz genannt sein sollen:

1. Server-Interaktion - einfuhren eines Ruckkanals, um mit dem Server zu interagieren
2. Erweiterte Audiofunktionalitat, z.B. Mixen von Quellen, Audioeffekte
3. Einfuhrung von Prototypen fur Knoten, welche aus VRML ursprunglich nicht ubernommen wurden und
4. MPEG-J - Einfuhrung von Java-API’s fur erweiterte Interaktivitat

Da BIFS ein Binarformat darstellt, wird zur Ubersetzung ein Compiler benotigt. Die Erstellung der Szene geschieht auf Textbasis, das Textformat kann dabei unterschiedlich sein. Als Beispiel sein hier das wohl bekannteste Format XMT-A und das bt-Format genannt. Bei XMT-A handelt es sich um die offizielle XML low-level MPEG-4-Szenenbeschreibungs- sprache, standardisiert durch die MPEG. Das Format „bt“ steht fur BIFS-Text und orientiert sich sehr eng an VRML und der Struktur der originalen VRML (.wrl-) Dateien. „bt“ bietet somit eine Alternative fur Autoren, die sich nicht mit XML beschaftigen wollen. Da diese Formate nur einen geringen Anteil an der eigentlichen Funktion von BIFS haben, soll die Betrachtung an dieser Stelle nicht weiter ausgefuhrt und der interessierte Leser hiermit an [Feuvre u.a. 2003] verwiesen werden.

2.4.2 Object Descriptors

Die Object Descriptors dienen der Identifikation aller zu einem Objekt gehorigen Elementarstrome und der Beschreibung der Zusammenhange zwischen diesen Stromen. Diese Zusammenhange sind z.B. bei einer Videokonferenz notig, um die Audio- und Video-Streams der teilnehmenden Partner korrekt zu behandeln. Zusatzlich konnen sie weitere

Informationen enthalten, z.B. die URL der beteiligten Streams, notwendige Eigenschaften des Decoders, um diesen Stream abzuspielen oder Urheberrechtsinformationen.

2.4.3 MPEG-4 File Format

Vor der Entwicklung des MPEG-4-Standards hatte die MPEG kein explizites Dateiformat zur Representation der Medieninhalte, die Dateien waren jeweils auf die speziellen Anforderungen abgestimmt. Da in MPEG-4 kein Transport-Protokoll bevorzugt wird, wurde nach einem flexiblen Format gesucht, welches vor allem folgende Forderungen umsetzen sollte [vgl. Pereira u.a. 2003, S.253]:

- Speicherung von Metadaten zu den MedienObjekten
- den einfachen Datenaustausch von Szenenbeschreibungen
- die Bearbeitung und Presentation der Medieninhalte und
- die Verbreitung der Daten uber Dateien, Netzwerke oder Broadcast

Somit wurde das MP4-Format entwickelt. Dabei ist dieses Format unabhengig von bestimmten Ubertragungsprotokollen und bietet trotzdem effiziente Unterstutzung der Datenubertragung allgemein. Als Grundlage des MP4-Formates wurde das QuickTime®- Format von Apple ausgewehlt, da es bereits einige grundlegende Anforderungen erfullte.

Die Daten in einer MP4-Datei sind in sog. Atomen organisiert, welche einen Container mit definiertem Typ und bestimmter Lenge darstellen. Es existieren drei Arten von sog. Top- Level-Atomen:

- moov, enthelt alle Metadaten der Datei
- mdat, beinhaltet die Mediendaten selbst in einem „media data atom“
- free oder skip, entspricht einem Freiraum innerhalb der Datei

Daneben kann jedes Atom wiederum selbst ein Atom enthalten. Die Datenstrome einer MPEG-4-Szene werden innerhalb MP4 als „tracks“ bezeichnet. Dabei stellt jeder track eine Sequenz von Audio-, Video-, BIFS- oder Object Descriptor-„samples“ dar. Der Aufbau soll in Abb. 2.4-1 verdeutlicht werden.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.4-1 Aufbau einer MP4-Datei [Koenen2002, Kap. 10.9]

2.5 Part: Visual

Der Teil „Visual“ des MPEG-4-Standards umfasst eine Vielzahl von Funktionen, die es erlauben, Video-Objekte effizient zu kodieren. Da in MPEG-4 zwischen naturlichen und synthetischen Objekten unterschieden wird, sollen diese beiden Objektarten getrennt betrachtet werden. Dabei wird die Betrachtung auf grundlegende Mechanismen beschrankt.

2.5.1 Naturliche Video-Objekte

Ein naturliches Video-Objekt wird durch drei Informationen beschrieben, die Form (shape), die Textur (texture) und die Bewegung (motion) des Objektes. Die Abhangigkeiten zwischen diesen Informationen werden dazu genutzt, die Objekte optimal zu kodieren. Dadurch ist es moglich, die Objekte einzeln mit dem effektivsten Komprimierungsverfahren in unterschiedlicher Qualitat zu kodieren und die Objekte in sich skalierbar zu machen. Nach der Kodierung werden die einzelnen Informationen durch einen Multiplexer zu einem Elementarstrom (ein Objekt) zusammengefasst und konnen ubertragen werden.

Fur die Komprimierung der Video-Objekte konnen mehrere Verfahren zum Einsatz kommen.

Shape Coding

Beim Shape coding wird ein Video-Objekt nach seiner Form beschrieben. Dazu wird eine Matrix uber das Objekt gelegt und fur jedes einzelne Feld angegeben, ob es zum Objekt gehort oder nicht.

Man unterscheidet beim Shape coding zwei Arten: das „Binary Shape Coding“ und das „Gray Scale Shape Coding“. Beim Binary Shape Coding konnen die Felder der Matrix den Wert 0 annehmen, falls das Feld nicht zum Objekt gehort, anderenfalls den Wert 255.

Das Gray Scale Shape Coding greift dieses Verfahren auf und erweitert es dahingehend, das die Felder der Matrix beliebige Werte zwischen 0 und 255 annehmen konnen um somit den Transparenzgrad eines Pixels zu beschreiben. 0 steht hierbei fur absolute Transparenz, 255 fur keine Transparenz.

Texture Coding

Die Komprimierung der Texturen in MPEG-4 basieren auf Verfahren, welche in MPEG-2 eingefuhrt wurden. Dazu gehoren eine diskrete Kosinustransformation, ein nachfolgender Quantisierungsprozess und eine Lauflangenkodierung. Fur weitere Informationen zu diesen Verfahren sei auf [Ebrahimi u.a. 2000] verwiesen.

Motion coding

Auch die Kodierung von Bewegungen basiert auf bekannten Algorithmen. Es wird das Motion-Compensation-Verfahren auf Video-Objekte angewendet. Dabei werden drei Arten von Video-Objekten unterschieden:

- Intra-Video-Objects - komplett durch Intra-Frame-Kodierung komprimiert
- Predicted-Video-Objects - in Abhangigkeit von fruheren Video-Objekten durch Motion Compensation kodiert
- Bidirectional Interpolated Video-Objects - in Abhangigkeit eines Video-Objektes aus der Vergangenheit und eines aus der Zukunft kodiert

Zusatzlich kann bei Panoramahintergrunden in der Szene das sog. „Sprite coding“ eingesetzt werden, dabei wird das Panorama (sprite) nur einmal ubertragen und danach nur noch die

Kameraposition geandert. Hierdurch sind wesentlich bessere Komprimierungsraten erreichbar, allerdings ist Bewegung im Hintergrund nun nicht mehr darstellbar.

2.5.2 Synthetische Video-Objekte

Neben der Kodierung naturlicher Video-Objekte spielt die Kodierung und Ubertragung synthetischer Video-Objekte eine entscheidende Rolle. Dabei existieren auch hier unterschiedliche Verfahren, welche zum besseren Verstandnis kurz dargestellt werden sollen.

Facial/Body Animation

Bei der Ubertragung synthetischer Video-Objekte spielt vor allem die Animation von Gesichtern und Korpern eine wichtige Rolle. Um die GroBe der benotigten Datenstrome zu reduzieren, wurden zwei Tools geschaffen, durch die eine Beschreibung von Gesichtsausdrucken und Korperbewegungen moglich ist. Dabei werden Gesicht und Korper in jeweils neutral em Ausdruck ubertragen und zusatzlich Parameter, welche die jeweiligen Anderungen beschreiben. So gibt es z.B. bei der Facial Animation sog. Facial Definition Parameters die aus 84 Knotenpunkten bestehen und somit das Gesicht beschreiben. Durch Facial Animation Parameters kann ein Gesicht dann im Ablauf einer Szene verandert werden. Genauso gibt es Body Definition und Body Animation Parameters zur Darstellung/Animation des Korpers. Im Verlauf einer Szene werden dann nur noch diese Parameter mit geringer GroBe vom Server ubertragen und vom Client in der Szene geandert.

2D-Meshes

Ein 2D-Drahtgitter (mesh) dient zur Aufteilung einer 2D-Grafik in Polygone. Die Schnittpunkte der Polygone bezeichnet man als Knotenpunkte. Nun wird eine beliebige Textur oder sogar ein anderes Video-Objekt uber diese Polygone gelegt und an den Knotenpunkten „festgemacht“. Durch Verschiebung der Knotenpunkte kann das Drahtgitter nun animiert werden, die Texturen bewegen sich dabei mit und der Eindruck einer Bewegung entsteht. Dieser Vorgang heiBt „Parametric Mapping“.

2.6 Part: Audio

Nachfolgend soll, in Anlehnung an [Pereira u.a. 2003], ein kurzer Uberblick uber die Moglichkeiten der Audiokomprimierung in MPEG-4 gegeben werden. Da man naturliche und synthetische Audio-Objekte unterscheiden kann, lassen sich auch die Komprimierungsverfahren in dieser Art unterscheiden.

2.6.1 Komprimierung naturlicher Audio-Objekte

Bei naturlichen Audio-Objekten unterscheidet man nochmals in Sprachkodierung und reine Musikkodierung.

Die Sprachkodierung, welche unter Betrachtung des Einsatzgebietes von MPEG-4 vor allem fur Internet-Telefonie oder Interaktives Fernsehen bedeutungsvoll ist, basiert auf zwei Standards, welche speziell fur Sprachkodierung ausgelegt sind:

- CELP (Code Excited Linear Prediction) und
- HVXC (Harmonic Vector eXcitation Code)

Das Frequenzspektrum liegt zwischen 8 und 16 kHz, Datenstrome von 2-24 kBit/s sind moglich. Durch den niedrigen Frequenzbereich sind die Ergebnisse der Musikkodierung mittels CELP und HVCX unbefriedigend, deshalb werden hierfur andere Standards genutzt:

- TwinVQ (Transform-domain Weighted Interleave Vector Quantization) und

- MPEG-2 AAC (Advanced Audio Coding)

2.6.2 Komprimierung synthetischer Audio-Objekte

In MPEG-4 werden im Bereich der synthetischen Audio-Objekte drei Tools definiert, welche nachfolgend kurz erlautert werden sollen.

Text to speech

„Text to speech“ ist ein Tool, das einen Text mittels einer computergenerierten Sprache vorliest. Da nur die Schnittstelle definiert ist, kann z.B. auch ein Dialekt wiedergegeben werden oder die Sprache mit Lippebewegungen synchronisiert werden.

Musical Instrument Digital Interface

Der „Musical Instrument Digital Interface-Standard“ (kurz: Midi) wurde vollstandig in MPEG-4 integriert. Dabei werden nur Informationen uber Instrument, Ton, Lautstarke und Dauer des Tons ubertragen und von einem Synthesizer auf Seite des Client wiedergegeben. Der Vorteil dieses Verfahrens liegt in der geringen GroBe der ubertragenen Daten.

Structured Audio Orchestra Language

Als eine Weiterentwicklung des Midi-Standards kann der „Structured Audio Orchestra- Standard (SAOL) angesehen werden. Die geringe DatengroBe von Midi wurde aufgegriffen und der entscheidende Nachteil, nur festgelegte Instrumente abspielen zu konnen, wurde beseitigt. In SAOL ist es nun moglich, Informationen uber neue Instrumente und ihren Klang im Datenstrom mit zu ubertragen.

2.7 Part: Delivery Multimedia Integration Framework (DMIF)

Das Delivery Multimedia Integration Framework (DMIF) ist einerseits ein sitzungsbasiertes Protokoll, welches fur die Datenubertragung in heterogenen Umgebungen verwendet werden kann. Andererseits stellt das DMIF auch ein Framework zur Verfugung. Dazu definiert das DMIF zwei Schnittstellen [vgl. Koenen2002, Kap.10.2]: das DMIF-Application Interface (DAI) und das DMIF-Network Interface (DNI). Dabei stellt das DAI eine Schnittstelle ziwschen Applikation und Delivery Layer dar, welche einen einheitlichen Zugriff auf Speicher- oder Transportfunktionalitaten bietet, egal ob die Daten uber Dateien oder Streaming in einem Netzwerk verteilt werden. Das DNI ermoglicht die Interoperabilitat zwischen verschiedenen DMIF-Netzen.

Die Funktionalitaten des DMIF werden uber das DAI angesprochen und in Protokoll- Nachrichten ubersetzt, deren Typ abhangig vom verwendeten Netzwerk ist. Somit muss sich der Autor keine Gedanken uber das „Wie“ der Datenubertragung in verschiedenen Anwendungs-Szenarien machen, denn DMIF integriert die drei Haupttechnologien Broadcast, interaktive Netzwerk-Technologie und die Disk-Technologie (siehe Abb. 2.7-1).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.7-1 Integration der drei Haupttechnologien [Koenen2002, Kap. 10.2]

Prinzipiell ist DMIF mit dem File Transfer Protocoll (FTP) vergleichbar, nur dass es keine Dateien ubertragt, sondern nur Verweise (pointer) dorthin, wo die Daten zu finden sind.

2.8 Profiles

Ahnlich wie in MPEG-2 stehen in MPEG-4 sog. Profiles zur Verfugung [vgl. Koenen2002, Kap. 5]. Sie limitieren die Tools, auf die ein Encoder Zugriff hat, um eine optimale Qualitat fur bestimmte Anwendungsgebiete zu erzielen und die Komplexitat zu reduzieren. Eine noch feinere Abstufung kann durch „Levels“ innerhalb der Profiles realisiert werden, ein Zugriff geschieht dann nach dem Muster „Profile@Level“. Dabei bestimmt das Profile die Funktionalitat und das Level die Komplexitat der Funktionen. Die Profiles aus MPEG-2 wurden vollstandig ubernommen und fur MPEG-4 an die Darstellung naturlicher und synthetischer Objekte angepasst.

Profiles sind z.B. fur Visual, Audio, Scene Description oder Object Descriptors vorhanden. Fur eine ausfuhrlichere Auflistung der vorhandenen Profile sei hier auf [Pereira u.a. 2002, S.592 ff] verwiesen.

[...]

Ende der Leseprobe aus 30 Seiten

Details

Titel
MPEG-4 - Möglichkeiten zur Interaktion
Hochschule
Technische Universität Ilmenau  (Fakultät für Informatik und Automatisierung)
Note
1,3
Autor
Jahr
2004
Seiten
30
Katalognummer
V23650
ISBN (eBook)
9783638267304
Dateigröße
1155 KB
Sprache
Deutsch
Anmerkungen
Im Rahmen dieser Hauptseminararbeit soll ein grundlegender Überblick über den MPEG-4-Standard und seine Möglichkeiten, die Benutzer-Interaktion zu realisieren, gegeben werden. Dazu wird die Spezifikation des Standards betrachtet, es werden verwendete Konzepte und einbezogene Standards, wie VRML und BIFS aufgezeigt. Dichter Text - einzeiliger Zeilenabstand.
Schlagworte
MPEG-4, Möglichkeiten, Interaktion
Arbeit zitieren
Christoph Andreas Schlütter (Autor:in), 2004, MPEG-4 - Möglichkeiten zur Interaktion, München, GRIN Verlag, https://www.grin.com/document/23650

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: MPEG-4 - Möglichkeiten zur Interaktion



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden