Lade Inhalt...

Ansatz für eine Migration zu Voice over IP (VoIP). Cisco Systems AVVID (R)-Lösung

Diplomarbeit 2002 137 Seiten

Informatik - Technische Informatik

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einleitung
1.1 Problemstellung

2 Grundlagen digitaler Sprachkommunikation
2.1 Sprachdigitalisierung
2.1.1 Signalform-Codierverfahren
2.1.1.1 PCM - Pulsecodemodulation
2.1.1.2 Differenz-Pulsecodemodulation - DPCM
2.1.1.3 Adaptive Pulscodemodulation - APCM
2.1.1.4 Adaptive Differenz-Pulscodemodulation - ADPCM
2.1.2 Transformationscodierverfahren
2.1.3 Vocoder-Verfahren
2.1.4 Hybridcodierverfahren
2.2 Standards der Sprachcodierung
2.2.1 Bewertung der Sprachcodecs
2.3 Sprachdetektion

3 Voice over IP
3.1 Definition
3.2 VoIP-Komponenten
3.2.1 Endgeräte/Terminals
3.2.2 Gateway (GW)
3.2.3 Gatekeeper (GK)
3.2.4 Multipoint Control Unit MCU
3.2.5 Media Gateway Controller - MGC
3.3 Protokolle und Standards
3.3.1 H.323
3.3.1.1 H.323-Protokollsuite
3.3.1.2 RAS-Signalisierung (H.225.0)
3.3.1.3 Anruf-Kontroll-Signalisierung (H.225.0)
3.3.1.4 Medien-Kontrolle H.245
3.3.1.5 Medien-Transport RTP/RTCP .
3.3.1.6 H.323-Anrufflüsse
3.3.2 SIP
3.3.2.1 SIP-Komponenten
3.3.2.2 Adressierung
3.3.2.3 SIP-Meldungen
3.3.2.4 Arbeitsweise
3.3.3 Gateway-Kontroll-Protokolle
3.4 Sprachqualität und QoS
3.4.1 Definition Sprachqualität
3.4.1.1 Klangreinheit
3.4.1.2 Ende-zu-Ende-Verzögerung
3.4.1.3 Echo
3.4.2 Messen der Sprachqualität
3.4.3 Quality of Service
3.5 Wirtschaftlichkeitsbetrachtung
3.6 Vorteile/Nachteile VoIP

4 Migrationskonzept für die Fachhochschule Schmalkalden
4.1 Analyse
4.1.1 Ziele und Rahmenbedingungen der Migration .
4.1.2 Betrachtung der einzusetzenden AVVID-Architektur
4.1.2.1 AVVID
4.1.2.2 Allgemeine Designmodelle
4.1.2.2.1 Modell mit einem einzigen Standort
4.1.2.2.2 Mehrere Standorte mit unabhängiger Anrufverarbeitung .
4.1.2.2.3 Multisite-IP-WAN mit verteilter Anrufverarbeitung
4.1.2.2.4 Multisite-IP-WAN mit zentraler Anrufverarbeitung
4.1.2.3 Allgemeine Migrationsmodelle
4.1.2.4 Anforderungen für ein Converged Network
4.1.3 Analyse der bestehenden Infrastrukturen (Gegebenheiten)
4.1.3.1 Allgemeine Organisationsstruktur
4.1.3.2 Bestehendes Datennetz
4.1.3.2.1 Passiv-Strukturen (Verkabelung)
4.1.3.2.2 Aktiv-Komponenten
4.1.3.2.3 Auslastung des Datennetzes .
4.1.3.2.4 Routing
4.1.3.2.5 IP-Adressen
4.1.3.3 Bestehendes Telefonnetz
4.1.3.3.1 Netzstruktur
4.1.3.3.2 Hardware
4.1.3.3.3 Leistungsmerkmale
4.1.3.3.4 Nummernplan
4.1.3.3.5 Quantitative Betrachtungen
4.1.4 Auswertung der Analyse
4.2 Design
4.2.1 Wahl des Designmodells
4.2.2 Netzwerkinfrastruktur
4.2.3 Endgeräte
4.2.4 Inline Power
4.2.5 Adressierung
4.2.6 QoS
4.2.7 Cisco CallManager Cluster
4.2.8 Gateways
4.2.9 Wählplan
4.2.10 VoIP-Billing
4.2.11 Voice Messaging
4.2.12 Netzwerkmanagement
4.2.13 Pilotphase
4.2.14 Integration in bestehende TK-Strukturen .
4.2.15 Sukzessive Erweiterungen
4.2.16 Ersetzen der TK-Strukturen
4.3 Implementierung
4.3.1 Ziel der Implementierung
4.3.2 Vorgehensweise
4.3.3 Probleme und Lösungen
4.3.4 Ergebnis, Bewertung

5 Zusammenfassung

A Grundlagen digitaler Sprachkommunikation
A.1 PCM
A.2 Standards der Sprachcodierung
A.3 Sprachdetektion

B Voice over IP
B.1 VoIP-Komponenten
B.2 Standards und Protokolle

C Migrationskonzept für die Fachhochschule Schmalkalden
C.1 AVVID
C.1.1 Leistungsmerkmale des CallManagers

Literaturverzeichnis

Glossar

Index

Abbildungsverzeichnis

2.1 Methoden der Bitratenreduktion

2.2 Prinzip der PCM

2.3 Prinzip der DPCM

2.4 Prinzip der APCM

2.5 Prinzip der ADPCM

2.6 Prinzip des Analysators beim CELP-Verfahren

3.1 Elemente der H.323-Empfehlung

3.2 Terminal entsprechend H.323

3.3 Gateway entsprechend H.323

3.4 H.323-Zone

3.5 Mögliche Positionen des MC und des MP im H.323-System

3.6 H.323-Protokollstack

3.7 Gatekeeper Auto Discovery

3.8 Endpunkt-Registrierung beim Gatekeeper

3.9 Anrufsignalisierung im H.323-Netzwerk

3.10 H.323-Anruffluss zur Einrichtung eines Anrufes

3.11 Prinzipielle SIP-Architektur

3.12 Typischer SIP-Protokollstack des User Agent

3.13 Sprachqualität

4.1 Allgemeines AVVID-Modell

4.2 Integration der AVVID-Architektur in bestehende TK-Strukturen .

4.3 Allgemeines Cisco IP-Telefonie Design-Modell

4.4 Multisite-IP-WAN mit verteilter Anrufverarbeitung

4.5 Multisite-IP-WAN mit zentraler Anrufverarbeitung

4.6 Migration

4.7 Allgemeine Migrationsmodelle

4.8 Campusübersicht der FHS

4.9 Primäre LWL-Linkstruktur des FHS-Campus

4.10 Datennetzwerk Infrastruktur Switching

4.11 CPU-Auslastung der Switching-Elemente

4.12 Link-Auslastung Backboneswitch B-A

4.13 Link-Auslastung Backboneswitches B-F

4.14 Link-Auslastung Backboneswitches B-H

4.15 Routing-Strukturen

4.16 Passivstruktur des Telefonnetzes

4.17 Anzahl der Teilnehmer des Telefonnetzes

4.18 Designmodell für die FHS

4.19 Zu ersetzende Switching-Elemente

4.20 Aufzurüstende Switch-Module

4.21 Einzurichtende Queues auf den VoIP-Access-Switches

4.22 Design CCM-Cluster

4.23 VoIP-Gateways

4.24 Gatewaymodule für den Catalyst 6000

4.25 Voice-Messaging System

A.1 A-Law Kennlinie

A.2 µ-Law Kennlinie

A.3 Unterdrückung von Störungen durch den Sprachdetektor

B.1 Hardwarestruktur eines IP-Telefons

B.2 Hardwarestruktur eines IP-Telefonie-Gateways

B.3 Funktionsweise des SIP-Redirect-Modus

B.4 Funktionsweise des SIP-Proxy-Modus

Tabellenverzeichnis

3.1 Standards und Protokolle der H.323-Empfehlung

A.1 PCM-Codierung

A.2 Standards der Sprachcodierung

Einleitung

Die Entwicklungen der letzten Jahre zeigen, dass die lange bestehende feste Aufteilung auf dem Gebiet der Telekommunikationsbranche schon bald so nicht mehr existieren wird. Netzwerkhersteller erhoffen sich neue Marktanteile auf dem jungen VoIP-Markt und arbeiten energisch an Lösungen zum Thema. So ermöglichen technische Weiterentwicklungen auf dem Gebiet der Sprachcodierung und deren Anwendung auf Hardwarebasis von DSPs revolutionäre Veränderungen in der Sprachübertragung. Weiterentwicklungen in der Netzwerktechnik, wie das Switching, QoS -Mechanismen auf Schicht 2 und 3 sowie das ständige Anwachsen der Übertragungsraten tragen ihren Teil zur Veränderung in der Telekommunikationstechnik bei. Da die IP -Telefonie als eine der Schlüsseltechnologien der Sprachkommunikation gilt, scheint die Auseinandersetzung mit diesem Thema unumgänglich.

1.1 Problemstellung

„Ansatz für eine Migration zu Voice over IP unter Berücksichtigung der Cisco AVVID-Lösung.”

Für die Fachhochschule Schmalkalden ist ein Ansatz für eine Migration zu Voice over IP unter Berück- sichtigung der Cisco AVVID -Lösung zu entwickeln. AVVID - Architecture for Voice Video and Integra- ted Data, eine Initiative der Firma Cisco zur Realisierung von Converged Networks in Unternehmen, soll die Grundlage für das zu entwickelnde Migrationskonzept bilden. Migration wird hier als Übergang von einem System auf ein anderes verstanden. Das zu entwickelnde Migrationskonzept ist als Anleitung zur Implementierung eines VoIP-Systems an der Fachhochschule Schmalkalden anzusehen und zielt auf das Ersetzen der bestehenden Sprachkommunikationsstrukturen. Das bestehende Datennetz wird hierzu in der Planung in ein Converged Network überführt. Die Betrachtungen sind dabei eng auf netzwerktechni- sche Aspekte begrenzt. Für die Entwicklung des Migrationsmodells wird die Cisco AVVID-Architektur herangezogen und generelle Vorschläge zum Netzwerkdesign berücksichtigt. Von Erläuterungen zu all- gemeinen Migrationsmodellen wird abgesehen, da sie für das für die FHS zu entwickelnde Modell keine Aussagekraft besitzen. Hierbei beschränkt sich die Arbeit auf die Betrachtung der Modelle der Cisco AV- VID-Architektur, da mit der Vorgabe des Herstellers Cisco nur die Cisco-spezifischen Modelle relevant sind.

2 Grundlagen digitaler Sprachkommunikation

VoIP wurde erst durch Weiterentwicklungen auf dem Gebiet der Sprachcodierung möglich. Für den Einsatz von VoIP ist ein Überblick über die verschiedene Sprachcodierverfahren wichtig, da oft eine Entscheidung über den Einsatz einer Codierung getroffen werden muss.

2.1 Sprachdigitalisierung

Obwohl die menschliche Sprachkommunikation auf analogen Signalen basiert, ist eine Übertragung der Sprachsignale in analoger Form nicht zwingend erforderlich. Gerade die analoge Übertragung bringt einige Schwierigkeiten mit sich. So hat z.B. die Signalverstärkung in analogen Netzen auch eine Verstärkung von Leitungsrauschen bzw. Störsignalen zur Folge, was unter Umständen zu unbrauchbaren Verbindungen führen kann. Des Weiteren ist die analoge Sprachübertragung äußerst ineffizient. Mit der Möglichkeit Sprache zu digitalisieren, erkannte man auch die Vorteile digitaler Sprachübertragung. Neben der einfacheren Eliminierung von Störsignalen und einer hohen Effizienz hat die Übertragung von Sprache in binärer Form noch weitere Vorteile [Fot01]:

- eine hohe Störfestigkeit,
- geringere Anforderungen an den Frequenzgang von Übertragungsleitungen,
- eine leichteres Erkennen und Korrigieren von Fehlern,
- schnellere Verarbeitung,
- einfache Speicherung und
-die Möglichkeit der Zeitteilung in der vermittelten Informationsübertragung (Time Division Multiplexing)1.

Weiterhin stellt die digitale Signalform eine Grundvoraussetzung für dienstintegrierte Kommunikations- netze dar. Auch die IP-Telefonie setzt die digitale Signalform voraus. Der größte Teil der Sprachübertra- gung erfolgt heute in digitaler Form. Dazu wird im Telefonnetz die Pulsecodemodulation (PCM) zum Digitalisieren von Sprache eingesetzt. Gegenüber einer Sprachübertragung im Telefonnetz strebt man in Datenkommunikationsnetzen eine Bitratenreduktion an, um die erforderlichen Übertragungs- und Speicherkapazitäten zu minimieren. Bei gleichbleibender Sprachqualität lassen sich zwei grundlegende Methoden der Bitratenreduktion unterscheiden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Methoden der Bitratenreduktion nach [Fot01]

Die erste Methode besteht darin, komplexere Sprachcodierverfahren einzusetzen. Diese Verfahren werden auch als Audio-CODECs bezeichnet, wobei „CODEC” für COder/DECoder steht. Die zweite Methode zur Bitratenreduktion beruht auf der in klassischen Telefonnetzen nicht genutzten Möglichkeit, die Übertragung in Abhängigkeit von der Sprachaktivität ein- und auszuschalten, um so Übertragungskapazität einzusparen. Die aktivitätsabhängige Sprachübertragung wird im Zusammenhang mit der Sprachdetektion im Abschnitt 2.3 näher erläutert.2

2.1.1 Signalform-Codierverfahren

Verfahren zur Codierung der Signalform sind die gebräuchlichsten Sprachcodierverfahren. Bei diesen Verfahren wird der zeitliche Verlauf der Sprache im vorgegebenen Frequenz- und Amplitudenbereich codiert. Damit bleibt, im Gegensatz zu den Analyse/Synthese-Verfahren, die Natürlichkeit der menschlichen Sprache erhalten.

2.1.1.1 PCM - Pulsecodemodulation

Die PCM ist das am weitesten verbreitete Verfahren der Analog/Digital-Wandlung (A/D-Wandlung) von Sprachsignalen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.2: Prinzip der PCM

Abbildung 2.2 zeigt die prinzipiellen Komponenten der PCM. Ein analoges Signal wird zunächst durch einen Bandpass auf das in der Fernsprechtechnik benutzte Frequenzband fm von 300 Hz bis 3400 Hz begrenzt. Im nächsten Schritt erfolgt die Entnahme von Amplitudenproben (samples) durch eine zyklische Abtastung des Analogsignals mit einer Abtastfrequenz von fA = 8000 Hz3, die auch in der Empfehlung G.711 [G.711] von der ITU-T4 vorgeschlagen wird. Die Abtastfrequenz von 8000 Hz basiert auf dem Abtasttheorem von Nyquist (Nyquist 1928, Kotelnikov 1933, Shannon 1949), welches die Mindestfrequenz definiert, mit der ein analoges Signal abzutasten ist, um die Rückgewinnung des ursprünglichen Signals ohne Informationsverlust zu gewährleisten: Die Abtastfrequenz fA muss mindestens das Doppelte der maximalen Modulationsfrequenz fmmax betragen.

Abtasttheorem

Abbildung in dieser Leseprobe nicht enthalten

Mit der Abtastfrequenz von 8000 Hz ist die Bedingung des Abtasttheorems erfüllt. Das Verfahren der impulsweisen Amplitudenwertübertragung bezeichnet man als Puls-Amplituden-Modulation (PAM) . Dieses PAM-Signal ist immer noch eine analoge Form des Fernsprechsignals. Die eigentliche A/D- Wandlung erfolgt im nächsten Schritt, der Quantisierung. Hier wird jedem einzelnen PAM-Signal ein bi- näres Codewort zugeordnet, wobei jedes Codewort genau einem Wertebereich entspricht. Die Quantisie- rung erfolgt zunächst linear mit 8192 Quantisierungsstufen (Wertebereiche), was einer 13-Bit-Codierung entspricht. Im nächsten Schritt, der PCM-Codierung (Tabelle A.1, Anhang A), werden die 13-Bit-Werte der linearen Quantisierung auf 8-Bit-Werte komprimiert, so dass sie einer nichtlinearen Quantisierung entsprechen. Eine nichtlineare Quantisierung ist notwendig, um den relativen Quantisierungsfehler an- nähernd konstant zu halten. Die Komprimierung erfolgt gemäß 13-Segment-Kompressorkennlinie der ITU-T Empfehlung G.711, welche in Abbildung A.1 des Anhangs A dargestellt ist. In der ITU-T Emp- fehlung G.711 sind zwei Kennlinien definiert, die 13-Segment- bzw. A-law- und die 15-Segment- bzw. µ-law-Kennlinie. Außer in Nordamerika und Japan, wo die µ-law-Kennlinie zum Einsatz kommt, benutzt man weltweit die A-law-Kennlinie. Im letzten Schritt der PCM erfolgt eine parallel/seriell-Umsetzung des Signals. Die Rückgewinnung des analogen Signals beim Empfänger geschieht in umgekehrter Reihenfolge. Bei der Demodulation kommt ein Sample-and-Hold Verstärker (SH-Vr) zum Einsatz. Das Ausgangssignal des Demodulators wird durch einen Tiefpass gefiltert, so dass am Ausgang ein Analogsignal entsteht, welches annähernd dem Analogsignal des Senders entspricht.

Die 8-Bit-Codewörter mehrerer Fernsprechsignale lassen sich in zyklischer Folge nacheinander übertra- gen: Zwischen zwei Codewörtern eines Fernsprechsignals werden Codewörter anderer Fernsprechsigna- le in zeitlicher Folge aneinandergereiht. So entsteht ein PCM-Zeitmultiplexsignal. Diesen Vorgang nennt man Multiplexen (Time Division Multiplexing). Um Sprache in digitaler Form effizient zu übertragen, bzw. Übertragungsbandbreiten optimal auszunutzen, ist eine Komprimierung des Sprachsignals ange- bracht. Bei der PCM kommt eine Komprimierung von 13 Bit (A-law) bzw. 14 Bit (µ-law) auf 8 Bit zum Einsatz, was bei einer Abtastfrequenz von fA = 8000 Hz einer Bitrate von 64 kbit/s entspricht. Bei dieser Art der Komprimierung würde eine Sprachverbindung 64 kbit/s für jede Verbindungsrichtung belegen. Für die Übertragung von Sprache in packetvermittelnden Netzen wären jedoch geringere Bitraten von Vorteil.

2.1.1.2 Differenz-Pulsecodemodulation - DPCM

Die DPCM ist ein Verfahren, bei dem nur die Differenz zwischen abgetastetem Signal und seinem geschätzten Wert quantisiert und codiert wird, siehe auch [G.701].

Abbildung 2.3: Prinzip der DPCM

Abbildung in dieser Leseprobe nicht enthalten

Dieses Verfahren basiert auf der hohen Korrelation, die zwischen angrenzenden Sprachabtastwerten be- steht. Aufeinander folgende Abtastwerte ändern sich in der Regel nicht plötzlich, sondern nur allmäh- lich. Daraus resultiert, dass die Differenz zwischen den Abtastwerten einen geringeren Dynamikbereich aufweist als das Sprachsignal. Folglich kann bei einer Codierung der Differenz aus dem aktuellen und dem vorhergesagten Abtastwert der Quantisierer so eingestellt werden, dass er einen kleineren Quanti- sierungsfehler erzeugt als eine direkte Quantisierung der Abtastwerte. Die Vorhersage (Prädiktion) der Abtastwerte erfolgt linear mit Hilfe vorangegangener Abtastwerte. Dieses Verfahren erreicht durch den niedrigeren Quantisierungsfehler eine Verbesserung des Störabstandes5 um etwa 6 dB gegenüber der PCM oder bei gleichem Störabstand eine Einsparung von einem Bit pro Abtastung, was einer Bitrate von 56 kbit/s entspricht.

2.1.1.3 Adaptive Pulscodemodulation - APCM

Die APCM profitiert ebenfalls von Korrelation zwischen den Abtastwerten des Sprachsignals. Mit Hilfe vorangegangener Abtastwerte wird die Schrittgröße6 des Quantisierers dem momentanen Sprachsignal angepasst, was eine Verbesserung des Störabstandes um 5 dB gegenüber der nichtlinearen PCM zur Folge hat. Bei vorgegebenem Störabstand ist bei der APCM ebenfalls eine Einsparung von einem Bit pro Abtastung möglich. Eine 56 kbit/s-APCM erreicht die gleiche Qualität wie eine 64 kbit/s-PCM.

Abbildung 2.4: Prinzip der APCM

Abbildung in dieser Leseprobe nicht enthalten

2.1.1.4 Adaptive Differenz-Pulscodemodulation - ADPCM

Da die ADPCM als Kombination von DPCM und APCM anzusehen ist, nutzt auch sie die Korrelation von Sprachabtastwerten.

Abbildung 2.5: Prinzip der ADPCM

Abbildung in dieser Leseprobe nicht enthalten

Mit einer adaptiven und festen Prädiktion lässt sich gegenüber der PCM ein Störabstandgewinn von 11 dB erreichen. Um einen noch größeren Störabstand zu erzielen, muss auch der Prädiktor an die Varia- tionen des Sprachsignals angepasst werden. Der damit gegenüber der PCM erhaltene Störabstand liegt bei 14 bis 16 dB. Durch die Störabstandverbesserung von 14 dB erreicht eine 48 kbit/s-ADPCM ob- jektiv die gleiche Qualität wie eine 64 kbit/s-PCM. Subjektiv besteht bereits bei 32 kbit/s-ADPCM die PCM-Qualität.

2.1.2 Transformationscodierverfahren

Transformationscodierungen stellen eine Form der blockorientierten Codierung dar. Dazu werden abge- tastete Amplitudenwerte einer Transformation unterzogen und liegen anschließend als spektrale Kompo- nenten orthogonaler Funktionen vor, was einer Zerlegung des Signals in seine Frequenzbänder entspricht. Da sich die Information des ursprünglichen Signals auf wenige Komponenten des transformierten Sig- nals konzentriert, können die einzelnen Spektralanteile mit unterschiedlicher Genauigkeit codiert bzw. bei geringem Informationsgehalt ganz von der Weiterverarbeitung ausgeschlossen werden. Somit lassen sich mit einer adaptiven Transformationscodierung (ATC) Sprachsignale bei 16 kbit/s so codieren, dass subjektiv die Qualität einer 56 kbit/s-PCM erzielt wird. Bei diesem Verfahren mit 16-kbit/s-Codierung lässt sich ein um 6 dB besserer Störabstand erreichen, als mit einer 16-kbit/s-ADPCM. Praktische An- wendungen basieren auf der Fourier- und Walsh-Hadamard-Transformation [Fot01].7

2.1.3 Analyse/Synthese-Verfahren (Vocoder-Verfahren)

Vocoder-Verfahren sind Verfahren zur Sprachcodierung auf der Basis eines Sprachmodells, dessen Pa- rameter bestimmt, übertragen und zur Sprachrekonstruktion verwendet werden. Da sich diese Parameter wesentlich langsamer ändern als die ursprüngliche Signal-Zeit-Funktion, sind sie mit geringerer Fre- quenz abtastbar. Durch den Einsatz von synthetisierten Sprachsignalen auf der Empfängerseite geht trotz guter Silben- und Satzverständlichkeit die Natürlichkeit der Sprache verloren. Vocoder basieren in der Regel auf einer senderseitigen Analyse von Amplitude, Stimmhaftigkeit und Tonfrequenz (Grundfre- quenz stimmhafter Abschnitte) der Sprachsignale. Diese Parameter werden in digitalisierter Form zum Empfänger übertragen, der dann die Sprachrekonstruktion (Synthese) vornimmt. Die Klasse der leis- tungsfähigsten Vocoder ist unter der Bezeichnung LPC -Vocoder (Linear Predictive Coding) bekannt ge- worden. Sie nehmen, ausgehend von deren Kurzzeitstatistik, eine lineare prediktive Analyse der Sprach- signale vor. In der Regel arbeiten LPC-Vocoder mit Bitraten von 2,4 kbit/s. Aufgrund ihrer großen Zu- verlässigkeit und Genauigkeit werden sie beim Militär eingesetzt.

2.1.4 Hybridcodierverfahren

Die Hybridcodierung ist eine Kombination aus Signalformcodierung und Vocoder-Verfahren. Sie wird für Bitraten zwischen 5,3 und 15 kbit/s eingesetzt. Die meisten hybriden Codecs (Coder/Decoder) arbei- ten nach dem Analysis-by-Synthesis bzw. CELP -Verfahren Code Exited Linear Prediction(Code Exited Linear Prediction). Das CELP Verfahren beruht auf der Modellierung des Sprachsignals durch ein Syn- thesefilter und ein Anregungssignal, welches zur Übertragung vektorquantisert wird. Dabei wird das Anregungssignal des Synthesefilters so gewählt, dass das rekonstruierte Signal möglichst dem Original ähnelt. Anstelle eines Generatorsignals wie im Vocoder nutzt CELP für die Anregung Codebuchsignale, die mittels Vektorquantisierung des minimierten Vorhersagefehlers vom Analysator bestimmt werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.6: Prinzip des Analysators beim CELP-Verfahren

Die bekanntesten Hybridcodierverfahren sind im Abschnitt 2.2 aufgelistet. Das Vorzugsverfahren für die IP-Telefonie ist die von der ITU-T in der Empfehlung G.723.1 standardisierte Multi-Pulse Maximum

Likelihood Quantization (MP-MLQ) mit 6,3 kbit/s. Gegenüber Algebraic CELP (ACELP) weist MP- MLQ eine verbesserte Quantisierung auf. Anstelle einer einzigen Frequenz ermittelt MP-MLQ einen Satz von Impulsen, die den Frequenzinhalt der Sprachtraktanregung besser nachbilden. Auch in der Mo- biltelefonie kommt ein Hybridcodierverfahren zum Einsatz. GSM verwendet RPE-LPC (Regular Pulse Exited Linear Predictive Coder with Long Term Prediction) zur Sprachübertragung mit 13 kbit/s.

2.2 Standards der Sprachcodierung

Die ITU-T standardisiert unter anderem die PCM-, ADPCM-, CELP- und MP-MLQ-Codierschemata in den Empfehlungen der G-Reihe. Die am häufigsten verwendeten Sprachcodierungen in der Sprachkommunikation (siehe auch Tabelle A.2 im Anhang A):

- G.711 - Beschreibt die bereits behandelte 64 kbit/s-PCM und wird zur digitalen Sprachübertragung im PSTN und in PBXs angewandt. [G.711]
-G.726 - Beschreibt die ADPCM-Codierung mit 40, 32, 24 und 16 kbit/s. Die ADPCM wurde vorher in den Empfehlungen G.721 und G.723 beschrieben, bevor diese von der Empfehlung G.726 abgelöst wurden. [G.726]
-G.728 - Beschreibt eine 16 kbit/s-Variante der CELP-Sprachkomprimierung mit besonders geringer Verzögerung. [G.728]
- G.729 - Beschreibt eine CELP-Sprachkomprimierung mit 8 kbit/s. Die zwei Varianten (G.729 und G.729a) dieses Standards unterscheiden sich stark in Hinsicht auf die Komplexität der Berechnung. Beide Varianten ermöglichen Sprachqualitäten, die mit einer 32 kbit/s-ADPCM vergleichbar sind. [G.729]
-G723.1 - Beschreibt zwei Sprachkomprimierungsmethoden: Die MP-MLQ-Komprimierung mit 6,3 kbit/s und eine ACELP-Komprimierung mit 5,3 kbit/s. Die MP-MLQ-Variante bietet die bessere Qualität. [G.723.1]

2.2.1 Bewertung der Sprachcodecs

Vergleiche von Signalformcodierverfahren lassen sich objektiv und/oder subjektiv durchführen. Eine ob- jektive Bewertung der Sprachqualität ist anhand von Parametern möglich, die einen Vergleich zwischen dem übertragenen und dem originalen Sprachsignal repräsentieren. Der Störabstand oder der Klirrfaktor sind Beispiele für objektive Bewertungkriterien. Die ITU-T veröffentlichte die Empfehlung P.861 [P.861] zur objektiven Bewertung der Sprachqualität mittels Messung der wahrgenommenen Sprachqualität (PS- QM - Perceptual Speech Quality Measurement) . Ein Problem der objektiven Bewertungsverfahren ist die vom menschlichen Gehör verschiedene Wahrnehmung von Signalen durch ein Messgerät. Eine verbrei- tete subjektive Messgröße zur Bewertung von Sprachcodecs ist der mittlere Meinungswert bzw. MOS - Wert (Mean Opinion Score) [P.800]. MOS-Tests werden von einer möglichst großen Gruppe von Zuhö- rern ausgeführt, die die Sprachaufnahmen von 1 (schlecht) bis 5 (exzellent) bewerten. Die Werte werden dann gemittelt, was den MOS-Wert ergibt. Die MOS-Bewertungen der genannten Sprachcodecs sind in Tabelle A.2 des Anhangs A aufgelistet. Zur Bewertung von schmalbandigen Sprachübertragungen, basierend auf den LPC- bzw. Hybrid-Codierverfahren, hat die ITU-T die Empfehlung P.862 [P.862] ver- öffentlicht.

2.3 Sprachdetektion

Die Sprachdetektion bildet die Grundlage der aktivitätsabhängigen Sprachübertragung und wird auch als „Voice-Activity-Detection” (VAD ) bezeichnet. Da bei einer permanent durchgeschalteten Vollduplex- Sprachverbindung im Durchschnitt sechzig Prozent der zugeordneten Übertragungskapazität nicht ge- nutzt werden, ist mit VAD eine mittlere Bitratenreduktion um den Faktor 2 bis 3 möglich. Zur Spracher- kennung werden Amplitudenvergleiche, Nulldurchgangsratenvergleiche, Vergleiche von Kurzzeitenergi- en sowie statistische Erkennungsverfahren auf der Basis der schnellen Fouriertransformation eingesetzt. Ein Problem stellt die Unterscheidung von Sprache und Hintergrundgeräuschen dar. Bei starken Hinter- grundgeräuschen ist es möglich, dass die rauschähnlichen, stimmlosen Sprachlaute nicht vom Rauschen zu unterscheiden sind. Aus diesem Grund ist es wichtig, Rauschen und Störimpulse zu unterdrücken, ohne dass die für die Sprachverständlichkeit wichtigen stimmlosen Laute verloren gehen. Um Störim- pulse auszublenden, werden in Sprachdetektoren häufig Ansprechverzögerungen eingesetzt. Eine erhöh- te Ansprechschwelle kann die Rauschstörungen vermindern. Kann VAD nicht zwischen Sprache und Rauschen unterscheiden, muss sich die VAD selbständig deaktivieren. Die Unterdrückung von energie- armen, stimmlosen Sprachsignalen wird durch ein Abfallverzögerung (Hangover, Überhang) verhindert. Die Verzögerungszeiten müssen dabei so gewählt werden, dass Sprachblöcke nicht zu sehr beschnit- ten werden und andererseits Störimpulse nicht zu einer Vortäuschung von Sprachaktivität führen. Als Standardwerte sind eine Ansprechverzögerung von 5 bis 15 ms und eine Abfallverzögerung von 200 bis 250 ms anzusehen. Der als Front-End-Speech-Clipping bezeichnete Verlust von Teilen des Sprach- signals durch die Ansprechverzögerung ist vom Hörenden nicht wahrnehmbar. In Abbildung A.3 des Anhangs A sind die Resultate der Störunterdrückung dargestellt. Mit einer Abfallverzögerung von 200 ms ist in einem Dialog eine mittlere Sprachblocklänge von 1,4 s und eine mittlere Pausenblocklänge von 2,4 s erreichbar, was einer Sprachaktivität von 36 % entspricht [Fot01]. Beim Einsatz der VAD ist zu berücksichtigen, dass sich die Gesamtverzögerung um den Zeitwert der Ansprechverzögerung (5-15 ms) erhöht. Auf der Empfängerseite wird während der Sprachpausen ein Rauschen generiert (Komfort-Noise- Generation), um den Eindruck des Verbindungsabbruchs bei den Kommunizierenden zu unterdrücken.

Voice over IP

3.1 Definition

Foth [Fot01] definiert die IP-Telefonie als eine auf der Echtzeitübertragung von Sprache über IP-Netze basierende Telefonie. Der Begriff „Voice over IP ” (VoIP) gilt als Synonym für die IP-Telefonie. Unter „Internet-Telefonie” ist die IP-Telefonie im Internet zu verstehen. Dort kann im Gegensatz zu Intranets bisher keine QoS-Garantie gegeben werden.

3.2 VoIP-Komponenten

Die in diesem Abschnitt aufgeführten Komponenten sind Bestandteile von Empfehlungen der ITU-T und der IETF . Da diese Elemente generelle VoIP-Komponenten darstellen, werden sie hier separat behandelt. Auf die definierenden Standards wird in den Abschnitten 3.3.1 und 3.3.3 näher eingegangen. Abbildung 3.1 zeigt die Komponenten des H.323-Netzwerks.

3.2.1 Endgeräte/Terminals

IP-Telefone bzw. Terminals ermöglichen den Austausch von Sprache, optional auch Video und Daten, in Point-to-Point und Multipoint-Konferenzen. Diese IP-Telefonie-Endgeräte sind als Soft- und Hardwa- relösung realisiert. Die Softwarelösung, eine Applikation für Multimedia-Computer, wird als Softphone bezeichnet. Der verwendete Computer muss über Lautsprecher, Mikrofon, Voll-Duplex-fähige Sound- karte und optional Video-Equipment verfügen. Da Computer mit Softphones nicht ständig zu erreichen sind, geben Directory-Server im Internet Auskunft über momentan verfügbare Gesprächspartner. IP- Telefone in klassischer Telefon-Hardware-Form haben gegenüber Multimedia-Computern mehrere Vor- teile [Fot01]:

- hohe Verfügbarkeit,
-schnellere Reaktion durch eingebettete Systemimplementierung,
- vertraute Bedienoberfläche,
-größere Zuverlässigkeit,

Abbildung 3.1: Elemente der H.323 Empfehlung [H.323]

- geringere Kosten.

Abbildung B.1 des Anhangs A zeigt die Hardwarestruktur eines IP-Telefons. In der H.323-Empfehlung [H.323] werden Endgeräte allgemeiner definiert und als Terminal bezeichnet. Abbildung 3.2 zeigt das Schema eines H.323-Terminals. H.323-Terminals müssen eine System-Kontroll-Einheit, eine Medienübertragungs-, eine Audio-Codec- und eine paketbasierte Netzwerkschnittstelle besitzen. Ein VideoCodec und die Benutzerdatenapplikationen sind als optionale Komponenten definiert. Die H.323- Terminal-Komponenten verfügen über folgende Funktionen und Fähigkeiten:

System-Kontroll-Einheit: sorgt für H.225- und H.245- Anrufkontrolle, Fähigkeitenaustausch, Meldungsaustausch, Kommando-, Zeichensignalisierung; Meldungen zum Öffnen von logischen Kanälen und die vollständige Beschreibung deren Inhalte;

Medien-Übertragung: Audio-Codec: Netzwerkschnittstelle: Regulierung der Verzögerung zur Synchronisation (Empfang); Kompen- sation von Jitter und Paketverlusten;

Audio-Codec:Codieren des Audio-Equipment-Signals zur Übertragung; Decodie- ren des empfangenen Audio-Codes; Codierung und Decodierung nach G.711-, A-Law- und µ-Law-Format; optional Codierung/Decodierung nach G.723.1, G.728 und G.729 Format;

Netzwerkschnittstelle:paketbasierte Schnittstelle, die End-to-End-Unicast- und Multicast- Dienste des TCP (Transmission Control Protocol) und des UDP (User Data Protocol) ermöglicht;

Abbildung 3.2: Terminal entsprechend H.323 [H.323]

Video-Codec:optional, Codierung und Decodierung entsprechend H.261 QCIF (Quar- ter Comment Intermediate Format) und zusätzlich H.261/H.263 CIF;

Datenkanal:optional, Applikationen wie z.B. Datenbankzugriff, Dateiübertragung und Audiographische Konferenzen nach ITU-T-Empfehlung T.120 [T.120] zur Interaktion mit anderen H.323-, H.324-, H.320- oder H.310-Terminals.

3.2.2 Gateway (GW)

optional, Codierung und Decodierung entsprechend H.261 QCIF (Quar- ter Comment Intermediate Format) und zusätzlich H.261/H.263 CIF ; optional, Applikationen wie z.B. Datenbankzugriff, Dateiübertra- gung und Audiographische Konferenzen nach ITU-T-Empfehlung T.120 [T.120] zur Interaktion mit anderen H.323-, H.324-, H.320- oder H.310-Terminals. Das IP-Telefonie-Gateway (GW ) besitzt die Eigenschaften eines SCN1 - sowie die eines H.323- Endpunktes2 und ermöglicht so die Verbindung von Sprach- und Datennetzen. Neben dem Aufbau und der Trennung von Anrufen auf dem IP-Netzwerk und dem SCN übersetzt das Gateway die Audio- und Video-CodecCodecs, Daten-Übertragungsformate sowie die Kommunikationssysteme und Protokolle. Dies beinhaltet auch die Paketierung und Depaketierung. Sowohl die Hardware- als auch die Software- struktur ähneln der eines IP-Telefons. Unterschiede bestehen lediglich darin, dass das Gateway anstelle der Benutzerschnittstelle eine Schnittstelle zum Telefonnetz (analog oder digital) besitzt und dass für die Sprachsignalkonvertierung mehrere DSP’s vorhanden sind (siehe Abbildung B.2 des Anhangs B.1). Wie in Abbildung 3.3 zu sehen, agiert das Gateway im IP-Netzwerk wie ein H.323-Terminal oder eine MCU und im SCN wie ein SCN-Terminal oder eine MCU. H.323-taugliche Komponenten können direkt

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.3: Gateway entsprechend H.323 [H.323]

miteinander kommunizieren, lediglich für den Übergang in das Telefonnetz sind IP-Telefonie-Gateways erforderlich. Für die Nutzung von Komfortleistungsmerkmalen des Telefonnetzes (PBX, PSTN) muss das Gateway spezielle Signalisierungsprotokolle interpretieren. Je nach Hersteller handelt es sich um Cornet-N (Siemens), T-Net (Bosch), ABC-F (Alcatel), DPNSS (Ericsson, Nortel) oder QSIG (herstel- lerunabhängig).

3.2.3 Gatekeeper (GK)

Ein Gatekeeper (GK ) organisiert alle Aktivitäten in einer H.323-Zone. Eine H.323-Zone, Abbildung 3.4, besteht aus einer Ansammlung (Gruppe) von Terminals, Gateways und MCUs. Sie besteht aus min- destens einem Terminal, einem Gatekeeper und zusätzlich aus Gateways und MCUs. Die Zone kann als einzelnes Netzwerksegment bestehen oder aus mehreren Netzwerksegmenten zusammengesetzt sein. Ein Gatekeeper gemäß H.323-Empfehlung bildet eine optionale Komponente zur Ergänzung der Termi-

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.4: H.323-Zone [H.323]

nals und Gateways und stellt ihnen verschiedene Kontrolldienste für den Anruf zur Verfügung. Obwohl die H.323-Empfehlung den Gatekeeper als optionale Komponente definiert, stellt er für die praktische Implementierung ein essentielles VoIP-Netzwerkelement dar. Ist in einem H.323-Umfeld ein Gatekepper vorhanden, muss er folgende Funktionen und Aufgaben erfüllen:

Abbildung in dieser Leseprobe nicht enthalten3

3.2.4 Multipoint Control Unit MCU

Die Multipoint Control Unit (MCU) unterstützt IP-Telefonie-Konferenzen zwischen drei oder mehr Endpunkten in einer Multipoint-Konferenz. Wie Terminal und Gateway ist die MCU ein Endpunkt und besteht aus mindestens einem MC (Multipoint Controller) und optional einem oder mehreren MPs (Multipoint-Prozessor). Der MC verteilt Kontrollinformationen in Konferenzen, sorgt für die Verteilung und Aushandlung von Sprachverarbeitungsfähigkeiten unter den Konferenzteilnehmern und überarbeitet, wenn nötig, die Parameter während einer Konferenz. Der MC kann sich in einem Terminal, einem Gate- way, einem Gatekeeper oder in einer MCU befinden. Der MP empfängt Audio-, Video-, und/oder Daten- ströme und verteilt diese an die Endpunkte, die an einer Multipoint-Konferenz teilnehmen. Abbildung 3.5

Abbildung 3.5: Mögliche Positionen des MC und des MP im H.323-System [H.323]

zeigt die möglichen Positionen des MC und des MP. Alle Endpunkte, die an einer Konferenz teilnehmen möchten, kontaktieren zunächst den MC einer MCU. Der MC ermittelt dann, über welche Sprachverar- beitungsfähigkeiten die beteiligten Endpunkte verfügen und legt anhand dieser Informationen den SCM (Selected Communications Mode) fest. Nach dem der Codec für die Multipoint-Konferenz fest steht, übernimmt der MP das Media Streaming (Verteilung der Audio-, Video-, Datenströme). Auch die MCU lässt sich in Gateways integrieren.

Abbildung in dieser Leseprobe nicht enthalten

3.2.5 Media Gateway Controller - MGC

Mit dem Trend zur neuen paketbasierten Sprachdienst-Infrastruktur legte die IETF eine H.323-ähnliche Gateway-Architektur fest. Der Media Gateway Controller (MGC) ist Bestandteil dieser Architektur und wird von der IETF in der Empfehlung RFC 2719 [RFC2719] definiert. Zum Aufbau großer IP-Telefonie- Netze mit zentraler Signalisierung und übergreifendem Management benötigt man eine ausgelagerte Ga- tewaysteuerung. Diese Aufgabe übernimmt der MGC. Media Gateways (MGs) [RFC2719] übernehmen die Sprachübertragung, während der MGC für die Gatewaysteuerung, die Signalisierung und zentrale Services (z.B. Gebührenermittlung) verantwortlich ist. In herstellereigenen paketbasierten Sprachdienst- Architekturen wird der MGC auch als Virtueller Switch-Controller (VSC) , Call-Agent, Soft-Switch oder softwarebasierter Service-Switching-Point (SSP) bezeichnet. Die Kommunikation zwischen Gateways und Controller erfolgte bisher über das Simple Gateway Control Protocol (SGCP) oder über dessen Weiterentwicklung, das Media Gateway Control Protocol (MGCP) [RFC2705] [RFC2805]. Im Zuge der Weiterentwicklung der Protokolle und Standards schloss sich die ITU der von der IETF definierten Gateway-Architektur an. Ergebnis der Einigung zwischen ITU und IETF ist das MEGACO -Protokoll [RFC3015] [H.248] für die Kommunikation zwischen Gateway und Gatewaycontroller. Die hier ge- nannten Protokolle werden im Abschnitt 3.3.3 näher behandelt.

3.3 Protokolle und Standards

3.3.1 H.323

Die H.323-Rahmenempfehlung [H.323] der ITU-T stellt eine Spezifikation für die Übertragung von mul- timedialen Inhalten über Packed Based Networks (PBNs) dar. Der Standard beinhaltet Funktionen wie Anruf-Signalisierung und -Kontrolle, Multimedia-Transport und -Kontrolle sowie Bandbreiten-Kontrolle für Punkt-zu-Punkt-Verbindungen und Mehrpunkt-Konferenzen. H.323-Komponenten müssen die mul- timediale Kommunikation in Echtzeit unterstützen, wobei die Audiokommunikation als obligatorisch an- zusehen ist und Video- und Datenkommunikation optionale Eigenschaften darstellen. Werden optionale Eigenschaften von H.323-Komponenten unterstützt, müssen diese dem Standard entsprechen, um Kom- patibilität unter den Komponenten gewährleisten zu können. Das PBN, über das die H.323-Komponenten kommunizieren, kann topologisch eine Punkt-zu-Punkt-Verbindung, ein einzelnes Netzwerk- Segment oder ein aus vielen Segmenten zusammengesetztes komplexes Netzwerk sein. Die Kommunikation unter den Komponenten ist in Form von Punkt-zu-Punkt-, Mehrpunkt- und Broadcast-Verbindungen mög- lich. Dabei können sie über Gateways mit verschiedenen Terminals der H-Serie kommunizieren (siehe auch Abbildung 3.1 im Abschnitt 3.2). H.323-Terminals sind als Stand-alone-Gerät oder als Software auf einem Multimedia-Computer realisierbar. Im Einzelnen behandelt die Empfehlung H.323 folgende Themen:

- Systembeschreibungen von Komponenten zur multimedialen Kommunikation, welche in Abschnitt 3.2 separat vorgestellt wurden: Terminal (Endgerät), Gateway, Gatekeeper und MCU;
-Signalisierungen für Registrierung, Zugangskontrolle und Statusaustausch;
-Signalisierungsprozeduren für Aufbau, Unterhaltung und Abbau von Verbindungen;
- Interoperabilität mit anderen Endgeräten der H-Serie;
-Empfehlungen zu Audio-, Videocodierung und für das Application-Sharing;
- Verschlüsselung, Multipointbetrieb;
-Überwachung, Rückwärtsschleifen für die Wartung;
-Anlagen der H.323-Rahmenempfehlung: H.245-Messages, Abläufe für Video-Codecs, H.323 über ATM , Fax über H.323-Systeme, RSVP etc..

Bezüglich Sprachcodierung verweist die Empfehlung auf die in Kapitel 2 vorgestellten Standards G.711, G.722, G.723.1, G.728 und G.729, wobei die Unterstützung von G.711 obligatorisch ist und G.723.1 mit einer Bitrate von 6.3 kbit/s für die IP-Telefonie favorisiert wird. Die empfohlenen Videocodecs H.261 und H.263 werden hier nicht näher erläutert. Zur Echtzeitübertragung von Sprach- und Videodaten ver- weist die Empfehlung auf die von der IETF definierten Protokolle RTP /RTCP , für das Application Sharing wird der ITU-T-Standard T.120 empfohlen. Der Verbindungsaufbau erfolgt nach H.225, die Aushandlung von Parametern und die Verbindungskontrolle nach H.245. Die in der H.323 favorisierten Standards und Protokolle sind in der Tabelle 3.1 aufgelistet. Weiterhin beschreibt die Empfehlung die zur

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 3.1: Standards und Protokolle der H.323-Empfehlung

multimedialen Kommunikation notwendigen Komponenten, welche in Abschnitt 3.2 separat vorgestellt wurden. Folgende Abschnitte erläutern die H.323-Protokollsuite und dazugehörende Anrufflüsse.

3.3.1.1 H.323-Protokollsuite

Abbildung 3.6 zeigt die in der H.323-Rahmenempfehlung vereinigten Protokolle, welche die Erlaubnis, den Aufbau, Zustand, die Trennung, Medienströme und Meldungen von Anrufen in H.323-Systemen un- terstützen. Ergänzt werden diese Protokolle durch zuverlässige und unzuverlässige Transportmechanis-

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.6: H.323-Protokollstack [H.323] [Fot01] [Mil00] [DP00]

Abbildung in dieser Leseprobe nicht enthalten

3.3.1.2 RAS-Signalisierung (H.225.0)

Die in der ITU-Empfehlung H.225.0 [H.225.0] definierte RAS-Signalisierung ermöglicht die Kon- trolle im Vorfeld eines Anrufes zwischen Gatekeeper und Endpunkt. Der RAS-Kanal wird vor allen anderen Aktivitäten über eine UDP-Verbindung eingerichtet und ist unabhängig von Anrufkontroll- signalisierungs- und Medientransportkanälen. Die RAS-Signalisierung beinhaltet folgende Funktionen:

Gatekeeper-Entdeckung - Die GK-Entdeckung ist ein manueller oder automatischer Prozess, bei dem die Endpunkte einen Gatekeeper identifizieren und sich bei diesem anmelden. Bei der manuel- len Methode ist die IP-Adresse des Gatekeepers im Endpunkt konfiguriert und der Endpunkt kann sich

sofort beim Gatekeeper registrieren. Die automatische Methode, auch Auto Discovery genannt, stellte eine dynamische Beziehung zwischen Gatekeeper und Endpunkten dar. Die Entdeckung des Gatekeepers erfolgt durch eine Multicast-Meldung an die Multicast-Adresse 224.0.1.41 auf dem UDP-Port 1718. Für Meldungen der Registrierung und des Zustandes wird der UDP-Port 1719 benutzt. Die automatische Gatekeeper-Entdeckung verwendet folgende drei RAS-Meldungen:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.7: Gatekeeper Auto Discovery [H.323] [Bla99] [DP00]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.8: Endpunkt-Registrierung beim Gatekeeper [H.323] [Bla99] [DP00]

URJ Unregister Reject (Ablehnung der Registrierungsaufhebung) - Deutet darauf

hin, dass der Endpunkt beim Gatekeeper nicht registriert war.

Lokalisierung der Endpunkte - Verwenden Endpunkte und Gatekeeper Alias-Informationen, muss zur Adressierung eine Endpunktlokalisierung erfolgen. Lokalisierungsmeldungen werden an die RAS- Kanal-Adresse des Gatekeepers oder per Multicast an die Multicastadresse der Gatekeeper-Entdeckung gesendet. Der Gatekeeper antwortet mit der eigenen Kontaktadresse oder mit der des Endpunktes. Eine Anfrage kann eine oder mehrere E.164-Adressen enthalten. Folgende Meldungen stehen für die Lokal- sierung zur Verfügung:

Abbildung in dieser Leseprobe nicht enthalten

Erlaubnis - Erlaubnis-(Admission-)Meldungen zwischen Gatekeepern und Endpunkten bilden die Basis für Anruffreigaben und Bandbreitenkontrolle. Gatekeeper autorisieren den Zugang zu H.323- Netzwerken durch die Bestätigung oder Ablehnung einer Erlaubnisanfrage. Eine Erlaubnisanfrage enthält die angeforderte Bandbreite, die der Gatekeeper in der Bestätigung reduzieren kann. Folgende Meldungen ermöglichen die Erlaubniskontrolle:

Abbildung in dieser Leseprobe nicht enthalten

Bandbreitenkontrolle4 - Die Bandbreitenkontrolle wird zu Beginn durch den Erlaubnisaustausch zwischen einem Endpunkt und dem Gatekeeper mit den ARQ/ACF/ARJ-Meldungen ausgehandelt. Da sich die Bandbreitenanforderungen während eines Anrufs ändern können, werden Meldungen zur Bandbreitenanpassung benötigt:

Abbildung in dieser Leseprobe nicht enthalten

Zustandsinformationen - Der Gatekeeper kann über den RAS-Kanal Zustandsinformationen der Endpunkte erhalten. Mit dieser Meldung ist der Aktivitätszustand der Endpunkte überprüfbar. Das typische Anfrageintervall für Zustandsmeldungen beträgt 10 Sekunden. Über die ACF-Meldung kann der Gatekeeper die periodische Zustandsmeldung des Endpunktes während eines Anrufs verlangen. Folgende Meldungen liefern den Zustand auf dem RAS-Kanal:

IRQ Information Request (Zustandsanfrage) - Der Gatekeeper sendet die IRQ- Anfrage an den Endpunkt, um dessen Zustand zu erfragen.

IRR Information Request Response (Antwort auf Zustandsanfrage) - Der Endpunkt sendet die IRR-Antworten an den Gatekeeper, falls dieser periodische Zustandsmeldungen verlangt.

SE Status Enquiry (Zustandsabfrage) - Sie wird außerhalb des RAS-Kanals auf dem Anruf-Signalisierungs-Kanal von einem Endpunkt oder einem Gatekee- per an einen anderen Endpunkt gesendet, um den Zustand eines Anrufs zu erfragen. Gatekeeper prüfen mit diesen Meldungen die Aktivität eines Anrufs.

Anrufbeendigung - Jeder an einem Anruf teilnehmende Endpunkt kann Prozeduren zur Beendigung eines Anrufs starten. Nach der Schließung alle Medien- und Anrufsignalisierungkanäle werden folgende Meldungen auf dem RAS-Kanal verwendet, um das Ende eines Anrufs einzuleiten:

Abbildung in dieser Leseprobe nicht enthalten

3.3.1.3 Anruf-Kontroll-Signalisierung (H.225.0)

Wie auch die RAS-Signalisierung basiert die Anruf-Kontroll-Signalisierung auf der ITU-Empfehlung H.225.0 [H.225.0], die die Verwendung und Unterstützung von Q.931-Signalisierungsmeldungen fest- legt. Die Q.931-Anruf-Kontroll-Meldungen zwischen zwei Endpunkten dienen dem Aufbau, der Unter- haltung und der Trennung von Anrufen. Der Anrufaufbau erfolgt über den zuverlässigen Anruf-Kontroll- Kanal, der über den TCP-Port 1720 im IP-Netzwerk erzeugt wird. Nach dem Anrufaufbau gehen die ei- gentlichen Anruf-Kontroll- und Keepalive-Meldungen zu anderen kurzlebigen Ports über. Nachfolgend sind die wichtigsten Q.931-Meldungen und Q.932-Meldungen für ergänzende Dienste aufgelistet:

Abbildung in dieser Leseprobe nicht enthalten

Die Anruf-Signalisierung kann in einem H.323-Netzwerk direkt zwischen den Endpunkten (Direct End- point Call Signalling) oder über den Gatekeeper (GKRCS - Gatekeeper Routed Call Signalling) erfolgen. Der Einsatz von GKRCS ermöglicht das Anbieten von zusätzlichen Diensten. Abbildung 3.9 zeigt die Signalisierungsmeldungen der Anrufeinrichtung für die direkte und die Gatekeeper-routed Anrufsigna- lisierung.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.9: Anrufsignalisierung im H.323-Netzwerk [H.323] [DP00]

a) direkte Anrufsignalisierung zwischen den Endpunkten
b) durch den Gatekeeper geroutete Anrufsignalisierung

3.3.1.4 Medien-Kontrolle H.245

Für die Verarbeitung von End-to-End-Kontroll-Meldungen zwischen H.323-Einheiten schlägt die ITU- T die Empfehlung H.245 [H.245] vor. Die Kanäle für die Übertragung von Audio-, Video-, Daten- und Kontroll-Kanal-Informationen werden von H.245-Prozeduren eingerichtet. Dies geschieht bei jedem An- ruf unter den teilnehmenden Endpunkten. Der zuverlässige H.245-Kontroll-Kanal wird auf dem dynami- schen, von der Anruf-Signalisierung übermittelten, TCP-Port über IP erzeugt. Der H.245-Kontroll-Kanal stellt folgende Funktionen bereit:

- Austausch von Fähigkeiten unter den H.323-Endpunkten,
- Öffnen und Schließen von Kanälen der logischen Kanalsignalisierung,
- Austausch bevorzugter Modi der Endpunkte,
- Austausch separater Übertragung- und Empfangsfähigkeiten,
- Verhandeln von Funktionen (z.B. zu verwendende Codecs).

Wird Gatekeeper-routed Anrufsignalisierung eingesetzt, besteht die Möglichkeit zwischen direkter H.245-Kontrolle und Gatekeeper-routed H.245-Kontrolle zu wählen. Folgende Meldungen und Prozeduren ermöglichen die H.245-Kontrolle:

Abbildung in dieser Leseprobe nicht enthalten

Zur Einrichtung von Medienkanälen stehen neben den H.245-Prozeduren noch die Prozeduren der Fast- Connect-Methode (schnelles Verbinden) zur Verfügung. Die Fast-Connect Prozeduren ermöglichen die schnelle Einrichtung einer Medienverbindung für einfache Point-to-Point-Anrufe mit nur einem gegen- seitigen Meldungsaustausch. Um den Zeitaufwand für die Anrufeinrichtung weiter zu minimieren, ist es möglich, einen H.245-Tunnel über den H.225-Anrufsignalisierungskanal einzurichten. Ein weiterer Vor- teil dieser Methode ist die Möglichkeit der Synchronisation von Anrufsignalisierung und Anrufkontrolle.

3.3.1.5 Medien-Transport RTP/RTCP

Für den Medientransport in H.323-Netzwerken empfiehlt die ITU das Real Time Transport Proto- col (RTP) und das zugehörige RTP Control Protocol (ignRTCP). Das RTP-Protokoll nach RFC 1889 [RFC1889] dient der Ende-zu-Ende-Übertragung von Echtzeitdaten, wie interaktive Audio-, Video- und Datenströme, über Unicast- oder Multicast-Netzwerke. Die Verpackungs- und Übertragungsdiens- te beinhalten Pakettypkennzeichnung (Payload Type Identification), Reihenfolgenummerierung, Zeit- stempelung und eine Überwachung der Paketablieferung. Das Sortieren der Datenpakete nach An- kunft wird durch die Reihenfolgenummerierung ermöglicht, die Zeitstempelung dient der Audio/Video- Synchronisation und der Feststellung von Paketverlusten. Das den RTP-Datentransport ergänzende ignRTCP-Protokoll ermöglicht eine Überwachung der Übertragungsqualität sowie die Kontrolle und Identifizierung von Diensten. Jeder Teilnehmer einer RTP-Sitzung sendet periodisch ignRTCP-Pakete an alle anderen Teilnehmer mit Informationen zur Verbindungsqualität (Paketverluste, Jitter, Laufzeiten) und der Teilnehmeridentifikation. RTP und ignRTCP nutzen typischerweise UDP als (unterliegendes) Transportprotokoll, beschränken sich aber nicht darauf. Während RTP-Ströme auf einer geraden Port- nummer arbeiten, nutzt der zugehörige ignRTCP-Strom die nachfolgende ungerade Portnummer.

3.3.1.6 H.323-Anrufflüsse

Die im Einzelnen schlecht zu überschauenden Prozeduren in einem H.323-Netzwerk sollen in diesem Abschnitt an einem Beispiel zusammenhängend aufgezeigt werden. In Abbildung 3.10 ist der Anruffluss für die Einrichtung eines H.323-Anrufes zwischen zwei Endpunkten dargestellt. Es handelt sich hierbei um einen Sprachanruf, bei dem die Endpunkte ihre Registrierung beim Gatekeeper bereits abgeschlossen haben. Die Anrufsignalisierung erfolgt in diesem Beispiel direkt unter den Endpunkten. Weitere Szenarien wären mit mehreren Gatekeepern in Kombination mit der GKRCS-Methode möglich. Da sich diese Szenarien prinzipiell kaum vom gezeigten Beispiel unterscheiden wird hier auf deren Darstellung verzichtet. Weitere Ausführungen findet man in der H.323-Empfehlung [H.323].

Abbildung 3.10: Direkte Endpunktsignalisierung - gleicher Gatekeeper [H.323] [DP00]

Abbildung in dieser Leseprobe nicht enthalten

3.3.2 SIP

Im Rahmen der Entwicklung von Protokollen für Mehrpunktkonferenzen durch die Arbeitsgruppe Mul- timedia Session Control (MMUSIC) der IETF entstand 1999 das textbasierte Session Initiation Protocol (SIP ) [RFC2543] als ein unabhängiger Bestandteil der von der IETF definierten Multimediaarchitektur. Das dem Hypertext Transfer Protocol (HTTP ) ähnliche SIP ist ein Signalisierungsprotokoll der Anwen- dungsschicht zum Steuern von Konferenzen. Es ermöglicht das Einrichten, Modifizieren und das Been- den von multimedialen Punkt-zu-Punkt- und Mehrpunktkonferenzen, wie z.B. IP-Telefonverbindungen, über Unicast- oder Multicastverbindungen. Der Informationsfluss im SIP basiert auf einer transakti- onsorientierten Client-Server-Kommunikation bei der der Client Anfragen generiert und an den Ser- ver sendet, welcher diese verarbeitet und eine Antwort an den Client zurücksendet. Die Mobilität von Anwendern unterstützt SIP mit der Möglichkeit des Umleitens von Anfragen an den aktuellen Aufent- haltsort. Die Flexibilität der SIP-Meldungen ermöglicht die ständige Erweiterbarkeit des Protokolls um zusätzliche Telefondienste und Funktionalität. Nachfolgend sind die vom SIP bereitgestellten Dienste aufgelistet:

Abbildung in dieser Leseprobe nicht enthalten

Zum Aushandeln von Konferenzparametern nutzt SIP das Session Description Protocol (SDP). Des Wei- teren besitzt SIP die Fähigkeit, mit anderen Signalisierungsprotokollen, wie z.B. H.323, zusammenzuar- beiten.

3.3.2.1 SIP-Komponenten

Die in Abbildung 3.11 gezeigten Komponenten sind wesentliche Bestandteile der SIP-Architektur. Im

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.11: Prinzipielle SIP-Architektur

SIP sind grundsätzlich zwei Komponenten definiert: der User Agent (Client) und der Network Server. Der User Agent befindet sich in den Endpunkten (Terminals) und besteht aus zwei Elementen: aus dem User Agent Client (UAC), der für das Versenden von SIP-Requests verantwortlich ist, und dem User Agent Server (UAS), der diese Requests beantwortet. Der Network-Server kann als Proxy-Server oder als Redirect-(Umleitungs)-Server agieren:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.12: Typischer SIP-Protokollstack des User Agent(siehe auch [Sin00])

Abbildung in dieser Leseprobe nicht enthalten

3.3.2.2 Adressierung

SIP-Adressen, auch als SIP-URL (Universal Resource Locator) bezeichnet, sind nach dem Prinzip sip:User@Host aufgebaut. Der Benutzerteil der Adresse ist ein Benutzername oder eine Telefonnummer, während der Hostteil ein Domänenname oder eine Netzwerkadresse sein kann. Folgende Beispiele zeigen zwei mögliche SIP-URLs:

sip:voiplab@iuk.fh-schmalkalden.de sip:6885555@194.94.84.50

3.3.2.3 SIP-Meldungen

SIP gehört zu den textbasierten Protokollen. Seine Meldungssyntax und seine Headerfelder stimmen mit denen des HTTP überein. Es existieren zwei Arten von SIP-Meldungen: vom Client erzeugte Anfra- gen und vom Server zurückgesendete Antworten. Die SIP-Kommunikation verwendet sechs verschieden Meldungsanfragen (Methoden) zum Lokalisieren, Einladen und Verwalten von Anrufen:

Abbildung in dieser Leseprobe nicht enthalten

[...]


1 Zeitmultiplex

2 auch als Wellenformcodierverfahren bezeichnet

3 entspricht einer Abtastperiode TA = fA = 8000 Hz= 125µs

4 Sektor Telekommunikation der ITU (vorher CCITT )

5 Signal-Rausch-Abstand; Signal to Noise Ratio (SNR ); SNR = 20 · lgUsUrdB,Us=Signalspannung,Ur=Rauschspannung; die Qualität eines Signals steigt mit dem Störabstand.

6 Größe der Quantisierungsintervalle

7 „Vocoder” von Voice Coder

1 SCN - Switched Circuit Network

2 H.323-Endpunkt: ein H.323-Terminal,-Gateway oder -MCU, ein Endpunkt kann Rufe generieren bzw. empfangen.

3 im Rahmen der H.323-Empfehlung: RAS = Registration Addmission Status

4 Die Bandbreitenkontrolle berücksichtigt derzeit lediglich die im Gatekeeper vorhandene statische Bandbreitentabelle und nicht den Zustand des Netzwerks.

Details

Seiten
137
Jahr
2002
ISBN (eBook)
9783638054782
ISBN (Buch)
9783638947848
Dateigröße
3.8 MB
Sprache
Deutsch
Katalognummer
v92336
Institution / Hochschule
Hochschule Schmalkalden, ehem. Fachhochschule Schmalkalden
Note
1,3
Schlagworte
Ansatz Migration Voice

Autor

Teilen

Zurück

Titel: Ansatz für eine Migration zu Voice over IP (VoIP). Cisco Systems AVVID (R)-Lösung