Qualitatives Räumliches Schließen - Repräsentation qualitativ-räumlichen Wissens im semantischen Web mittels topologischer Beziehungen zwischen Regionen

Erstellen einer Experimentierplattform zur Transformation von und zum Schließen über topologische Relationen in OWL DL


Bachelorarbeit, 2007

85 Seiten, Note: 1,0


Leseprobe


Inhaltsverzeichnis

1 Einführung
1.1 Motivation
1.2 Gliederung

2 Semantisches Web
2.1 Wissensrepräsentation
2.2 Formalisierung des Wissens

3 semantic web Standards
3.1 XML
3.2 RDF+RDFS
3.3 SPARQL
3.4 Ontologiesprachen

4 description logics
4.1 Basiselemente von DL's
4.2 Wissensrepräsentation in DL
4.3 reasoning in DL-Systemen

5 OWL

6 räumlich-geographisches Wissen
6.1 Repräsentation räumlich-geographisches Wissen
6.1.1 Repräsentation zeitlich-räumlicher Phänomene
6.1.2 Kategorisierung räumlichen Wissens
Typologie des Raumes
Räumliches Wissen
Räumliche Relationen
Räumlich-geographische Modelle
6.1.3 Datenmodelle: SDTS und GDF

7 Räumliches Schließen
7.1 qualitatives räumliches Schließen
7.2 Ansätze für qualitatives räumliches Schließen
7.2.1 Topologie
7.2.2 Orientierung
7.2.3 Distanz

8 Der Region Connection Calculus
8.1 RCC-8

9 Transformation von RCC-8 in OWL
9.1 RCC-8 und DL
9.2 OWL1.1
9.3 RCC-8 und OWL-DL/OWL 1.1

10 vorhandene Schnittstellen und tools
10.1 Jena
10.1.1 Architektur
10.2 Pellet
10.2.1 features
10.2.2 Architektur
10.3 Protégé

11 TranSTopOWL
11.1 Anforderungsbeschreibung
11.2 Umsetzung
11.2.1 RCCModel
11.2.2 OntReasoner
11.2.3 SPARQL
11.3 Auswertung
11.4 Bedienungsanleitung
11.4.1Installation
11.4.2 Übersicht
Hinzufügen von RCC8-Relationen
Reasoner
Verlassen und Speichern
SPARQL

12 Fazit und Ausblick

13 verwandte Arbeiten

14 Literaturverzeichnis

Abbildungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Tabellenverzeichnis

Tabelle 4.1: Syntax und Semantik von Konzeptbeschreibungen

Tabelle 4.2: DL-Konstruktoren

Tabelle 4.3: Syntax und Semantik der Axiome einer Wissensbasis

Tabelle 5.1: wichtigste OWL-Konstruktoren (nach [57])

Tabelle 8.1: Topologische Interpretation der acht RCC8-Basisrelationen

Tabelle 8.2: Kompositionstabelle für die Basisrelationen von RCC-8

Tabelle 11.1: Zusammenhang DL und OWL bei Transformation der RCC-8 Relationen

1 Einführung

Pu saß eines Tages in seinem Haus und zählte seine Honigtöpfe, als an die Tür geklopft wurde...

"Hallo, Pu", sagte Kaninchen..."Hast Du Klein irgendwo gesehen?"

"Ich glaube nicht", sagte Pu. Und dann, nachdem er noch ein bißchen nachgedacht hatte, sagte er: "Wer ist Klein?"

"Einer meiner Bekannten-und-Verwandten", sagte Kaninchen leichthin. Dies war keine große Hilfe für Pu, denn Kaninchen hatte so viele Bekannte-und-Verwandte, daß er nicht wußte, ob er Klein auf dem Wipfel einer Eiche oder im Kelch einer Butterblume suchen sollte.

"Ich habe heute noch niemanden gesehen", sagte Pu, "jedenfalls nicht so, daß ich 'Hallo, Klein!' zu ihm hätte sagen können. Brauchst Du ihn für irgendwas?"

" Brauchen? Ich nicht", sagte Kaninchen. "Aber es ist immer nützlich, wenn man weiß, wo ein Bekannter-und-Verwandter ist, ob man ihn nun braucht oder nicht."

"Ah, verstehe", sagte Pu. "Ist er verloren gegangen?"

"Tja", sagte Kaninchen, "seit einiger Zeit hat ihn niemand mehr gesehen, und deshalb nehme ich an, daß er verloren gegangen ist. Aber wie dem auch sei", fuhr Kaninchen bedeutsam fort, "ich habe Christopher Robin versprochen eine Nachforschung zu organisieren, also komm schon."...

„Was hast Du damit gemacht?“ fragte Pu.

„Sie organisiert. Das bedeutet...Also, es ist das, was man mit einer Nachforschung macht, damit nicht alle gleichzeitig an derselben Stelle suchen. Ich möchte also, daß Du , Pu, zuerst bei den Sechs Kiefern nachforschst und dich dann bis zu Eules Haus vorarbeitest und dort nach mir Ausschau hältst. Verstehst Du?“

„Nein“, sagte Pu. „Was...“

„Dann treffe ich dich also in einer Stunde bei Eule.“

„Ist Ferkel auch organisiert?“

„Das sind wir alle“, sagte Kaninchen und eilte davon.

Sobald Kaninchen verschwunden war, fiel Pu wieder ein, daß er vergessen hatte zu fragen, wer Klein war, und ob er die Art Bekannter-und-Verwandter war, die sich bei einem auf der Nase niederläßt, oder die Sorte, auf die man aus Versehen drauftritt, und weil es nun zu spät war, fand er, er könne die Jagd damit beginnen, daß er Ferkel suchte und dann fragte, was sie suchten, bevor er es suchte.

„Und es hat keinen Sinn, Ferkel bei den Sechs Kiefern zu suchen“, sagte sich Pu, „weil es ja an einer eigenen, speziellen Stelle organisiert ist. Deshalb muß ich zuerst die Spezielle Stelle suchen. Ich frage mich, wo die ist.“

Und so schrieb er sich im Kopf auf:

WIE MAN SACHEN SUCHT. REIHENFOLGE.

1 Spezielle Stelle. (Um Ferkel zu finden.)
2 Ferkel. (Um herauszufinden, wer Klein ist.)
3 Klein. (Um Klein zu finden.)
4 Kaninchen. (Um ihm zu sagen, daß ich Klein gefunden habe.)
5 Noch mal Klein. (Um ihm zu sagen, daß ich Kaninchen gefunden habe.)...[45]

Außerhalb des Hundertsechzig-Morgen-Waldes kann man sich durchaus Szenarien vorstellen, in denen die Lokalisierung einer Person oder eines Dienstes von großer Bedeutung für einen Nutzer ist, z.B. um einen Termin zu vereinbaren, die nächste Apotheke zu finden oder ein passendes Urlaubsziel. Statt eines Bären von sehr geringem Verstand würde man sich heutzutage wohl lieber eines Services bedienen, welcher über das nötige Wissen verfügt oder sich selbständig beschafft, um die benötigten Informationen möglichst paßgenau und situationsbezogen zu liefern. Dazu sind durchaus ähnliche Probleme zu lösen, wie die, vor denen Pu steht: was ist gemeint, welches Ziel soll erreicht werden, in welcher Reihenfolge werden bestimmte Informationen benötigt, wo findet man sie, welche Schlüsse lassen sich daraus ziehen

Das Internet stellt das Medium dar, welches, sowohl was Verbreitung und Verfügbarkeit als auch Menge der Informationen betrifft, hierfür die besten Voraussetzungen bietet. In unserer einleitenden Geschichte wird aber auch schon deutlich, vor welchen Problemen ein Nutzer oder Dienst steht: auch wenn möglicherweise alle benötigten Informationen vorhanden sind, sind sie verteilt (Kaninchen weiß, wo Ferkel ist, Ferkel weiß, wer Klein ist...), heterogen (was für Kaninchen ein Bekannter-und-Verwandter namens Klein ist, ist für Ferkel ein Käfer namens Klein, für Pu zunächst ???) und in einem Wust u.U. nebensächlicher Informationen "versteckt". Man versucht daher, den Web-Inhalt in einer Art darzustellen, die ihn für maschinelle Verarbeitung zugänglicher macht. Dabei muß die dargestellte Information nicht im Wortsinne vom Rechner "verstanden" werden, sondern es reicht aus, sie derart maschinell verarbeitbar zu machen, daß mit Hilfe verschiedener Software-Tools das gewünschte Ergebnis geliefert wird.

Dieses Konzept ist als semantisches Web bekannt: maschinelle Helfer sollen den Nutzer bei Suche, Sichtung, Bewertung von Informationen unterstützen, indem sie den semantischen Hintergrund der dargestellten Informationen betrachten, dadurch eine Integration der heterogenen, verteilten Daten ermöglichen und automatisch Schlüsse aus der Summe aller Informationen ziehen. Methoden der Wissensrepräsentation und -verarbeitung sollen eine gemeinsame Nutzung von/ Zugriff auf verteilte Informationsquellen und das automatische Schließen darüber ermöglichen.

Wesentliche Voraussetzung hierfür ist es, die im Web verfügbaren Daten automatischer Verarbeitung zugänglich zu machen, indem diese mittels Meta-Daten und Verarbeitungsmethoden, die die Bedeutung solcher Daten spezifizieren, aufgewertet werden.

Eine geeignete (formale) Repräsentation der Daten vorausgesetzt, können Web-basierte Systeme Daten auf semantischer Ebene integrieren und die Möglichkeiten automatischen Schließens entsprechender Inferenzmaschinen nutzen. Eine der wesentlichen Voraussetzung für die Repräsentation der Bedeutung der Daten ist die Entwicklung eines Modells der zu beschreibenden Domäne. Ontologien stellen in diesem Zusammenhang logische Beschreibungen eines solchen Modells dar. Die Web-Ontologiesprache OWL hat sich zu einem Quasi-Standard zur Repräsentation von Ontologien entwickelt. Um Ontologien gemeinsam nutzen zu können, müssen demzufolge Wissensrepräsentationen, die in anderer Form vorliegen, in OWL übertragen werden.

1.1 Motivation

Die Repräsentation und das Erschließen räumlich-geographischen Wissens stellen einen der wichtigsten Aspekte "vernünftigen", der menschlichen Logik nahen, Schließens dar. Diese besondere Stellung räumlicher Zusammenhänge ergibt sich aus der Bedeutung, die Raum (und Zeit) im und für das menschliche Denken besitzen. Das menschliche Leben findet in Raum und Zeit statt. Jedes physische Objekt befindet sich irgendwo in Raum und Zeit, besitzt Ort, Form, Größe...[56]

Der Mensch operiert ständig und wie selbstverständlich mit räumlichem Wissen: Ein Auto, das in einen Tunnel fährt, befindet sich eine Zeitlang im Tunnel und kann mit großer Sicherheit am anderen Ende erwartet werden. Die nächste Bushaltestelle ist hier rechts lang kurz nach dem Bäcker. Gib mir die Vase, die auf dem Tisch steht! Ich möchte, daß du bei den Sechs Kiefern nachforschst und dich dann bis zu Eules Haus vorarbeitest...Dann treffe ich dich also in etwa einer Stunde bei Eule...

Ständig wird räumliches Wissen angewandt, modifiziert, kommuniziert, dient als Basis für das Erschließen unbekannter Fakten.

Man kann also davon ausgehen, das jedes System, welches intelligentes Verhalten nachbilden oder simulieren soll, über Möglichkeiten verfügen muß, räumliche Fakten, Relationen, Gegebenheiten wahrzunehmen, zu repräsentieren, darüber Schlüsse zu ziehen und zu kommunizieren.

Sind die entsprechenden Voraussetzungen gegeben, können Softwareagenten Aufgaben übernehmen, die bisher nur menschlichen Nutzer zufielen. Der „Erfinder“ des semantischen web, Tim Berners-Lee, formulierte:

The semantic web will bring structure to the meaningful content of Web pages, creating an environment where software agents roaming from page to page can readily carry out sophisticated tasks for users.”[6]

Damit soll die Entwicklung verschiedenster ortsbezogener Dienste und „intelligenter“ (geographischer) Informationssysteme ermöglicht werden, die (räumliche) Daten automatisch verarbeiten und analysieren und daraus Entscheidungshilfen ableiten. So könnten bspw. Daten über Niederschlagsmengen, Bodenbeschaffenheit und Frostperioden kombiniert werden, um die Gebiete zu selektieren, in denen die optimalen Bedingungen zum Anbau bestimmter Produkte herrschen, indem Überlappungen der Regionen mit den jeweils passenden Parametern gesucht werden, Bauentscheidungen getroffen werden hinsichtlich angrenzender Naturschutz- oder Wohngebiete oder bzgl. der Einzugsbereiche und Erreichbarkeit resp. Reichweite von geplanten Einkaufszentren oder Funkmasten. Digitale Stadtpläne könnten situationsbezogene Abfragen der Art: Wo finde ich die nächste Apotheke? oder Welche Sehenswürdigkeiten sind von hier aus zu Fuß erreichbar? beantworten. Ortsbezogene Mobilfunkdienste könnten abhängig vom Aufenthaltsort und des Profils des Nutzers passende Informationen zur Verfügung stellen. Persönliche Terminplaner könnten abhängig von Position, Mobilität und Erreichbarkeit einer Person oder eines Ortes einen geeigneten Zeit- und Treffpunkt vorschlagen[1]. Ein Tourismusportal könnte Anfragen der Art: Suche einen historisch interessanten Urlaubsort in Westeuropa in einer Region an der Nordsee oder am Mittelmeer, der nicht nördlich von Belgien und so nah wie möglich an Deutschland liegt! [56] beantworten.

Offenbar sind in allen Fällen räumliche Informationen unter den verschiedensten Aspekten zu betrachten. Dabei spielen topologische Beziehungen zwischen Regionen eine bedeutende Rolle: der Aktionsradius des Touristen überstreicht ein bestimmtes Gebiet, in welchem Objekte oder Dienste zu lokalisieren sind; das Einzugsgebiet eines Einkaufszentrums überlappt sich mit dem eines Baumarktes; ein Baugrund wird von einem Bach durchschnitten; Holland grenzt zwar unmittelbar an Deutschland und liegt an der Nordsee, liegt jedoch nördlich von Belgien; ein See liegt innerhalb eines Waldes, ein Haus liegt am See...

Die Bedeutung topologischer Beziehungen liegt jedoch auch im explizit qualitativen Charakter der durch sie ausgedrückten Information. Damit kommt diese den menschlichen Vorstellungen von Zeit und Raum nahe und ist geeignet, unsicheres oder wages Wissen darzustellen. Trotzdem gibt es bei geeigneter Formalisierung Möglichkeiten, sinnvolle Informationen abzuleiten und zu erschließen. Damit solcherart vorliegende Informationen jedoch automatischer Verarbeitung zugänglich gemacht werden können, müssen sie in maschinenlesbarer Form dargestellt werden, also bspw. in eine Ontologie in OWL eingefügt werden. Hierbei gibt es verschiedene Ansätze, die im Folgenden vorgestellt werden sollen.

Da es derzeit noch kein Werkzeug zur Überführung topologischer Beziehungen (des RCC-8-Kalküls) in OWL gibt[2], ist ein Ziel der Arbeit, ein solches zu entwickeln.

1.2 Gliederung

Aus dem oben gesagten ergibt sich, daß wir zwei Stränge zusammenführen müssen: die (allgemeinen) Methoden, Werkzeuge, Sprachen der Wissensrepräsentation und -verarbeitung im semantischen web einerseits und andererseits die speziellen Erfordernisse und Möglichkeiten zur Repräsentation und Verarbeitung von räumlichem Wissen (Abb. 1.1).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1.1: GliederungAbbildung in dieser Leseprobe nicht enthalten

Demzufolge werden wir im zweiten Kapitel die Grundidee des semantischen web beschreiben und im folgenden verschiedene bestehende Standards zur Wissensrepräsentation vorstellen. Description logics bilden eine Grundlage für die Formalisierung von und automatisiertem Schließen über Wissen. Dies wird im vierten Kapitel ausgeführt. Das fünfte Kapitel schließt die Betrachtungen zum semantischen Web mit der Vorstellung der Web-Ontologie-Sprache OWL ab.

Der zweite Strang beginnt mit Kapitel 6, in welchem spezifische Probleme räumlichen Wissens, seiner Kategorisierung und Modellierung erläutert werden, gefolgt von Betrachtungen zum Schließen über räumliches Wissen in Kapitel 7. Als wesentlicher Aspekt räumlichen Wissens werden topologische Informationen herausgearbeitet und im achten Kapitel mit dem RCC-Kalkül und seiner beschreibungslogischen Formalisierung spezifiziert.

Die Möglichkeit, eine formale Darstellung topologischer Beziehungen in die Web-Ontologie-Sprache OWL zu überführen, wird zunächst theoretisch in Kapitel 9 untersucht, welches damit beide Stränge wieder zusammenführt, um diese später in der zu erstellenden Experimentierplattform umzusetzen.

Zunächst werden jedoch im zehnten Kapitel mit Jena, Pellet und Protege noch verschiedene Interfaces bzw. tools vorgestellt, die für diese Aufgabe hilfreich sind.

Die Experimentierplattform selbst wird im elften Kapitel dokumentiert, eine Auswertung und Vorstellung verwandter Arbeiten schließen die Arbeit ab.

2 Semantisches Web

Das semantische Web stellt einen Versuch dar, die im Web verfügbaren Daten automatischer Verarbeitung zugänglich zu machen, indem diese mittels Meta-Daten und Verarbeitungsmethoden, die die Bedeutung solcher Daten spezifizieren, aufgewertet werden.

Eine geeignete Repräsentation der Daten vorausgesetzt, können Web-basierte Systeme die Möglichkeiten automatischen Schließens entsprechender Inferenzmaschinen nutzen. Eine der wesentlichen Voraussetzung für die Repräsentation der Bedeutung der Daten ist die Entwicklung eines Modells der zu beschreibenden Domäne. In unserem Fall sollen räumlich-geographische Daten und Zusammenhänge modelliert werden. Ontologien stellen logische Beschreibungen eines solchen Modells dar.

Hierbei finden allgemeine, logik-basierte Modellierungs- und Inferenzmethoden Anwendung, wie sie von RDF und OWL sowie entsprechenden Inferenzmaschinen zur Verfügung gestellt werden.

Das (automatische) Schließen stellt einen zentralen Faktor bei der Etablierung eines semantischen Webs dar, da es für die Verarbeitung deklarativer Daten und die Spezifikation "intelligenter" Datenverarbeitungsmethoden unerläßlich ist. Tim Berners-Lee, der Vater der Idee eines semantischen Web, hat es folgendermaßen ausgedrückt:

For the semantic web to function, computers must have access to [. . . ] sets of inference rules that they can use to conduct automated reasoning.” [6]

Inferenz-Regeln operieren auf Fakten und Axiomen, wobei Axiome auf abstrakte Art und Weise ein Modell des zu beschreibenden Weltausschnitts spezifizieren.

Ontologien stellen hier die detaillierteste Axiomatisierung dar. Sie werden in formal-logischen Ausdrücken z.B. in Beschreibungslogik[3] oder OWL[4] beschrieben und veranschaulichen Beziehungen zwischen unterschiedlichen Begriffen und den ihnen zugrunde liegenden Vorstellungen (Konzepten und deren Beziehungen) die in bestimmten Domänen verwendet werden.

Rein logische Formalismen haben eine sehr eindimensionale Ausdrucksfähigkeit, so daß logische Axiomatisierungen ein sehr eingeschränktes Bild eines bestimmten Weltausschnitts geben. Andererseits erfordern web-basierte Dienste gerade in Hinblick auf menschliche Nutzer sehr detaillierte und ausgefeilte Modelle, um deren Anforderungen an "intelligente" Services gerecht zu werden. Hierbei spielen auch und gerade räumlich-geographische Vorstellungen und Begriffe bzw. deren ausgeklügelte und komplexe Modellierung eine große Rolle, um deren Semantik sinnvoll und hilfreich auszudrücken.

2.1 Wissensrepräsentation

Will man automatisches Schließen über (verteiltes) Wissen gewährleisten, um Interoperabilität zwischen verschiedenen Diensten zu erreichen, ist eine formale Beschreibung der Semantik von Konzepten und deren Beziehungen unerläßlich. Ziel dieser semantischen Modellierung ist ein konzeptuelles Modell einer Domäne. Die Heterogenität unterschiedlicher Datenbestände erfordert Lösungen auf syntaktischer, struktureller und semantischer Ebene. Das W3C[5] hat sieben aufeinander aufbauende Ebenen des Software-Designs identifiziert (Abb. 2.1), auf denen schrittweise Standards mit wachsender Ausdrucksstärke zur Repräsentation von Daten und Wissen zu entwickeln und durchzusetzen sind, um, ausgehend vom derzeitigen Stand der Entwicklung und auf dessen GrundlAbbildung in dieser Leseprobe nicht enthalten

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: semantic web layer cake (Graphik aus [35])

age, ein semantisches Web zu installieren. Grundlage bilden syntaktische Standards wie XML, welche dazu dienen, Daten und Metadaten auf einheitlicher Basis zu repräsentieren und auf strukturierte Art und Weise auszutauschen, m.a.W. einen einheitlichen Rahmen und Werkzeuge für den Austausch von Daten und Metadaten zwischen Anwendungen zu bieten, ohne jedoch Zugriff auf die Semantik der Daten zu ermöglichen. In nächster Stufe müssen Möglichkeiten entwickelt werden, um Information auf der Meta-Ebene zu beschreiben und ihre Bedeutung zu definieren, also Informationen über den Inhalt oder den möglichen Gebrauch von Daten darzustellen. Ein solches Datenmodell stellt das ressource description framework (RDF) dar. Auf nächst höherer Ebene definiert RDF-S das Vokabular, welches in RDF-Datenmodellen Verwendung findet, spezifiziert, welche Merkmale zu welchen Objekten gehören und welche Werte diese annehmen können und beschreibt die Beziehungen zwischen Objekten. Die festgelegte Bedeutung bestimmter Sprachelemente erlaubt es nun, bestimmte Wissensbereiche zu modellieren, d.h. eine Ontologie im Sinne einer Wissensbasis anzulegen.

2.2 Formalisierung des Wissens

Ontologien bilden die Basis für die Formalisierung der Semantik von Web-Dokumenten.

Ontologie bedeutet in diesem Zusammenhang eine formale, explizite Spezifikation einer gemeinsam genutzten Konzeptualisierung („An ontology is an explicit speci?cation of a conceptualization“ (Gruber, zitiert in [26]))

Sie bieten eine Möglichkeit, die Bedeutung von Informationen maschinen-les- und verarbeitbar vorzuhalten und zwischen verschiedenen Agenten (Software-Tools oder menschlichen Nutzern) auszutauschen. Konzeptualisierung bedeutet in diesem Fall ein (vereinfachtes) abstraktes Modell eines zu beschreibenden Weltausschnitts welches dessen wesentlichen Konzepte und deren Beziehungen identifiziert, wobei Klassifizierungen, Einschränkungen usw. der einzelnen Konzepte explizit definiert werden und zwar auf formale, d.h. maschinenlesbare Art und Weise. Gemeinsame Nutzung zielt auf die Vorstellung ab, daß eine Ontologie Wissen enthält, welches von einer ganzen Gruppe von Nutzern (in unterschiedlichen Zusammenhängen) in übereinstimmender Weise verstanden und genutzt wird. Hier ergibt sich natürlich sofort das Problem, eine Übereinkunft zwischen den unterschiedlichsten Anwendern hinsichtlich dieses gemeinsamen Verständnisses zu erreichen, zumal je nach Anforderung durchaus unterschiedlich "feine" Modellierungen ein und desselben Wissensbereichs ausreichen bzw. nötig sind. Außerdem ist zu beobachten, daß viele Institutionen für ihre Zwecke eigene Ontologien entwerfen. Um trotzdem eine anwendungsübergreifende Nutzung verschiedener Ontologien zu erreichen, bietet es sich an, sie nach ihrer "Feinkörnigkeit" in eine Hierarchie einzuordnen, wobei für allgemeiner gehaltene Ontologien im Normalfall einfacher ein Konsens gefunden werden kann. Dieser Vorstellung folgend können nach Guarino (zitiert in [57]) verschiedene Arten von Ontologien unterschieden werden (Abb. 2.2).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.2: Arten von Ontologien [57]

Man erkennt zwei wesentliche Eigenschaften von Ontologien: sie bilden ein Netzwerk verschiedener semantischer Modelle und sie sind ständigen Veränderungen unterworfen. Hieraus ergibt sich die Notwendigkeit eines einheitlichen Datenmodells, einer Ontologiesprache, um einen Datenaustausch zwischen einzelnen Ontologien zu ermöglichen und Werkzeuge zu erstellen, um ggf. Heterogenitätskonflikte aufzulösen. Eine maschinenlesbare Repräsentation der Ontologie eröffnet die Möglichkeit, mit Hilfe von Inferenzmaschinen, sogenannten Reasonern, aus den vorliegenden Daten effektive logische Schlußfolgerungen zu ziehen, so daß Abfragen über Ontologien automatisiert werden können. Die Ausdrucksstärke einer Ontologie, d.h. ihre Fähigkeit, einen Weltausschnitt so nah wie möglich an der menschlichen Vorstellung von ihm abzubilden, hängt stark vom Grad der Formalisierung ab. Hierbei gibt es unterschiedliche Wege, wie Konzeptualisierung und Kontext-Wissen dargestellt werden. Die Möglichkeiten reichen (bei wachsender (semantischer) Ausdrucksstärke) von der einfachen informellen Beschreibung von Ausdrücken in natürlicher Sprache entsprechend eines Glossars über einfache Hierarchien von Ausdrücken oder komplexe Netzwerke, Hierarchien von Konzepten, komplexen Konzeptbeschreibungen bis hin zu streng formalen Ansätzen mit der Ausdrucksstärke von Prädikatenlogik. (Abb. 2.3)

Abbildung in dieser Leseprobe nicht enthalten

GenerAbbildung 2.3: wachsende Ausdrucksstärke semantischer Modelle[http://www.fao.org]

ell gilt: je formaler die Beschreibung, desto eingeschränkter die Möglichkeit, Feinheiten der menschlichen "Sicht der Dinge" abzubilden, desto größer jedoch die Chance, weitgehende automatische Wissensverarbeitung, durch rein logische Inferenzmechanismen, zu erreichen. Anders gesagt, je expliziter einer Konzeptualisierung gemacht wird, desto weniger finden implizite Annahmen über die Bedeutung eines Vokabulars, welche nicht direkt beweisbar sind, Berücksichtigung.

Eine weitverbreitete logikbasierte Konzeptualisierung stellt die web ontology language OWL, speziell deren Dialekt OWL DL auf Basis von Beschreibungslogik dar. Im Folgenden sollen die genannten Standards kurz eingeführt werden, wobei besondere Aufmerksamkeit der Wissensrepräsentation via (OWL) DL zukommen soll, da diese für die folgenden Betrachtungen, insbesondere die Repräsentation räumlicher Beziehungen als Grundlage für das automatische Schließen über sie, bedeutsam sind.

3 semantic web Standards

3.1 XML

XML[6] [7] ist wie HTML eine tag-basierte Auszeichnungssprache. Im Unterschied zu HTML finden hier jedoch nicht vordefinierte tags mit festgelegter Bedeutung Verwendung. Stattdessen bietet es die Möglichkeit nutzerseitig eigene tags zu definieren, die die Darstellung von Daten und Metadaten in einem Dokument ermöglichen, während gleichzeitig der Dokumenteninhalt und dessen Präsentation getrennt bleiben. Aufgrund dieser Flexibilität kann XML als Metasprache zur Definition anderer Auszeichnungssprachen verwendet werden. Neben der Strukturierbarkeit von Dokumenten steht die Möglichkeit, Daten auf strukturierte Art und Weise auszutauschen, im Zusammenhang mit Anforderungen des semantischen Web im Vordergrund des Interesses. XML ist leicht zu parsen und bietet einen einheitlichen Rahmen und Werkzeuge für den Austausch von Daten und Metadaten zwischen Anwendungen, ohne jedoch Zugriff auf die Semantik der Daten zu ermöglichen. Es hat ein wohldefiniertes und anbieterunabhängiges Format und ist allgemein verbreiteter Web-Standard.

Ähnlich wie HTML besteht ein XML-Dokument aus in ggf. verschachtelten tags eingeschlossenem Inhalt. (Abb. 3.1)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.1: XML-Dokument

lgeformtes XML-Dokument erzeugt einen Baum ineinander verschachtelter Elemente mit start- und end-tags, von denen jedes durch Attribut-Wert-Paare spezifiziert werden kann. Ein Dokument besteht mindestens aus dem Wurzel- oder Dokument-Element. Der Inhalt eines Elements besteht wiederum aus Elementen, wobei Rekursionen und Elemente mit mehreren Elternelementen verboten sind. Jedes Element muß mit einem start- tag beginnen und mit einem end- tag abgeschlossen werden. Die Unterscheidung zwischen Elementen und eigentlichem Inhalt ist durch die spitzen Klammern der tags gewährleistet. Die Elemente erhalten mnemonische, d.h. sinntragende Bezeichner, so daß aus ihnen die Bedeutung der Strukturierung abgelesen werden kann. Attribute bieten die Möglichkeit, Elemente mit zusätzlichen Eigenschaften zu versehen. Da es kein vorgegebenes Vokabular bzw. keine Menge erlaubter Kombinationen gibt, kann dies für jede Anwendung mit Hilfe sog. Dokument Type Definitions[8] definiert werden. DTD beschreiben die Struktur einer Menge von ähnlichen Dokumenten und dienen auf diese Art dazu, die Standardisierung von Anwendungsdokumenten und Datenobjekten zu fördern. Sie beschreiben die tags, die ein Dokument verwenden kann, zugeschnitten auf die speziellen semantischen Anforderungen des Anwendungskontextes, und die Regeln, nach denen die tags mit ihrem Inhalt verknüpft werden. Die zusätzlichen Einschränkungen in einer DTD beziehen sich auf die logische Struktur des Dokumentes, was insbesondere die erlaubten/verbotenen Verschachtelungen von tags beinhaltet sowie Beschränkungen, die Attributtypen und default-Werte von Attributen betreffen. Um den Mängeln der DTD beim Modellieren von komplexeren Daten zu begegnen, hat das W3C eine XML-Schemaspezifikation[9] entwickelt, die Funktionalitäten bietet, die über die von DTD hinausgehen. Diese unterstützen z.B. Datentypen und das Modellieren von Beziehungen und Einschränkungen. Ein Datenobjekt gilt als XML-Dokument, wenn es den von W3C herausgegebenen Richtlinien für wohlgeformte Dokumente entspricht. Diese Spezifikation gibt eine formale Grammatik vor, die in solchen wohlgeformten Dokumenten verwendet wird. Demnach besteht ein XML-Dokument aus einer dreiteiligen Struktur: dem Prolog, dem Wurzelelement (als Stellvertreter des darunter liegenden Baums) und, optional, einem Epilog mit weiteren Informationen. Im Prolog werden Angaben über die verwendete XML-Version und die Grammatik der Elemente (DTD) angegeben. Fehlt der Prolog, ist das Dokument zwar wohlgeformt, jedoch nicht gültig. Ein XML-Dokument ist dann gültig, wenn es eine zugehörige Typ-Definition besitzt und die grammatikalischen Einschränkungen dieser Definition erfüllt.[19]

Da XML-Schemata einen viel verständlicheren Weg darstellen, die Struktur eines XML Dokumentes zu definieren, haben sie DTDs weitgehend abgelöst. Ein XML-Schema ist selbst XML-Dokument und beschreibt eine gültige Struktur eines XML-Dokuments i.S. einer DTD. Elemente, die in einer Schema-Definition benutzt werden, sind vom Typ "element" und haben Attribute, die die genannten Beschränkungen definieren. Die Information innerhalb eines solchen Elements ist eine einfache Liste von weiteren Element-Definitionen, die in dem definierten Element verschachtelt sein müssen.

Darüber hinaus verfügen XML-Schemata über weitere nützliche features zur Datenstruktur-Definition: Sie unterstützen Basisdatentypen und lassen Einschränkungen auf Attributen (z.B Ereignis-Einschränkungen) zu, bieten hoch entwickelte Strukturen (z.B. abgeleitete Definitionen durch Erweiterung oder Einschränkung anderer Definitionen) und einen Namensraum-Mechanismus[10], der die Kombination verschiedener Schemata erlaubt, so daß Informationen aus unterschiedlichen Quellen ohne Namenskonflikte genutzt werden können, indem durch Voranstellen von Präfixen die Eindeutigkeit der Elementtypen gewährleistet bleibt. Insgesamt ermöglichen diese features es, relativ komplexe Datenstrukturen zu kodieren und Datenmodelle von Anwendungen, deren Information gemeinsam genutzt werden sollen, auf XML-Schemata abzubilden. Somit kann die Information in Ausdrücken eines XML-Dokuments kodiert und (in Verbindung mit dem XML-Schema-Dokument) über das Internet zugänglich gemacht werden. Es ist jedoch wichtig zu betonen, daß eine solche Spezifikation lediglich syntaktische Konventionen festlegt, jegliche semantische Information muß außerhalb des Bereichs des XML-Dokuments ausgedrückt werden.

Da jeder Nutzer eigene Schemata erstellen kann bzw. muß, ist der Datenaustausch zwischen Nutzern, welche XML-Dokumente die auf verschiedenen Schemata beruhen, verwenden nur möglich, wenn eine Übersetzung zwischen diesen Dokumenten erfolgt. Hier liegt die Bedeutung der eXtendible Style Language (XSL).[19]

XSL[11] ist eine Sprache um stylesheets zu beschreiben. Aktuell findet sie in erster Linie Verwendung, um XML-Dokumente in HTML-Dokumente zu übersetzen. HTML ist ja nichts anderes als ein weiterer XML-Dialekt und eine solche Übersetzung ist notwendig, da die meisten Browser XML und XSL noch nicht unterstützen. Indem jeder mit Hilfe von XSL definierte stylesheet Regeln beschreibt, um eine Klasse von XML-Dokumenten zu beschreiben, wird die Übersetzung ineinander von Dokumenten, die auf unterschiedlichen Schemata beruhen, ermöglicht.

Damit bietet XML in Verbindung mit Schema-Informationen und XSL ein großes Potential für den einheitlichen Datenaustausch zwischen Computersystemen und zwischen Anwendungen. Allerdings muß der Nutzer, um Gebrauch von der Information machen zu können, mit einem übereinstimmenden Datenmodell arbeiten. Da XML-Schemata lediglich die Struktur der Daten definieren und keine Information über den Inhalt oder den möglichen Gebrauch von Daten geben, müssen auf nächst höherer Ebene Möglichkeiten entwickelt werden, um Information auf der Meta-Ebene zu beschreiben und ihre Bedeutung zu definieren. Um diese Lücke zu füllen, wurde der RDF-Standard als Datenmodell entwickelt und vorgeschlagen um Metadaten über Web-Sites und ihren Inhalt zu repräsentieren.

3.2 RDF+RDFS

Auch wenn, wie oben gesagt, XML-Dokumente keine expliziten Informationen über die Semantik der dargestellten Informationen bieten, sind Struktur und Semantik auf gewisse Art verwoben, indem die Baumstruktur mit ihren Verzweigungen einen gewissen Kontext impliziert, so daß die Bedeutung der Elemente durch ihre wohldefinierten tags (vom Menschen) verstanden werden kann. z.B. ist klar, daß <type> in Abb. 3.1 ein <habitat> näher beschreibt, und zwar jenes mit dem <name> 100-Acre-Wood.

Das Ressource Description Framework[12] bietet nun eine Möglichkeit, die Semantik eines Dokuments explizit anzugeben, ohne Annahmen über dessen Struktur zu berücksichtigen. Es stellt ein Datenmodell dar, um Metadaten im web bereitzustellen.

RDF ermöglicht eine einheitliche, formale und standardisierte und daher maschinenverarbeitbare Beschreibung von Metadaten, diese auszutauschen und wiederzuverwenden. [19] RDF ist unabhängig von einer bestimmten Darstellungsform, am verbreitetsten ist jedoch die Repräsentation in XML. Dem menschlichen Verständnis näher ist bspw. die Notation als RDF-Graph (Abb. 3.2). Andere Formate[13] sind bspw. RDF/XML-ABBREV[14], N-Triple[15] und N3[16].

Basis des RDF-Modells ist ein RDF-Tripel oder statement (Aussage), bestehend aus Subjekt (Ressource), Prädikat und Objekt. Jede Information über eine Ressource (Web-Site, XML-Element, allgemein ein Objekt, über das eine Aussage getroffen wird) wird als solches Tripel dargestellt. Jede Ressource hat einen eindeutigen Bezeichner in Form einer URI (URL). Das Prädikat ist eine spezielle Ressource, die eine Relation beschreibt, welche das Subjekt mit einem bestimmten Objekt verbindet. Es wird ebenfalls mit einer URI identifiziert. RDF läßt lediglich zweistellige Relationen zu.

Das Objekt ist wiederum eine Ressource oder ein Literal und spezifiziert einen Wert für das Prädikat (eine Eigenschaft) des Subjekts.

Die Verwendung von URI zur Identifizierung ermöglicht ein einheitliches, globales Namensschema.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.2: RDF-GraphAbbildung in dieser Leseprobe nicht enthalten

Zur Darstellung eines RDF-Dokument mittels XML dient der tag rdf:RDF, welcher ein RDF-Dokument bezeichnet. Dessen Inhalt wird mit verschiedenen description tags (rdf:description) beschrieben (Abb. 3.3).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.3: RDF/XML-Dokument

RDF bietet einige für die Repräsentation von Metadaten wichtige features. Dazu gehören die sog. reiification - und aggregation -Mechanismen. Ersterer erlaubt es, Aussagen über Aussagen zu treffen, indem ein eindeutiger Bezeichner (ID) für jedes statement eingeführt wird, wodurch es seinerseits zu einer Ressource wird, also darauf Bezug genommen werden kann. RDF erlaubt außerdem, daß ein Merkmal mehrere Werte annehmen kann. Hierfür stellt RDF Datentypen für Listen und Mengen von Ressourcen (sogenannte collections) zur Verfügung, die ihrerseits wiederum Ressourcen darstellen.

Als Nachteil muß der Umstand gelten, daß nur zweistellige Relationen zugelassen sind, so daß mehrstellige umständlich durch mehrere zweistellige Relationen dargestellt werden müssen (z.B. muß die ID in drei Tripeln jeweils mit jedem der drei Teile des statements über die Relationen subject, predicate, object verknüpft werden) und daß keine Klassifikation von Ressourcen unterstützt wird. Diese features werden, neben anderen, erst auf einer höheren Abstraktionsebene definiert.

Das RDF-Modell ist unabhängig von einer bestimmten Domäne. Daher obliegt es dem Nutzer, auf einer nächsten Ebene seine eigene Terminologie in einer Schema-Sprache, RDF-S genannt, zu definieren. RDF-S bietet verschiedene Basiselemente mit festgelegter Bedeutung, so daß eine Typisierung von Ressourcen und Einschränkung von Eigenschaften ermöglichst wird.

Basis-Klassen in RDF-S sind

- rdfs: Ressource, die Klasse aller Ressourcen
- rdfs: Class, die Klasse aller Klassen
- rdfs: Literal, die Klasse aller Literale (strings), derzeit der einzige Datentyp von RDF/RDF-S
- rdf: Property, die Klasse aller Eigenschaften
- rdf: statement, die Klasse aller Aussagen

Klassen können als Mengen von Elementen aufgefaßt werden. Einzelne Objekte (Ressourcen) können über die rdf: type- Beziehung einer bestimmten Klasse zugeordnet werden.

Klassen können über die subClassOf- Beziehung zu Hierarchien verknüpft werden, wobei Subklassen die Eigenschaften und Beschränkungen der Superklassen erben.

Beziehungen zwischen Klassen oder Instanzen und Klassen werden über folgende Basis-Eigenschaften definiert:

- rdf: type, verknüpft eine Ressource mit ihrer Klasse, d.h. die Ressource wird zu einer Instanz einer Klasse erklärt

- rdfs: subClassOf, verknüpft eine Klasse mit einer ihrer Elternklassen, d.h. die Klasse wird zu einer Unterklasse erklärt
- rdfs: subPropertyOf, verknüpft eine Eigenschaft mit einer ihrer Elterneigenschaften.
Die Gültigkeit von Eigenschaften (Property/Predicate) hinsichtlich ihres Werte- oder Definitionsbereichs (range/domain) kann eingeschränkt werden, so daß z.B. unsinnige Aussagen wie Forest lives_in 100-Acre-Wood ausgeschlossen werden. Hierzu dienen folgende Eigenschaften:
- rdfs: domain, spezifiziert die Klassen, auf deren Elemente eine bestimmte Eigenschaft zutreffen kann, d.h. die Subjekte, die in einem Tripel SPO zu einen Prädikat P gehören können. Ohne solche Einschränkung kann jede Ressource Subjekt sein.
- rdfs: range, spezifiziert die Klassen, deren Elemente Objekt einer bestimmten Eigenschaft sein können.
Wie schon erwähnt können mit RDF Aussagen über Aussagen getroffen werden (reiification). Hierzu dienen die Primitiven
- rdf: subject, rdf: predicate und rdf: object, die ein statement mit dessen Subjekt, Prädikat bzw. Objekt verknüpfen.

Eine weitere erwähnte Eigenschaft von RDF ist die Möglichkeit, Ressourcen oder Attribute über die Aussagen getroffen werden sollen, zusammenzufassen. (aggregation) Hierzu dienen die Container-Klassen rdf: bag, rdf: Seq und rdf: Alt (geordnete, ungeordnete Mengen, Menge von Alternativen) mit der

Superklasse rdfs: Container

Ressourcen können auf verschiedene Art und Weise an unterschiedlichen Stellen im Web definiert und beschrieben sein. Ein entsprechender Bezug (link) kann mittels

rdfs: seeAlso bzw. deren Subproperty rdfs: isDefinedBy hergestellt werden.

Nutzerfreundliche Kommentare oder Namen von Ressourcen können mit Hilfe der properties rdfs: comment bzw. rdfs: label in ein RDF-S Dokument eingefügt werden.

Mit RDF-S können also bereits einfache Ontologien beschrieben werden, allerdings fehlt das für eine wirklich ausdrucksstarke Sprache nötige Vokabular, um bspw. Eigenschaften von Eigenschaften zu beschreiben, komplexere Beziehungen zwischen Klassen zu definieren oder Aussagen über Kardinalitäten und andere Beschränkungen von Eigenschaften zu treffen.[1]

[...]


[1] z.B. „kennt“ ein Agent A die räumlichen Beziehungen des RCC und weiß das X in Abteilung Y arbeitet. Zusätzlich weiß er, wo sich die Mensa M befindet. Er stellt eine Anfrage an den Uni-Agenten, der die speziellen Zusammenhänge (Abteilung Y befindet sich (is_proper_part) im Institut Z mit Sitz im Gebäude B...) kennt/nennt. B befindet sich im Einzugsbereich von M (20 min Fußweg), gleichzeitig überlappen sich Einzugsbereich von M und Radius von A (max 10 min Fußweg weil...?)?mache Termin mit X in Mensa in (sicherheitshalber) 30 min

[2] siehe Ausschnitt aus Forumsdiskussion mit ins Thema involvierten Wissenschaftler zu Beginn des 11. Kapitels

[3] description logics: DL ? Abschnitt 3.2

[4] web ontology language ? Abschnitt 3.3

[5] world wide web consortium: http://www.w3c.org

[6] Kapitel 3 basiert zu großem Teil auf der Seminararbeit „semantic integration“ vom Autor der vorliegenden Arbeit (im selben Fachbereich)

[7] Extensible Markup Language (XML) : W3C Recommendation, 2004, http://www.w3.org/TR/REC-xml/

[8] DTD

[9] XML-Schema, W3C Recommendation, 2001, http://w3.org/XML/Schema

[10] Namespaces in XML, W3C Recommendation, 1999, http://www.w3.org/TR/1999/REC-xml-names-19990114

[11] XSL Transformations (XSLT), W3C Recommendation, 1999, http://www.w3.org/TR/xslt

[12] RDF: W3C Recommendation, 2004: http://www.w3.org/RDF/

[13] zum Vergleich der einzelnen Formate siehe z.B.: http://www.w3.org/2000/10/swap/doc/formats

[14] eine verkürzte Darstellungsform der XML-Syntax von RDF

[15] http://www.w3.org/TR/rdf-testcases/#ntriples: zeilenbasiertes reines Textformat zur Darstellung von RDF-Graphen

[16] http://www.w3.org/DesignIssues/Notation3: eine kompakte und ausdrucksstärkere Alternative zur XML-Syntax von RDF

Ende der Leseprobe aus 85 Seiten

Details

Titel
Qualitatives Räumliches Schließen - Repräsentation qualitativ-räumlichen Wissens im semantischen Web mittels topologischer Beziehungen zwischen Regionen
Untertitel
Erstellen einer Experimentierplattform zur Transformation von und zum Schließen über topologische Relationen in OWL DL
Hochschule
FernUniversität Hagen
Note
1,0
Autor
Jahr
2007
Seiten
85
Katalognummer
V90186
ISBN (eBook)
9783638044578
Dateigröße
2117 KB
Sprache
Deutsch
Schlagworte
Qualitatives, Räumliches, Schließen, Repräsentation, Wissens, Beziehungen, Regionen
Arbeit zitieren
Stefan Köpke (Autor:in), 2007, Qualitatives Räumliches Schließen - Repräsentation qualitativ-räumlichen Wissens im semantischen Web mittels topologischer Beziehungen zwischen Regionen, München, GRIN Verlag, https://www.grin.com/document/90186

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Qualitatives Räumliches Schließen - Repräsentation qualitativ-räumlichen Wissens im semantischen Web mittels topologischer Beziehungen zwischen Regionen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden