Lade Inhalt...

Implementierung einer Dokumentensuche basierend auf einem Semantischen Netz

Studienarbeit 2001 71 Seiten

Ingenieurwissenschaften - Maschinenbau

Leseprobe

Inhalt:

1 EINLEITUNG
1.1 MOTIVATION DER ARBEIT
1.2 AUFBAU DER STUDIENARBEIT

2 BEKANNTE SUCHMASCHINEN DES INTERNETS
2.1 HIERARCHIEBASIERENDE SUCHMASCHINEN
2.2 SUCHMASCHINEN MIT VOLLTEXTSUCHE
2.3 METASUCHMASCHINEN

3 SEMANTISCHE NETZE
3.1 WAS SIND SEMANTISCHE NETZE?
3.2 ANWENDUNGSGEBIETE VON SEMANTISCHEN NETZEN
3.3 BEISPIELE VERSCHIEDENER MÖGLICHER AUSPRÄGUNGEN SEMANTISCHER NETZE
3.3.1 Weiterentwicklung des Internets zu einem Semantischen Netz ([BLHL01])
3.3.2 Das Semantische Netz der Dokumentensuche
3.4 ZUKUNFTSAUSBLICK FÜR SEMANTISCHE NETZE

4 KONZEPT DER DOKUMENTENSUCHE

5 IMPLEMENTIERUNG DER DOKUMENTENSUCHE
5.1 AUFBAU/ABLAUF DER SUCHE
5.1.1 Start der Suche
5.1.2 Einstieg in die Suche
5.1.3 Ergebnisausgabe und Weitersuchen
5.1.4 Einordnen eines Dokuments oder Stichworts
5.2 ÜBERSICHT ÜBER DIE HILFSPROGRAMME DER SUCHMASCHINE
5.2.1 Eintragung eines Dokumentes in die Datenbank
5.2.2 Überprüfung des Status, Einordnung eines Dokuments
5.2.3 Änderung eines Dokumenteintrags
5.2.4 Löschung von Dokumenten
5.3 AUFBAU DER DATENBANKSTRUKTUR UND DER TABELLEN
5.3.1 Die Tabelle tbDokument
5.3.2 Die Tabelle tbDokAutor
5.3.3 Die Tabelle tbStichwort
5.3.4 Die Tabelle tbMenuOber
5.4 AUTOMATISCHER UPLOAD
5.4.1 Funktionsweise des Uploads
5.4.2 Automatische Benachrichtigung per E-Mail

6 ERLÄUTERUNGEN ZUR PROGRAMMIERUNG
6.1 ÜBERSICHT ÜBER DIE VERWENDETE SOFTWARE
6.1.1 Programmiersprache php
6.1.2 Das relationale Datenbank Management System MySQL
6.2 EINSTIEG IN DIE SUCHE: SCHLAG.HTML
6.3 SUCHALGORITHMUS: SCHLAG2.HTML
6.3.1 Die Funktion suchmenu ($stichwort)
6.3.2 Die Funktion suche_stichworte ($liste)
6.3.3 Die Funktion Menuebeschreibung ($men_id)
6.3.4 Die Funktion Beschreibung ($MenID)
6.3.5 Die Funktion Abfrage_ende()
6.3.6 Die Funktion NeueAnfrage ($MenID, $SwID)
6.3.7 Die Funktion Zeige_Menue
6.3.8 Die Funktion Unterteile ($gruppe, $total)
6.4 DIE SEITEN EINORD1.HTML, DOK_CH.HTM, DELETE.HTM, MULTIDEL.HTM
6.5 DIE SEITE DOK_INS.HTM

7 LITERATURVERZEICHNIS

8 ABBILDUNGSVERZEICHNIS

9 ANHANG: QUELLTEXTE
9.1 QUELLTEXT SCHLAG2.HTML
9.2 QUELLTEXT SCHLAG.HTML

1 Einleitung :

1.1 Motivation der Arbeit

Die immer größer werdende Fülle von Dokumenten, die sich mit der Zeit im Lehrstuhlbetrieb, in Lehre, Forschung und Verwaltung angesammelt hat und immer noch ansammelt, macht es notwendig, eine Software zu entwickeln, mit deren Hilfe Dokumente komfortabel wiederzufinden sind, ohne genauere Kenntnis über deren Beschaffenheit zu besitzen. Das gilt sowohl für selbst erstellte Dokumente als auch für solche anderer Mitarbeiter. Da man Dokumente anderer mitbenutzen kann, entfällt damit die Notwendigkeit, Dokumente immer wieder selbst neu zu erstellen. Damit kann Zeit und Arbeitsaufwand eingespart werden. Bisher entstand eine solche Mehrfacherstellung von Dokumenten durch eine nicht vorhandene Organisation von Dokumenten am Lehrstuhl. Jeder Mitarbeiter organisierte seine Dokumente selber und war damit der einzige, der die Dokumente wiederfinden konnte. Darüber hinaus bestand auch nicht die Möglichkeit, auf Dokumente anderer Mitarbeiter zuzugreifen. Dazu mussten immer wieder Rücksprachen gehalten werden. Es existierte keine Plattform, auf der diese Dokumente untereinander ausgetauscht wurden. Abhilfe schafft die geführte Dokumentensuche.

Kern der Studienarbeit ist es, einen von Horst Werner für den Berliner Kreis entwickelten Suchalgorithmus den Gegebenheiten, die am Lehrstuhl für Konstruktionstechnik/CAD herrschen, anzupassen und die benötigten Datenbankstrukturen zu erstellen. Dabei wurde die ursprünglich auf Kompetenzen von Personal und Instituten ausgerichtete Suchmaschine für die Verwaltung von Dokumenten umgeschrieben. Da sich der „Begriff“ Dokument nicht nur auf Veröffentlichungen bezieht, lassen sich mit dieser so modifizierten Suchmaschine auch Vorlagen, Bilder und Notizen verwalten. Es besteht keine Einschränkung des Dateityps.

Um die Akzeptanz zu steigern, wird ein besonderes Augenmerk darauf gelegt, den Aufwand für Datenpflege so gering wie möglich zu halten. Ein automatischer Upload der Dokumente mit anschließender automatischer Benachrichtigung per E-Mail nimmt dem Benutzer schon einen großen Teil der Arbeit ab und reduziert die Anzahl der möglichen Bedienfehler.

Von den bekannten Suchmaschinen, die man in großer Fülle im Internet finden kann, unterscheidet sich die am Lehrstuhl für Konstruktionstechnik/CAD implementierte Dokumentensuche durch das neue Konzept des Semantischen Netzes. Die Arbeit mit diesem Semantischen Netz scheint dem Benutzer anfangs kompliziert und gewöhnungsbedürftig zu sein, jedoch zeigt sich bereits nach kurzer Zeit, dass das zugrundeliegende Konzept leicht zu verstehen ist.

1.2 Aufbau der Studienarbeit

Die Arbeit beginnt mit einem Überblick über bereits im Internet vorhandene Suchmaschinen. Deren Vorteile und insbesondere Nachteile werden aufgezeigt, um einen Vergleich mit dem in dieser Arbeit verwendeten Konzept durchführen zu können. In diesem Zusammenhang wird nicht auf Suchmaschinen im Einzelnen eingegangen, sondern deren grundlegende Konzepte werden erläutert.

Darauf wird der Aufbau Semantischer Netze beschrieben, ihre Struktur als Graphen und die Besonderheiten, durch die sie sich von anderen, bereits vorhandenen Konzepten abgrenzen. Nach einer kurzer Beschreibung der Anwendungsgebiete von Semantischen Netzen erläutern Beispiele den Nutzen und die Funktionsweise Semantischer Netze.

Dieser Übersichtsdarstellung folgt eine umfassende und detaillierte Darstellung des Konzepts der implementierten Suchmaschine. Die Funktionsweise der zugrundeliegenden Menüs wird aufgezeigt und auch an Beispielen verdeutlicht. Zudem wird darauf hingewiesen, an welchen Stellen das hier verwendete Konzept nicht dem theoretischen Modell entspricht.

Im nächsten Kapitel erfolgt eine Beschreibung der Implementierung der LKT- Dokumentensuche. Zunächst wird die Oberfläche beschrieben, und alle Optionen, die dem Benutzer dabei zur Verfügung stehen, werden erklärt.

Das darauf folgende Unterkapitel der Arbeit gibt eine Übersicht über die Zusatzprogramme, mit deren Hilfe die Datenbank manipuliert werden kann, z.B. Ändern der Dokumentdaten oder Einfügen eines Dokuments.

Danach wird eine Darstellung der Datenbankstrukturen und der Verknüpfungen der Tabellen untereinander gegeben. In den Datenbankstrukturen ist das Grundgerüst des Semantischen Netzes vollständig hinterlegt, während die Suchintelligenz in den php-Skripten liegt.

Zusätzlich wird die Funktionsweise des Automatischen Uploads erklärt, der es ermöglicht, Dokumente automatisch in die Datenbank einzutragen. Möglichen Fehlbedienungen wird dadurch vorgegriffen und die Bedienfreundlichkeit für den Benutzer wird erhöht.

Die Arbeit schließt mit einem Überblick über die verwendete Software und eine kurze Erläuterung der Quelltexte der einzelnen Programme. Damit sind die Programmstrukturen gemeint. Besondere Bedeutung wird den Seiten schlag.html und schlag2.html beigemessen; ihre Funktionsweisen werden explizit aufgeführt, da sie den Kern der Suche bilden.

2 Bekannte Suchmaschinen des Internets

Da eine stetig wachsende Datenmenge überschaubar bleiben soll, erfahren Suchmaschinen eine steigende Bedeutung. Im Internet handelt es sich dabei hauptsächlich um Suchmaschinen, die für den Benutzer Internetseiten nach Stichwörtern durchsuchen. Es werden Stichwörter eingegeben, die die Suchmaschinen mit Inhalten der Seiten vergleichen: entweder mit dem Inhalt sogenannter Meta-Tags, - das sind vom Programmierer der Seite angegebene Stichwörter, die den Inhalt der Seite wiedergeben sollen -, oder mit auf dem Bildschirm ausgegebenen Wörtern. Das hängt vom jeweiligen Konzept ab.

Darüber hinaus gibt es eine Vielzahl an Suchmaschinen, die nicht für das Internet konzipiert wurden. Sogar Betriebssysteme verfügen über eine Dateisuche, die z.B. die Festplatte nach Dateien durchsucht.

In dieser Arbeit werden jedoch nur die Suchmaschinen des Internets genauer betrachtet, da die Dokumentensuche auch für das Internet konzipiert ist, um unabhängig vom Terminal zu sein, von dem eine Suche beginnen soll.

Bekannte Suchmaschinen, wie sie in großer Zahl im Internet vorkommen, basieren bisher auf zwei verschiedenen Prinzipien. Zum einen gibt es die hierarchiebasierenden Suchmaschinen und zum anderen Suchmaschinen mit Volltextsuche. Beide Konzepte haben von Natur aus Vor- und Nachteile. Die Betreiber versuchen immer wieder Modifikationen, die die Nachteile ausgleichen sollen, um sich dadurch einen Vorteil gegenüber anderen in Konkurrenz stehenden Suchmaschinen zu verschaffen; aber von der Struktur her, auf der die jeweilige Suche aufbaut, handelt es sich um Suchmaschinen, die entweder auf einer Hierarchie aufgebaut sind oder auf Volltextsuche basieren.

2.1 Hierarchiebasierende Suchmaschinen

Hierarchiebasierende Suchmaschinen bauen auf einem Stichwortbaum auf, der einem Verzeichnisbaum eines Betriebssystems gleicht. Es gibt nur die Möglichkeit, sich im Baum von oben nach unten, bzw. von unten nach oben zu bewegen. Falsche Stichwörter oder Stichwörter, deren Inhalt ein anderer ist als angenommen, was gleichbedeutend mit einem falschen Abbiegen innerhalb des Baumes ist, führen somit in einen falschen Baumzweig, aus dem man nicht wieder herauskommt. Eine geführte Suche ist damit nicht möglich. Nur eine neue Suchanfrage kann diese Verirrung im Suchbaum beheben. Dies wirkt sich besonders nachteilig aus, wenn man über das zu suchende Objekt nicht allzu gut Bescheid weiß und deshalb geeignete, charakteristische Stichwörter unbekannt sind. Dies führt immer wieder zu zahlreichen Fehlversuchen oder Ergebnissen, die nicht zum gesuchten Objekt führen. Ein „Sich-Herantasten“ an das zu suchende Objekt ist hier nicht möglich. Yahoo! gehört zum Beispiel zu den Suchmaschinen, die auf dieser Technologie aufgebaut sind.

Es gibt Bemühungen, den Nachteil der Eingleisigkeit hierarchiebasierender Suchalgorithmen zu kompensieren, was aber meist zu einer noch größeren und damit noch unübersichtlicheren Zahl an Suchergebnissen führt. Yahoo! versucht zusätzlich mit einem Kategoriebaum, Seiten sinnvoll zu gliedern. Die Zahl an Ergebnissen wird dadurch allerdings nicht eingeschränkt, sondern sie erhalten nur eine gewisse Ordnung, die ebenfalls Wissen über das zu suchende Objekt verlangt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Beispiel eines Hierarchie basierenden Stichwortbaumes

Abbildung 2.1zeigt einen solchen einfachen, hierarchisch aufgebauten Stichwortbaum, den man der Dokumentensuche zu Grunde hätte legen können. Man erkennt jedoch schon bei diesem einfachen Stichwortbaum Doppeldeutigkeiten und Redundanzen. Das Stichwort „CAD“ wird z.B. in drei verschiedenen Baumzweigen aufgeführt. Findet ein Benutzer das Stichwort „CAD“, muss das nicht bedeuten, dass das darunter eingeordnete Dokument das ist, was er sucht. Es ist nicht eindeutig und auch redundant. Dieser Mangel nimmt bei großen Bäumen einen erheblichen Umfang an. Auffällig ist zudem, dass die gleichen Stichwörter (z.B. „CAD“) in verschiedenen Hierarchieebenen auftreten können. D.h. der Detaillierungsgrad der Stichwörter ist abhängig davon, in welchem Zweig man sich befindet. Damit ist es mehr oder weniger Zufall, ob man sich im richtigen Zweig oder in einem für die Suche falschen Zweig befindet. Zudem besteht keine Möglichkeit, von einem Zweig in den anderen zu gelangen, ohne dass man bis zu einem gemeinsamen, übergeordneten Knoten im Baum in der Hierarchie nach oben steigt. InAbbildung 2.1wäre das der Ursprungsknoten mit dem Stichwort „Dokumente“.

Kommerzielle Suchmaschinen haben zudem ein weiteres Manko. Wenn ein Ranking, das ist eine Bewertung der Ergebnisse, vorgenommen wird, kommt es nicht selten vor, dass dieses Ranking stark durch wirtschaftliche Interessen beeinflusst wird (vgl. [goog01], [Test01]). Das heißt, dass Seiten, die einen kommerziellen Nutzen haben und Gebühren an die Suchmaschinen entrichten, hier immer ein höheres Ranking besitzen und damit immer als höherwertiger Treffer angezeigt werden. Dem Benutzer wird dabei nicht mitgeteilt, dass es sich bei solchen Treffern um kommerziell begründete Treffer handelt. Dies widerspricht dem eigentlichen Gedanken einer Suchmaschine, Seiten zu finden, deren Inhalt am besten mit den gesuchten Begriffen übereinstimmt.

2.2 Suchmaschinen mit Volltextsuche

Eine andere Technologie der Suche neben der mit hierarchiebasierenden Stichwortbäumen ist die der Volltextsuche. Suchmaschinen wie Google oder Altavista basieren darauf. Sie durchforsten Internetseiten nach den vom Benutzer vorher eingegebenen Stichwörtern. Dabei führen Stichwörter, die nicht ausschließlich in einem ganz besonderen und eingegrenzten Zusammenhang verwendet werden (z.B.: CAD, dies gilt aber nicht für die einzelnen Wörter Computer, Aided und Design), zwangsläufig zu einer großen und damit unüberschaubaren Zahl an Ergebnissen. Die Suchmaschine sucht einfach die vom Benutzer eingegebene Zeichenfolge, also nicht das Stichwort, sondern nur die aneinandergereihte Zeichenfolge. Das gesuchte Wort muss also nur in dem Dokument vorhanden sein. Die Suchmaschine ist also „dumm“, da ihr die bloße Anwesenheit eines Wortes als Selektionsmerkmal genügt. Es werden dadurch auch Wörter, die die Suchbegriffe nur enthalten oder ähnlich aussehen, als Treffer gewertet, was die Zahl der Ergebnisse noch erheblich steigert. So werden Teilstrings auch als Treffer gewertet, obwohl sie mit dem eigentlichen Begriff nur wenig oder nichts gemein haben. Zum Beispiel würde der eingegebene Begriff „Auto“ auch Ergebnisse liefern wie „Automatisierung“, „autonom“ oder „Grauton“, da jeweils „Auto“ bzw. „auto“ ein Teilstring ist. Um die Suche erfolgreich zu gestalten, bedarf es einigen Geschicks und Kenntnisse über Begriffe, die wirklich zu einer Eingrenzung der Ergebnisflut führen. Laien finden sich hiermit meist nicht zurecht.

Google versucht, die Anzahl an Ergebnissen einzuschränken, indem ausschließlich die Seiten als Ergebnis ausgegeben werden, die alle Suchbegriffe enthalten. Das heißt, alle Begriffe werden ausschließlich mit „und“ verknüpft. Seiten, die nur einen Teil der Suchbegriffe enthalten, werden ausgefiltert. Google verwendet zudem ein Ranking, das auf der lokalen Nähe der gesuchten Begriffe innerhalb einer Seite (vgl. [goog01]) und der Anzahl der Links, die auf die Seite verweisen, basiert (laut [Test01]). Zudem gibt Google keine Teilstrings als Treffer zurück. Stichwörter müssen 1:1 in den durchsuchten Seiten auftreten. Damit ist eine relativ genaue Suche möglich. Jedoch wirkt sich dies negativ auf die Flexibilität der Suchmaschine aus. Die „oder“-Verknüpfung von Suchbegriffen ist damit nicht mehr möglich. Zudem führen Rechtschreibefehler zum Versagen der Suche. Trotzdem ist Google zur Zeit die beste Suchmaschine innerhalb des Internets (laut [Test01]).

Zusammenfassend ist zu sagen, dass der hauptsächliche Nachteil aller Suchmaschinen mit Volltextsuche darin besteht, dass der Ergebnisraum oft unüberschaubare Dimensionen annimmt.

2.3 Metasuchmaschinen

Es gibt Suchmaschinen, die im eigentlichen Sinne keine eigene Suche vornehmen, da sie zur Suche keine eigenen Datenbestände unterhalten. Sie übermitteln die vom Benutzer eingegebenen Suchbegriffe an andere Suchmaschinen wie Yahoo!, Altavista, Excite und Infoseek und verwenden dann die zurückgelieferten Ergebnisse als eigene Suchergebnisse. Die einzige Intelligenz, die in dieser Suche steckt, ist das Sortieren der zurückgelieferten Ergebnisse. Problematisch hierbei erweist sich, dass nur der kleinste gemeinsame Nenner der verwendeten Suchsprachen benutzt werden kann (vgl. [Test01]). Zudem hat jede Suchmaschine ihr eigenes Rankingsystem, das von Metasuchmaschinen zunächst verarbeitet und in ein eigenes Ranking übertragen werden muss. Dabei kann es sich nur um Näherungen handeln.

Suchmaschinen dieses Typs haben also keine eigene Technologie. Sie machen sich nur die Datenbanken und Kataloge anderer Suchmaschinen zu Nutzen (vgl. [Test01]). Der Vorteil der Metasuchmaschinen liegt darin, dass sie durch Verwendung der Datenbestände vieler Maschinen auf einen größeren Datenbestand zurückgreifen. Damit wird die Suche an sich nicht wesentlich verbessert, denn auch die Nachteile der einzelnen Suchmaschinen werden mit übernommen. Auch hier ist der Ergebnisraum sehr groß und zudem besonders unübersichtlich.

Vertreter dieser Kategorie sind z.B. Metacrawler.de, metaspinner.de, suchen.com oder nettz.de.

3 Semantische Netze

3.1 Was sind Semantische Netze?

Semantische Netze sind von der Grundstruktur her Netze, also Graphen, wie man sie im Zusammenhang mit der Informatik kennt. D.h. es gibt Knoten und Relationen zwischen diesen Knoten (vgl. Abbildung 3.1).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.1: Ein einfaches Netz

Ein Semantisches Netz ist ein Graph, dessen Knoten eine Bedeutung tragen und dessen Kanten Relationen darstellen, die die Knoten in verschiedene (insbesondere Abstraktions-) Hierarchien und andere Strukturen einordnen ([Wern01]).

Als Knoten kann alles dienen, was auf der Computerebene abgebildet werden kann und was eine Bedeutung darstellen kann; insbesondere Begriffe und Stichwörter. InAbbildung 3.2sind das die Buchstaben A bis F, die stellvertretend für eine Bedeutung sein sollen. Knoten im Semantischen Netz tragen also eine Bedeutung. Die Bedeutungen, die solche Knoten tragen, hängen nur vom Kontext ab, in dem das Semantische Netz seine Anwendung findet.

Die hervorzuhebende Eigenschaften Semantischer Netze gegenüber herkömmlichen Netzen ist die Beschaffenheit der Relationen. Sie stellen nicht nur allein eine Verbindung zwischen den Knoten her, sondern geben Auskunft über die Art des Zusammenhangs der Knoten. Dabei hängt diese Information von der Richtung der Betrachtungsweise ab. Relationen können Zusammenhänge wie „ist Urheber von“, „ist Oberbegriff von“ usw. tragen. Es kommt aber darauf an, welcher Knoten zu einem anderen in Beziehung steht. Diese Eigenschaft der informationstragenden Relationen von Semantischen Netzen stellt einen unschätzbaren Vorteil dar, da Softwareanwendungen, speziell im Falle dieser Studienarbeit Suchmaschinen, die Relation verstehen und verarbeiten können. Insbesondere sind Abstraktionsrelationen möglich wie „ist Spezialfall von“ oder „ist Teil von“. Damit lassen sich Knoten speziell in Abstraktionshierarchien einordnen. Das ermöglicht ein riesiges Anwendungsspektrum für Semantische Netze. Sogar Vererbungsmechanismen wie beim objektorientierten Programmieren könnten damit abgebildet werden. Hier würde eine Relation z.B. „ist Unterklasse von“ oder, in der anderen Richtung betrachtet, „ist Oberklasse von“ lauten.

Die Erweiterung des Netzes ausAbbildung 3.1zu einem Semantischen Netz zeigt dieAbbildung 3.2. Dabei wurden die zwei Richtungen der Relationen aus Platzgründen nicht berücksichtigt und einige mögliche Relationen vernachlässigt. Die Information der Relation AC z.B. ist das Komplementär zum Wert der Relation CA. Würde die Relation AC die Information „ist Obermenü von“ tragen, wäre der Wert der Relation CA „ist Untermenü von“. Die Richtung der Sicht spielt, wie oben beschrieben, eine Rolle.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.2: Erweiterung zu einem Semantischen Netz

In einem Semantischen Netz ist also nicht nur die Relation als solche zwischen zwei Knoten hinterlegt, sondern auch eine Beschreibung, wie diese Relation beschaffen ist. Sie trägt eine explizite Information.

Die Anzahl der Relationen wird nur durch die Anzahl der Knoten begrenzt. In einem gewöhnlichen Netz kann es bei n Knoten bis zu[Abbildung in dieser Leseprobe nicht enthalten]Relationen geben. In einem Semantischen Netz erhöht sich die Anzahl möglicher Relationen auf[Abbildung in dieser Leseprobe nicht enthalten], wenn man berücksichtigt, dass die Aussage einer Relation von der Richtung der Betrachtungsweise abhängt.

In der Einfachheit des Aufbaus eines solchen Semantischen Netzes liegt die Universalität dieses Konzeptes. Eine Vielzahl der Anwendungsmöglichkeiten ist denkbar. Beispiele werden imKapitel 3.3aufgezeigt.

3.2 Anwendungsgebiete von Semantischen Netzen

Durch die Universalität ihres Konzeptes können Semantische Netze überall dort ihre Anwendung finden, wo eine Datenmenge mit gewerteten Relationen geordnet werden kann. Voraussetzung dafür ist, dass eine Netzstruktur für die Gegebenheiten sinnvoll und anwendbar ist.

Semantische Netze ermöglichen es, die Schnittstelle zwischen Computer und Mensch sehr viel intuitiver zu gestalten. Die Bedienfreundlichkeit eines Computers kann dadurch wesentlich gesteigert werden. Die Computer werden durch Semantische Netze „schlauer“, da sie selbstständig Verbindungen zwischen einzelnen Knoten herstellen können und diese Verbindungen auch verstehen können, was bisher nicht möglich war. Bisher muss der Benutzer solche Verbindungen selbst herstellen. Bei sehr vielen Informationen, bzw. bei großen Datenmengen ist der Mensch schnell überfordert. Dazu vergleiche man [BLHL01] oderKapitel 3.3.1. Dort ist beschrieben, wie mit Hilfe eines Semantischen Netzes sogenannte Web-Agenten selbstständig diese Aufgaben erledigen können, ohne dass die Vorgehensweise explizit in einem Programmquelltext niedergelegt sein muss. Web-Agenten sind dabei Programme, die ohne ständige Überwachung und Kontrolle durch den Menschen arbeiten, um spezifische Aufgaben zu erledigen. Gewöhnlich sammeln, filtern und verarbeiten Agenten Informationen, die sie im Web finden, häufig mit Hilfe anderer Agenten ([BLHL01]). Durch Semantische Netze können Computer in gewisser Weise selber denken, Schlüsse ziehen und Aktionen selbständig starten, da sie die Relationen zwischen Knoten erfassen und verarbeiten können.

Speziell Suchen lassen sich durch Semantische Netze sehr effektiv und intuitiv gestalten, da sich Suchkriterien nach dem Menschen richten und nicht danach, wie es für den Rechner am besten ist. Damit ist gemeint, dass durch Semantische Netze Suchvorgänge möglich sind, die ein Mensch nachvollziehen kann, ohne viel Erfahrung im Umgang mit Computern haben zu müssen. Zudem können Rechner Informationen selbstständig ergänzen, so dass der Aufwand, den Rechner mit Informationen zu versorgen, gering gehalten werden kann. Ein Beispiel hierfür wird im folgendenKapitel 3.3.1gegeben. Daran erkennt man, wie eine Anwendung eine Suche durchführen kann und dabei mit Hilfe der Relationen eines Semantischen Netzes Informationen verarbeiten kann, die ein Benutzer nicht eingegeben hat.

3.3 Beispiele verschiedener möglicher Ausprägungen Semantischer Netze

3.3.1 Weiterentwicklung des Internets zu einem Semantischen Netz ([BLHL01])

Die Technologie des Semantischen Netzes wird im Bereich der Künstlichen Intelligenz immer häufiger im Zusammenhang mit dem Internet diskutiert. Grundlegender Gedanke bei der Übertragung des Konzeptes des Semantischen Netzes auf das Internet ist, dass man das Internet weitgehend von einer „dummen“ Ansammlung von Informationen zu einem geordneten, sinntragenden Konstrukt umfunktionieren will, so dass die enorme Datenmenge des Internet auch sinnvoll genutzt werden kann.

Das Internet als solches hat sich zu einem Archiv für vom Menschen lesbare Dokumente entwickelt, d.h. der Mensch kann Informationen aus den Inhalten einzelner Seiten herauslesen. Deshalb kann das Verknüpfen einzelner Informationen nur vom Menschen durchgeführt werden. Weil die maschinelle Verarbeitung von Informationen bisher vernachlässigt wurde, ist eine automatisierte Verknüpfung von Informationen und damit eine effektivere Informationsverwaltung und -nutzung noch nicht möglich. Den Rechnern fehlt einfach das Wissen, das für die Lösung dieser Aufgabe nötig ist.

Abhilfe könnte hier das Semantische Netz („Semantic Web“) schaffen. Durch das Hinzufügen von computergerechten Informationen zu bestehenden Websites sowie speziell für den Computer maßgeschneiderter Dateien wird sich das Internet in ein semantisches Netz, das heißt ein bedeutungstragendes Netz, verwandeln. Softwareanwendungen selbst können dann Verbindungen zwischen den Inhalten einzelner Seiten erkennen und so die Suche für den Anwender oder eine andere Software so effektiv wie möglich gestalten. Dabei müsste auch eine äußerst hohe Trefferquote erreicht werden können, da die Software ja nach Inhalten und nicht nur wie bei der Volltextsuche nach einzelnen Wörtern oder Wortbestandteilen sucht, die vom eigentlichen Inhalt abweichen können. Damit würde die unüberschaubare Fülle an Informationen des Internets effektiv genutzt werden können, da sinnlose Informationen vorher herausgefiltert werden, eine Aufgabe, die dem Anwender damit abgenommen werden könnte.

Voraussetzung für das Semantische Netz sind die maschinenlesbaren Merkmale, die in den einzelnen Seiten vorhanden sein müssen. Hier geht das Konzept jedoch über das bereits Übliche hinaus. Bisher griffen Suchmaschinen auf sogenannte Meta-Tags zu, in denen Stichwörter zum Inhalt der Seite hinterlegt werden können. Das Semantische Netz benötigt darüber hinaus noch detailliertere Informationen.

Zum Verständnis dient folgendes Beispiel (vgl. [BLHL01]): Es wird nach dem Vornamen einer Person mit Nachnamen „Cook“ gesucht, von der man nur weiß, dass sie für eine bestimmte Firma arbeitet und dass ihr Kind an einer Universität in einer bestimmten Stadt studiert. Eine aktuelle Suchmaschine würde bei einer „oder“ –Verknüpfung der Stichwörter alles zum Thema Kochen (wegen „to cook“, engl. kochen), alles zur entsprechenden Firma, alles zu Universitäten und alles zur entsprechenden Stadt als Ergebnis ausgeben, ohne prüfen zu können, ob die Informationen untereinander die Verbindungen haben, mit der sie, wie oben beschrieben, verknüpft sind. Bei einer „und“ –Verknüpfungen gäbe es gar kein Ergebnis, da wohl keine Seite alle Stichwörter enthält.

Grund für dieses unbefriedigendes Suchergebnis ist das Fehlen von Relationen zwischen den bekannten Merkmalen, mit deren Hilfe der Ergebnisraum effektiv eingegrenzt werden könnte. Mit Hilfe des Semantischen Netzes ist das möglich. Dort ist hinterlegt, ob die Webseite von einer Person handelt oder Kochrezepte bereitstellt. Dass es sich um eine Person handelt, ist bereits die erste Relation („ist Person“). Damit werden die Treffer schon eingegrenzt, da alle Seiten, die das Thema Kochen zum Inhalt haben, wegfallen. Von den gefundenen Inhalten aus wird weitergesucht, ob die gefundenen Personen die entsprechende Firma als Arbeitgeber haben. Damit wurde die zweite Relation verwendet. Allein eine Relation wird in diesem Beispiel die Ergebnismenge stark einschränken, da es nicht allzu viele Angestellte der Firma gibt, die den Namen „Cook“ tragen. Werden jetzt noch die dritte Relation, nämlich dass das Kind an einer Universität studiert, und die vierte Relation, dass diese Universität in einer bestimmten Stadt liegt, verwendet, kann die Ergebnismenge nur noch sehr klein, wahrscheinlich ein Volltreffer sein.

An diesem Beispiel erkennt man die Netzstruktur. Dass die Universität in einer bestimmten Stadt liegt, ist keine direkte Relation zur gesuchten Person, sondern eine direkte Relation zwischen Universität und Stadt; die Universität liegt in der Stadt. Es besteht somit keine direkte Verbindung zwischen Kind oder der Person und der Stadt. An diesen Verknüpfungen der Relationen scheitert bisher jede Suchmaschine im Internet.

Bemerkenswert ist, dass sich das gleiche Ergebnis einstellt, unabhängig davon, wo man in das Semantische Netz einsteigt. Wird zuerst nach allen Universitäten in der Stadt gesucht, um danach nach einer Studentin oder einem Studenten zu suchen, der Kind einer Person namens „Cook“ ist, ergibt sich dasselbe Suchergebnis. Das Kind muss noch nicht einmal den Namen „Cook“ tragen (Namensänderung z.B. durch Heirat), da die Relation „ist Kind von“ und nicht die Relation „hat Namen Cook“ wichtig ist. Das schaffen vor allem Suchmaschinen mit Volltextsuche nicht. Dann wird noch überprüft, ob das bekannte Unternehmen Arbeitgeber der gefundenen Person(en) ist. Auch der Einstieg über das Unternehmen ist denkbar und gleichwertig. Eine grafische Visualisierung dieses Beispiels zeigt dieAbbildung 3.3.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.3: Beispiel eines Semantischen Netzes, nach [BLHL01]

Als problematisch erweist sich die fehlende Eindeutigkeit von Begriffen, da es in der Sprache Bedeutungsverschiebungen geben kann. Ein Ansatz, mit dem man das Problem der Eindeutigkeiten, bzw. der Uneindeutigkeiten lösen will, ist die Einführung einer Bibliothek von speziellen Informationen namens Ontologien.

Im Zusammenhang des Bereichs „künstliche Intelligenz“ sind Ontologien Dokumente oder Dateien, die Relationen zwischen Dingen formal definieren. Eine typische Web-Ontologie besteht aus einer Taxonomie, also einer Klassifizierung, und einer Liste von Schlussregeln. Die Taxonomie definiert Objektklassen und zwischen ihnen bestehende Relationen. Computer werden die Bedeutung semantischer Daten im Web verstehen, indem sie Links zu speziellen Ontologien folgen. Weitere Informationen dazu findet man in [BLHL01].

3.3.2 Das Semantische Netz der Dokumentensuche

Der am Lehrstuhl für Konstruktionstechnik/CAD implementierte Dokumentensuche liegt ein Semantisches Netz zugrunde. An dieser Stelle wird nur ein kurzer Überblick gegeben, da in den folgendenKapiteln 4und5sowohl detailliert auf das Konzept als auch auf die Implementierung eingegangen wird.

Die Dokumentensuche ist eine Suchmaschine, die es dem Benutzer via Internet ermöglicht, Dokumente des Lehrstuhls für Konstruktionstechnik/CAD zu suchen. Dabei werden ihm Stichwörter des Netzes als Suchkriterien vorgeschlagen, mit denen er zum gesuchten Dokument geführt wird. Die Stichwörter richten sich dabei nicht nach dem Namen des Dokumentes oder des Typs, sondern nach dem Kontext, in dem das Dokument erstellt wurde. Dadurch ist es auch anderen Personen neben dem Autor möglich, das Dokument ohne genaue Kenntnis seines Inhalts oder Namens zu finden. Das ist ein entscheidender Unterschied zu anderen, bisher verwirklichten Suchmaschinen. Zudem ist damit auch eine sehr allgemeine Suche möglich, wenn man kein bestimmtes Dokument sucht, sondern sich alles zu einem Thema anzeigen lassen möchte; z.B. die Suche nach allen Dokumenten, die im Zusammenhang mit „CAx“ eingeordnet sind.

Das Semantische Netz der Dokumentensuche wird durch ein Netz von Begriffen/Stichwörtern gebildet, die als Knoten fungieren. Diesen Knoten können Dokumente untergeordnet sein. Durch die Eigenschaften des Semantischen Netzes, die Netzstruktur und die eine Bedeutung tragenden Knoten, ist eine geführte Suche möglich. Die Relationen zwischen den Knoten tragen noch keine Bedeutung von der Art, wie sie inKapitel 3.3.1beschrieben wird.

3.4 Zukunftsausblick für Semantische Netze

Laut [BLHL01] liegt die Zukunft des Internets in dem Semantischen Netz. Das Internet wird sich in ein geordnetes, sinntragendes Netz verwandeln, wenn man sich auf eine einheitliche Sprache und Syntax einigen kann. Wird das Konzept des Semantischen Netzes einmal akzeptiert sein, wird es in alle Softwarepakete Einzug halten. Daten über bewertete Relationen miteinander zu verbinden ist mehr als sinnvoll. Es wird aber viel davon abhängen, wie die Softwareentwickler dieses Konzept aufnehmen. Zu einer Verbreitung des Konzeptes kann es nur kommen, wenn Standardsoftware für die Erstellung von Semantischen Netzen zur Verfügung steht.

Sollten Semantische Netze in Softwarepakete Einzug halten, werden sie, wie inKapitel 3.2,die Schnittstelle zwischen Anwender und Computer stark verbessern. Damit passen Semantische Netze sehr gut zu dem heutigen Trend, Computeranwendungen dem Menschen anzupassen und intuitiver zu gestalten.

Das Entwicklungspotential Semantischer Netze liegt in der Einfachheit der Anwendung, wenn erst einmal Standardsoftware entwickelt ist. Damit sollte es möglich sein, auf unkomplizierte Art und Weise Semantische Netze zu erstellen. Es wird auch Software geben, mit der sich Internetseiten für das internetweite Semantische Netz erstellen lassen.

[...]

Details

Seiten
71
Jahr
2001
ISBN (eBook)
9783640181315
ISBN (Buch)
9783640181407
Dateigröße
3.3 MB
Sprache
Deutsch
Katalognummer
v115919
Institution / Hochschule
Universität des Saarlandes – Lehrstuhl für Konstruktionstechnik/CAD
Note
1,3
Schlagworte
Implementierung Dokumentensuche Semantischen Netz

Autor

Zurück

Titel: Implementierung einer Dokumentensuche basierend auf einem Semantischen Netz