Automatische Indexierung


Referat (Ausarbeitung), 2001

9 Seiten, Note: 1,0


Leseprobe


Inhaltsverzeichnis

1. Aufgabe

2. Ermittlung von Mehrwortgruppen
2.1 Definition

3. Kennzeichnung der Mehrwortgruppen

4. Grundformen

5. Term- und Dokumenthäufigkeit --- Termgewichtung

6. Steuerungsinstrument Schwellenwert

7. Invertierter Index

1. Aufgabe

Eine Dokumentenkollektion soll automatisch indexiert werden, indem informationslinguistische und statistische Verfahren angewendet werden.

Es sollen Substantive und Mehrwortgruppen indexiert werden.

Da nur Substantive und Mehrwortgruppen indexiert werden sollen, wollen wir ein paar Vorbedingungen aufstellen, um irrelevante Terme von vornherein auszuschließen.

Hier handelt es sich um inhaltsleere Wörter:

- Verben

- Artikeln

- Adverbien

- Präpositionen

- Konjunktionen

Weitere Vorbedingungen:

- Ein Term besteht aus mindestens zwei Zeichen

- Der Bindestrich wird als Leerzeichen gelesen, andere Satzzeichen wiederum nicht

- Wörterbucheintragungen werden verwendet

- Komposita werden nicht zerlegt

- Englische Wörter, soweit sie groß geschrieben sind, werden als Substantive erkannt

2. Ermittlung von Mehrwortgruppen

2.1 Definition

Als Mehrwortgruppe wird alles erkannt, was zwischen (wie oben aufgeführt) Verben, Artikeln, Adverbien und Präpositionen liegt. Satzzeichen wie Komma, Punkt usw. sind ebenfalls zu beachten.

Eine Mehrwortgruppe kann natürlich aus mehr als nur zwei Wörtern bestehen. Es gibt unter anderem folgenden Typen:

- Adjektiv-Substantiv-Phrasen

- Substantiv-Phrasen

Inhaltliche Erschliessung 3

Marcello Nicoletti SS 2001

3. Kennzeichnung der Mehrwortgruppen

Text 1:

Nach einer Studie des Marktforschungsinstitutes GfK werden in den nächsten Jahren viele elektronische Marktplätze im Internet scheitern. Es fehlt an strategischen und betriebswirtschaftlichen Konzepten für das Geschäft im Internet.

Text 2:

Viele E-Commerce Unternehmen im Internet werden nach Ansicht des Unternehmensberaters Roland Berger scheitern. Nur die Unternehmen überleben, die schnell einen großen Marktanteil erobern und eine bekannte Marke aufbauen. Der Gewinner bekommt alles, gelte im E-Commerce des Internet mehr denn je.

Text 3:

Die Implementierung von Balanced Scorecards ergänzt Controlling Software. Spezifische Software für Balanced Scorecards ist besonders wichtig, wenn verschiedene Scorecards konsolidiert werden müssen. Führender Anbieter ist Gentia mit einem Modul für Balanced Scorecards. Gentia ist von der Balanced Scorecard Collaborative zertifiziert.

Text 4:

Das Rennen um den führenden elektronischen Marktplatz der Luftfahrindustrie ist noch nicht entschieden. Allerdings hat Aviation X seine ursprüngliche Geschäftsidee eines elektronischen Marktplatzes für Ersatzteile in der Luftfahrtindustrie bereits aufgegeben und sich gänzlich aus dem Konzept des elektronischen Marktplatzes zurückgezogen.

Text 5:

Kein Unternehmen sollte elektronische Marktplätze im Internet ignorieren. Etwa ein Drittel aller Transaktionen im E-Commerce werden in den kommenden Jahren auf elektronischen Marktplätzen im Internet getätigt. Damit sind die elektronischen Marktplätze allerdings auch nicht alleinige Plattform für den E-Commerce.

Text 6:

Vertreter von OECD Mitgliedsregierungen haben nach Angaben der Organisation Einvernehmen über eine Reihe von Schlussfolgerungen und Empfehlungen zur steuerlichen Behandlung von E-Commerce erzielt. Damit werde der Weg zu größerer Sicherheit für Unternehmen und Verbraucher im Internet geebnet, teilte die OECD mit. Die Schlussfolgerungen und Empfehlungen des OECD Ausschusses für Steuerfragen und der von diesem berufenen Beratungsgruppen aus Vertretern von Regierungen und Geschäftswelt betreffen die internationalen direkte Besteuerung, die Verbrauchsteuern und die Steuerverwaltung.

Text 7:

Die get global electronic transfer AG betreibt elektronische Marktplätze im Internet, die digitale Formen von Informationen, Unterhaltung und kommerziellen Angeboten bündeln und direkt auf den Fernsehbildschirm des Konsumenten bringen. Get strebt die flächendeckende Versorgung von Haushalten mit digitalen Diensten und interaktivem Fernsehen an. Das Internet Portal von get bietet digitalen TV- und Radioempfang an, Video-, Musik- und Spiele-on-Demand, elektronische Programmzeitschrift, Zugang zum Internet mit E-Mail-Dienst sowie Shopping und Banking.

Inhaltliche Erschliessung 4

Marcello Nicoletti SS 2001

4. Grundformen

Alle Indexterme sollen in ihrer lexikalischen Grundform indexiert werden.

Durch die vielen Ausnahmen in der deutschen Sprache ist es sehr schwer einen eindeutigen und einfachen (?) Reduktionsalgorithmus, wie in der englischen Sprache, zu bilden.

Die Ermittlung der Grundform erfolgt durch Lemmatisierung (Wörterbucheintragungen werden benutzt).

Ein Beispiel aus dem später folgenden Index:

elektronischen Marktplätzen

elektronischen ? elektronisch (Lemmatisierung innerhalb der Wortklasse) Marktplätzen ? Marktplatz (Flexionsendung „-en“)

Indexeintrag: elektronisch Marktplatz Neben Wortklassen und Flexionsendungen haben auch Fugenbindungen Einfluß auf die Wortform.

Beispiel:

Unternehmensberaters ? Unternehmensberater

Es wird kein Benutzer eine solche Abfrage stellen, aber ein Programm sollte die Eingabe des Benutzers auf die Grundform reduzieren. Dieser wird dann mit den Indexeinträgen verglichen.

5. Term- und Dokumenthäufigkeit --- Termgewichtung

Zuerst bestimmen wir die Termfrequenz (FREQ) und die Dokumentfrequenz

(DOKFREQ). Hierzu werden alle in Frage kommende Terme (Substantive und

Mehrwortgruppen) aufgezählt und dem Text der Dokumentenkollektion zugeordnet. DOKFREQ ist die Anzahl, in wie vielen Texten der Dokumentkollektion der Term auftritt.

Danach berechnen wir die Termgewichtung mit folgender Formel, dem sogenannten Ansatz der inversen Dokumentenhäufigkeit:

IDF = FREQ / DOKFREQ

Inhaltliche Erschliessung 5

Marcello Nicoletti SS 2001

Abbildung in dieser Leseprobe nicht enthalten

6. Steuerungsinstrument Schwellenwert

Die Schwellenwertbestimmung ist eine Hilfe, um geeignete Terme festzustellen und ungeeignete Terme auszuschließen.

Festlegung des unteren Schwellenwert: 0,6

Somit eliminiert man nicht relevante Terme wie in diesem Falle Konzept und Jahr.

Da am Anfang keine umfangreiche Stoppwortliste (außer den Verben, Artikeln usw.) definiert wurde, können wir mit Hilfe des oberen Schwellenwertes hochfrequente Wörter eliminieren.

Festlegung des oberen Schwellenwert: 0,8

Nun werden sowohl hochfrequente Terme (z. B. Scorecard) als auch nichtaussagefähige Terme (z. B. Weg) ausgeschlossen.

7. Invertierter Index

Nun können wir einen invertierten Index erstellen:

Abbildung in dieser Leseprobe nicht enthalten

Inhaltliche Erschliessung

Marcello Nicoletti SS 2001

Ende der Leseprobe aus 9 Seiten

Details

Titel
Automatische Indexierung
Note
1,0
Autor
Jahr
2001
Seiten
9
Katalognummer
V104966
ISBN (eBook)
9783640032631
Dateigröße
375 KB
Sprache
Deutsch
Schlagworte
Automatische, Indexierung
Arbeit zitieren
Marcello Nicoletti (Autor:in), 2001, Automatische Indexierung, München, GRIN Verlag, https://www.grin.com/document/104966

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Automatische Indexierung



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden