Design und Implementierung eines Multi-Classifier-Systems (MCS) für die Erkennung von gerendertem Text


Diplomarbeit, 2007

106 Seiten, Note: 1,0


Leseprobe


Westfälische Wilhelms-Universität Münster
Institut für Informatik
Computer Vision and Pattern Recognition Group

Design und Implementierung eines Multi-Classifier-Systems (MCS) für die Erkennung von gerendertem Text

Stefan Fleischer

 

Inhaltsverzeichnis


1 Einleitung ... 1

2 Erkennung von gerendertem Text ... 3

2.1 Eigenschaften gerenderten Textes ... 3
2.2 Bisheriges OCR-System ... 6
    2.2.1 Vorverarbeitung ... 6
    2.2.2 Hybride Klassifikation ... 8
    2.2.3 Nachbearbeitung ... 13
2.3 Aktueller Stand und Optimierungsmöglichkeiten ... 13

3 Lern- und Testdaten ... 20

3.1 Kategorisierung gerenderter Texte ... 20
3.2 Format der Datenbanken ... 23
3.3 Erweiterung der Datenbasis ... 24

4 Konstruktion und Test einzelner Klassifikatoren ... 29

4.1 Konstruktion von Klassifikatoren ... 29
4.2 Analyse und Vergleich von Klassifikatoren ... 33
4.3 Erzielte Testergebnisse ... 40
    4.3.1 Klassifikatortests ... 40
    4.3.2 Systemtests ... 46

5 Konstruktion und Test von Multi-Classifier-Systemen ... 56

5.1 Ansätze zur Kombination mehrerer Klassifikatoren ... 56
5.2 Erzielte Testergebnisse ... 64
    5.2.1 Klassifikatortests ... 65
    5.2.2 Systemtests ... 72

6 Fazit und Ausblick ... 80


A Trainingsdaten der Version 2006 ... 82

A.1 Lern- und Testdaten der Screen-Char-Datenbank ... 82
A.2 Testdaten der Screen-Word-Datenbank ... 85
A.3 Format der alten Datenbanken ... 86

B Trainingsdaten der Version 2007-MCS ... 87

B.1 Lern- und Testdaten der Screen-Char-Datenbank ... 87
B.2 Testdaten der Screen-Word-Datenbank ... 88

C Resultate durchgeführter Testläufe ... 89

C.1 Resultate durchgeführter Klassifikatortests ... 89
C.2 Resultate durchgeführter Systemtests ... 92

 

 

Kapitel 1 - Einleitung

Die Einführung elektronischer Textverarbeitung führte in vielerlei Hinsicht zu immensen Erleichterungen und Effizienzsteigerungen. Texte können schnell und einfach geändert, kopiert, gelöscht oder zur weiteren Verarbeitung in andere Umgebungen überführt werden. Die Textverarbeitung wird dabei von Anwendungen zur Visualisierung der Schrift und zur Entgegennahme von Eingaben unterstützt, wobei die Textinhalte gelöst von ihrer Darstellung und verschiedenen Anwendungsfällen als Zeichenketten kodiert vorliegen.

Doch oft ist auf pixelbasierten Ausgabegeräten nur die grafische Repräsentation von Zeichenketten vorhanden. Die Beschriftungen von Anwendungsfenstern und sonstigen Steuerelementen können i.d.R. noch beim Betriebssystem erfragt werden. Die Inhalte geschützter Dokumente und Texte in Pixelgrafiken sind demgegenüber allerdings nur optisch vorhanden. Letztere liegen nicht mal mehr versteckt als Zeichenketten kodiert vor. Die dargestellten Zeichen lassen sich also nur mittels OCR (Optical Character Recognition, optische Zeichenerkennung oder auch automatische Texterkennung) ermitteln.

An die Zeichenerkennung bei pixelbasierten Ausgabegeräten mit ihrer relativ geringen Auflösung und groben Rasterung werden andere Herausforderungen gestellt als bei der Verarbeitung eingescannter Texte. Verbreitete Ansätze zur klassischen Erkennung eingescannter Texte lassen sich daher nur teilweise auf gerenderte Texte übertragen und dort sinnvoll nutzen. Deshalb bedarf es ausgefeilter Techniken, die den gestellten Herausforderungen gewachsen sind.
Am Institut für Informatik der Westfälischen Wilhelms-Universität Münster wurde von Steffen Wachenfeld im Rahmen einer Doktorarbeit und Hans-Ulrich Klein im Rahmen einer Diplomarbeit ein OCR-System entwickelt, das auf die Erkennung gerenderter Texte spezialisiert ist. Die ersten Tests dieses OCR-Systems sind vielversprechend, das Konzept erweist sich als innovativer Ansatz mit hohem Potenzial.

Es ist typisch für Innovationsprozesse, dass sie eine Reihe von inkrementellen Entwicklungsphasen durchlaufen. Ziel dieser Arbeit ist es, die Klassifikationskomponente des am Institut für Informatik entwickelten OCR-Systems zur Erkennung von gerendertem Text durch die Implementierung eines Multi-Classifier-Systems (MCS) weiter zu optimieren.

Die Klassifikationskomponente klassifiziert die gerenderten Schriften und weist ihnen somit die erkannten Textzeichen zu. Die Wahl eines besten Klassifikators für diese Aufgabe stellt sich als unmöglich heraus. Jeder Klassifikator hat seine Stärken und Schwächen. Einen besten Klassifikator gibt es nicht. Durch die Kombination verschiedener Klassifikatoren lassen sich jedoch die Schwächen einzelner durch die Stärken anderer kompensieren. Diese Arbeit befasst sich mit dem Design und der Implementierung eines Multi-Classifier-Systems, das mehrere verschiedene Klassifikatoren zur Erkennung gerenderter Schriftzeichen kombiniert. Das MCS wird schließlich in das existierende OCR-System integriert, um dessen Effektivität zu verbessern.

Kapitel 2 befasst sich zunächst mit Analyse und Beurteilung des vorliegenden OCR-Systems. Kapitel 2.1 identifiziert hierzu konkrete Eigenschaften gerenderter Texte und die damit einhergehenden Herausforderungen bei der automatischen Texterkennung. Kapitel 2.2 stellt das bestehende OCR-Systems zur Erkennung von gerendertem Text vor, dessen Komponenten in Kapitel 2.3 analysiert werden, um das weitere Vorgehen im Hinblick auf das Ziel dieser Arbeit zu planen.

Kapitel 3 befasst sich mit der Schaffung der für die Entwicklung des MCS notwendigen Voraussetzungen. Das betrifft insbesondere die dem OCR-System zu Grunde liegenden Trainingsdaten, auf deren Basis es entwickelt und getestet wurde. In Kapitel 3.1 wird dafür zunächst eine Kategorisierung von gerendertem Text vorgenommen, anhand der sich die Zusammensetzung bereits existierender Trainingsdaten untersuchen lässt. Damit die Trainingsdaten in einem sinnvollen Format vorliegen, wurde die Datenhaltung überarbeitet. Kapitel 3.2 stellt diese Überarbeitung vor. Die identifizierten Kategorien werden dann herangezogen, um in Kapitel 3.3 eine strategische Erweiterung der Datenbasis vorzunehmen.

Kapitel 4 leitet zum Kern der Arbeit über: Auf Basis der Trainingsdaten werden verschiedene Klassifikatoren konstruiert. Um qualifizierte Klassifikatoren konstruieren zu können, ist das Vorhandensein geeigneter Merkmale entscheidend, anhand der sich die Schriftzeichen klassifizieren lassen. Kapitel 4.1 identifiziert solche Merkmale und konstruiert auf deren Grundlage eine Reihe von Klassifikatoren. Kapitel 4.2 stellt geeignete Methoden vor, die zum Vergleich der in Kapitel 4 ... 3 getesteten Klassifikatoren herangezogen werden.

Kapitel 5 befasst sich schließlich mit einer gruppenweisen Kombination der konstruierten Klassifikatoren, um durch Ausnutzung der Vorteile verschiedener Klassifikatoren einen positiven Beitrag zur Erhöhung der Erkennungsgenauigkeit zu erhalten und somit die Effektivität des bestehenden OCR-Systems zu verbessern. Kapitel 5.1 stellt unterschiedliche Kombinationsmöglichkeiten mehrerer Klassifikatoren vor, von denen in Kapitel 5.2 ausgewählte zum Einsatz kommen und evaluiert werden.

Kapitel 6 gibt eine Zusammenfassung der wichtigsten Punkte dieser Arbeit und diskutiert mögliche zukünftige Entwicklungsschritte und offene Probleme.


Kapitel 2 - Erkennung von gerendertem Text

Die Grundlage dieser Arbeit bildet ein bereits existierendes OCR-System für die Erkennung von gerendertem Text, das bisher im Rahmen einer Doktorarbeit und einer Diplomarbeit entwickelt wurde und erweitert werden soll. Dieses Kapitel befasst sich mit der Vorstellung und Analyse dieses OCR-Systems. Hierzu werden zunächst die Eigenschaften von gerendertem Text und die damit einhergehenden Herausforderungen zur Erkennung beschrieben. Anschließend wird ein ¨Uberblick über das existierende OCR-System gegeben, das die Herausforderungen bei der Verarbeitung gerenderten Textes bewältigen muss. Schließlich werden die Komponenten des OCR-Systems im Hinblick auf das Ziel dieser Arbeit — die Optimierung der Klassifikationskomponente — analysiert.


2.1 Eigenschaften gerenderten Textes

Gerenderter Text ist bei pixelbasierten Ausgabegeräten wie z.B. Monitoren oder Displays zu finden. Die Darstellung von Schriftzeichen (und anderen Grafikobjekten) auf einem Pixelraster ist Aufgabe des Renderings. Die Informationen über die Konturen eines Schriftzeichens der jeweiligen Schriftart — des jeweiligen Fonts — liegen i.d.R. in Form von Geradensegmenten und B´ezierkurven vor. Anhand der vorgegebenen Geometrie finden Entscheidungen darüber statt, welche Pixel der Rastergrafik dem Schriftzeichen und welche dem Hintergrund zuzuordnen sind.
Das optische Erscheinungsbild gerenderter Texte ist gegenüber dem klassischer Anwendungen der automatischen Texterkennung von eingescannten Dokumenten ein anderes. Während klassische OCR-Anwendungen mit Verzerrungen der Textzeilen, verschmutzten Dokumenten und Bildstörungen konfrontiert werden, scheint die Erkennung von ”sauber“ gerenderten Texten mit weitaus geringeren Herausforderungen einherzugehen. Tatsächlich sind die Herausforderungen keine geringeren, sondern andere. Im Folgenden werden die durch das Rendering bedingten Eigenschaften vorgestellt, die wesentliche Herausforderungen bei der automatischen Erkennung gerenderter Texte bilden.

Abbildung 2.1: Beispiele verschiedener Rendering-Techniken [nur in der Download-Version verfügbar]

Die Bewältigung der Rendering-Aufgabe ist insbesondere bei geringen Auflösungen keinesfalls trivial. Daher gibt es mehrere Techniken, die den Text unter jeweils verschiedenen Gesichtspunkten rendern. Die Wahl der Technik hat einen starken Einfluss auf das resultierende Erscheinungsbild. Abbildung 2.1 zeigt drei geläufige Ansätze: Ein Rendering, das völlig auf Glättung verzichtet, also nur harte Pixel voller Intensität verwendet, erzeugt als Aliasing1 bezeichnete Treppeneffekte. Dem gegenüber steht das Antialiasing, das verschiedene Pixelintensitäten unterscheidet, um den Stufen des Alias-Effekts entgegenzuwirken. Das Subpixel-Rendering2 nutzt bei Ausgabe auf RGB-Geräten die physikalische Anordnung der Rot-, Grün- und Blaukomponenten der einzelnen Pixel aus, um eine höhere als die eigentliche — die ganzen Pixel betreffende — Auflösung auszunutzen. Da reines Subpixel-Rendering meistens zu unschönen Ergebnissen führt, bei denen die Farbkomponenten klar erkennbar sind, findet das Subpixel-Rendering i.d.R. in Kombination mit dem Antialiasing Anwendung.
Die konkrete Realisierung der hier vorgestellten Rendering-Techniken ist darüber hinaus nicht streng vorgegeben. Durch Variation der für die Abbildung der Geometrie verantwortlichen Logik lassen sich wiederum verschiedene Erscheinungsbilder generieren. Das wird häufig durch Informationen — so genannte Hints [11] — zum Rendern verschiedener und insbesondere sehr kleiner Schriftgrößen zusätzlich bedingt. Dieselbe Schriftart, die als mathematische Konturbeschreibung vorliegt, kann somit durch verschiedene Rendering-Verfahren eine jeweils andere Projektion auf das Pixelraster erfahren, weil nicht alle Anwendungen die Rendering-Funktionen des Betriebssystems nutzen, sondern eigene Verfahren zur Darstellung implementieren. Ferner unterscheiden sich auch die angebotenen Realisierungen einzelner Betriebssysteme voneinander.

Wie groß das Pixelraster zur Abbildung eines Schriftzeichens gewählt wird, hängt von Schriftgr öße und Auflösung ab. Die relative Auflösung von Bildschirmen beläuft sich auf rund 100 dpi ... 3 Damit stehen wesentlich weniger Pixel zur Darstellung der Schrift zur Verfügung als bei gedruckten Texten, die selbst bei geringer Qualität bereits eine Auflösung von 300 dpi aufweisen. Da ganze Wörter in einem Kontext erscheinen, der zum Wort gehörende Buchstaben, benachbarte Wörter sowie Semantik und Inhalt des Textes einschließt, sind sie für Menschen selbst bei extrem kleiner x-Höhe4 von z.B. nur 4 Pixeln noch lesbar. Einzelne Buchstaben hingegen bereiten enorme Schwierigkeiten. Neben der geringen Anzahl von Informationen, die durch wenige Pixel gegeben werden, trägt geglättete Schrift dazu bei, dass die Pixel teilweise nicht mehr eindeutig den Schriftzeichen zuordenbar sind, weil sich letztere berühren oder sogar überschneiden (Abbildung 2.2).

Abbildung 2.2: Schwierig zu segmentierende Wörter [nur in der Download-Version verfügbar]

Abbildung 2.3: Auswirkungen geringer Änderungen des Zooms [nur in der Download-Version verfügbar]

Durch Serifen, die die Leserlichkeit unterstützen sollen und bei Menschen tatsächlich eine langsamere Ermüdung der Augen bewirken [35], wird die Überschneidung benachbarter Schriftzeichen noch verstärkt. Bei Texten kleiner x-Höhen kann sich das jedoch negativ auf die Separierbarkeit der Schriftzeichen auswirken. In Abbildung 2.2a hat der Buchstabe ’s’ in der linken unteren Ecke ein Pixel hoher Intensität, was auf die Überschneidung mit der Serife des benachbarten ’u’ zurückzuführen ist. Bei der Segmentierung der Schriftzeichen müsste die Intensität des Pixels zu verschiedenen Teilen den Buchstaben ’u’ und ’s’ zugeordnet werden. Der Buchstabe ’d’ beeinflusst ebenfalls die Intensitäten der Randpixel benachbarter Buchstaben (Abbildung 2.2a,b) und überschneidet sich mit dem ’y’ in Abbildung 2.2b.
Einen ähnlichen Effekt erzeugen kursive und/oder fette Schriften. Sie neigen auf Grund eines gestiegenen Platzbedarfs noch stärker dazu, einzelne Schriftzeichen miteinander verschmelzen zu lassen.

Bei der Untersuchung verschiedener Schriften auf ihr Erscheinungsbild kann man feststellen, dass schon leichte Veränderungen des Zooms oder der Position des Textes teilweise bemerkenswerte Änderungen des Schriftbildes bedeuten. In Abbildung 2.3 ist das Wort ’besser’ mehrmals jeweils mit leicht verändertem Zoom dargestellt. Um ein Schriftzeichen bei der Erkennung eindeutig rekonstruieren zu können, reicht es demnach nicht aus, ein einzelnes Muster zum Vergleich vorzugeben.

 

[...]


1 Beim Alias-Effekt sind einzelne Pixel die Repräsentanten der abzubildenden Kontur, wovon sich die Bezeichnung Aliasing ableitet.
2 Die Technik des Subpixel-Renderings wurde erstmalig 1998 von Microsoft unter der Bezeichnung ClearType vorgestellt [4, 5].
3 Die relative Auflösung von rund 100 dpi ist selbstverständlich nur ein ungefährer Wert. Die konkrete relative Auflösung hängt von der absoluten Auflösung sowie der Größe des Bildschirms ab. Bei einem 19”-Bildschirm mit einer Auflösung von 1600 × 1200 stehen etwa 105 dpi zur Verfügung. Ein 14”-Notebook-Display bietet bei einer Auflösung von 1024 × 768 ca. 91 dpi.
4 Unter der x-Höhe ist der Abstand zwischen Grund- und Mittellinie zu verstehen. Dieser Abstand ist i.d.R. mit der Höhe eines ’x’ identisch.

Ende der Leseprobe aus 106 Seiten

Details

Titel
Design und Implementierung eines Multi-Classifier-Systems (MCS) für die Erkennung von gerendertem Text
Hochschule
Westfälische Wilhelms-Universität Münster  (Institut für Informatik (Computer Vision and Pattern Recognition Group))
Note
1,0
Autor
Jahr
2007
Seiten
106
Katalognummer
V117720
ISBN (eBook)
9783640200832
ISBN (Buch)
9783656524717
Dateigröße
2237 KB
Sprache
Deutsch
Schlagworte
OCR, Texterkennung, Multi-Classifier-System, MCS, gerenderter Text, Design, Implementierung
Arbeit zitieren
Dipl. Wirt.-Inform. Stefan Fleischer (Autor:in), 2007, Design und Implementierung eines Multi-Classifier-Systems (MCS) für die Erkennung von gerendertem Text, München, GRIN Verlag, https://www.grin.com/document/117720

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Design und Implementierung eines Multi-Classifier-Systems (MCS) für die Erkennung von gerendertem Text



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden