System zur semiautomatischen Lexikonerstellung

Einleitung

An der Technischen Universität Berlin (Institut für Angewandte Informatik, Fachgebiet: Computergestützte Informationssysteme, Leitung: Prof. Dr. Hans-Jochen Schneider) entstand ein System TEAS (Terminologie-Datenbank-Erfassungs- und Aufbereitungssystem) zur semiautomatischen Erstellung von Lexika. Die ersten beiden Versionen wurden auf der IBM 4381 unter dem Betriebssystem VM/SP von Herrn G. Kaiser und Herrn J. Aurisch implementiert. Die vorliegende Version geht zurück auf eine Diplomarbeit von Frau C. Ng und Herrn T. Hausherr auf der gleichen Anlage, und trägt den Namen LEXIKON. Im Jahr 1990 wurde dann diese Version von den Autoren auf einem Toshiba T5200/100 mit i386DX20-Prozessor portiert, als Datenbank wurde ORACLE verwendet.

Zu Beginn 1992 wurde eine größere Änderung bei der Lichtsatz-Ausgabe durchgeführt, um eine engere Zusammenarbeit mit dem Verlag zu erreichen, insbesondere das Belichten von Teilen des Lexikons auf Anforderung.

Im Jahr 1993 wurde von Tilman Hausherr "LEXIKON für Windows" entwickelt. Dazu wurde der gesamte Quellcode neu geschrieben, wobei in bestimmten Fällen (z.B. formatierte Ausgabe) auf in den vorherigen Versionen erprobte Algorithmen zurückgegriffen wurde. Als Rechner wurde ein VOBIS Highscreen mit i486DX50-Prozessor verwendet, als Datenbank wurde Quadbase SQL/Win 2.0 verwendet, die Programmierumgebung war Microsoft Visual C++ 1.0 mit der Klassenbibliothek MFC 2.0.

Der Einsatzbereich erstreckt sich zur Zeit auf die Erstellung des vorliegenden "Lexikons der Informatik und Datenverarbeitung". Das System kann aber grundsätzlich für alle Tätigkeiten im Rahmen der halbautomatischen Erstellung von Thesauri oder Glossaren verwendet werden.

Die computergestützte Lexikonerstellung minimiert den redaktionellen Aufwand insoweit, als Deskriptoren nach einer einmaligen intellektuellen Klassifizierung automatisch für alle Definitionen erzeugt, Tippfehler durch eine spezielle Wortverwaltung als unbekannte Wörter erkannt und ggf. global korrigiert sowie Begriffe mit einem Befehl in allen Definitionen ausgewechselt werden können und letzendlich das Lexikon durch eingefügte Drucksteuerzeichen im Lichtsatz gesetzt werden kann.

Zur Handhabung der anfallenden Definitions- und Wortdaten wird ein Datenbankverwaltungssystems eingesetzt. Durch das lexikonspezifische Anwendungsprogramm werden Funktionen zum Abspeichern, Ändern und Löschen von Definitionstexten und zur Ausgabe von Definitionen, Wortdaten und Lexikonabschnitten zur Verfügung gestellt. Die speziellen Lexikondaten werden dabei durch eine Schema-Deklaration dem Datenbankverwaltungssystem mitgeteilt. Alle unter "Hinweis für die Benutzung" aufgeführten Regeln werden entweder halbautomatisch oder automatisch vom System auf Einhaltung geprüft.

Arbeitsablauf bei der Lexikonerstellung

Die Lexikonerstellung beginnt mit der Auswahl der Teilgebiete durch den Herausgeber, der sie dann den Autoren zuordnet. Anschließend stellen der Herausgeber und die Autoren die wesentlichen Stichwörter für die einzelnen Teilgebiete zusammen. Die Autoren erstellen für die Stichwörter Definitionen und kennzeichnen in den Definitionen die Wörter, die als weitere Stichwörter aufzunehmen sind. Außerdem werden zu jedem Stichwort die englische bzw. deutsche Übersetzung und evtl. vorhandene Synonyme, Abkürzungen bzw. Langformen und Literaturangaben angegeben. Für die Stichwörter, für die Definitionstexte aufgenommen werden sollen, wird durch LEXIKON am Bildschirm ein Formular mit allen Kategorien zur Verfügung gestellt. Außerdem müssen für die nicht automatisch computersetzbaren Bilder, komplexen Formeln und Tabellen Bildnummern vergeben werden und die Lichtsatz- Steuerzeichen für wie z.B. Absätze, Einrückungen in den Text eingefügt werden. Vor endgültiger Erfassung der Definition in die LEXIKON-Datenbank prüft das System die Kategorien auf Konsistenz mit dem schon bestehenen Informationen, und erfaßt Kategorien und Definitionstext. Dabei werden Mehrwort- Stichwörter automatisch erkannt; nicht bekannte Wortformen werden gemeldet und können auf Wunsch sofort korrigiert werden. Ansonsten wird eine Datei erstellt, welche die unbekannten Wörter samt dem Inhalt der Zeile ihres Auftretens angibt.

Wenn fehlerhafte Wortformen nicht während der Bearbeitung korrigiert werden, werden die zugeordneten Definitionen zu einem späteren Zeitpunkt aus der LEXIKON-Datenbank geholt und deren Definitionstext mit einem Text-Editor korrigiert. Für die korrekten unbekannten Wortformen erfolgt danach eine intellektuelle Klassifizierung in Banalwörter und Wörter, die in Beziehung zu Stichwörtern stehen. Für letztere, sowie für Stichwörter, welche von den Autoren schon vorher als zu definieren angegeben waren, werden Verweise auf die Grundform (z.B. ableitbar - Ableitung), Synonym, Kurz/Langform, deutsche/englische Übersetzung oder Nebeneinträge (Stichwörter im Lexikon, die nur auf andere Stichwörter verweisen) gebildet. Außerdem entscheidet der Herausgeber, ob die zusätzlichen Stichwörter, welche von den Autoren angegeben wurden, neu definiert order einem anderen Wort zugeordnet werden sollen. Die neu zu definierenden Stichwörter werden an die zuständigen Autoren zur Definitionstexterstellung weitergeleitet.

Als Hilfsmittel zur Klassifizierung und zur Entscheidung über die zusätzlichen Stichwörter können durch das System [Stich-]Wörter nach bestimmen Kriterien (z.B. Teilgebiete, Autoren) ausgegeben werden (am Bildschirm oder auf einem Drucker), wobei ähnlich dem gedruckten Lexikon in den Definitionstexten Wörter hervorgehoben sind, die auf schon bestehende Stichwörter verweisen. Es ist auch möglich, sich gezielt unbekannte Wörter auszugeben.

Nach ersten Korrekturen werden die Definitionen nach Autoren geordnet gedruckt und an diese zur Überprüfung gesendet. Ggf. werden danach weitere Korrekturen in den Definitionstexten oder an den Kategorien durchgeführt.

Wenn keine Korrekturen mehr anstehen, wird durch LEXIKON eine Datei als Eingabedatei für den Lichtsatz mit den entsprechenden Codierungen und Lichsatzsteuerzeichen erzeugt. Der Verlag druckt damit sogenannte Korrekturfahnen, welche vom Herausgeber und seinen Mitarbeitern geprüft werden. Korrekturen erfolgen entweder direkt im LEXIKON-System, welches dann eine neue Datei erzeugt, oder zunächst nur auf den Korrekturfahnen, welche dann an den Verlag zurückgesendet werden. Zuletzt erstellt der Verlag eine fortlaufende Kolumne, die in Abhängigkeit der einzufügenden handgesetzten Bilder umbrochen wird. Nachdem auch noch das Vorwort und die Titelseiten erstellt sind, kann das Lexikon schließlich als Buch gedruckt werden.

Verwaltung der Lexikon-Daten

Auf das Schreiben eines eigenen Datenbankverwaltungssystems (dies wurde in der Version von Herrn J. Aurisch durchgeführt) wurde verzichtet, da der Aufwand dafür sehr hoch ist, und weil relationale Datenbanken mit der Abfragesprache SQL sehr leistungsfähig sind. Der dadurch gesparte Aufwand wurde in die Benutzerschnittstelle des Systems gesteckt. Durch die Verwendung einer externen Datenbank hat man außerdem die Möglichkeit, auf die Daten am LEXIKON-System vorbei zuzugreifen.

Auf den Markt sind in der letzten Zeit objektorientierte Datenbanken gekommen. Problem bei diesen Systemen ist jedoch, daß sie nicht normiert sind: jeder Hersteller hat seine eigene, spezielle Lösung. Beim Umstieg auf ein anderes System müßte nicht nur das Anwenderprogramm geändert werden, sondern auch die Datendarstellung.

Im Gegensatz dazu sind SQL-Datenbanken weitgehend normiert und auch miteinander vergleichbar. Sämtliche Daten aus LEXIKON für MS-DOS (aus ORACLE) konnten über den Umweg einer ASCII-Datei 1:1 in LEXIKON für Windows (nach Quadbase SQL) übernommen werden. Der Wechsel war nötig, weil ORACLE keine stand-alone Windows-Version bietet.

Sämtliche Datenbank-Operationen sind in ein Modul ausgelagert, welches eine objekt-orientierte Schnittstelle zur Verfügung stellt. Die Objekte sind Wort, Definition, Autor, Teilgebiet, Quelle und Wortschatz. Operationen auf diesen Objekten sind dann z.B. das Liefern bzw. Ändern von Attributen und Beziehungen dieser Objekte.

Zur leichten Bearbeitung wird der gesamte Inhalt des Lexikons in eine Datenbank abgespeichert, mit Ausnahme des Vorworts und dieses Texts.

Im relationalen Datenmodell werden sämtliche Daten in Tabellen gespeichert. Die wichtigsten Tabellen sind WORTLISTE, DEF_TEXT, DEFINITION, AUTOR und TEILGEBIET. Jede Zeile von WORTLISTE besteht aus der Wortnummer (WNR), der Wortform, sowie weiteren Informationen zur Klassifizierung von Wörtern. Eine Zeile von DEFINITION besteht aus der Definitionsnummer (DNR), der Wortnummer des Definitionsnamens (auch eine WNR), sowie das Datum der Erstellung und der letzten Änderung. Eine Zeile der Tabelle DEF_TEXT besteht aus der Definitionsnummer (eine DNR), einer Wortnummer (eine WNR) sowie der Reihenfolgenummer. Auf diese Weise werden sämtliche Texte in einer Tabelle gespeichert ! Schon am Beispiel der Tabelle DEF_TEXT zeigt sich, wie Tabellen miteinander verknüpft werden, und so neue Informationen entstehen. Nach dem gleichen Prinzip gibt es z.B. die Tabelle DEF_SYNONYM, welche aus einer DNR und einer WNR besteht.

Aufbau des LEXIKON-Systems

LEXIKON ist ein Computerprogramm, welches aus einer Reihe von in C++ geschriebenen Modulen besteht. Jedes dieser Module enthält eine Sammlung von Objekten. Jedes dieser Objekte stellt dem Benutzer oder anderen Objekten Daten, Operationen und Prädikate zur Verfügung. Von Microsoft wurde die Klassenbibliothek MFC 2.0 verwendet, welche es möglich macht, die Windows-Oberfläche objektorientiert anzusteuern. Die Verwendung dieser Bibliothek verkürzt die Entwicklungsdauer erheblich, und verbessert die Übersichtlichkeit der erstellten Software. Es folgt die Beschreibung der Aufgaben einiger ausgewählter Module.

Modul DEFINPUT

Das Modul stellt Formulare am Bildschirm zur Eingabe und Änderung von Definitionen zur Verfügung. Dabei wird darauf geachtet, daß durch die Eingabe von Kategorien keine Inkonsistenzen entstehen. Dazu sind umfangreiche Prüfungen notwendig. So darf z.B. ein Synonym einer Definition nicht selbst eine Definition sein; ein Synonym darf nicht gleichzeitig Langform o.ä. sein; wenn ein angegebener Synonym eine Flexionsform ist, so wird sie im Formular automatisch durch die Grundform ersetzt; die eben genannten Prüfungen werden dann nochmal durchgeführt.

Modul DEFTEXT

Der Definitionstext wird in einem "Edit-Feld" eingegeben. Dabei wird die Buchstabenfolge mit Hilfe von Regeln in Wörter unterteilt. Für jedes dieser Wörter wird überprüft, ob es schon in der Lexikon-Datenbank erfaßt ist. Wenn nicht, so wird ggf. das Wort der bearbeitenden Person zur Korrektur angeboten. Wenn das Wort nicht korrigiert wird, so wird es neu in die Wortliste eingetragen.

Während der Bearbeitung wird geprüft, ob (bekannte) Wörter zu Mehrwort-Stichwörter zusammengefaßt werden können. Dies ist dadurch möglich, daß Mehrwort- Stichwörter in einer Tabelle zusätzlich erfaßt sind. Durch dieses Konzept ist es nicht nötig, solche Wörter in Sonderzeichen einzugrenzen.

Modul SEARCH

Das Modul stellt dem Benutzer mehrere Möglichkeiten zur Verfügung, im Lexikon zu suchen. Gesucht werden kann nach

Für alle drei Formen der Suche gibt es die gleiche Suchfragensprache. Mit Hilfe dieser Sprache können Wörter durch "und", "oder" sowie "nicht" miteinander verbunden werden. Durch Benutzung des Zeichens "*" (Stern) werden ganze Wortgruppen abgedeckt. So sind mit "Computer*" sämtliche Wörter gemeint, welche mit "Computer" beginnen, und danach beliebig fortgesetzt werden. Mit "oder" werden zwei Suchergebnismengen vereinigt; mit "und" wird der Schnitt von zwei Mengen gebildet.

"und", "oder" bzw. "nicht" sind besonders effizient bei der Volltext- Recherche. Dazu einige Beispiele:

Beim Suchen können Sichten nach Autoren und Teilgebieten angelegt werden: so können alle Definitionen eines Autors bzw. eines Teilgebiets ausgegeben werden.

Modul VIEW

Dieses Modul erledigt alle Arbeiten zum Darstellen von Definitionen, sowohl auf dem Bildschirm als auch auf dem Drucker. Unter Windows sind alle Ausgabegeräte (Bildschirm, Drucker, Plotter, Fax- Karte) über die gleichen Befehle anzusteuern. Ein Drucker unterscheidet sich von einem Bildschirm nur dadurch, daß an geeigneten Stellen Seitenvorschübe gemacht werden müssen. Die technischen Besonderheiten eines Druckers sind Sache des Treibers, welcher vom Hersteller geliefert wird.

Hauptkonzept des VIEW-Moduls ist die Trennung von Daten und deren Darstellung. Ein Objekt ist zuständig für das Abholen der Daten aus der Datenbank und das Erkennen von Stichwörtern; ein anderes Objekt erledigt das Darstellen abhängig von der Größe des Ausgabegeräts und der gewählten Schriftart. Sonderzeichen werden in einer speziellen Schriftart angezeigt, hoch- und tiefgestellte Buchstaben werden in der entsprechenden Position und Größe ausgegeben.

Systemvoraussetzungen

Arbeitsplatzrechner mit MS-DOS 5.0 und Microsoft Windows 3.1 (schneller: MS-DOS 6.2 und Microsoft Windows für Workgroups 3.11), 4 Mb Hauptspeicher (besser 8), 60 MB Platz auf der Festplatte für die Datenbank (zzgl 10 MB bei der Installation). Als Prozessor wird ein i486DX33/66 oder besser empfohlen.

Hinweis

ORACLE ist ein registriertes Warenzeichen der gleichnamigen Firma; MS-DOS, Windows, Windows für Workgroups, Visual C++ und MFC sind registrierte Warenzeichen der Firma Microsoft; Quadbase SQL/Win ist ein registriertes Warenzeichen der Firma Quadbase.