Burch/Christmann/Hildenbrandt/Schares: Das Grimmsche Wörterbuch auf CD-ROM und im Internet

Much praised and much criticized but certainly unique: The forming of the Deutsches Wörterbuch (DWB) by Jacob and Wilhelm Grimm took far more than one hundred years and engaged generations of lexicographers who have contributed a total of approximately 350.000 entries to be collected in 67.744 dictionary columns that were published in sixteen volumes (32 sections). The DWB comprises the most thorough account of the German language and reflects a period of more than one hundred years of lexicographical, cultural, institutional, and also political history; thus it proves indispensable for research and teaching. It marks a further step in the history of this dictionary, to make it available in the electronic medium, and to recognize and encode its heterogeneous structures systematically. Since November 1998 a project team at the University of Trier prepares a computerized version of the DWB to be published on CD-ROM and also be made available via Internet. Accessibility of this outstanding dictionary will be improved thereby enlargening its user community independent of libraries' opening hours. The adaptation of the dictionary's contents will be according to international standards: The use of SGML determined by the TEI-guidelines will support the aim to obtain new possibilities in its usage: A markup of the dictionary's contents taking into account the specific demands of dictionary structures enables to provide selective access to various positions of each dictionary entry, offering far wider possibilities of dictionary usage than conventional full-text search requests can supply. Systematic analysis of quotations and its references will be ensured by interlinking those with the DWB's index volume. After a brief outline of the DWB's structure, history, and value, this paper stresses upon following the steps to a computerized version of the DWB. The stages from data input, correction procedures, and automatic markup according to SGML standards to the provision of a graphical user interface will be discussed, emphasizing on the difficulties arising from the dictionary's hetergeneous structure and contents.

1. Einleitung

Eine »Jahrhundertleistung historischer Lexikographie«[2], ein »worthistorisches Grundlagenwerk der deutschen Sprache«[3], ein »Unikum«[4], ein »problematisches Monumentalwerk«[5], ein »Pyrrhussieg der Germanistik«[6], ein »nicht brauchbarer, übergewaltiger und unübersichtlicher Bau«[7], so weit reicht die Spannweite der Beurteilungen, die das Deutsche Wörterbuch von seiner Begründung in der Mitte des 19. Jahrhunderts bis in die Gegenwart hinein begleiteten und begleiten. Doch ob bewundert, gelobt, verteidigt oder heftig kritisiert, unumstritten wird dem von Jacob und Wilhelm Grimm begründeten Deutschen Wörterbuch (DWB)[8] in der deutschen Wissenschaftsgeschichte eine Sonderstellung eingeräumt, denn es handelt sich um das deutschsprachige Wörterbuch mit der längsten Bearbeitungszeit und der reichhaltigsten Dokumentation des Deutschen.

2. Das Deutsche Wörterbuch - ein Jahrhundertprojekt

Im Jahr 1838 werden Jacob und Wilhelm Grimm für das Projekt eines großen neuhochdeutschen Wörterbuchs gewonnen, das sie mit dem Ziel beginnen, »ein heiligthum der sprache [zu] gründen, ihren ganzen schatz [zu] bewahren, allen zu ihm den eingang offen[zu]halten«[9].

Bereits ein halbes Jahr nachdem die Brüder mit dem Projekt betraut worden sind, erscheint in der Leipziger Allgemeinen Zeitung die Ankündigung eines etwa sechsbändigen Deutschen Wörterbuchs, welche bereits einige der programmatischen Hinweise hinsichtlich Stichwortbestand, Anlage, Adressaten und Zielsetzung enthält,[10] die Jacob Grimm 1854 in seiner bemerkenswerten, im Druck 68 Spalten umfassenden Vorrede zum ersten Band des DWB näher ausführt.

Demnach soll das DWB auf der Basis historischer Wortforschung die Entwicklung des Deutschen erschließen. Es soll den neuhochdeutschen schriftsprachlichen Wortschatz von etwa 1450 bis zur Bearbeitungsgegenwart darstellen. Dazu gehören auch umgangssprachliche, derbe, anstößige Wörter, älterer Sonder- und Fachwortschatz zum Beispiel aus Berg- und Ackerbauschriften, Kriegs-, Koch- und Arzneibüchern et cetera und – soweit sein Sprachgebrauch im Hochdeutschen nachweisbar ist – regional begrenztes und mundartliches Wortgut. Weitgehend ausgeschlossen aus dem Stichwortbestand werden dagegen reine Mundartwörter, niederdeutsches, dem Niederdeutschen entlehntes und formal nicht assimiliertes Fremdwortgut und Eigennamen. Den »mächtigsten und gewaltigsten zeugen der sprache«[11] entnommene Belege sollen die Bedeutungen und den Gebrauch der in streng alphabetischer Ordnung aufgenommenen Wörter dokumentieren und »ihre ganze geschichte vortragen«.[12]

Gewünschte Adressaten dieses historisch ausgerichteten Belegwörterbuchs des Deutschen sind für Jacob Grimm nicht punktuell nach Informationen suchende Benutzer;

leser jedes standes und alters sollen auf den unabsehbaren strecken der sprache nach bienenweise nur in die kräuter und blumen sich niederlassen, zu denen ihr hang sie führt und die ihnen behagen. [Hervorhebung d. Verf.][13]

Das heißt, das DWB soll nicht primär ein Nachschlagewerk, sondern auch und vor allem ein Lese- und Lehrbuch werden, in dem nach Möglichkeit das ganze Volk »zum hausbedarf, und mit verlangen, oft mit andacht«[14] liest. Mit anderen Worten: Jacob Grimm strebt eine weite Verbreitung des Wörterbuchs an und erhofft sich davon sowohl eine spracherzieherische als auch eine politische Wirkung: Das DWB soll einen Beitrag zur Regeneration der von den Grimms als verarmt empfundenen Gegenwartssprache leisten, das heißt Fehlentwicklungen in der gegenwärtigen Sprache und im Sprachgebrauch entgegensteuern, indem es seinen Lesern eine tiefere Einsicht in die deutsche Sprache, ihre Geschichte und ihre Literatur vermittelt und dadurch ihr Sprachgefühl und ihr sprachliches Selbstbewußtsein stärkt. Auf diese Weise soll es ihnen zu einer eigenen sprachlichen und – da sie sich durch die gemeinsame Sprache als Angehörige eines Volkes ausweisen – zugleich auch nationalen Identität verhelfen und damit einen Beitrag zur politischen Vereinigung Deutschlands leisten.[15]

Dem Versuch der Anwendung dieses theoretischen Programms auf die Wörterbuchpraxis gehen allerdings einige Jahre voraus, in denen ausschließlich Belegmaterial für die aufzunehmenden Wörter erhoben wird. Zwischen 1838 und 1849 sammeln mehr als 80 Mitarbeiter überall im deutschsprachigen Raum circa. 600.000 überwiegend literarische Belege für den Wortschatz von A bis Z und schaffen auf diese Weise das größte Belegarchiv, das bis dahin für ein deutschsprachiges Wörterbuch zur Verfügung gestanden hatte. Es erweist sich jedoch vielfach als nicht ausreichend, so daß ständige Nachsammlungen erforderlich sind. Erst 1849, also 11 Jahre nach der ersten Ankündigung des DWB, beginnen Jacob und Wilhelm Grimm mit der redaktionellen Ausarbeitung des Wörterbuchs. 1852 erscheint die erste Lieferung [A-Allverein], 1854 der erste von Jacob Grimm verfaßte Band [A-Biermolke] mit der erwähnten Vorrede. Jacob bearbeitet die Buchstaben A, B, C, E und F, Wilhelm den Buchstaben D. Dabei weisen die bearbeiteten Abschnitte sowohl in bezug auf die inhaltliche Gewichtung als auch auf die stilistische Ausarbeitung jeweils deutlich Eigenheiten ihrer Verfasser auf: Ziel Jacob Grimms ist es, die aufgenommenen Wörter als Resultat historischer Prozesse zu erklären. Auf dem Weg zu diesem Ziel folgt er dem etymologischen Prinzip der Worterklärung. Er setzt bei der äußeren Gestalt des neuhochdeutschen Wortes an, führt das Wort über vergleichbare Formen der germanischen und indogermanischen Sprachen auf seine Vorstufen zurück und ermittelt nach Möglichkeit seinen Ursprung und von dort aus seine formalen und inhaltlichen Grundlagen. Im Rückgriff auf diese in der Etymologie verankerte geschichtliche Basis führt er auf neuhochdeutscher Ebene die Erklärung von Wortgestalt, Bedeutungsentwicklung und den durch Belege dokumentierten Wortgebrauch vor.[16] Dabei beschränkt er sich nicht auf die Darstellung von Fakten, sondern läßt auch eigene Überlegungen und Spekulationen einfließen. Häufig werden der etymologische Teil und die Erklärungen zu Bedeutung und Gebrauch stark miteinander verwoben, nicht selten werden sogar artikelübergreifende Zusammenhänge hergestellt. Auf diese Weise wachsen Jacobs Wörterbuchartikel quasi zu kleinen wissenschaftlichen Diskursen aus, in denen er argumentiert, abwägt und erörtert und in die er den Benutzer/Leser miteinbezieht.[17] Daher unterliegt die Gliederung seiner Artikel keiner festen Regelung; sie ergibt sich vielmehr aus dem jeweiligen Stichwort und seinen Besonderheiten.[18]

Wilhelm Grimm geht andere Wege als sein Bruder: Sein Schwerpunkt liegt auf der Wortsemantik und nicht so sehr auf der Etymologie, die er im Prinzip nur dann gibt, wenn sie als gesichert gelten kann. Wie denn überhaupt das DWB für ihn, anders als für Jacob, weniger ein Ort der Sprachforschung ist, das heißt: Im Vordergrund steht nicht das forschende, erörternde, spekulierende Suchen nach Ergebnissen, sondern die auf Fakten beschränkte, methodische Darstellung der Ergebnisse.[19]

So kann also schon für diese erste, ausschließlich von den Brüdern Grimm geprägte Bearbeitungsphase des Deutschen Wörterbuchs (1838 bis 1863), in der das Werk entgegen der ursprünglichen Planung keineswegs zum Abschluß kommt – weniger als 9% des Gesamtwörterbuchs werden erarbeitet – nicht von einer einheitlichen Wörterbuchgestaltung gesprochen werden. Eine wirklich einschneidende Zäsur in Zielsetzung und Bearbeitung des Wörterbuchs stellt allerdings erst der Tod Jacob Grimms 1863 dar; Jacob hatte es nach dem Tod seines Bruders 1859 bis zuletzt abgelehnt, einen weiteren selbständigen Bearbeiter neben sich zu dulden und daher keine Mitarbeiter eingearbeitet, die das DWB in seinem Sinne hätten fortsetzen können.[20]

Der Übergang zur zweiten Bearbeitungsphase des DWB (1863 bis 1908)[21] geht einher mit einem Wechsel vom sprachwissenschaftlich zum philologisch orientierten und in Richtung auf Sach-, Kultur- und Geistesgeschichte hin geöffneten Wörterbuch.[22] Die deutsche Philologie, von deren »gedeihen und [...] wirkung« das »wiedererstehen der [deutschen] nation«[23] ganz wesentlich abhängig gemacht wird, übernimmt das Wörterbuch als nationales Werk, das »bewusztsein und gefühl der eignen deutschen art«[24] wecken soll. Aus dieser Umorientierung ergeben sich grundlegende Änderungen: Zum einen wird der Hausbuchgedanke Jacob Grimms und damit seine sprachpädagogische Absicht abgelöst von der Idee des DWB als eines Thesaurus der ganzen deutschen Sprache.[25] Zum anderen wird Jacob Grimms etymologisches Prinzip der Wortgeschichtsbeschreibung, das schon von Wilhelm Grimm zurückhaltender gehandhabt wurde, von den ersten Fortsetzern des Wörterbuchs – unter ihnen Rudolf Hildebrand, Karl Weigand, Moriz Heyne, Hermann Wunderlich und Matthias Lexer – relativiert: Die strenge Etymologisierung der Bedeutungsgeschichte wird aufgegeben; die Bedeutungsgeschichte wird aus der Etymologie gelöst, und neben der breiten Behandlung von Etymologie und Formgeschichte im Formteil erfahren jetzt die Darstellung des Wortgebrauchs und seine Interpretation im Bedeutungsteil eine stärkere Berücksichtigung. Da es allerdings weder eine verbindliche Wörterbuchkonzeption noch eine einheitliche Redaktion gibt und die Artikelautoren eigenverantwortlich und ohne wechselseitige Absprache arbeiten, sind ihre Blickrichtungen, Ausgangspunkte, methodischen Ansätze und Schwerpunkte unterschiedlich, so daß es zur Ausbildung verschiedener, bisweilen eigenwilliger Darstellungsweisen kommt. Um die Jahrhundertwende nehmen Uneinheitlichkeiten und – bedingt durch das ausufernde Streben der Bearbeiter nach innerer und äußerer Vollständigkeit – die Breite der Darstellung über Gebühr zu, das Arbeitstempo verlangsamt sich erheblich, nicht zuletzt auch durch die unzureichende Belegmaterialgrundlage.

Dem versucht eine erste Reorganisation der Wörterbucharbeit entgegenzuwirken, die die dritte Bearbeitungsphase des Deutschen Wörterbuchs (1908 bis 1930) einleitet.[26] Ab 1. Juli 1908 – bis zu diesem Zeitpunkt sind etwas mehr als 50% des Wörterbuchs erarbeitet – übernimmt die Deutsche Kommission der Königlich-Preußischen Akademie der Wissenschaften zu Berlin die wissenschaftliche Leitung des DWB. Mit Hilfe organisatorischer Maßnahmen versucht man die in der zweiten Arbeitsphase offenbar gewordenen Mängel und Schwierigkeiten zu beheben und so den Fortgang des Unternehmens zu sichern: Wichtigste Neuerungen sind die Gründung einer Zentralsammelstelle für die Beschaffung von Belegmaterial in Göttingen, die in kurzer Zeit mehr als zwei Millionen Belege für die noch ausstehenden Teile des Wörterbuchs exzerpiert, und die Erhöhung der Mitarbeiterzahl. Außerdem ist mit dem Einsetzen eines akademischen Leiters, der eine Fahnenkorrektur der Artikel lesen soll, erstmals die Möglichkeit unmittelbarer Einflußnahme auf die Artikelarbeit gegeben. Doch auch diese ersten Ansätze zu einer zentralen Redaktion und der Festsetzung eines Normalmaßes für den Artikelumfang können eine zunehmende methodische Desorientierung in der Wörterbuchpraxis nicht verhindern; die Arbeitsverfahren und Artikelstrukturen sind in dieser Phase sehr heterogen.

Zwar bemüht sich der seit 1910 als Mitarbeiter am DWB tätige Arthur Hübner um eine Neuorientierung in der Wörterbuchpraxis, indem er versucht, durch die Artikelgliederung die bedeutungsgeschichtlichen Aspekte zu betonen und dadurch eine konzentriertere und durchsichtigere Anlage der Wörterbuchartikel zu erreichen.[27] Doch die Autorität der Deutschen Kommission als Wörterbuchleitung reicht nicht aus, um durchgreifende Änderungen zu erzielen: Trotz der organisatorischen Neuerungen und der von Hübner angestrebten Praxis der Artikelgliederung wird in dieser dritten Phase im großen und ganzen das Verfahren des vorangehenden Arbeitsabschnitts beibehalten und die Effektivität der praktischen Arbeit wegen der erheblichen Vermehrung der Belege und der ungenügenden Anzahl von Artikelautoren nicht gesteigert. Zwischen 1908 und 1930 erscheinen nur drei Bände des Wörterbuchs, ein Anteil von nur etwa 18% am ganzen Wörterbuch.

Daher entschließt man sich zu einer zweiten Reorganisation der Wörterbucharbeit, die den vierten und letzten Arbeitsabschnitt in der Geschichte des Wörterbuchs (1930 bis 1961)[28] einleitet. Im Jahr 1930 wird in Berlin unter der Leitung Arthur Hübners eine ständige Arbeitsstelle eingerichtet, in der ein Team von hauptberuflich tätigen Mitarbeitern unter redaktioneller Leitung ihrer Wörterbucharbeit nachgehen kann. Verbunden mit der Einrichtung dieser Arbeitsstelle ist der Aufbau einer allen Mitarbeitern zur Verfügung stehenden Spezialbibliothek und die Verlegung des Wortarchivs von Göttingen nach Berlin im Jahr 1934, wodurch erstmals die Voraussetzungen einer konzentrierten Wörterbucharbeit gegeben sind. Des weiteren werden 1930/31 die besten Erfahrungen aus den vorhergehenden Arbeitsphasen des DWB, vor allem die Hübners, in die schriftliche Form von Arbeitsrichtlinien umgesetzt. Diese Richtlinien steuern bis zum Abschluß des DWB die praktischen Arbeiten; sie legen die Zielsetzungen des Wörterbuchs fest und regeln auf formaler und inhaltlicher Ebene Anlage und Aufbau der Wörterbuchartikel.

In der Praxis führen die Anweisungen zu einer Straffung des Formteils, der gegenüber dem Bedeutungsteil jetzt mehr die Funktion einer Einleitung erhält. Im Zentrum des Artikels stehen Bedeutungen und ihre geschichtlichen und inhaltlichen Zusammenhänge.[29] Um größtmögliche Einheitlichkeit in der technischen Darstellungsweise zu erreichen, das Einfließen persönlicher Vorlieben der Artikelautoren weitgehend zu unterbinden und ein Ausufern der Darstellung zu verhindern, wacht die Leitung der Arbeitsstelle zunehmend darüber, daß alle Beiträge einer angemessenen Redaktion unterzogen werden.[30]

Zwar bewährt sich diese erneute Reform der Arbeitsorganisation insgesamt, und es kann ein relativ einheitlicher Wörterbuchstil durchgesetzt werden; dennoch werden auch in dieser letzten Arbeitsphase bei genauerer Betrachtung Unterschiede zwischen den Artikeln sichtbar, die nicht zuletzt daher rühren, daß einige der freien Mitarbeiter sich der Autorität der zentralen Leitung entziehen und ihrer eigenen Darstellungsweise verhaftet bleiben. Immerhin aber kann die jährliche Leistung deutlich gesteigert werden: Zwischen 1946 und 1960 werden elf Bände und damit ein Anteil von mehr als 30% am Gesamtwörterbuch erarbeitet, und im Januar 1961 erscheint schließlich die letzte der 380 Lieferungen des DWB. 1971 folgt das Quellenverzeichnis, das über 25.000 Titel und Verweise der im Wörterbuch systematisch oder auch nur gelegentlich benutzten Quellen umfaßt.

Aus der ursprünglich von den Grimms veranschlagten Bearbeitungszeit von sechs bis zehn Jahren sind damit mehr als einhundert geworden, statt der sechs bis sieben geplanten Bände erschienen 16 Bände in 32 Teilbänden mit insgesamt 67.744 Spalten und etwa 350.000 Stichwörtern, an deren Erarbeitung Generationen von Lexikographen beteiligt waren. Ebenso wie Jacob Grimm den Umfang des Wörterbuchs unterschätzt hat, hat er zweifellos die Größe des in Frage kommenden Leserkreises und den Einfluß des Werks auf das Volk überschätzt: Seine Hoffnung auf eine Breitenwirkung des DWB erfüllte sich nicht. Nicht »das ganze Volk«, sondern Sprach- und Literaturwissenschaftler, Philologen und andere an sprachhistorischen Informationen interessierte Fachwissenschaftler bildeten und bilden seinen überwiegenden Benutzerkreis. Damit mußte zwangsläufig auch das (ohnehin von seinen Nachfolgern nicht fortgesetzte) nationalpädagogische Programm Jacob Grimms fehlschlagen. Gewahrt dagegen blieb über alle Bearbeitungsphasen hinweg die Intention einer historischen Beschreibung des neuhochdeutschen Wortschatzes.[31] Jacob Grimms vor allem in der Vorrede zum ersten Band dargelegte ursprüngliche Wörterbuchkonzeption hat sich somit nur als Gerüst bewährt, das von späteren Bearbeitern nach eigenem Gutdünken gefüllt wurde.

Durch das Fehlen einer für alle Bände grundlegenden Wörterbuchkonzeption, die überlange Bearbeitungsgeschichte und die Tatsache, daß das DWB ein Werk vieler ist, durch das Einfließen sowohl zeitgenössischer Vorstellungen und Vorlieben der jeweiligen Bearbeiter als auch jeweils aktueller Erkenntnisse aus Sprachwissenschaft, Philologie und Geschichtswissenschaft finden immer neue Wörterbuchstile Eingang in die ständig erweiterte und differenzierte Darstellung. So entstehen Wörterbuchartikel, die in vielerlei Hinsicht nicht den Anforderungen entsprechen, die heutige Benutzer gewöhnlich zu stellen pflegen. Wer heute im Grimm nachschlägt, muß nicht nur auf die Uneinheitlichkeit des DWB und die unterschiedliche Quantität und Qualität der Artikel gefaßt sein, er muß sich auch darauf einstellen, daß sich die bereitgestellten Informationen sehr oft nicht durch punktuelles Nachschlagen entnehmen lassen, sondern nur durch Lesen des gesamten Artikels.[32] Somit wird das DWB zu Recht als »problematisches Monumentalwerk«[33] bezeichnet: Als problematisch erweist es sich aufgrund der erwähnten Heterogenität und der Benutzungsschwierigkeiten, als monumental, weil mit ihm nicht nur die umfang- und materialreichste Dokumentation des Deutschen gegeben ist, sondern weil es auch gerade aufgrund seiner langen Geschichte und der wechselnden lexikographischen Praxis ein unvergleichliches Zeugnis der deutschen Wissenschaftsgeschichte des 19. und 20. Jahrhunderts ist. Es ist somit ein für Lehre und Forschung unerläßliches Grundlagenwerk, dem ein ungebrochenes Interesse entgegengebracht wird, wie die mehrfache Auflage des dtv-Nachdrucks zeigt.

3. Texterfassung und -korrektur: Schritte zu einer optimalen elektronischen Datengrundlage

Seit dem 1. November 1998 werden im Rahmen des DFG-Projekts »Digitalisierung des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm«[34] die 32 Bände des DWB und der Quellenband retrodigitalisiert. Aus den 67.744 Wörterbuchspalten ergibt sich hochgerechnet eine Datenmenge von über 300.000.000 Zeichen für den Wörterbuchtext. Um planvolles Arbeiten mit einer solchen Datenmenge zu ermöglichen, werden zur Eingabe und Korrektur Abschnitte von zwanzig Spalten zu jeweils einer Datei zusammengefaßt. Diese kleinen Dateien werden erst nach Abschluß aller erforderlichen Arbeitsgänge, die der Datenkorrektur dienen, zu größeren Dateien vereinigt, die nun jeweils den Inhalt eines Wörterbuchbandes enthalten. Zur Dateneingabe wurde nicht der zunächst naheliegende Weg über Scanner und OCR-Software gewählt. Die differenzierte Typographie mit den vielfachen Fontwechseln und Schriftgradwechseln und die physische Beschaffenheit der Druckvorlage hätten bei der riesigen Datenmenge zu vielen Fehlern geführt. Stattdessen erfolgt die Dateneingabe per Hand. Diese Arbeit wird von einer Firma in Nanjing/China als Auftragsarbeit erledigt. Die Eingabe durch Nichtmuttersprachler, die zudem an ein höchst differenziertes Zeichensystem mit kleinsten distinktiven Merkmalen gewöhnt sind, hat einen positiven Effekt: Durch die rein kognitive Zeichenerkennung ist die Erfassung von Texten weit weniger fehleranfällig, da der Faktor des verstehenden und daher unbewußt korrigierenden Lesens wegfällt. Zwei Teams von Datentypisten geben unabhängig voneinander die jeweils zwanzig Spalten umfassenden Wörterbuchabschnitte parallel ein (Double Keying). Die Eingabe erfolgt in Word, weil so eine Sofortkontrolle der typographischen Merkmale am Bildschirm stattfinden kann (WYSIWYG). Eine Eingabezeile entspricht jeweils einer Wörterbuchzeile. Sämtliche typographischen Merkmale des Wörterbuchs werden in die Daten eingebracht und durch detaillierte Eingabeanweisungen zusätzlich um einige Kodierungen bereichert, durch welche Verszitate, Zeilenüberläufe, relative Einzüge, Belegstellenangaben in Verszitaten und ähnliches gesondert markiert werden und so die spätere Auszeichnung vereinfacht wird. Schon bei der Eingabe soll also ein mögliches Maximum an Informationen von der Wörterbuchseite in den Datenbestand überführt werden.

Die Weiterbearbeitung der Dateien erfolgt mit dem Tübinger System von Textverarbeitungsprogrammen (TUSTEP); denn die Vielzahl der Funktionen und Programmodule und ihre Kombinierbarkeit machen TUSTEP zu einem idealen Werkzeug.[35] Die Konvertierung der Daten vom Word-Format ins TUSTEP-Format stellt vor keinerlei Schwierigkeiten.

Das Double Keying ermöglicht nach der Konvertierung einen automatischen Vergleich der beiden Eingabeversionen. Dafür steht in TUSTEP ein geeignetes Programmodul bereit. Durch das Abarbeiten der damit erstellten Vergleichsprotokolle (vgl. Abbildung 1) der beiden Eingabeversionen werden Eingabefehler bereinigt; die auf diese Weise erlangten Daten haben bereits einen Genauigkeitsgrad, der die Erfassung mittels OCR-Software bei weitem übertrifft. Über den automatischen Vergleich werden außerdem die bei der Eingabe markierten Problemfälle aufgefunden und im gleichen Arbeitsgang mit bearbeitet.

Ein Arbeitsschritt, der die Herstellung einer korrekten Datengrundlage für das elektronische Wörterbuch wesentlich determiniert, in der Regel aber wenig Beachtung in der Dokumentation findet, ist die Fehlersuche. Um fehlerfreie[36] Dateien zu erhalten, wird daher nach Abarbeitung der Vergleichsprotokolle eine Reihe weiterer Arbeitsschritte notwendig, die sich verschiedenen Aspekten der Fehlersuche im Datenbestand widmen und die im folgenden näher beschrieben werden sollen. Durch eigens für das DWB konzipierte automatisierte Fehlersuchroutinen – auch hierfür steht in TUSTEP ein geeignetes Programmodul bereit – werden besonders zwei Fehlerarten ins Visier genommen und zahlreiche Fehler entdeckt und beseitigt. Fehler der ersten Art kommen überaus selten vor: Es kann zu Eingabefehlern kommen, die simultan in beiden Eingabeversionen auftreten und daher nicht als Abweichung einer Version von der anderen im Vergleichsprotokoll erkannt werden können. Diese seltenen gemeinsamen Abweichungen sind allerdings beschränkt auf ganz bestimmte Umgebungsbedingungen: So wird zum Beispiel ein i, welches in Ligatur mit vorangehendem f steht, als l gelesen, oder umgekehrt das l als i, dies aber nur, wenn als weitere Umgebungsbedingung die kleinste im DWB verwendete Fontgröße hinzukommt, die eine kognitive Zeichenerkennung zusätzlich erschwert. So finden sich in Band 8 folgende in beiden Eingabeversionen aufgetretene Eingabefehler: flnstern statt finstern und ebenso fi statt fl in fiugs, hofleren, gefleder, flnger, flsch, Hafls. Eine ähnliche Fehlerquelle, die auch beim Einsatz von OCR-Software wohlbekannt ist, ist die Verwechslung von e und c, wenn die Zunge des e im Druckbild kaum oder nicht erkennbar ist: wohlbckannten, entbchren (alle aus Band 8). Die Zahl der Fehler, die auf Buchstabenverwechslungen zurückzuführen sind, beträgt pro Band nicht mehr als zehn. Beachtet werden müssen beim Programmieren von Suchprozeduren für Dateien des elektronischen DWB allerdings die großen orthographischen Spielräume, welche bei einem Werk dieses Umfangs und einer sich über 100 Jahre erstreckenden Ausarbeitungszeit erwartet werden müssen, sich aber auch insbesondere durch die zeitliche und räumliche Belegvielfalt erklären.

Die zweite Fehlerart betrifft nicht die Erfassungsgenauigkeit; bei ihr handelt es sich um die Druckfehler in der Buchvorlage. Da auch das DWB nicht frei von Druckfehlern ist, wird es notwendig, diese, soweit sie aufgefunden werden können, nicht nur zu korrigieren, sondern auch zu markieren und für die weitere Verarbeitung entsprechend zu kodieren. Eine systematische Suche nach Druckfehlern gestaltet sich allerdings schwierig, denn nur bestimmte Druckfehler können durch automatisierte Suchroutinen aufgefunden werden. Dies ist etwa der Fall bei unwahrscheinlichen Buchstabenkombinationen innerhalb eines Worts. So kann unter anderem systematisch nach drei gleichen Buchstaben, die hintereinander stehen, gesucht werden. Auf diese Weise konnten zum Beispiel folgende Druckfehler ermittelt werden: götterhallle, himmmel, gottessschau (alle aus Band 8). Bei nicht muttersprachlichen Datentypisten ist auszuschließen, daß es sich um Eingabefehler handelt, die unabhängig voneinander durch Interferenz der korrekten Graphie entstanden sind. Zu beachten ist bei solchen Dreierkonsonanzen aber, daß sie in Komposita wie Schifffahrt durchaus als reguläre Schreibungen vorkommen können. Die durch den Vergleich mit der gedruckten Vorlage erwiesenen Druckfehler jedoch werden korrigiert und zusätzlich mit einer Markierung versehen, welche nicht nur die Aufnahme in ein Druckfehlerverzeichnis steuert, sondern auch die Korrektur als solche im elektronischen Wörterbuchtext zu erkennen geben kann.

Durch weitere automatisierte Korrekturroutinen läßt sich beispielsweise die aufsteigende Zählung der Datensätze, welche mit den Wörterbuchseiten und -zeilen synchronisiert ist, überprüfen, oder aber die Konsistenz der Kodierung typographischer Eigenschaften wie »kursiv« oder »fett«. Letzteres ist wesentlich für die später erfolgende automatische SGML-konforme Auszeichnung, da solche Kodierungen als Verankerungspunkte für SGML-Tags fungieren können.

Die Korrektheit der elektronischen Version hängt wesentlich mit ab von der Qualität der gedruckten Vorlage, die beim DWB mit seiner komplizierten Typographie, dem häufigen Fontwechsel und dem kleinen Schriftgrad ihre problematischen Seiten hat. Deshalb werden bei der Digitalisierung des DWB alle möglichen Schritte unternommen, damit der Text der elektronischen Version dem der Druckversion genau entspricht und zusätzlich die Druckfehler bereinigt werden.

Die Monumentalität, der lange Bearbeitungszeitraum und insbesondere die Fülle der Belegzitate des DWB verlangen demjenigen, der die typographischen Erscheinungen in ihre digitalen Äquivalente umsetzen soll, einiges ab. Zitate aus Texten, die mit nichtlateinischen Alphabeten gedruckt sind, werden nur zum Teil bei der Eingabe kodiert; die zahlreichen Sonderzeichen erfordern in der Regel eine besondere Nachbearbeitung. Das besonders häufig vorkommende Griechisch wird von den Typisten bereits kodiert, so daß die griechischen Textteile nur einer zusätzlichen Korrektur zur Nachbereitung bedürfen. Dabei erweist sich eine Besonderheit von TUSTEP als vorteilhaft, nach der die Kodierung der griechischen Schriftzeichen durch Ersatzdarstellungen aus dem 7-Bit-ASCII-Zeichensatz erfolgt; diese ›Umschrift‹ ist bei der Eingabe problemlos einzusetzen. Die wesentlich selteneren hebräischen Textteile werden hingegen bei der Eingabe nicht berücksichtigt, ihre Stellen werden lediglich markiert, so daß diese Textteile vor Ort durch kompetente Fachkräfte nachgetragen werden müssen.

Die Spanne der im DWB vorkommenden Sonderzeichen reicht von häufig vorkommenden Buchstaben mit diakritischen Zeichen über heute schon nicht mehr allgemein bekannte beziehungseise gebräuchliche alte Währungs- und Gewichtsbezeichnungen bis hin zu irritierenden typographischen Merkwürdigkeiten, die im gesamten Datenbestand des DWB mitunter nur ein einziges Mal vorkommen, wie zum Beispiel eine waagerechte Zickzacklinie in einem Belegzitat unter dem Lemma "Zickzack".[37] Ebenso finden sich Symbole aus den Bereichen Alchimie, Astronomie, Astrologie, musikalische Notenschrift und so weiter Der Kompetenz des nicht muttersprachlichen Datentypisten kann die Fähigkeit zur Interpretation all dieser Besonderheiten nicht zugemutet werden. So wird vieles von diesen zunächst als Problemfall markiert, um zu einem späteren Zeitpunkt gesondert bearbeitet zu werden. Ebenfalls als Problemfall markiert werden unleserliche Stellen und zerbrochene oder ausgefallene Buchstaben. Viele dieser Schwierigkeiten werden mit Hilfe des verstehenden Lesens bei der Weiterbearbeitung beseitigt oder aber, wenn sie nicht aus dem Umgebungskontext gedeutet werden können, als Problemfälle klassifiziert und markiert.

Die Darstellung von nicht in den üblichen Zeichensätzen für die Bildschirmausgabe vorhandenen Sonderzeichen ist für eine CD-ROM-Version nicht problematisch, da für diese selbst hergestellte Fonts eingebunden werden können. Für die Darstellung der Internetversion am Bildschirm sollte die Verwendung des zu erwartenden Unicode-Standards das Problem des eingeschränkten Zeichenvorrats der jetzt üblichen Browser lösen. In den bislang bearbeiteten Teilen des DWB sind etwa 40 verschiedene Sonderzeichen aufgetreten, die nicht von den Browsern dargestellt werden können. Bis zur Umsetzung in Unicode werden diese durch eindeutige Platzhalter repräsentiert. Bei nur sehr selten vorkommenden Zeichen wie der schon genannten Zickzacklinie muß im Einzelfall entschieden werden, ob es praktikabler ist, sie als Images in den Text einzufügen.

4. SGML-konforme Auszeichnung – langfristige plattformunabhängige Verfügbarkeit

Die auf dem beschriebenen Weg erfaßten und korrigierten Wörterbuchfassungen im TUSTEP-Format stellen im Grunde schon eine genaue digitale Abbildung des DWB dar (vgl. Abbildung 2) und sind bereits voll recherchierbar.

Somit können erste systematische Abfragen an den Inhalt des DWB gerichtet werden, die nur mit Hilfe eines digitalisierten Wörterbuchs zu beantworten sind:[38] Neben der Möglichkeit einer Volltextsuche kann zum Beispiel die Beleghäufigkeit eines bestimmten Autors oder Werks innerhalb des Wörterbuchs oder innerhalb bestimmter Ausarbeitungsphasen ermittelt werden. Auch können mit Hilfe von TUSTEP Listen mit Informationen aus dem Datenbestand erstellt werden, die zum Beispiel Auskunft darüber geben, in welchen Artikeln gehäuft Wortbelege aus einer bestimmten Sprache auftreten oder nach welchen Gliederungskonventionen sich bestimmte Bearbeiter des DWB gerichtet haben. Probleme ergeben sich jedoch immer noch dann, wenn die gesuchte Information nicht typographisch oder strukturell vom umgebenden Text abgesetzt ist und daher nicht mit TUSTEP-Zeigeanweisungen erfaßt werden kann, oder wenn mehrere Suchanfragen miteinander kombiniert werden sollen.[39] Hier wird eine weitergehende, inhaltliche Beschreibung der lexikographisch relevanten Positionen erforderlich. Stichwort, Wortklassenangabe, Quellenzitate, Quellensiglen, Verweise und so weiter werden so ausgezeichnet, daß sie in eine Datenbank eingespeist werden können, die den gezielten Zugriff auf diese Daten ermöglicht.[40]

Diese Kodierung erfolgt nach den Vorgaben von SGML (Standard Generalized Markup Language), einer 1986 von der ISO verabschiedeten Norm zur Beschreibung von Texten mit dem Ziel einer plattformunabhängigen Datenverarbeitung. Die Daten werden inhaltlich ausgezeichnet und in ihrer hierarchischen Struktur erfaßt. Die DTD (Document Type Definition), die das Herzstück einer jeden SGML-Anwendung bildet, gibt Auskunft über die formal korrekte Auszeichnung der Daten: Die jeweilige Information wird in Anfang- und Endetags eingeschlossen, wobei je nach der in der DTD festgelegten Verfahrensweise verschiedene Bedingungen erfüllt sein müssen, das heißt bestimmte Tags dürfen zum Beispiel nur an bestimmten Stellen innerhalb der Auszeichnungshierarchie vorkommen, oder benutzerdefinierte Elemente müssen einer vorgegebenen Form folgen. Die SGML-Kodierung genügt philologischen Erfordernissen allerdings nicht in allen Teilen, weshalb sich bald nach der Etablierung des SGML-Standards verschiedene Organisationen zur TEI (Text Encoding Initiative) zusammenschlossen, um Richtlinien für eine verschiedenen philologischen Bedürfnissen entsprechende Textauszeichnung mit SGML zu erstellen.[41] Die von der TEI vorgeschlagenen Kodierungen sind, ebenso wie die speziell für lexikographische Werke entwickelte DTD, Grundlage für die Auszeichnung des DWB, müssen aber je nach den Erfordernissen des Projekts und den Besonderheiten des DWB modifiziert werden. Durch die metasprachliche Kodierung der Artikelteile sind die Daten sowohl für die Herstellung der Internet-Version als auch für die Umsetzung in eine CD-ROM verwendbar.

Die inhaltliche Auszeichnung der korrigierten Dateien im TUSTEP-Format erfolgt bisher überwiegend mit Hilfe automatisierter Verfahren in Form von TUSTEP-Routinen. Da diejenigen Bände, welche Nachkriegsstrecken enthalten, zuerst eingegeben wurden, konzentriert sich die Auszeichnungsarbeit momentan auf Band 8. Hier können mittlerweile mit Tags versehen werden: Alle Artikelgrenzen (<entry id="IDNR" n="DSNR">[42] ...</entry>) und innerhalb dieser das Lemma (<form type="lemma">...</form>), Lemmavarianten (<form type="variant">...</form>), Sublemmata (<form type="subl">...</form>) und grammatische Angaben (<gramgrp><gram type="f">f.</gram></gramgrp>), ferner die Gliederungsmarken im Bedeutungsteil, die einen Überblick über den Aufbau des Artikels anhand der Gliederungsrubriken ermöglichen (<sense n="I.">...</sense>),[43] und schließlich Verszitate und Belegstellenangaben in Verszitaten (<add rend="vers"><q type="line">...</q> <title type="sigle"><bibl><author>...</author>...</bibl><date>...
</date><ref>...</ref></title></add>). Ausgehend von der obersten Ebene werden sukzessive die nächstniedrigeren Hierarchieebenen mit Tags versehen.

Obwohl bei der Eingabe bereits einzelne Merkmale wie Lemmata oder Belegstellenangaben bei Verszitaten durch Ersatzkodierungen erfaßt wurden,[44] muß für die Auszeichnung neben dieser strukturellen Information auch die typographische Gestalt des DWB berücksichtigt werden. Allerdings ist nicht nur die Artikelstruktur, sondern auch die Typographie innerhalb des DWB sehr uneinheitlich, weshalb die für einzelne Teile entwickelten Auszeichnungsroutinen nicht in allen Fällen greifen und immer wieder angepaßt werden müssen. Im folgenden werden beispielhaft drei Problembereiche erläutert: Erstens die Auszeichnung der Belegstellenangaben, zweitens die für die elektronische Publikation erforderliche Aufhebung der Trennungen am Zeilenende und drittens die Auszeichnung der Artikelgliederung unter Einbeziehung der hierarchischen Schachtelung der Artikelteile.

Die Auszeichnung der Belegstellenangaben ist aus mehreren Gründen problematisch: Autorangaben können zwar auf relativ einfache Weise mit öffnenden und schließenden Tags versehen werden, da sie immer durch die TUSTEP-spezifische Kodierung für Kapitälchen (#k+ und #k-) eingeschlossen sind, die lediglich in <author> und </author> ausgetauscht werden müssen. Aber nicht immer ist der komplette Autorname in Kapitälchen gesetzt; in solchen Fällen kann ein Teil des Namens nicht mit automatischen Prozeduren erkannt werden. Auch gibt es eine enorme Varianz bei den Siglen, durch die die Quellen im DWB angegeben werden: Der Autor Abraham a Santa Clara wird beispielsweise zitiert als »Abraham a Santa Clara«, »Abr von Santa Clara«, »Abraham a s C« und so weiter. Schwierig wird die automatische Auszeichnung auch dann, wenn auf die Referenz innerhalb der Belegstellenangabe genauere Informationen zum Herausgeber, zur Auflage oder zum Entstehungsdatum eines Textes folgen, da diese als Kursive auftreten und sich typographisch nicht voneinander beziehungsweise von ihrer Umgebung unterscheiden. Das Auffinden der Quellentitel ohne Autorangabe ist nur sehr schwer mittels automatischer Verfahren zu bewerkstelligen, da diese ebenfalls kursiv gedruckt sind und sich deshalb typographisch nicht von lexikographischem Kommentar abheben.

Auch die Aufhebung der Trennungen, die bei der Umsetzung in eine CD-ROM- oder Internetversion nicht mehr berücksichtigt werden sollen, bereitet gewisse Probleme. Die Trennstriche sollen aufgelöst werden, die Bindestriche erhalten bleiben; nicht immer kann jedoch au-tomatisch zwischen Trenn- und Bindestrichen unterschieden werden (vgl. Abbildung 3).

In einigen Fällen konnten unter Einbeziehung des Wörterbuchkontexts automatisierte Verfahren entwickelt werden, die Trenn- und Bindestriche adäquat behandeln. Solche Fälle liegen zum Beispiel bei durch Bindestrich getrennten Verfassernamen wie »SCHILLER-LüBBEN« oder bei einer Trennung über einen Seitenwechsel hinweg vor. Problematischer ist die Aufhebung der Trennungen dann, wenn sich die Typographie beim Zeilenwechsel ändert; hier können die eindeutigen TUSTEP-Kennungen für Kursive, Kapitälchen oder Sperrungen allerdings teilweise zur Erstellung automatischer Routinen genutzt werden. Zu den Zweifelsfällen, die nicht automatisch gelöst werden können, gehören Reihungen, die über eine Zeile gehen und typographisch in gleicher Weise abgebildet werden wie Trennungen. Hier ermöglicht nur das verstehende Lesen die Unterscheidung zwischen Trennstrich und Wortbindestrich. In einem solchen Fall muß der jeweilige Bearbeiter eingreifen und die entsprechende Kodierung für Erhalt beziehungsweise Auflösung des Binde- beziehungsweise Trennstrichs einsetzen.

Die CD-ROM-Version sieht vor, daß dem Benutzer neben der Benutzeroberfläche, die das Wörterbuch weitgehend in der gewohnten Form zeigt, auch die Gliederungsstruktur des aufgerufenen Artikels zur leichteren Orientierung angezeigt werden soll.[45] Hierzu ist jedoch eine Auszeichnung des Artikels unter Einbeziehung der Hierarchie der Gliederungsrubriken erforderlich. Das bedeutet nicht nur, daß jeweils ein <sense>-Tag am Anfang einer Gliederungseinheit und einer am Ende des betreffenden Abschnitts stehen muß, sondern auch, daß die <sense>-Tags der Hierarchie entsprechend geschachtelt sein müssen (vgl. Abbildung 4).

Kommt innerhalb eines längeren Artikels also die Gliederung »I. A. 1) a) a)« vor, so steht zu Beginn eines jeden solchen Abschnitts ein <sense>-Tag, der auch die Gliederungsmarke selbst und die Hierarchieebene, der die Gliederungsmarke innerhalb des Artikels angehört, enthält. Da »A.«, »1)«, »a)« und »á)« jedoch inhaltlich noch zu »I.« gehören, dürfen die jeweiligen <sense>-Tags erst am Ende des mit »á)« beginnenden Abschnitts geschlossen werden. Dies setzt voraus, daß das Programm während der Verarbeitung die Zahl der bereits vergebenen öffnenden Tags registriert. Mittels komplexer TUSTEP-Routinen erfolgt die Auszeichnung und Schachtelung dieser Hierarchien zufriedenstellend, allerdings gibt es auch hier Sonderfälle, die die Auszeichnung erschweren: Ein formales Kriterium zur Bestimmung einer Gliederungsmarke ist deren Einrückung am Zeilenanfang; sind Bearbeiter von dieser Regel abgewichen und steht die Gliederungsmarke mitten im Text, so kann sie automatisch nicht von Binnenverweisen unterschieden werden. Sprachgeschichtliche Angaben, die durch »herkunft und gebrauch«, »gebrauch und verbreitung« und so weiter eingeleitet werden und Teil der umzusetzenden Artikelgliederung sind, stehen in der Regel am Anfang oder am Ende eines Artikels, manchmal aber auch an einer beliebigen Stelle innerhalb der Gliederung. Dies ist für die Erstellung der Routinen zur Auszeichnung der hierarchischen Schachtelung des Artikels vor allem dann problematisch, wenn die sprachgeschichtlichen Abschnitte ihrerseits ebenfalls mit Gliederungsmarken versehen sind. Neben Lücken – das heißt statt »I. A. 1)« erscheint zum Beispiel »I. 1)« – bereiten vor allem Abweichungen von der Standardabfolge – statt »I. A. 1) a)« erscheint zum Beispiel »A. I. a) 1)« – bei der automatischen Auszeichnung Probleme.[46]

Sonderzeichen wie Umlaute, Akzentbuchstaben oder Buchstaben aus nichtlateinischen Alphabeten (zum Beispiel Griechisch, Hebräisch, Russisch) werden mit Hilfe von TUSTEP-Programmroutinen in TEI-konforme Entities umgesetzt. Das reiche Vorkommen solcher Sonderzeichen erfordert die ständige Aktualisierung und Pflege dieser Routinen. Weitere SGML-konforme Regeln für die Kodierung von Sonderzeichen (SGML Entity Sets), die für die Digitalisierung des DWB in großer Zahl benötigt werden, müssen jeweils ergänzt werden. Nach der Auszeichnung ist die TUSTEP-Datei SGML/TEI-konform kodiert (vgl. Abbildung 5).

5. Elektronische Publikation – schneller Zugriff auf komplexe Inhalte

Die aus den TUSTEP-Daten erzeugten SGML-Dokumente werden durch einen Parser validiert. Bei fehlerhaften Kodierungen erfolgt ein Korrekturschritt, der anschließend wieder durch den SGML-Parser kontrolliert wird. Durch die Wächterfunktion des Parsers wird gewährleistet, daß der Datenpool nur SGML-Dokumente enthält, die korrekt gemäß der TEI-Richtlinien kodiert sind.

Auf dieser Grundlage erfolgt die elektronische Publikation des Wörterbuchs auf CD-ROM und im Internet. Dazu werden die SGML-Daten mit einem Konvertierungswerkzeug in spezifische Ausgabeformate für die beiden Zielplattformen umgewandelt. Hierzu wird das strukturbasiert arbeitende Programm CoST (Copenhagener SGML Tool) eingesetzt, welches unmittelbar auf der durch die SGML-Kodierung vorgegebenen Dokumenthierarchie aufsetzt (vgl. Abbildung 6). CoST erlaubt dabei die Spezifikation von Aktionen, die im Falle des Auftretens bestimmter Elemente ausgeführt werden. Eine einfache derartige Aktion könnte dafür sorgen, daß als <add type="vers">...</add> gekennzeichnete Abschnitte bei der Ausgabe nach rechts eingerückt und in kleinerem Schriftgrad dargestellt werden. Neben der reinen Aufbereitung der Daten für die Bildschirmdarstellung wird das CoST-Script dazu eingesetzt, das Wörterbuch in geeigneter Weise in einer Datenbank abzuspeichern und für gezielte Recherchen zugänglich zu machen. So können beispielsweise alle als <gram type="...">...</gram> ausgezeichneten Abschnitte in einer eigenen Datenbanktabelle zu grammatischen Angaben eingetragen werden. Wird hierbei gleichzeitig eine Normierung durchgeführt, so werden alle vorkommenden Klassifikationen von Wortarten unter einer entsprechenden Kodierung abfragbar, ohne daß der Benutzer alle von den Wörterbuchschreibern verwendeten Abkürzungen für die gesuchte Wortart kennen muß.

Abbildung 7 zeigt die graphische Oberfläche der CD-ROM, die in einer plattformunabhängigen Programmiersprache entwickelt wird und damit sowohl unter Windows und Macintosh als auch auf einem UNIX-Recher eingesetzt werden kann. Dargestellt ist ein Ausschnitt aus dem Wörterbuch mit zusätzlichen Navigationselementen, die einen einfachen und schnellen Zugriff auf einzelne Artikelpositionen erlauben. Im linken Wörterbuchfenster kann über eine listenartige Anzeige aus den Artikelstichwörtern ausgewählt werden. Es werden dabei immer die Stichwörter ab dem gerade aufgeschlagenen Wörterbuchabschnitt angezeigt. Bei Auswahl eines Stichworts wird der betreffende Abschnitt des Wörterbuchs in das Anzeigefenster geladen. Die Abschnittsgröße kann dabei vom Programm eingestellt werden. Sie dient einerseits dazu, einen über den ausgewählten Artikel hinausgehenden Kontext des Wörterbuchs anzuzeigen. Andererseits wird die Abschnittslänge so gewählt, daß akzeptable Ladezeiten gewährleistet bleiben, was insbesondere bei der Internet-Version stark ins Gewicht fällt.

Aus Gründen der Übersichtlichkeit werden die Artikel zunächst verkürzt dargestellt, das heißt nach einem gewissen Anfangsteil wird ein Verlängerungssymbol eingefügt, durch welches der Rest des Abschnitts an der betreffenden Position eingefügt werden kann. Diese Verlängerungszeichen werden dabei für jeden Gliederungspunkt eines Artikels neu vergeben, so daß auch sehr große Artikel zunächst in kompakter Form angezeigt werden. Bei Bedarf können diese interaktiv ergänzt werden, womit ein unnötiges Suchen und Vor- und Zurückblättern vermieden wird.

Eine zusätzliche Übersicht über besonders stark gegliederte und damit in der Regel auch sehr große Artikel bietet ein Fenster zur Artikelstruktur. Dieses zeigt in einer Form, wie man sie vom Windows Explorer her kennt, die hierarchische Gliederung der Artikel. Es werden zunächst die beiden obersten Ebenen angezeigt, die je nach Artikelgröße und -gliederung durch römische Zahlen oder Großbuchstaben, bei kleineren Artikeln durch entsprechend niedrigere Markierungspositionen gegeben sind. Benannt werden die Einträge durch ein festes, über die graphische Oberfläche in seiner Länge konfigurierbares Anfangsstück des zugehörigen Absatzes. Wie im Explorer können die tieferen Ebenen ein- und wieder ausgeblendet werden. Durch Anklicken eines Eintrags wird im Textfenster der Beginn des gewählten Abschnitts aufgeblättert.

Neben der Navigation durch das Wörterbuch bietet die CD-ROM auch die Möglichkeit, gezielt im Datenbestand zu recherchieren (vgl. Abbildung 8), wobei zusätzlich zum Wörterbuch das umfangreiche Quellenverzeichnis mit in die Suche eingeschlossen werden kann. Aufgrund der in SGML markierten Artikelpositionen kann neben einer üblichen Volltextsuche auch eine Einschränkung auf bestimmte Artikelteile wie zum Beispiel Wortarten, Belege oder Sprachangaben vorgenommen werden. So kann man beispielsweise mit einem einfachen Klick alle Artikel zu einem als Substantiv klassifizierten Lemma ›vorselektieren‹. ›Vorselektieren‹ heißt hier: Da diese Anfrage allein wegen der zu erwartenden riesigen Ergebnisliste wenig Sinn macht, kann sie mit anderen Suchkriterien kombiniert werden. So können zusätzlich über die Volltextsuche Ausdrücke spezifiziert werden, die dann nur in diesen vorselektierten Artikeln gesucht werden sollen.

Nach Abarbeitung der Suchanfrage werden in der Treffertabelle alle Artikel aufgelistet, die die vorgegebenen Suchkriterien erfüllen. Diese können von dort aus direkt angewählt werden.

Die Suchmöglichkeiten umfassen dabei die üblichen Operatoren wie logische Verknüpfung durch UND, ODER und NICHT, Rechts- und Linkstrunkierungen, Nachbarschafts- und Alternativsuchen, bei denen für einzelne Zeichenpositionen mehrere Alternativen angegeben werden können (beispielsweise wird durch eine Anfrage der Form m[ea][iy]er nach allen Vorkommen der Namenformen meier, meyer, maier und mayer gesucht). Zusätzlich besteht die Möglichkeit, eine Suche als unscharf zu kennzeichnen, woraufhin akzentuierte Zeichen und Ligaturen auf zugehörige Grundzeichen abgebildet werden.

Um weiterhin die Verbindung des elektronischen DWB zum originalen Druckwerk zu erhalten und exakte Zitierfähigkeit zu gewährleisten, wird das gesamte Wörterbuch in Form von PostScript- beziehungsweise PDF-Dateien mitgeliefert; sie können über einen einfachen Verweismechanismus aus der graphischen Oberfläche abgerufen werden.

6. Zusammenfassung und Ausblick

Jacob Grimm wollte mit dem DWB ein Wörterbuch »zum hausbedarf« schaffen, ein ›Hausbuch‹, das von allen an der deutschen Sprache Interessierten gelesen werden sollte.[47] Umfang und Heterogenität des DWB verhinderten jedoch bisher eine breite Rezeption und Nutzung dieses für die deutsche Wissenschaftsgeschichte bedeutenden Werks. Durch die systematische elektronische Aufbereitung wird dieses Auskunftsmittel und Forschungsinstrument im Sinne Jacob Grimms, der »allen zu ihm den eingang offenhalten«[48] wollte, nun einem größeren Benutzerkreis zugänglich gemacht und mit den oben beschriebenen, erweiterten Benutzungsmöglichkeiten versehen. So kann die elektronische Version des DWB zu dem anfänglich angestrebten ›Hausbuch‹ für alle werden.

Eine erste Testversion der Umsetzung des achten Bandes wird in Kürze auf der Homepage des Projekts,<http://gaer27.GrimmWB/grimmwb.htm>, zugänglich sein und die Recherchemöglichkeiten, die das elektronische DWB jetzt bietet, demonstrieren.

[1] Vgl. zur mit dem DWB verbundenen Hausbuchvorstellung Bernd Horlitz: Deutsches Wörterbuch – Hausbuch der Nation? Probleme der Benutzung und Benutzungsmöglichkeiten. In: Alan Kirkness/Peter Kühn/Herbert Ernst Wiegand (Hg.): Studien zum Deutschen Wörterbuch von Jacob Grimm und Wilhelm Grimm. 2 Bde. Tübingen: Niemeyer 1991. [Lexicographica: Series maior; Bde. 33/34], Bd. II, S. 407-434.

[2] Joachim Bahr: Eine Jahrhundertleistung historischer Lexikographie: Das Deutsche Wörterbuch, begr. von J. und W. Grimm. In: Werner Besch/Oskar Reichmann/Stefan Sonderegger (Hg.): Sprachgeschichte. Ein Handbuch zur Geschichte der deutschen Sprache und ihrer Erforschung. Erster Halbband. Berlin/New York: de Gruyter 1984, S. 492-501; S. 492.

[3] Joachim Dückert: Das Deutsche Wörterbuch von Jacob Grimm und Wilhelm Grimm und seine Neubearbeitung. In: Jahrbuch der Henning-Kaufmann-Stiftung zur Pflege der Reinheit der deutschen Sprache 1986. Marburg: Jonas 1987, S. 25-44; S. 43.

[4] Ulrich Püschel: Zwischen Erörterung und Ergebnisdarstellung. Zu Wörterbuchstilen im Deutschen Wörterbuch. In: Alan Kirkness/Peter Kühn/Herbert Ernst Wiegand (Hg.): Studien zum Deutschen Wörterbuch von Jacob Grimm und Wilhelm Grimm. 2 Bde. Tübingen: Niemeyer 1991. [Lexicographica: Series maior; Bde. 33/34], Bd. I, S. 51-103; S. 97.

[5] Alan Kirkness/Peter Kühn/Herbert Ernst Wiegand: Zur Einführung: Von der philologischen zur metalexikographischen Beschreibung und Beurteilung des Deutschen Wörterbuchs. In: Dies. (Hg.):Studien zum Deutschen Wörterbuch von Jacob Grimm und Wilhelm Grimm. 2 Bde. Tübingen: Niemeyer 1991. [Lexicographica: Series maior; Bde. 33/34], Bd. I, S. VII-LXI; S. VII.

[7] Daniel Sanders’ Beurteilung des Deutschen Wörterbuchs, zitiert nach: Anna Huber: Kritiker und Konkurrenten, erste Mitarbeiter und Fortsetzer der Brüder Grimm am Deutschen Wörterbuch. In: Joachim Dückert (Hg.): Das Grimmsche Wörterbuch. Untersuchungen zur lexikographischen Methodologie. Stuttgart: S. Hirzel-Verlag 1987, S. 49-90; S. 54a.

[9] Jacob Grimm: Vorrede zum ersten Band des DWB. In: Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm. 16 Bde. [in 32 Teilbänden]. Leipzig: S. Hirzel 1854-1960. -- Quellenverzeichnis 1971, Bd. 1, S. I-LXIII; S. XII. (Zitiert wird hier und im folgenden ausschließlich nach der dtv-Ausgabe und der Zählung in 32 Teilbänden.)

[15] Vgl. zu diesem sogenannten ›nationalpädagogischen‹ Programm Jacob Grimms vor allem Joachim Bahr: Das Deutsche Wörterbuch von Jacob Grimm und Wilhelm Grimm. Stationen seiner inneren Geschichte. In: Sprachwissenschaft 9 (1984), S. 387-455; S. 392-396 und ders.: Periodik der Wörterbuchbearbeitung. Veränderung von Wörterbuchkonzeption und -praxis. In: Alan Kirkness/Peter Kühn/Herbert Ernst Wiegand (Hg.): Studien zum Deutschen Wörterbuch von Jacob Grimm und Wilhelm Grimm. 2 Bde. Tübingen: Niemeyer 1991. [Lexicographica: Series maior; Bde. 33/34], Bd. I, S.1-50; S. 5-8.

[17] Zu Jacob Grimms eigenwilligem Wörterbuchstil vgl. Ulrich Püschel: Zwischen Erörterung und Ergebnisdarstellung. Zu Wörterbuchstilen im Deutschen Wörterbuch. In: Alan Kirkness/Peter Kühn/Herbert Ernst Wiegand (Hg.): Studien zum Deutschen Wörterbuch von Jacob Grimm und Wilhelm Grimm. 2 Bde. Tübingen: Niemeyer 1991. [Lexicographica: Series maior; Bde. 33/34], Bd. I, S. 51-103; S. 67-87.

[19] Zur Wörterbucharbeit Wilhelm Grimms vgl. vor allem Joachim Bahr: Periodik der Wörterbuchbearbeitung, S. 20-22 (Fußnote 15), Joachim Dückert: Jacob und Wilhelm Grimm, S. 37b-44b (Fußnote 18) und Ulrich Püschel: Zwischen Erörterung und Ergebnisdarstellung, S. 87-90 (Fußnote 17).

[21] Vgl. zu dieser Bearbeitungsphase des DWB insbesondere Huber: Kritiker und Konkurrenten (Fußnote 7), und Ulrich Schröter: Von Moriz Heyne zur Deutschen Kommission. Zur Bearbeitung des Deutschen Wörterbuchs von 1867 bis 1908. In: Joachim Dückert (Hg.): Das Grimmsche Wörterbuch. Untersuchungen zur lexikographischen Methodologie. Stuttgart: S. Hirzel 1987, S. 91-124.

[23] Rudolf Hildebrand: Vorrede zum fünften Band des DWB. In: Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm. 16 Bde. [in 32 Teilbänden]. Leipzig: S. Hirzel 1854-1960. -- Quellenverzeichnis 1971, Bd. 11, S. I-X; S. I.

[26] Vgl. zu dieser Bearbeitungsphase des DWB insbesondere Wilhelm Braun: Das Deutsche Wörterbuch seit seiner Übernahme durch die Akademie der Wissenschaften zu Berlin 1908 bis zu seinem Abschluß 1960. In: Joachim Dückert (Hg.): Das Grimmsche Wörterbuch. Untersuchungen zur lexikographischen Methodologie. Stuttgart: S. Hirzel 1987, S. 125-152; S. 126b-131b.

[35] Die Verwendung von TUSTEP empfahl sich, da hier verschiedene speziell für philologische Zwecke entwickelte Programmbausteine miteinander kombinierbar sind und große Datenmengen mit TUSTEP aufgrund des sequentiellen Aufbaus der Dateien innerhalb kurzer Zeit verarbeitet werden können.

[36] Fehlerfreiheit , d.h. die fehlerfreie digitale Wiedergabe des gesamten Wörterbuchtextes, kann nur als Ziel gesetzt, aber in einem Datenbestand dieser Größe nicht empirisch nachgewiesen werden. Da Fehlerfreiheit in einem solchen Datenbestand also nicht verifizierbar ist, kann eine Datei aus diesem Grund nicht als ›fehlerfrei‹ bezeichnet werden. Der Einfachheit halber wird diese Bezeichnung hier beibehalten, auf ihre Problematik soll aber an dieser Stelle hingewiesen sein. Nach Anwendung der im Beitrag beschriebenen Verfahren zur automatischen Fehlerbereinigung wird eine Genauigkeit von 99,997% erreicht; diese Zahl wurde durch stichprobenartiges Korrekturlesen gegen das gedruckte Wörterbuch ermittelt.

[39] Auf die einzelnen Funktionen von TUSTEP kann an dieser Stelle nicht eigens eingegangen werden, vgl. zur Datenanalyse unter Verwendung von TUSTEP jedoch Johannes Fournier: Vom Datenstrom zur Datenhierarchie. TUSTEP als Werkzeug zur strukturierten Erfassung linearer Texte. In: Nicolas Castrillo Benito u.a. (Hg.): Tagungsband der ITUG-Jahrestagung 1999 in Burgos: TUSTEP educa. Burgos 2000 (im Druck). Die Kombination mehrerer Suchanfragen mit TUSTEP erfordert neben dem Wissen über das Erscheinungsbild des DWB im TUSTEP-Format auch profunde Kenntnisse verschiedener TUSTEP-Bausteine wie z.B- des TUSTEP-KOPIERE, die beim Benutzer nicht unbedingt vorausgesetzt werden können. Vgl. hierzu auch Johannes Fournier: Digitale Dialektik: Chancen und Probleme mittelhochdeutscher Wörterbücher in elektronischer Form. In: Herbert Ernst Wiegand (Hg.): Wörterbücher in der Diskussion IV. Vorträge aus dem Heidelberger Lexikographischen Kolloquium. Tübingen: Niemeyer 2000. [Lexikographica: Series maior; Bd. 100], S. 85-108; S. 87.

[40] Natürlich kann nur diejenige Information abgefragt werden, die ausgezeichnet und in der Datenbank enthalten ist, weshalb die Auszeichnung nach und nach möglichst alle Artikelteile erfassen soll; zum gegenwärtigen Stand der Auszeichnung vgl. unten.

[41] Vgl. hierzu und zum Folgenden auch die allgemeinverständlichere Einführung in SGML und TEI in Frieder Schmidt: Neuland für die Buchgeschichte – Quellenaufbereitung im Zeitalter des WWW. Hypertext Markup Language (HTML), Standard Generalized Markup Language (SGML) und die Guidelines für Electronic Text Encoding and Interchange der Text Encoding Initiative (TEI). In: Leipziger Jahrbuch zur Buchgeschichte 7 (1997), S. 343-365. Vgl. zur TEI außerdem Nancy M. Ide/C. M. Sperberg-McQueen: The TEI: History, Goals, and Future. In: Computers And The Humanities 29 (1995), S. 5-15.

[42] Die Artikel werden zur leichteren Auffindbarkeit und für später einzusetzende Verweise mit eindeutigen Identifikationsnummern, einer laufenden Nummer (IDNR) und einer Referenz zum Wörterbuch (DSNR), versehen.