›SINNSUCHE IN DER BADEWANNE‹. TAGUNGSBERICHT: STANDARDS UND METHODEN DER VOLLTEXTDIGITALISIERUNG: TRIER, 8. und 9. OKTOBER 2001

Abstract

›Making sense in the tub‹ reports on the conference Standards and Methods of Full Text Digitization, which took place in Trier (Germany), October 8/9, 2001. Representatives from various fields such as librarians, archi-vists, scholars in the humanities (philology, literary studies, history), pub-lishers and IT-specialists gave that meeting an highly interdisciplinary character. Despite the wide range of issues discussed in nearly 30 pre-sentations, some key aspects were addressed repeatedly by a number of different speakers. These main issues were: (1.) retrodigitization and forms of (scholarly) electronic/digital editions, (2.) SGML/XML as a prevailing data model in humanities computing, (3.) the transition from concentration on external or document structures to the treatment (and markup) of semantic structures and contents and finally (4.) the question whether humanities computing is a purely interdisciplinary field or rat-her a discipline on its own right.

Mit dem Begriff der ›Volltextdigitalisierung‹ war für das Trierer Kolloquium nur scheinbar ein enges Feld abgesteckt. Tatsächlich waren die 130 Teilnehmer, darunter knapp 30 Referenten und Diskussionsleiter, insgesamt mindestens fünf Fachgruppen zuzuordnen, die auch bei dieser Veranstaltung das erfreulich hohe Maß an Interdisziplinarität belegten, das auf dem Gebiet des Humanities Computing schon traditionell herrscht. Ohne die sonst oft zu beobachtenden Kommunikationsprobleme beim Aufeinandertreffen von unterschiedlichen Spezialdisziplinen sind dabei zumindest zwei der großen Geisteswissenschaften, nämlich die Sprach- und Literaturwissenschaften einerseits und sowie die Geschichtswissenschaften andererseits in der Lage, sich mit den Fachleuten aus dem archivarischen und dem bibliothekarischen Bereich und schließlich sogar mit Vertretern der Wirtschaft (hier: der Verlage) über gemeinsame Probleme zu verständigen. Dem »Trierer Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften« als Hauptorganisator gelang es in Verbindung mit der Trierer Universitätsbibliothek, dem Universitätsrechenzentrum, dem Zentrum für wissenschaftliches elektronisches Publizieren, der Mainzer Akademie der Wissenschaften und der Literatur und der Union der deutschen Akademien der Wissenschaften dabei, eine bemerkenswerte Reihe der bekanntesten Fachleute auf dem Gebiet digitaler Texte und Erschließungsformen an die Mosel zu locken.

Zu der Mehrheit von Referenten aus dem deutschsprachigen Raum kamen aus dem angelsächsischen Raum einige der wohl bekanntesten Protagonisten der geisteswissenschaftlichen Informationsverarbeitung im weiteren Sinne. Genannt seien hier mit ihrem jeweiligen Arbeitshintergrund: C. Michael Sperberg-McQueen, mit seiner Beteiligung an der Entwicklung von TEI und XML und seiner Tätigkeit im WWW-Konsortium W3C, Susan Hockey, die ›große alte Dame‹ des Humanities Computing und der ›elektronischen Texte‹, David Seaman, Leiter der wohl bekanntesten ›Digital Library‹, dem »Electronic Text Center« der University of Virginia Library und Daniel Pitti als einer der maßgeblichen Entwickler des EAD-(Encoded Archival Description)-Standards.

Trotz der scheinbaren inhaltlichen und methodischen Breite und Heterogenität der insgesamt sechzehn Vorträge und Werkstattberichte lassen sich einige Themenbereiche und Grundtendenzen in der Auseinandersetzung mit digitalen Texten und anderen Wissensressourcen beschreiben, die in verschiedensten Beiträgen immer wieder berührt wurden und die den gegenwärtigen Stand und die Aufgaben der näheren Zukunft in diesem Bereich kennzeichnen. Zahlreiche weitere spezielle Problemstellungen und Lösungsansätze sollen dagegen zugunsten dieser auf die Kernpunkte konzentrierten Tagungssynthese unerwähnt bleiben.

Retrodigitalisierung und Digitale Editionsformen

Die Erstellung digitaler Forschungsressourcen erhält ihre wichtigsten Impulse derzeit aus zwei Richtungen. Die international zu beobachtende Tendenz zur digitalen Erschließung und Abbildung von größeren Dokumentenbeständen, die in Deutschland nicht zuletzt durch das breite Engagement der Deutschen Forschungsgemeinschaft besonders stark ausgeprägt ist, wird getragen von bibliothekarischen und archivarischen Institutionen, die hier nicht nur ihre traditionellen Methoden weiterentwickeln, sondern einen grundlegenden Wandel in Zuständigkeitsbereich, Aufgabenstellung und Selbstverständnis erleben. Auf der anderen Seite versuchen Vertreter der Sprach-, Literatur- und Geschichtswissenschaften ihre Quellen in digitalen Editionsformen aufzubereiten, wobei auch hier die Weiterentwicklung der Methoden in einen grundsätzlichen Wandel umzuschlagen beginnt, der weit über die Erscheinungsformen und die Funktionalitäten solcher Editionen hinausgeht. Beide Ansätze stehen deshalb in engem Zusammenhang, weil die Grundintention der ›besseren Verfügbarkeit geisteswissenschaftlicher Forschungsressourcen‹ letztlich dazu führt, dass die Grundunterschiede zwischen ›flacher Bestandserschließung‹ (Bibliotheken) und »tiefer Detailerschließung#171; (geisteswissenschaftliche Forschung) immer geringer werden und als Module einer umfassenden Sicht erscheinen. Im Zentrum dieser Sicht stehen dann in der Tat die ›Volltexte‹, mit denen sich in die Tiefe gehende Retrodigitalisierungsprojekte (wie das CAMENA-Projekt – Vortrag 12; siehe zu den Vorträgen nach ihrer Nummer jeweils den Überblick am Ende des Textes) oder digitale Bibliotheken (5, 14) ebenso auseinandersetzen wie spezialisierte Editionsprojekte in der Tradition der »kritischen Edition« als deren Vertreter in Trier vor allem solche zu geschichtswissenschaftlichen Erschließungsformen (13), literarischen Texten (4, 15, 16) und zu Wörterbüchern (6, 10, 11) präsentiert wurden.

Dabei war bei den letzteren eine Tendenz festzustellen, die wohl auch in anderen Ansätzen bald vermehrt aufgenommen werden wird. Bei der Digitalisierung geht es nicht mehr nur um eine bessere Verfügbarkeit, um den verbesserten Zugriff auf das Material, also letztlich nur um einen rein funktionalen Mehrwert, sondern inzwischen auch um eine Verbesserung und Ausdifferenzierung der inhaltlichen Strukturen und damit um einen semantischen Mehrwert. Jörg Asmussen machte in seinem Beitrag (10) deutlich, wie weit sich die semantischen Strukturen eines gedruckten Wörterbuches auch aus ihren technischen Rahmenbedingungen (dem Medium ›Buch‹ und der Drucktechnik) ergeben haben. Mit dem Wegfall dieser spezifischen Bedingungen entsteht folgerichtig der Wunsch nach differenzierteren und präziseren Inhaltsstrukturen. Deren Herleitung kann sich durchaus aus der Praxis der Digitalisierung ergeben, wenn – wie im Asmussenschen Wörterbuch-Projekt – bei einem Element »Wortbedeutung« (zu einem Lemma) auffällt, dass es bereits in der gedruckten Fassung Ansätze zu unterscheidbaren »Wortbedeutungs-Typen« gibt. Diesen Ansatz aufzunehmen bedeutet zunächst, dass das Tagging (das Auszeichnen von Inhalten durch festgelegte Elemente) weit über das hinausgehen muss, was sich aus Typographie und Layout (als Inhaltsstruktur-Indikatoren) ableiten lässt. Die intellektuelle Nacharbeit geht dann einher mit einer Schärfung und Weiterentwicklung solcher semantischer Konzepte. Digitalisierung als Übergang von der gedruckten zu der elektronischen Form beinhaltet dann nach Asmussen auch die Weiterentwicklung von buchorientierten semantischen Konzepten zu allgemeineren (Computer-)Konzepten. Dass diese nicht nur umfassender, sondern auch schärfer gefasst sein können und damit einen wirklichen Fortschritt im Sinne höherer Rationalität mit sich bringen, wurde auch in den Vorträgen von Anne McDermott (6) und von Eveline Wandl-Vogt (11) deutlich.

Der Zusammenhang zwischen Medienwechsel – präziser: dem Verzicht auf ein bestimmtes Leitmedium – und Methodenfortschritt ist bei manchen geschichtswissenschaftlichen Formen der Quellenerschließung noch nicht im gleichen Maße zu beobachten. Wie bei den Wörterbüchern werden zwar auch beim Projekt zu den »elektronischen Regesta Imperii« (13) ältere Arbeiten, nämlich die seit über hundert Jahren kontinuierlich gedruckten Bände, in elektronische Formen über- und unter weiterentwickelten Konzeptionen, zum Beispiel der unmittelbaren Online-Publikation neuer Erträge, fortgeführt. Ein grundlegender Konzeptwandel hinsichtlich der Erstellung und inhaltlichen Ausgestaltung der Regesten ist aber noch nicht zu beobachten. Neben dem hier besonders augenfälligen funktionalen Mehrwert des besseren Zugriffs und der besseren Recherchemöglichkeiten ist allerdings ein vollständiger technischer Paradigmenwechsel zu konstatieren: so soll mittelfristig auf die Druckfassung zugunsten der Online-Publikation ganz verzichtet werden und eine gedruckte Version (oder spezialisierte Auszüge) nur noch nach Bedarf (›On-Demand‹) hergestellt werden.

Für die autortextorientierten literarischen und historisch-kritischen Editionen ist als fast schon klassischer Effekt beim Abschied vom typographischen Paradigma die Auflösung des einen Textes zugunsten der unter Umständen vielen Texte diskutiert worden (so unter anderem Vanhoutte, 4). Diese vielen Texte können sich nicht nur aus dem stärkeren Rückbezug auf die tatsächliche Dokumentenüberlieferung, mithin aus dem neuen Status der Textzeugen als Texte jeweils eigener Autorität ergeben, sondern auch aus der Integration verschiedener methodischer Ansätze, die unterschiedliche Textvarianten bevorzugen oder als abschließenden einen Editionstext erst herstellen. Aber wo sollen die vielen Texte herkommen? Das Problem der Abbildung aller physikalischen (das heißt vor allem paläographischen) Evidenz der Dokumente in eine konsistente digitale Form ohne jeden Informationsverlust wird von auf Masse ausgerichteten Projekten wie CAMENA (12) umgangen. Für detailliertere Editionsprojekte wie das »Guiltless-Notebook-Projekt « (4) stellt es sich aber unausweichlich: Wie können hier strukturell und graphisch komplizierte Manuskriptvorlagen in einen ausgezeichneten Text überführt werden? Von einem Standard, der handschriftliche Notizenstrukturen (die alles andere als linear oder auch nur sequentiell sein müssen) oder auch nur komplexere (ältere) Druckformen wirklich ohne jeden Informationsverlust in ein formales System überführen könnte, sind wir offensichtlich immer noch weit entfernt. Es stellt sich allerdings auch die Frage, ob die hier virulenten Grundprobleme, nämlich die Abbildung sämtlicher paläographischer oder typographischer Befunde und die (noch problematischere) digitale Rekonstruktion von Reihenfolge, Anordnung, Position und gegenseitiger Beziehung von Textteilen auf physischen Trägern (den Dokumenten), also der Widerstreit zwischen inhaltlicher/logischer Struktur und äußerer/physikalischer Struktur in weiteren Auszeichnungssprachen-Modulen (wie bei TEI) überhaupt zu lösen sind. Berühren diese Probleme doch, wie auch Michael Sperberg-McQueen (9) bemerkte, die Fundamente von Auszeichnungssystemen überhaupt oder in diesem Falle zumindest konkret das ungelöste Grundproblem überlappender Hierarchien in den doch hierarchisch organisierten Auszeichnungssprachen. Aber damit ist man auch schon in den konzeptionellen Grenzregionen (einer) der neuen Technologien angekommen.

SGML/XML – ein durchgesetztes/etabliertes Paradigma

Seit die Standard (manchmal auch Structured) Generalized Markup Language (SGML) als Internationale ISO-Norm existiert, wird sie auch in geisteswissenschaftlichen Projekten eingesetzt. Wegen ihrer hohen Komplexität und dem Mangel an geeigneter Software gab es lange Zeit aber auch Vorbehalte gegen ihre Verwendung. Diese sind mit der Verabschiedung von XML als ›vereinfachtem SGML‹, als allgemeinem Standard und zukünftiger Grundlage eines weiterentwickelten WorldWideWeb hinfällig geworden. Auch wenn die Frage nach den breit verfügbaren Anwendungsprogrammen (vor allem Datenbanken und Software, welche die Ausgabeformen generieren) derzeit immer noch nicht zufriedenstellend beantwortet ist, hat sich XML auf Grund seiner einfachen Anwendung, seiner langfristigen und höchst variablen Nutzbarkeit und der Anziehungskraft XML-basierter standardisierter Auszeichnungssprachen (TEI, EAD et cetera) inzwischen in geisteswissenschaftlichen oder bibliothekarisch-archivarischen Projekten zur fast alternativlosen Selbstverständlichkeit entwickelt

Susan Hockey (3) beschrieb in diesem Zusammenhang für den Bereich des Humanities Computing eine allgemein feststellbare Tendenz der letzten Jahrzehnte, die von der inhaltlich ausgerichteten Einzelforschung mit abschließend zu druckenden Ergebnissen wegführte und sich immer mehr in Richtung standardorientierter, verallgemeinerbarer Ansätze mit langfristiger Perspektive und elektronischen (oder hybriden) Publikationszielen entwickelte. Die Anziehungskraft etablierter Datenstandards zeigt sich dabei nicht nur am Beispiel der TEI-Richtlinien (vor allem für Volltextprojekte), sondern auch im Falle der EAD (für Archivalien beziehungsweise genauer: Findbücher). Dafür stand nicht zuletzt der Beitrag von Angelika Menne-Haritz über die Versuche der Marburger Archivschule, das dort (mit-)entwickelte MIDOSA-System so umzugestalten, dass mit ihm auch EAD-kompatible XML-Ausgaben zu generieren wären. Dass die Verwendbarkeit von Standards auch ihre Grenzen hat, versuchte Markus Enders (14) für die Behandlung von Volltexten am Göttinger Digitalisierungszentrum zu zeigen. Er äußerte sich skeptisch über die Fähigkeit zum Beispiel des TEI-Headers, alle bibliothekarischen Metadaten aufzunehmen und plädierte dafür, gegebenenfalls für den einzelnen Text mehrere Standards parallel zu verwenden (zum Beispiel TEI und DC (Dublin Core)), was die Probleme der Verwaltung und inhaltlichen Konsistenz solcher Dokumente allerdings eher verstärken könnte.

Die tiefe Überzeugung, dass der Ansatz des ›Markup‹ (der Auszeichnung) derzeit trotzdem der Königsweg für fast alle textorientierten geisteswissenschaftlichen und bibliothekarisch-archivarischen Vorhaben ist, wird nicht zuletzt durch die äußerst positiven Erfahrungen im Bereich der digitalen (Volltext-)Bibliotheken gestützt. David Seaman (5) trat in Trier als Kronzeuge dafür auf, dass einige der frühen Versprechungen der Auszeichnungssprachen, von ihm unter anderem unter dem Schlagwort des ›build once use many‹ zusammengefasst, inzwischen Realität geworden sind. Die in der Digital Library der Bibliothek der Universität von Virginia auf der Grundlage eines einheitlichen SGML/XML-Standards vorgehaltenen digitalen Ressourcen sind zugleich langfristig gesichert und offen für sich wandelnde Nutzungsformen. Die allgemeinen Standards für die Erschließung, Speicherung und Verwaltung der Inhalte mit strukturellen Auszeichnungen werden ergänzt von beliebigen speziellen Stilvorlagen (Stylesheets) welche die Ausgabeformen mit Anweisungen zur tatsächlichen Darstellung (Layout) versehen. Auf diese Weise sind die Texte nicht nur unter einer einheitlichen WWW-Oberfläche als Ausdruck des aktuellen Nutzungsparadigmas verfügbar. In den letzten Jahren sind dazu vielmehr weitere Formen für andere Nutzungssituationen getreten. Die Texte des Electronic Text Center können inzwischen auch in speziellen Formaten für E-Books oder Palmtops und demnächst auch für WAP-Handys heruntergeladen oder in einer Text-to-Speech-Ausgabe angehört werden. Hinzu kommt – das älteste ist oft das neueste – als zusätzlicher Trend die Rückkehr zur gedruckten Fassung! Mit dem Printing- (und Shipping-) On-Demand, aber auch schon mit den tragbaren elektronischen Lesegeräten oder dem Vorlesen-Lassen ist der elektronische Text in ganz unterschiedlichen Situationen ›lesbar‹ geworden. Er ist sozusagen endgültig wieder am ›Strand und in der Badewanne‹ des Lesers angekommen. Beide ›Orte des Lesens‹ standen in den frühen Diskussionen um die Digitalisierung der geisteswissenschaftlichen Welt oft als Symbol dafür, dass sich solche – anscheinend computerorientierten (das heißt gerätorientierten) – Ressourcen eben nicht in alle ›humanoiden‹ Rezeptionskonstellationen einfügen lassen würden. Heute dürfte dagegen evident sein, dass sich der technologische Wandel weniger auf die Hardware bezieht, als vielmehr auf den grundlegenden konzeptionellen Wandel, der die Einheit von Inhalt und Form durch eine strikte Trennung ersetzt. Bei dieser Scheidung kann nur die (beliebige) Erscheinungsform einer Kritik ihrer Materialität und Funktionalität unterzogen werden, während sich für den Inhalt Fragen des Informationsgehaltes und der konsistenten Strukturierung und Anlagerung von Zusatzinformationen stellen.

Das Build-Once-Use-Many-Prinzip wird in Virginia aber auch in einer anderen Hinsicht konsequent verfolgt: Externe Inhalte wie zum Beispiel größere Textsammlungen als CD-Publikationen marktorientierter Verlage werden von der digitalen Bibliothek zwar gekauft, man verzichtet aber auf die mitgegebene Nutzungsoberfläche. Statt dessen werden nur die reinen Inhalte in das eigene System integriert und dem Benutzer unter der WWW-Schnittstelle der Bibliothek angeboten, die er im günstigsten Fall bereits kennt. So werden die eigenen Texte in verschiedenen Formaten, gleichzeitig aber auch die vielen (teilweise extern angelegten) Texte unter einheitlichen Oberflächen verfügbar gemacht.

Zurück zu den eben angedeuteten Grundfragen, die mit der Entwicklung und Verbreitung der Auszeichnungssysteme ja nicht gelöst sind, sondern – jenseits der frühen Realisierungsprobleme – jetzt erst verstärkt ins Bewusstsein rücken. Für eine digitale Bibliothek wie die in Virginia ließe sich zum Beispiel im Zusammenhang mit den bereits diskutierten Fragen nach digitalen Editionsformen die Frage stellen, welcher Text da eigentlich digital angeboten wird? Und – um vom einfachsten, traditionellen Fall auszugehen - wie zu verfahren ist, wenn es mehrere konkurrierende Texte eines Werkes gibt, die zum Beispiel zurückgehend auf verschiedene kritische Editionen unterschiedlicher Schulen alle absolute Autorität beanspruchen? Und wie sollen die zahllosen Texte verwaltet werden, die sich in modernen digitalen Editionen aus der Realität der Überlieferung ergeben können? Die Bibliothek ist nicht das Archiv, die Verbindung zu den Quellen bleibt gekappt, aber kann die Bibliothek das Modell vom ›einen Text‹ gegen den philologischen Generalangriff auf dessen Autorität wirklich auf Dauer aufrechterhalten? Zumal in Organisation und Selbstverständnis der digitalen Bibliothek durchaus Aufweichungen der traditionellen Strukturen auch dahingehend zu beobachten sind, dass individuelle – auch quellenorientierte – Benutzerprojekte (mit unterschiedlicher Erschließungstiefe und Kontextualisierungsweite) in das Gesamtangebot eingebunden werden – wie dies ebenfalls in Virginia bereits heute zu beobachten ist.

Das aber mag nach einem speziellen Problem klingen. Eher auf der Tagesordnung scheinen allgemeinere Fragen nach der Anwendung und Weiterentwicklung von bestehenden Auszeichnungssystemen zu stehen. Nicht zuletzt Susan Hockey (3) wies einmal mehr auf das Grunddilemma hin, wie denn überhaupt die Konsistenz von Tag- (= Element-) Bedeutungen sichergestellt werden könne, wenn deren Definition doch sprachlich vorgenommen werden müsse, wenn alles Auszeichnen (Encoding) immer auch Interpretation sei und Begriffe, wie sie in den Auszeichnungssystemen modelliert werden, in ihrer Verwendung durch Menschen wohl selten vollständig deckungsgleich sind. Dieses Problem verschärft sich noch dadurch, dass jetzt – auf dem Weg zu vertieften Erschließungen – begonnen wird, die allgemein gehaltenen Standards in Projektkontexten um weitere Elemente und verfeinerte Attributsysteme zu erweitern oder die relativ weich gefassten Definitionen der Tag-Bedeutungen klarer zu definieren. Für diesen Prozess und seine Auswirkungen standen in Trier nicht nur Wolfgang Schibel und das von ihm geleitete CAMENA-Projekt (12) mit seiner spezifischen Verwendung und Ausdeutung von TEI-Elementen, sondern auch Karl Märker (13) als Benutzer des MASTER-Standards, einer Richtlinie für die Handschriftenkatalogisierung, bei der man in hohem Maße auf Interpretation und weitere Ausdifferenzierung angewiesen ist.

Von der Struktur zum Inhalt – Zauberwort ›Semantik‹!

In den letzten Jahren stand vor allem die flache Erschließung und digitale Aufbereitung von Texten und Bibliotheks- oder Archivbeständen im Vordergrund der Bemühungen um digitale Forschungsressourcen. Die ersten Schritte zielten hier auf die Entwicklung und Anwendung von Standards, um Strukturen in solchen Beständen abbilden und verwalten zu können. Im Rahmen dieser Grunderschließungen sind bereits bemerkenswerte Datensammlungen entstanden, die ganz neue Zugriffswege und Nutzungsformen erlauben. Nun sollte es aber darum gehen, den nächsten Schritt zu tun. Nach der Strukturerschließung muss die tiefere Inhaltserschließung folgen. Durch semantische Informationsanlagerungen – das kann durch semantische Explikationen von impliziten Bedeutungen oder durch die Konstruktion semantischer Metaebenen geschehen – sollten die vorhandenen Datenbestände besser (das heißt vielfältiger) nutzbar gemacht werden. Susan Hockey (3) umriss hier die Anforderungen aus der Nutzungssicht: Man will unter Umständen nicht nur innerhalb der einfachen Strukturen oder im Wortsteinbruch der fließenden Volltexte, sondern zugleich semantisch suchen und analysieren. Man will unscharf – und damit auf andere Weise präziser – suchen, die Fragen in menschlicher Normalsprachlichkeit – also formal gesehen uneindeutig – stellen und trotzdem die wenigen interessierenden Treffer erhalten. Statt der unsortierten und unbenutzbaren Flut von Treffern bei einfachen Suchanfragen will man über semantische Begriffe die tatsächlich relevanten Antworten erhalten.

Semantische Erschließung zielt nicht nur auf erweiterte Retrieval-Möglichkeiten; sie kann in einer anderen Perspektive auch als Ansatz einer Erschließung durch Kontextualisierung verstanden werden: Im CAMENA-Projekt (12) steht unter dem Begriff der Schaffung einer ›Leseumgebung‹ (Reading Environment) die Verknüpfung der gewonnenen digitalen Inhalte mit zusätzlichen Wissensbasen auf dem weiteren Programm. Hier sollen die Texte neulateinischer Dichtung der frühen Neuzeit zum Beispiel nicht nur mit innerhalb des Projektes retrodigitalisierten lexikographischen Datenbasen, sondern auch mit den Angeboten des Perseus-Projektes (eine digitale Bibliothek, hauptsächlich zum klassischen Altertum) oder einem Lexikon der Mythologie verbunden werden. Oder es soll eine spezielle Suchmaschine eingerichtet werden, die – um ein willkürliches Beispiel zu nennen – nicht nur die in den CAMENA-Texten vorkommenden mythologischen Figuren findet, sondern auch externe Informationen zu ihnen angeben könnte. Hier lässt sich auch der Prozess der semantischen Erschließung gut veranschaulichen. »Prometheus« zum Beispiel ist zunächst nichts als ein Wort, bis die implizite Bedeutung als »Name, Typ: mythologisch« durch die Auszeichnung expliziert wird. Diese semantische Erschließung erster Stufe wird aber erst dann wirklich verständlich, wenn zu der Tatsache, dass es sich um eine mythologische Figur handelt, durch weitere Erklärungen oder Kontextualisierungen verstehbar wird, was für eine es ist.

In gänzlich anderen Bereichen finden sich ähnliche Anliegen. Für die Erschließung von Archivmaterial hat sich – über die Auszeichnung von Findbüchern – der bereits oben genannte Standard EAD etabliert. Im Gefolge von EAD wird nun an EAC gearbeitet (7). Der Encoded Archival Context als eine der weiteren möglichen Vertiefungen betrifft unter anderem die systematische und standardisierte Kennzeichnung der Archivalien-Produzenten (Record Creator). Dabei stellt sich unmittelbar die Frage nach der Kompatibilität zu den Erschließungsbemühungen in anderen Institutionen, hier also zum Beispiel in den Bibliotheken und Museen. Die nahe liegende Lösung ist die Entwicklung übergreifender Normdaten, die dann aus dem engeren Rahmen des EAC-Standards ausgelagert und an geeigneter (institutioneller) Stelle zentral vorgehalten und gepflegt würden. Der Aufbau externer Wissensbasen, die dann wiederum durch Abgleichungsverfahren zur semantischen Erschließung spezieller Datensammlungen genutzt werden können, ist eine Grundstrategie auf diesem Gebiet. Lexikographische Wissensbasen erklärte dann auch Susan Hockey (3) zum ersten Schlüssel nicht nur für fortgeschrittene Analysewerkzeuge, sondern auch für vertiefende semantische Aufbereitungen digitaler Ressourcen.

Kann die weitergehende Auszeichnung elektronischer Texte als erster Schritt hin zu einem inhaltlich orientierten Zugriff interpretiert werden, so folgt darauf das weitergehende Konzept der semantischen Metastrukturen nicht in den Daten, sondern über die und zugleich über den Daten. Als bekannte Spezialistinnen für die Verwendung von Topic Maps vertraten Ingrid Schmidt und Carolin Müller (13) diesen Ansatz, der zwar einerseits die Grundidee des reinen Auszeichnens in den Texten verlässt, andererseits in technischer und strategischer Hinsicht wieder erstaunlich nahe an den allgemeinen Vorgehensweisen der Volltextdigitalisierung liegt. Die Topic Maps lassen sich selbst wieder als XML-Anwendung realisieren, gewinnen ihre Inhalte und ihren Bezug zu den Texten über die Verwendung externer Daten (hier zum Beispiel bereits vorhandene Register) und unterstützen die Generierung spezifischer Ausgabeformen entlang bestimmter Fragestellungen und produktbezogener Ausschnitte. Die technisch innovative Arbeit mit semantischen Netzen findet hier ihre praktische Anwendung in einem scheinbar so traditionellen Feld wie der Edition klassischer deutscher Literatur. Mit der Edition der gesammelten Werke Thomas Manns ist es bemerkenswerterweise die profitorientierte Wirtschaft, der Fischer-Verlag nämlich, welche hier die Impulse für die Anwendung von Topic Maps in komplexen geisteswissenschaftlichen (literaturwissenschaftlichen) Arbeiten gibt. Dies verdeutlicht allerdings nur die Evidenz des eingangs angesprochenen Build-Once-Use-Many-Prinzips, mit dem man sich eine Effizienz- und Qualitätssteigerung verspricht, die nicht nur eine Refinanzierung der Investitionen in Aussicht stellt, sondern die auch nach dem Erlöschen des Urheberrechts (und dem Gemeinfrei-Werden) der Werke Thomas Manns dem Verlag einen entscheidenden Vorsprung vor der Konkurrenz sichern soll. Die semantische Metastruktur über den Texten dient nicht nur besonderen Retrievalstrategien, sondern ermöglicht auch die Herstellung inhaltlich definierter Ausschnitte. In die Badewanne nimmt man dann ein E-Book oder ein Print-On-Pemand mit, das zum Beispiel eine sinnvolle Zusammenstellung zu »Thomas Mann und seiner Beziehung zu schweizerischer Literatur und Literaten« enthalten könnte.

Auf der obersten Ebene, bei den Gralshütern der technischen Entwicklung, spielt die Diskussion um die semantische Tiefe der Inhalte schließlich beim W3C (WorldWideWebConsortium) unter dem Schlagwort des ›Semantic Web‹ als Arbeitsgegenstand eine wichtige Rolle. Auch wenn man hier von den technischen Rahmensetzungen oder gar Standard-Verabschiedungen noch weit entfernt ist, zeigt sich doch nach C. Michael Sperberg-McQueen (9) bereits jetzt der dringende Bedarf nach der Einbringung der spezifisch geisteswissenschaftlichen Erfahrungen und Kompetenzen im Bereich semantisch orientierter Technologien. Da der Bedeutungsbegriff der (mathematisch-technischen) Informatik viel zu primitiv sei, wäre der Beitrag einer geisteswissenschaftlichen Informationsverarbeitung (oder der Geisteswissenschaften überhaupt) unbedingt notwendig.

Geisteswissenschaftliche Informationsverarbeitung – eine eigenständige Disziplin?

Wessen Beitrag zu den allgemeinen Entwicklungen ist da gefordert? Gibt es eine ›geisteswissenschaftliche Informationsverarbeitung‹ als eigenständige Disziplin, oder handelt es sich hier immer nur um »Germanisten mit Computerkenntnissen«, um »Historiker, die auch programmieren« und dergleichen? Der langen Diskussion um diese Frage fügte wiederum C. Michael Sperberg-McQueen (9) in einem launigen Abendvortrag eine weitere Anmerkung hinzu. Gegen vor allem Willard McCarty, Tito Orlandi und Manfred Thaller vertrat er die These von der puren Interdisziplinarität des Arbeitsfeldes, die eine Definition des Humanities Computing als eigene Disziplin ausschlösse. Seine Definition, dass sich eine Disziplin beschreiben ließe als eine Menge von Methoden, die relativ unabhängig ist von anderen Methodenmengen, scheint mir allerdings zu einseitig, dürfte in der Realität eine allgemein akzeptierte Disziplin doch nicht weniger durch ihren Gegenstand, ihren Spezialisationsgrad (im Sinne der Ausdifferenzierung von Arbeitsbereichen), ihren Forschungszweck und durch eine Reihe historisch-soziologischer Parameter bestimmt werden. Im letzten Aspekt sah Sperberg-McQueen allerdings ein Argument gegen die Disziplin-These, unterstellte er doch nicht zuletzt Manfred Thaller, aus einer Basis-Überbau-Dialektik heraus für die Eigenständigkeit des Faches zu plädieren: Wer dafür bezahlt werde, Professor für historisch-kulturwissenschaftliche Informationsverarbeitung zu sein, der tendiere zwangsläufig zu der Auffassung, er vertrete eine eigenständige Disziplin. Das Gleiche ließe sich natürlich auch gegen den Redner selbst anführen: Wer studierter Philologe ist und sich dann der Computertechnologie zuwendet, um sie in seinem Arbeitsgebiet einzusetzen, der mag sich auf dieser Basis in einem interdisziplinären Überbau sehen – nicht zuletzt, um nicht seinen ursprünglichen Status (als Geisteswissenschaftler) zu verlieren und als ›Verräter‹ gebrandmarkt zu werden. Es mag sich also weiterhin jeder in seinem eigenen Überbau einrichten und sich aussuchen, ob er – um ein Bild Sperberg-McQueens zu benutzen – wie die »jungen Isländer des Mittelalters« (die Geisteswissenschaftler) im Sommer ausgezogen sei, um für ein paar Jahre in fremden Ländern (die Informatik) reiche Beute zu machen und dann nach Hause zurückzukehren, oder ob er wie die Waräger als Garde am byzantinischen Hofe einer eigenen Spezies zugehöre.

Liste der Vorträge

1. Günter Hotz: Der Informationsbegriff aus der Sicht der Informatik.
2. Gregory Crane: The Perseus Project (Der Referent war selbst nicht anwesend; statt dessen wurde sein Vortragsmanuskript verlesen).
3. Susan Hockey: Digital Resources in the Humanities: Past, Present and Future.
4. Edward Vanhoutte: Display or Argument: Markup and Digitization for Scholarly Editions.
5. David Seaman: An Electronic Text Archive Based on Standards.
6. Anne McDermott: Encoding Johnson's Dictionary: Theoretical Issues and Technical Solutions.
7. Daniel Pitti: Describing the Creators: Encoded Archival Context.
8. Angelika Menne-Haritz: Eine XML/EAD-Schnittstelle für MIDOSA.
9. C. Michael Sperberg-McQueen: Geisteswissenschaften und Informatik. Zur aktuellen Situation und zu künftigen Aufgaben.
10. Jörg Asmussen: Zur geplanten Retrodigitalisierung des Ordbog over det danske Sprog – Konzeption, Vorgehensweise, Perspektiven.
11. Eveline Wandl-Vogt: Digitale Volltexte als Arbeitsbehelf für die Dialektlexikographie am Beispiel des Wörterbuchs der Bairischen Mundarten in Österreich.
12. Wolfgang Schibel/Heinz Kredel: Kodierung und Präsentation neulateinischer Dichtung im Text-Bild-Corpus CAMENA auf der Basis von TEI-XML.
13. Markus Brantl/Karl Märker: SGML/XML-Kodierung von Volltexten aus der Konversion von Katalogen und Nachweisinstrumenten.
14. Markus Enders: Erstellung und Verarbeitung von Volltext (TEI/XML) im Göttinger Digitalisierungszentrum.
15. Bernd Füllner/Johannes Fournier: HHP – Das Heinrich Heine-Portal, ein integriertes Informationssystem.
16. Ingrid Schmidt/Carolin Müller: Die Große Kommentierte Ausgabe der Werke Thomas Manns. Ein innovatives verlegerisches Konzept.

Patrick Sahle (Köln)

Patrick Sahle, M.A.
Universität zu Köln
Historisch-Kulturwissenschaftliche Informationsverarbeitung
Zentralarchiv für empirische Sozialforschung
Zentrum für historische Sozialforschung
Liliencronstr. 6
50031 Köln
sahle@uni-koeln.de

(12. Januar 2002)