Dörr: Retrodigitalisierung

The article gives an overview about digitization activities from a German prospective. The setup of a specialized funding program for retrospective digitization of library holdings by the Deutsche Forschungsgemeinschaft in 1997 played an important role for inciting and promoting digitization projects. Giving direct access to broadly used research and teaching materials or facilitating the use of rare and precious documents are some of the most frequent selection criterias. The main lines of digitization activities of the Bavarian State Library are given as an example for building a digitization profile which is reflecting the missions of the library. Further American and French initiatives are cited in order to illustrate digitization programs of much greater dimensions. The second part of the article refers to the basic technical questions (scanners, resolution, text encoding) and also mentions some copyright issues.

Einleitung

Elektronisches Publizieren ist in der Verlags- und Medienwelt, aber auch im Wissenschaftsbetrieb zum Standard geworden. Wissenschaftliche Zeitschriften erscheinen – zumindest als Parallelpublikation zur Printausgabe – mehr und mehr online. Die Elektronische Zeitschriftenbibliothek, ein von der Universitätsbibliothek Regensburg initiiertes Kooperationsprojekt,[1] zum Nachweis elektronischer Zeitschriften, an dem inzwischen rund 150 deutsche Bibliotheken mitarbeiten, listet aktuell schon über 9.700 elektronische Zeitschriften auf – Tendenz steigend. Wenn moderne wissenschaftliche Literatur aber bequem vom heimischen oder dienstlichen PC aus abrufbar ist, stellt sich die Frage, ob nicht auch die gedruckt vorliegende Forschungsliteratur retrospektiv digitalisiert werden kann, um so eine Informationswelt ohne Medienbruch zu schaffen. Die Vorstellung der vollständigen Digitalisierung der Mengen von Titeln, die in Bibliotheken liegen beziehungsweise jährlich neu hinzukommen, wird allerdings auf Dauer utopisch bleiben: Neben den urheberrechtlichen Problemen, liegt dies vor allem an den Kosten. Retrodigitalisierung ist teuer. Das Scannen ist in der Regel der einfachste und relativ gesehen billigste Arbeitsvorgang der Digitalisierung. Die Vor- und Nachbereitung der Materialien, die Qualitätskontrolle, vor allem aber die Erschließung und Aufbereitung für einen Suchzugriff (Metadaten- und gegebenenfalls Volltexterzeugung) erfordern erheblich mehr an Ressourcen. In einer Zeit real sinkender Erwerbungsetats ist es auch nicht denkbar, für den Kauf von Literatur beziehungsweise Informationsmitteln bestimmte Finanzbudgets für die Retrodigitalisierung bereits vorhandener Bestände umzuwidmen. Trotzdem ist die Digitalisierung und das Online-Angebot von ausgewählten gedruckten Materialien und Sammlungen ein von Forschung und Lehre zunehmend gefordertes Desiderat. Bei Studenten ist sogar der Trend spürbar, nicht online verfügbare Informationen gar nicht mehr wahrzunehmen beziehungsweise zu nutzen. Ein aus den genannten Beschränkungen notwendigerweise selektives digitales Angebot älterer Materialien und Bestände bekommt damit für diese Zielgruppe auch die Funktion, Neugier und Interesse für die Masse der wohl auch in Zukunft noch analog vorliegenden Materialien zu wecken.

Eine Art Katalysatorfunktion für den Beginn von Digitalisierungsaktivitäten auf breiterer Ebene in Deutschland spielte die Einrichtung eines dedizierten Förderprogramms der Deutschen Forschungsgemeinschaft (DFG) zur Retrodigitalisierung von Bibliotheksbeständen im Jahr 1997. Seit Beginn des Programms wurden über 60 von Bibliotheken und/oder wissenschaftlichen Einrichtungen beantragte Projekte bewilligt und durchgeführt beziehungsweise begonnen. Die DFG initiierte zusammen mit dem Programm die Gründung von zwei so genannten ›Digitalisierungszentren‹ an Institutionen, die bereits Erfahrungen mit Digitalisierung gesammelt hatten. Diese sollten andere Einrichtungen beraten und für Knowhow-Transfer sorgen. Die beiden Zentren wurden bewusst regional gestreut: Das Digitalisierungszentrum an der Niedersächsischen Staats- und Universitätsbibliothek in Göttingen sollte diese Funktion für den Norden wahrnehmen; das Zentrum an der Bayerischen Staatsbibliothek in München sollte süddeutschen Einrichtungen mit Rat und Tat zur Seite stehen. Neben einer Vielzahl von individuellen Beratungen für Antragsteller aus Bibliothek und Wissenschaft haben die beiden Zentren in den letzten Jahren mit meist international besetzten Vortragskolloquien, die abwechselnd in Göttingen und München stattfanden, auch über den Kreis der Projektnehmer hinaus, Technik und Inhalte der Retrodigitalisierung nach außen transportiert.[2]

Das Förderprogramm war vor seiner Lancierung von zwei Arbeitsgruppen vorbereitet worden, die sich sowohl mit inhaltlichen Aspekten (Was sollte primär digitalisiert werden?) als auch mit der technischen Realisierung (Wie soll/kann digitalisiert werden?) beschäftigten. Die Ergebnisse der Arbeitsgruppen, aus denen Richtlinien für die Projektnehmer entstanden, liegen gedruckt und in einer Online-Version vor.[3]

Auswahl für die Digitalisierung – Einige Projektbeispiele

Als übergeordnete Aspekte für die inhaltliche Auswahl von Materialien für die Digitalisierung wurden von der DFG-Arbeitsgruppe folgende Orientierungspunkte formuliert:

• Thematisch orientierte Sammlungen von herausragendem Interesse für die Forschung

Weiterhin sollten strategische Überlegungen die Auswahl leiten und somit Sammlungen priorisieren, die

• einen Anstoß für die längerfristige Zusammenarbeit mit personellen und institutionellen Vertretern der Wissenschaft geben,

• in Kooperation mit Verlagen und sonstigen Inhabern von Rechten die Digitalisierung vom urheberrechtsfreien Material auch auf urheberrechtsrelevante Literatur ausdehnen.[4]

Neben den angeführten Aspekten spielte aus Sicht der Förderinstitution auch eine Rolle, mit der Unterstützung heterogener Projekte eine insgesamt möglichst breite Erfahrungsbasis in der digitalen Verfügbarmachung und Nutzung unterschiedlicher Materialien zu gewinnen. Eine aktuelle Liste der bisher durchgeführten beziehungsweise in Arbeit befindlichen Projekte ist verfügbar unter der Adresse : <http://www.bsb-muenchen.de/mdz/proj2.htm>[5] (10.09.2001). Nur einige Beispiele aus der DFG-Förderung sollen hier herausgegriffen werden, um das Spektrum der Digitalisierungsaktivitäten anzudeuten:

An der Berlin-Brandenburgischen Akademie der Wissenschaften wurde das Zettellexikon zum altägyptischen Wörterbuch digitalisiert. Es handelt sich dabei nicht um eine gedruckte Volltextsammlung, sondern um die Referenz- beziehungsweise Belegstellen, die der Publikation des Wörterbuchs der ägyptischen Sprache (Leipzig und Berlin 1926-1963) zugrundelagen. In das gedruckte Wörterbuch fanden nur cica 10% der tatsächlich vorhandenen hieroglyphischen Textstellen Eingang. Wissenschaftler mussten sich deshalb immer wieder an die Arbeitsstelle wenden beziehungsweise Reisen nach Berlin unternehmen, um Zugriff auf das mit 1,7 Millionen Belegzetteln umfangreiche nicht-publizierte Arbeitsmaterial zu erhalten. Durch die Digitalisierung und freie Verfügbarmachung im Internet <http://aaew.bbaw.de:8080/dzaInfo/dzaInfo.html> (10.09.2001) hat nun die Ägyptologen-Community weltweit Zugriff auf das Archiv.

Der Kategorie der Digitalisierung und Publikation von Informationsmitteln beziehungsweise Nachweisinstrumenten können noch weitere Projekte wie die noch laufende Digitalisierung und Kumulierung der Register der Allgemeinen Deutschen Biographie und der Neuen Deutschen Biographie (Historische Kommission bei der Bayerischen Akademie der Wissenschaften und Bayerische Staatsbibliothek) oder die gerade begonnene Digitalisierung der Jahresberichte für Deutsche Geschichte (Berlin-Brandenburgische Akademie der Wissenschaften) zugerechnet werden.

Der Verbreitung beziehungsweise Nutzungsverbesserung von wertvollen und schwer zugänglichen Sammlungen dienen Projekte wie die Erfassung, Erschließung und digitale Bereitstellung von Ostraka und Papyri (beides Projekte der Universitätsbibliothek Gießen). Bei diesen Sonderbeständen ergibt sich durch die digitale Bereitstellung zusätzlich die reizvolle Möglichkeit der virtuellen Zusammenführung von Fragmenten, die auf Grund historischer Zufälle der Überlieferung getrennt wurden beziehungsweise in unterschiedlichen, internationalen Institutionen aufbewahrt werden. In den Kontext der Verfügbarmachung wertvoller und schwer zugänglicher Sammlungen gehören weiterhin zum Beispiel die Projekte zur Digitalisierung spätmittelalterlicher Bilderhandschriften aus der Bibliotheca Palatina (UB Heidelberg), der Aufbau einer digitalen Manuskriptbibliothek aus den Beständen der Kölner Diözesan- und Dombibliothek (in Kooperation mit der Universität Köln) oder die Digitalisierung von gedruckten Festschriften des Barock (Herzog-August-Bibliothek Wolfenbüttel).

Materialien von grundlegender wissenschaftlicher Bedeutung und hoher Nutzungsintensität digitalisiert zum Beispiel die Universität Trier mit ihren Projekten zum Aufbau eines Verbunds digitaler mittelhochdeutscher Wörterbücher und zur Digitalisierung des Deutschen Wörterbuchs von Jacob und Wilhelm Grimm.[6]

Vom Digitalisierungsprojekt zum Digitalisierungsprogramm

Für Projekte ist immer auch ein erheblicher Einsatz eigener Kapazitäten zu erbringen – das erklärt, warum nur wenige und eher größere Institutionen mit verschiedenen Projekten auf der Förderliste der DFG vertreten sind. Andererseits lässt sich nur durch mehrere Projekte breitere, tragfähige Erfahrung sowohl mit der Durchführung als auch mit der Akzeptanz beziehungsweise Nutzung digitaler Sammlungen erwerben. In Deutschland sind im Wissenschafts- beziehungsweise Bibliotheksbetrieb bis jetzt Digitalisierungsprogramme erst in der Entwicklung. Institutionen, die in der Digitalisierung ein neues Aktionsfeld sehen, müssen jedoch für sich eine Art Programm beziehungsweise eine Profilierung ihrer Aktivitäten entwickeln. Als ein Beispiel soll die inhaltliche Zielrichtung der Digitalisierungsaktivitäten der Bayerischen Staatsbibliothek im Folgenden kurz dargestellt und motiviert werden.

Digitalisierungsprofil der Bayerischen Staatsbibliothek

Die Position und Rolle der Bayerischen Staatsbibliothek im deutschen Bibliothekswesen ist von mehreren Faktoren bestimmt; drei davon spielen für die Digitalisierungsaktivitäten eine besondere Rolle:

Sie ist Bayerische Landesbibliothek mit den Aufgaben der landesbezogenen Sammlung und Archivierung von Materialien. Sie ist eine der größten wissenschaftlichen Bibliotheken Deutschlands mit überregionaler Verantwortung in mehreren fachlich definierten Sammelschwerpunkten – hier ist vor allen Dingen die Geschichte der deutschsprachigen Länder, Frankreichs und Italiens zu nennen.[7] Und sie hat einen weltweit bedeutenden Bestand an mittelalterlichen Handschriften und frühneuzeitlichen Drucken. An diesen drei Linien orientieren sich bewusst die Digitalisierungsaktivitäten der Bibliothek:

Als Landesbibliothek hat die BSB beispielsweise in Kooperation mit der Kommission für Bayerische Landesgeschichte bei der Bayerischen Akademie der Wissenschaften die Digitalisierung der Zeitschrift für Bayerische Landesgeschichte begonnen. Die Bände 1928-1965 sind bereits online verfügbar <http://mdz.bib-bvb.de/digbib/bayern/zblg/> (10.09.2001), die Digitalisierung und Bereitstellung wird sukzessive fortgesetzt, wobei die fünf jüngsten Jahrgänge in Absprache mit dem Verlag von der Online-Bereitstellung ausgespart bleiben werden. Zum bayernbezogenen Angebot gehört ebenfalls die gerade anlaufende Digitalisierung des Historischen Atlas‘ Bayern[8] und die geplante Digitalisierung der bayerischen Landtagsprotokolle. Die Protokolle der ersten Sitzungsperiode nach dem Krieg aus den Jahren 1946/47 sind unter der folgenden Internet-Adresse <http://mdz.bib-bvb.de/digbib/bayern/byl/> (10.09.2001) bereits verfügbar. Als nächste Tranchen sind die Edition der frühneuzeitlichen Landtagsprotokolle von Krenner und die Protokolle aus der Weimarer Zeit geplant.

Im Kontext der Verantwortung für die Literaturversorgung im Fach der Deutschen Geschichte allgemein entstand das Projekt zur Digitalisierung der Stenographischen Berichte des Deutschen Reichstags (mit Vorgängerinstitutionen) 1867-1895 —- das erste und vom Umfang her (107.000 Seiten aus 164 Bänden) bisher größte Projekt des Digitalisierungszentrums <http://mdz.bib-bvb.de/digbib/reichstag> (10.09.2001). Die oben genannte anlaufende Digitalisierung der bayerischen Landtagsprotokolle ergänzt natürlich diese Sammlung – das heißt es gibt mannigfaltige Schnittstellen zwischen den Linien. Von Historikern angeregt wurde auch das Projekt zur Digitalisierung der Regesta Imperii, der Regestenedition zu den Kaiserurkunden des Mittelalters, das in Kooperation mit der Deutschen Kommission für die Bearbeitung der Regesta Imperii e.V. bei der Akademie der Wissenschaften und Literatur in Mainz in diesem Jahr begonnen hat.[9] Verschiedene kleinere Projekte (Decretum Gratiani, Kaiserurkunden in Abbildungen et cetera) sind ebenfalls diesem Schwerpunkt zuzurechnen.

Nicht nur, aber natürlich auch für Historiker ist der Zedler, oder genauer, das Große Universallexikon aller Wissenschaften und Künste <http://mdz.bib-bvb.de/digbib/lexika/zedler> (10.09.2001) des Verlegers Johann Heinrich Zedler relevant, das mit suchbar erfassten Artikeleinstiegsbegriffen, die zum vollen Artikel als Grafikformat führen, inzwischen fast abgeschlossen ist.

Die Vorschläge für die genannten Projekte hatte die Bayerische Staatsbibliothek fast alle von außen eingeworben. Schon zu Beginn der Digitalisierungsaktivitäten wurde ein Beirat aus Vertretern universitärer und außeruniversitärer historischer Forschungseinrichtungen ins Leben gerufen. Die aus diesem Kreis gewonnenen Projektanregungen mündeten in – meist schon kooperativ erarbeiteten – DFG-Anträgen. Für die Bibliothek war dabei ein ganz wesentlicher Gesichtspunkt, potentielle Nutzer des digitalen Angebots von Anfang an mit im Boot zu haben.

Als dritter bibliotheksbezogener Aktionsbereich, der aber selbstverständlich für die historische Forschung als Quellenfundus ebenfalls von Bedeutung ist, sind Digitalisierungsprojekte aus dem Bereich der Altbestände und Sondersammlungen der Bayerischen Staatsbibliothek zu nennen. Begonnen wurde dieser Schwerpunkt mit der Digitalisierung von mehreren Tausend Holzschnitt-Illustrationen aus Wiegendrucken (Inkunabeln) der BSB, siehe <http://mdz.bib-bvb.de/digbib/inkunabeln> (10.09.2001). Inzwischen sind Projekte zur Erschließung und Digitalisierung von frühneuzeitlichen Einblattdrucken und Emblembüchern aus dem Bestand der Staatsbibliothek angelaufen. Damit wird wertvolles und häufig unikales Quellenmaterial digital für Lehre und Forschung zugänglich gemacht. Intern wird gerade eine ›Wunschliste‹ von weiteren Sammlungen aus dem Altbestand erstellt, die sich für eine digitale Präsentation des Sammlungs-und Bestandprofils der Staatsbibliothek besonders eignen würden. An eine schnelle Realisierung ist dabei allerdings nicht zu denken. Die so identifizierten Desiderate sollen auch wieder Ausgangspunkt für weitere Antragstellungen werden.

Die Bayerische Staatsbibliothek ist mit diesen drei inhaltlichen Linien dabei, den Digitalisierungsaktivitäten und dem digitalen Angebot ein auch nach außen sichtbares und nach außen vermittelbares Profil zu geben. Da nur sehr eng begrenzte eigene Ressourcen zur Verfügung stehen und mehrheitlich Drittmittel eingeworben werden müssen, dauert es einige Zeit bis eine oft geforderte ›kritische Masse‹ im digitalen Angebot erreicht ist.

Im Folgenden sollen – da es in Deutschland insgesamt (noch?) keine Unternehmungen mit vergleichbaren Dimensionen gibt – einige signifikante ausländische Institutionen dargestellt werden, in denen mit entsprechendem Investitionsvolumen große und umfangreiche Digitalisierungsprogramme ins Leben gerufen wurden.

American Memory[10]

Vermutlich das bisher größte Digitalisierungsvorhaben überhaupt startete auf Initiative der Library of Congress (LoC). In einer für die USA typischen Form des public-private Partnership wurden von 1996 bis 2000 über 60 Millionen Dollar für die Digitalisierung historischer Quellenmaterialien zur amerikanischen Geschichte investiert. Der nationale – identitätsstiftende – Gedanke des Aufbaus einer ›National Digital Library‹ ist bei dem Unternehmen dominant. Die LoC, die als größte Bibliothek der USA (und der Welt), zwar de facto schon immer Aufgaben einer amerikanischen Nationalbibliothek wahrnahm, aber in der Ursprungsfunktion, Bibliothek des Kongresses zu sein, in vielem ein für den Durchschnittsnutzer abgehobenes Dasein führte, eroberte sich mit den bisher rund 90 digitalen Sammlungen, die unter dem Namen American Memory vereinigt sind, ein ganz neues Publikum: Neben dem universitären Bereich wurden Schulen und Lehrer mit gezielten Angeboten ausgesprochen erfolgreich als Nutzer geworben. Die LoC trägt mit diesem Programm also aktiv dazu bei, neue Generationen an die Bibliothek und ihre Bestände heranzuführen. Die American Historical Collections setzen sich aus teilweise multimedialen (zum Beispiel Tonaufzeichnungen) Sammlungen zusammen, an denen die Bibliothek mehrheitlich das Copyright besitzt beziehungsweise die im Rahmen des ›fair use‹ für Lehrzwecke benutzt werden können. Ein detailliertes Copyright-Statement steht für jede Sammlung zur Verfügung. Die Sammlungen umfassen gerade nicht in erster Linie gedruckte Bücher als vielmehr Bestände mit Archivcharakter wie Nachlässe und handschriftliche Materialien. Hier werden also in großem Maßstab Quellen frei für die historische Lehre und Forschung verfügbar gemacht, und es wurde eine oft geforderte ›kritische Masse‹ erzielt, die eine sinnvolle Arbeit erst ermöglicht.

Bibliothèque Nationale de France[11]

Das nicht ganz unproblematische Konzept der Verfügbarmachung eines ›Kanons‹ der europäisch motivierten Geistes- und Kulturgeschichte liegt dem Digitalisierungsprojekt der Bibliothèque Nationale de France zu Grunde, das im Kontext des Neubaus und der Neuausrichtung dieser Einrichtung zu sehen ist. Zwischen 1992 und 1998 (der Öffnung des Neubaus der BNF am Standort Tolbiac für das Publikum) wurden 86.000 Titel (intendiert waren ursprünglich 100.000) und 125.000 Bilder digitalisiert. Für die Fortsetzung des Programms hat sich die BNF Zielvorgaben gesetzt, die bei etwa 10.000 Titeln und 30.000 Bildern in – thematisch orientierten – Dreijahres-Projektzyklen liegen. Auf Grund urheberrechtlicher Beschränkungen ist nur ein kleiner Teil dieser digitalen Sammlungen auch frei über das Internet verfügbar. Der Aufbau der digitalen Sammlung der BNF wurde ausschließlich mit öffentlichen Mitteln in Höhe von umgerechnet rund 23 Millionen DM gefördert. Auch die Fortsetzung des Programms wird rein staatlich finanziert. Die Zielvorstellung, die die Auswahl der Materialien prägte, bestand darin, eine virtuelle Bibliothek der bedeutenden Werke von der Antike bis zur Gegenwart aufzubauen. Dazu wurde für jedes Fach durch Auswertung von Handbüchern und Ähnlichses eine Art Kanon der wichtigsten Werke etabliert. Von der Fächerverteilung her (es wurden Werke aus den Fachbereichen Anthropologie, Geschichte, Sprach- und Literaturwissenschaft, Philosophie, Politik, Naturwissenschaften, Wirtschaft und Recht berücksichtigt) dominiert die Geschichte (30%) neben der Literatur (29%). Chronologisch ist – nicht weiter verwunderlich – das 19. Jahrhundert vorherrschend.[12] Auch für das französische Programm gilt, dass neben der universitären Lehre besonders die Schulen, darüber hinaus aber auch ein allgemein interessiertes Publikum angesprochen wird. Im Gegensatz zum amerikanischen Vorgehen wurde in Frankreich – auch aus dem Gedanken des kulturellen Kanons resultierend – der Schwerpunkt auf bereits gedruckte, veröffentlichte Materialien gelegt, die Publikation von Quellen und Archivalien spielt – abgesehen von den Bildsammlungen – im Angebot keine Rolle.

Electronic Text Center der University of Virginia[13]

Während die beiden oben dargestellten Digitalisierungsprogramme einem eher nationalhistorisch motivierten beziehungsweise begriffenen Bildungsauftrag von Bibliotheken entstammen und explizit ein allgemein interessiertes Publikum und Schulen ansprechen, bedient das Electronic Text Center der University of Virginia, Charlottesville primär die philologischen Fachbereiche der eigenen und anderer Universitäten. Das Electronic Text Center wurde 1992 gegründet im Kontext des Ausbaus von computerphilologischen Lehrveranstaltungen im anglistischen Fachbereich der Universität. Heute stellt das Zentrum über 50.000 Texte im Volltext zur Verfügung, von denen rund 5.000 auch frei, das heißt außerhalb des Campus' der University of Virginia zugreifbar sind. Ergänzt wird der Textbestand um rund 350.000 Bilder, die größtenteils Handschriften, seltene und wertvolle Drucke und Buchillustrationen abbilden. Das Center macht neben den in Eigenregie retrodigitalisierten Texten auch Angebote kommerzieller Verlage (derzeit rund 8.000 Titel) für seine universitären Kunden zugreifbar. Der Fokus der Arbeit des Text Centers liegt bei der SGML-Codierung der Texte (nach den Vorgaben der Text Encoding Initiative, TEI), um so einen gezielten Zugriff für philologische (literaturwissenschaftliche und linguistische) Fragestellungen zu ermöglichen. In vielen Fällen wurden auch die kommerziell erworbenen Texte mit Zustimmung der Verlage für eine Online-Nutzung mit denselben Suchmöglichkeiten wie die vom Center selbst digitalisierten Texte in die entsprechende Struktur konvertiert. In einem von der Andrew-W.-Mellon-Foundation geförderten Digitalisierungsprojekt Early American Fiction hat das Electronic Text Center Werke von rund 80 Autoren der frühen amerikanischen Literatur (1789-1850) als Farbimages und SGML-codierte Volltexte digitalisiert. Dieses Unternehmen wurde in Kooperation mit Chadwyck-Healey begonnen, so dass die vollständige Sammlung auch nur kostenpflichtig über den Verlag bezogen werden kann.

Beeindruckend sind die Zugriffszahlen des Electronic Text Center. Täglich werden von 20.000 differenzierbaren Rechnern aus rund 30.000 Arbeitssitzungen mit den Texten gestartet. Dabei greifen die Nutzer auf circa 130.000 Dokumente am Tag zu. Von März 2000 zu März 2001 stieg die Nutzungszahl der elektronischen Texte um 122%. Das Electronic Text Center hat dreieinhalb Vollzeitstellen, die regelmäßig von fünf bis sechs Studenten im Hauptstudium unterstützt werden. Aktuell experimentiert das Center mit XML-basierten E-Book-Technologien, um neue Vertriebswege für seine Inhalte zu erproben.

JSTOR (Journal Storage)[14]

Dieses sehr umfangreiche kooperative amerikanische Digitalisierungsprojekt zielt auf die retrospektive Digitalisierung von Kernzeitschriften unterschiedlicher Wissensgebiete ab. Gerade im Bereich der Zeitschriften ist bei der aktuellen Produktion der Übergang zur elektronischen Publikation besonders weit fortgeschritten. Andererseits greifen – besonders natürlich in den Geistes- und Sozialwissenschaften – Wissenschaftler auch noch auf ältere Literatur zurück. Daraus entstand der Gedanke, kooperativ die wichtigsten wissenschaftlichen Zeitschriften vom Anfang ihres Erscheinungszeitraums bis zu einem so genannten ›Moving Wall‹ von drei bis fünf Jahren vor Beginn der laufenden Produktion zu digitalisieren, so dass auch sie komfortabel online zugreifbar sind. Das Prinzip des ›Moving Wall‹ impliziert dabei die ständige Fortschreibung der Digitalisierung. Der Abstand zum jeweils laufenden Erscheinungsjahr hat zum Ziel, negative Folgen für die Absatzmöglichkeiten der laufenden Zeitschrift zu verhindern. Damit konnten Bedenken der betroffenen Verlage erfolgreich ausgeräumt werden. JSTOR begann als Pilotprojekt von fünf Bibliotheken mit Förderung der Andrew-W.-Mellon-Foundation. 1995 wurde eine Not-for-Profit-Organisationsform etabliert. Inzwischen umfasst das JSTOR-Angebot 117 Zeitschriften, der Ausbau ist noch im Gange. Einige deutsche Bibliotheken wie die Bayerische Staatsbibliothek und die Staats- und Universitätsbibliothek Göttingen haben JSTOR abonniert und bieten ihren Benutzern eine kostenfreie Nutzung vor Ort beziehungsweise über das Universitätsnetz an.

Wie die Zahlen aus den genannten Beispielen zeigen, sind für umfangreiche programmorientierte Digitalisierungsvorhaben entsprechende Investitionen Voraussetzung. In der deutschen föderalistischen Struktur ist es kaum vorstellbar, dass eine Institution Fördermittel in einer Höhe einwerben könnte, die denen der Library of Congress oder auch nur der Bibliothèque Nationale de France vergleichbar wären. Das Angebot retrodigitalisierter Sammlungen in Deutschland wird deshalb wohl noch länger von einer Pluralität von Einzelprojekten und -initiativen geprägt bleiben. Das letztgenannte Projekt JSTOR, das sich mit der Komponente der kooperativen Digitalisierung für die Übertragung auf deutsche Strukturen besonders eignet, hat aber Nachahmer gefunden. Gefördert von der Deutschen Forschungsgemeinschaft wird von einem Konsortium von Bibliotheken gerade versucht, unter dem Namen DigiZeit, ein ähnliches Unternehmen in Deutschland zu etablieren.

Retrodigitalisierung im Kontext

Um sich über die schon digital vorhandenen Bestände informieren zu können, sind entsprechende Nachweissysteme notwendig. Retrodigitalisierte Dokumente, die ausgehend von entsprechenden Print-Ausgaben erzeugt wurden, sind auch in den Verbundkatalogen beziehungsweise Bibliotheks-OPACs verzeichnet. In der Regel enthalten die Kataloge aber keine Nachweise von Sammlungen, deren analoge Pendants auch nicht in Bibliothekskatalogen enthalten sind, wie reine Fotosammlungen, Archivalien et cetera. Ein gesondertes Nachweissystem für elektronische Materialien aller Art bildet zum Beispiel der Verbundkatalog digitaler Dokumente, der auf Initiative und mit maßgeblicher Beteiligung der Universitätsbibliothek Bielefeld erstellt wurde und über die übergreifenden Zugangssysteme Digitale Bibliothek Nordrhein-Westfalen, aber auch über das Gateway Bayern <http://gateway-bayern.bib-bvb.de> (10.09.2001) zugänglich ist. Einen Fokus auf die Digitalisierungsprojekte im Bereich des kulturellen Erbes legt das Directory of Digitized Collections, das von der UNESCO und der International Federation of Library Associations (IFLA) betrieben wird. Einen Einblick gibt folgende Internet-Adresse: <http://www.unesco.org/webworld/mow/digital> (10.09.2001).

Um die Einzelprojekte der Retrodigitalisierung bekannt zu machen und damit die Nutzung zu fördern, müssen sie aber vor allem auch in größere fachliche Zusammenhänge gestellt werden. Die retrodigitalisierten Bestände sollten deshalb immer im Kontext der aktuellen fachbezogenen Literatur- und Informationssuche gesehen werden. Die unübersichtliche Vielfalt der im Internet verfügbaren Ressourcen erfordert die Einrichtung von inhaltlich definierten Fachportalen, um dem Nutzer die für ihn relevanten Ressourcen von einem Einstiegspunkt aus zugänglich zu machen. Die DFG fördert deshalb seit 1998 auch in einem speziellen Programm den Aufbau so genannter ›virtueller Fachbibliotheken‹.[15] Das wesentliche Ziel dieser Projekte, an denen in der Regel die zuständigen Sammelschwerpunkt-Bibliotheken und andere Informationsanbieter sowie -produzenten kooperieren, ist es, solche fachlichen Portale zu relevanten Informationen und Informationsquellen aufzubauen. Die Erschließung von Internetressourcen und damit auch der retrodigitalisierten Materialien bildet einen essentiellen Teil dieser Arbeit. Als Beispiel können die Fachinformationsguides dienen, die bereits für die Virtuellen Fachbibliotheken Psychologie[16] oder Anglo-Amerikanischer Kulturraum[17] im WWW verfügbar sind. Die Bayerische Staatsbibliothek arbeitet gerade gemeinsam mit der Staats- und Universitätsbibliothek Göttingen an einem Projekt zur kooperativen Erschließung von historischen Ressourcen. Dabei entstehen zwei Datenbanken, die ein Benutzer aber mit einer Suchanfrage parallel abfragen kann. Gerade die Aufnahme in fachorientierte Instrumente ist für die oft spezialisierten retrodigitalisierten Sammlungen von Bedeutung, um das adäquate Publikum zu finden.

Technische und organisatorische Aspekte der Durchführung von Digitalisierungsprojekten[18]

Die praktische Durchführung von Digitalisierungsprojekten wird – gerade bei Erstanträgen – oft unterschätzt. Digitalisierungsprojekte erfordern von der Auswahl der Materialien bis zur Fertigstellung des Online-Angebots eine Vielzahl von aufeinander abgestimmten Arbeitsschritten. Eine Reihe von grundsätzlichen Überlegungen und Planungen muss deshalb der Durchführung vorausgehen. So beginnt jedes Digitalisierungsprojekt mit der Materialsichtung und -analyse, um auf dieser Grundlage eine Entscheidung über die adäquate Digitalisierungstechnik und über das zu realisierende Such- und Zugriffskonzept[19] zu treffen. Da vor allem bei größeren Projekten meist mit externen Dienstleistern gearbeitet wird, ist die Erarbeitung eines Pflichtenhefts als Voraussetzung für eine Angebotseinholung notwendig. Auf dieser Basis sollten von Dienstleistern Testerfassungen verlangt werden – so ist ein realistischer Vergleich der Preis-/Leistungsverhältnisse für die Auftragsvergabe möglich. Weiterhin muss ein projektorientierter Workflow erarbeitet und mit dem gewählten Dienstleister abgestimmt werden, um eine effiziente Arbeitsweise zu ermöglichen. Einen ganz wesentlichen Faktor stellt dabei die Qualitätskontrolle dar. Sowohl die Ergebnisse des Scannens oder der Konvertierung in unterschiedliche Bildformate als auch die Erfassung und Codierung von Texten müssen regelmäßig an festgelegten Stichproben überprüft werden. Für Reklamationen sind mit Dienstleistern Zeiträume festzulegen – bei Nichterfüllung festgelegter Qualitätsmargen müssen Sanktionen vereinbart werden. Neben diesen eher organisatorischen Überlegungen, sind technische Grundfragen wesentlich, die im folgenden kurzen Überblick aber nur angerissen werden können.

Scanner/Geräteauswahl[20]

Der Markt an Scannern kann nach unterschiedlichen Kriterien geordnet werden. Für die Auswahl spielen sowohl Qualitätsfragen, wie die erreichte optische Auflösung und die Farbtiefe, eine Rolle als auch die Eignung für das jeweilig zu digitalisierende Material. Bei der retrospektiven Digitalisierung von Bibliotheksbeständen können nur selten Flachbettscanner eingesetzt werden, da es sich meist um gebundenes Material handelt. In der Regel kommen nur so genannte ›Buch- oder Aufsichtsscanner‹ beziehungsweise digitale Kameras mit buchschonenden Vorlagehalterungen (Buchwippe, Buchschwinge) für den Einsatz in Frage. Bei Farbdigitalisierungen, die außer bei One-Shot-Kameras oft noch eine im Vergleich mit der Mikroverfilmung höhere Lichtintensität beziehungsweise längere Belichtungszeit erfordern, muss darauf geachtet werden, dass über Filter Ultraviolett- (UV) beziehungsweise Infrarot- (IR)Wellen der Lichtquellen eliminiert werden, um damit Gefährdungen älterer und wertvoller Bestände auszuschließen.

Neben der Direktdigitalisierung besteht auch die besonders bei wertvollen Beständen wie Handschriften oft genutzte Möglichkeit, von Mikrofilmen zu digitalisieren. Hierfür sind Filmscanner mit Durchlichtvorrichtungen notwendig. Wenn bereits entsprechende Sekundärformen vorliegen, müssen sie allerdings erst auf ihre Eignung für eine Digitalisierung überprüft werden – bei Neuverfilmungen können von Anfang an Maßgaben beachtet werden, die eine spätere Digitalisierung erleichtern.[21] Andererseits können digitale Daten, die aus Direktdigitalisierungen stammen, für eine Langzeitarchivierung nach dem Computer-Output-on-Microfilm-Verfahren auch auf Mikrofilm[22] ausgegeben werden. Schließlich bieten einige Hersteller so genannte ›Hybridgeräte‹ an, mit denen in einem Arbeitsgang ein Digitalisat und eine Mikrofilmaufnahme erzeugt werden kann. Die Wahl des adäquaten Verfahrens und des adäquaten Geräts sind sowohl von den Vorlagen als auch vom Ziel des Digitalisierungsunternehmens, also von den Umständen des Einzelfalls, abhängig.

Auflösung und Farbtiefe

Scanner unterscheiden sich in ihrem optischen Auflösungsvermögen. Eine Buchseite oder ein Bild wird bei der Digitalisierung vom Scanner mit einer bestimmten Zahl von Bildpunkten (Pixel) pro räumlicher Einheit (in der Regel Inch = 2,54 cm) erfasst. Eine Auflösung von 600 ppi (Pixel per Inch) bedeutet, dass für die Erfassung von einem Inch der Vorlage 600 Bildpunkte zur Verfügung stehen.

Bei Flachbettscannern tastet – beim Scanvorgang deutlich nachvollziehbar – die Scanzeile die Vorlagefläche sukzessive ab. Das Auflösungsvermögen ist durch die Leistungsfähigkeit der Scanzeile bestimmt und damit für die gesamte abgetastete Fläche identisch. Bei digitalen Kameras beziehungsweise Aufsichts- oder Kamerascannern nimmt dagegen die Auflösung bei wachsender Entfernung des Kamerakopfes mit seinem eingebauten digitalen Rückteil von der Vorlage ab. Die von Scannerherstellern oft angeführten pauschalen Angaben über das Auflösungsvermögen, müssen in Bezug zur Aufnahmefläche gesetzt werden, um aussagekräftig zu sein, das heißt man sollte fragen, welche Auflösung bei einem bestimmten Vorlagenformat (zum Beispiel DIN A 1) noch erreicht wird. Bei digitalen Kameras spielt allerdings für die Qualität der Aufnahme neben der erreichbaren optischen Auflösung die Qualität der analogen Kameratechnik (zum Beispiel Tiefenschärfe) eine wesentliche Rolle.

Der einzelne Bildpunkt (Pixel) ist durch seine Farbtiefe charakterisiert. Sie liegt zwischen einem Bit bei bitonalem (schwarz-weiss) Scannen und 24, 36 oder 48 Bit bei Farbscannen. Bei bitonalem Scannen ist nur ein Bit notwendig, um die Information zu codieren, ob der Bildpunkt schwarz oder weiss ist. Bei der Erfassung von Grauschattierungen wird zwischen Farbtiefen von vier und acht Bit, das heißt sechzehn (zwei hoch vier) oder 256 ( hoch acht) Graustufen unterschieden. Beim Farbscannen im R(ot)G(reen)B(lue)-Modus wird der einzelne Bildpunkt meist mit zwölf Bit pro Farbkanal codiert – das heißt mit insgesamt 36 Bit für die Information über den roten, grünen beziehungsweise blauen Farbanteil. Mit einer Farbtiefe von 36 Bit sind 16,7 Millionen Farben codierbar.

Eine besondere Möglichkeit, aber auch Herausforderung der Farbdigitalisierung stellt die Erzeugung einer der Vorlage entsprechenden farbgetreuen Aufnahme dar. In der digitalen Welt haben sich software-gestützte Methoden des Color-Managements entwickelt: Ein- und Ausgabegeräte (Scanner, Monitor, Drucker) werden kalibriert beziehungsweise so genannte ›Farbprofile‹ (ICC-Profile) werden erzeugt, die zusammen mit dem Bild abgespeichert werden. Farbmanagement ist eine sehr komplexe Aufgabe, die aber Voraussetzung dafür ist, das digitale Bild als Vorlage für hochwertige Reproduktionen verwenden zu können.[23]

Aus den dokumentierten Erfahrungen bisheriger Projekte hat sich ein Qualitätsstandard herausgeschält, der für textbasierte Digitalisierungen Auflösungen zwischen 400 und 600 ppi (Pixel per Inch) im bitonalen Modus empfiehlt. Mit 600 ppi werden auch kleine Drucktypengrößen, die unter einem Millimeter liegen sowie – im Falle von Frakturschriften – feine Serifen noch zuverlässig erfasst und wiedergegeben. Bei Altbeständen, Stichen oder kolorierten Abbildungen wird mit niedrigeren Auflösungen – oft 300 dpi – aber zwischen acht und 36 Bit Farbtiefe gearbeitet. Die Dateigröße eines digitalen Bildes ist von diesen Vorgaben abhängig. Unkomprimierte Graustufen oder gar Farbbilder können leicht zu riesigen Dateigrößen führen. Zur Errechnung von Dateigrößen dient die folgende Formel:

Dateigröße in Bit = Höhe x Länge der Vorlage x Farbtiefe x Auflösung² (für die Dateigröße in Byte: das Ergebnis durch acht dividieren). Deshalb ist es wichtig, Dateiformate und ihre Kompressionsmöglichkeiten zu kennen.

Grafikformate

Als wichtigste Dateiformate für Digitalisierungsvorhaben sind zu nennen: das TIF-Format (Tagged Image File Format), das Mitte der 80er-Jahre von Aldus Corporation entwickelt und nun von Adobe betreut wird;[24] das Graphics Interchange Format (GIF) der Firma Compuserve; JPEG, ein Format der Joint Picture Expert Group,[25] und das PNG-Format (Portable Network Graphics).[26]

Die Formate unterscheiden sich vor allem in der Unterstützung von Farbtiefen und Kompressionsverfahren. TIFF ist für Bilder mit Farbtiefen bis zu 24 Bit verwendbar. Bei bitonalen Bildern unterstützt TIFF die – verlustfreie – Kompression nach dem Faxstandard der International Telecommunication Union (ITU G4), die zu erfreulich kleinen Dateigrößen führt. Deshalb werden beispielsweise auch in der Dokumentenlieferung die Bilder der gescannten Aufsätze meist als TIFF-Dateien versandt. Für Graustufen oder Farbbilder unterstützt TIFF jedoch keine günstigen Kompressionsalgorithmen. Da TIFF gut dokumentiert ist, wird es bei Digitalisierungsprojekten als Format für den so genannten ›digitalen Master‹ empfohlen – das heißt für das Speicher- oder Archivbild, das als Vorlage für reduzierte, webgängige Formate dient.

Im WWW ist die Frage der Dateigröße für eine schnelle Datenübertragung von Bedeutung. Lange Ladezeiten bis zur Anzeige eines Bildes werden von den meisten Nutzern nicht akzeptiert und können deshalb der Akzeptanz eines digitalen Angebots eher schaden als nutzen. Außerdem dominieren im WWW Bildformate, die von den gängigen Browsern unterstützt, das heißt ohne zusätzliche Plug-Ins angezeigt werden. Zu den am weitesten verbreiteten Web-Formaten gehören deshalb GIF und JPEG. GIF ist für Farbtiefen bis zu acht Bit geeignet und unterstützt die Lempel Ziv Welch (LZW)-Kompression. Da diese jedoch von der Firma Unisys patentiert wurde, dürfen GIF-Dateien nur mit Software erzeugt werden, deren Hersteller entsprechende Lizenzen erworben haben. Prognosen, dass sich wegen dieser Einschränkung das freie Format Portable Network Graphic (PNG) gegen GIF durchsetzen würde, haben sich allerdings nicht bewahrheitet. JPEG hat eigene Kompressionsalgorithmen, die bei der Erzeugung beziehungsweise Bearbeitung von JPEGs mit der entsprechenden Software individuell skaliert werden können und sich besonders bei Farbbildern sehr positiv auf eine Dateigrößenreduktion auswirken. Bei hohen Kompressionsfaktoren ergeben sich allerdings unschöne Artefakte. Die JPEG-Kompression ist verlustbehaftet. Erst die neue JPEG-Version 2000 arbeitet mit verlustfreien Kompressionsverfahren.

Es gibt inzwischen auch mehrere Typen so genannter ›Multiresolutionformates‹, die ein Zoomen ins Bild erlauben und sich deshalb besonders für die Digitalisierung von detailreichen oder/und großformatigen Vorlagen, wie zum Beispiel Karten eignen. Beispiele hierfür sind Flashpix,[27] MrSid, Djvu[28] und LuraDocument.[29] Der Nachteil dieser Formate liegt darin, dass sie von den gängigen Web-Browsern nicht unterstützt werden und eigene Plugins erfordern.

Zu unterscheiden von den genannten Beipielen für Raster-Grafikformate sind Vektorgrafikformate, die beispielsweise in Geographischen Informationssystemen (GIS) Verwendung finden.

Die Orientierung an Standardformaten und die bewusste Wahl des Formats zur Archivierung und für das Web-Angebot ist wesentlich für das erfolgreiche Management von Digitalisierungsprojekten. Allerdings unterliegen auch Bildformate dem technologischen Wandel, so dass auch bei der Wahl eines Formats, das zum Zeitpunkt des Projekts als Standard gilt, die Notwendigkeit späterer Migrationen wahrscheinlich ist. Es ist jedoch davon auszugehen, dass es für weit verbreitete Formate mit offen gelegten Spezifikationen Konvertierungsmöglichkeiten beziehungsweise entsprechende Software geben wird.

Verfahren der Erzeugung von codierten Texten

Bei textbasierten Materialien dient die Digitalisierung meist dazu, den Text nicht nur als Image einer Buch- oder Dokumentenseite verfügbar zu machen, sondern ihn codiert, das heißt als suchbaren Text anzubieten. Dazu gibt es zwei Verfahren: die Anwendung von automatischer Zeichenerkennung (Optical Character Recognition – OCR) oder die manuelle Texterfassung. Bei Antiqua-Schriften sind OCR-Programme heute schon sehr erfolgreich und erzielen eine hohe Erkennungsgenauigkeit. Viele Programme sind trainierbar, das heißt sie können vom Anwender in einem Testlauf mit den Besonderheiten einer Drucktype konfrontiert und auf sie eingestellt werden, was sich ebenfalls positiv auf die Endqualität auswirkt. Da die Nachbearbeitung zur Erzeugung eines Texts mit einer Erkennungsgenauigkeit von 99,95-99,98% (dies wird heute als Standard für eine sichere Suche angesehen) teuer ist, bieten auch diverse Digitalisierungsprojekte einen ›schmutzigen‹, im Sinne von nicht nachkorrigierten oder fehlerbereinigten, OCR-erzeugten Text als Suchhilfe im Hintergrund an. Der Nutzer hat die Möglichkeit zur Volltextsuche, allerdings ohne Garantie auf die Vollständigkeit des Suchergebnisses. Als Treffer wird ihm dann nicht der codierte Text, sondern das Grafikimage der Buchseite angeboten. Einige Programme bieten ein Highlighting im Image an, das heißt auch im grafischen Image wird der gefundene Begriff optisch hervorgehoben.

Für deutsche retrospektive Digitalisierungsprojekte ist die bis in dieses Jahrhundert verwendete Frakturschrift ein Problem. Die hier anzutreffende Typenvielfalt, die Ähnlichkeit der Drucktypen von s und f, von l und t, die Verwendung von Ligaturen führen bei der automatischen Zeichenerkennung zu so hohen Fehlerraten, dass eine sinnvolle Verwendung – selbst als Suchhilfe im Hintergrund – meist ausscheidet. Auch bei der Anwendung von Software, die auf die spezielle Frakturtype trainiert werden kann, konnten bisher nur mit erheblichem Nachbearbeitungsaufwand nutzbare Ergebnisse erzielt werden. Deshalb wird bei Fraktur besonders oft mit manueller Erfassung durch spezialisierte Firmen, meist in Niedriglohnländern, gearbeitet. Allerdings muss auch hier mit Preisen von circa zwei DM pro 1.000 erfassten Zeichen kalkuliert werden. Je nach Format und Drucktype enthält eine Druckseite zwischen 2.000 und – zum Beispiel bei eng bedruckten Folioformaten – 6.000 Zeichen. Eine Hochrechnung lässt verstehen, warum bei vielen Projekten (zum Beispiel den Reichstagsberichten mit über 100.000 Seiten) eine Volltexterfassung nicht finanzierbar ist.

Text-Auszeichnung

Auch bei der Codierung von Text sind unterschiedliche Formate zu unterscheiden. Am weitesten verbreitet sind natürlich die proprietären Formate, die von gängiger Textverarbeitungssoftware erzeugt werden. Das WWW wird von Texten in der Hyper Text Markup Language (HTML) dominiert, die von allen Browsern interpretiert und angezeigt werden kann. HTML ist – von der Genese her – eine besondere Ausprägung der Standardized General Markup Language SGML, die schon 1986 als ISO-Standard verabschiedet wurde. SGML sieht eine Trennung zwischen Struktur- und Layout-Informationen vor. Das Prinzip von SGML beruht darauf, dass für bestimmte Text- oder Dokumententypen zunächst abstrakte Beschreibungen der gültigen Grammatik- beziehungsweise Syntaxregeln erzeugt werden. Das sind die so genannten ›Dokument-Typ-Definitionen‹ (DTD). Diese legen fest, wie der Dokumenttyp heißt und welche Strukturkomponenten (Elemente) in welcher Reihenfolge und wie oft vorkommen dürfen. So würde – in grober Vereinfachung – die DTD für den Dokumenttyp wissenschaftliches Buch festlegen, dass ein Buch aus einer Titelseite (die wiederum bibliographische Angaben enthält) und einer unbestimmten Zahl von Kapiteln (ihrerseits definiert durch Kapitelüberschrift, Textabschnitte und/oder Grafiken, Bilder, Tabellen, eventuell Unterkapitel), einem Register und einem Literaturverzeichnis besteht.

Mit Hilfe der abstrakt formulierten Grammatik kann dann ein Prüfprogramm (Parser) automatisch prüfen, ob ein Text (die so genannte ›Dokumenteninstanz‹), in dem die Elemente mit bestimmten Zeichenfolgen ausgezeichnet oder markiert sind, konform (valid) zu diesen Anweisungen ist oder nicht. Über eine oder mehrere separate Formatieranweisungen (Style Sheets) kann dann wiederum das Aussehen des Textes festgelegt werden, in dem den Elementen konkrete Layouts (Fonts, Schriftgrößen et cetera.) zugeordnet werden. Diese Trennung von logischer Struktur und Layout-Informationen macht SGML geeignet für die immer häufigere parallele Publikationsweise von Dokumenten in unterschiedlichen Medien, zum Beispiel als Print und als elektronische Publikation: Die Textgrundlage bleibt die gleiche, aber die Layout-Informationen können separat auf die unterschiedlichen Publikationsmedien abgestimmt werden. Die Prinzipien der Markierung logischer Strukturierung durch in ASCII abgelegte Zeichenfolgen und der Trennung von Struktur und ephemerer Layoutinformation machen SGML zu einem Format, das sich sehr gut für die Langzeitarchivierung eignet. Die komplexen Möglichkeiten von SGML verhinderten lange seine breite Durchsetzung. Mit dem vom World Wide Web Consortium (W3C) verabschiedeten Standard für eine eXtensible Markup Language (XML),[30] die zwar weniger Freiheit lässt als SGML, aber am Prinzip der Trennung von Struktur und Layout festhält und mit DTD[31] (dann spricht man von valid) oder ohne (well-formed) verwendet werden kann, zeichnet sich ein Durchbruch ab, der nur als positiv gewertet werden kann. Moderne Browsergenerationen unterstützen XML, das heißt es muss nicht, wie früher bei SGML, noch eine statische oder dynamische Konvertierung in HTML für eine Anzeige durchgeführt werden. Auch für Datenbanken zeichnet sich ab, dass zunehmend zumindest XML-Schnittstellen angeboten werden.

Zugriff und Bereitstellung

Die Verwendung standardisierter Metadatenformate für die bibliographische Beschreibung und die Binnenstrukturierung von Dokumenten mit SGML oder XML sind wichtige Voraussetzungen für die Organisation des Zugriffs und somit für ein komfortables und archivierungsgeeignetes Angebot digitalisierter Dokumente. Die Erfassung und Erzeugung von Metadaten auf der Ebene der bibliographischen Titelbeschreibung ist relativ unproblematisch, obwohl die Frage, ob es sich bei einem digitalen Dokument mit unterschiedlichen Zugriffsmöglichkeiten tatsächlich noch um eine Sekundärform der Printausgabe handelt, nicht überall gleich beurteilt wird. Die (Tiefen-) Codierung beziehungsweise Binnen-Strukturierung von Dokumenten ist als Arbeitsfaktor bei einer Retrodigitalisierung anzusehen, der kostenmäßig erheblich ins Gewicht fällt. Andererseits ist aber auch hier der Mehrwert der digitalen Form anzusetzen: Nur die Binnenstrukturierung erlaubt den gezielten Zugriff auf Teile des Dokuments, wie einzelne Kapitel, Aufsätze, bei zeitschriftenartigen Veröffentlichungen oder auch auf digitale Register. Die Orientierung an Standards (zum Beispiel den Dokument-Typ-Definitionen, die von der TEI[32] entwickelt wurden und noch weiter gepflegt werden) ermöglicht auch hier Datentausch beziehungsweise übergreifende Suche. Allerdings muss der Grad dieser Aufbereitung vom jeweiligen Zweck abhängig gemacht beziehungsweise eine Kosten-Nutzen-Abschätzung vorgenommen werden. Jede tiefergehende Auszeichnung einzelner Elemente einer Publikation kostet Zeit – und damit auch Geld.

Es gibt unterschiedliche Systeme für die Bereitstellung digitalisierter Daten. Die Spanne reicht von HTML-Lösungen und/oder JAVA-Applikationen für kleine Projekte bis zu datenbankgestützten Präsentationssystemen oder auf SGML-/XML-basierenden Publikationstools für umfangreichere digitale Sammlungen. Jedes Projekt muss hier auf Grund der verfügbaren Ressourcen entscheiden, welche Lösung möglich ist. Die Publikationsserver, die viele Universitäten beziehungsweise Bibliotheken für Hochschulschriften einsetzen, sind meist auf Volltextverwaltung ausgerichtet und bieten oft nicht die Funktionalität der komfortablen Navigation in digitalen Büchern mit strukturierten Folgen von Buchseiten in Grafikformaten. Die Zugriffsarten der gezielten Suche und der Navigation beziehungsweise des Blätterns müssen von Systemen, die für das Angebot retrodigitalisierter Bestände geeignet sind, komplementär angeboten werden. Wichtig ist, dass die Systeme standardisierte Import- und Exportschnittstellen anbieten: Zum einen muss ein effizienter Import von Daten, die von externen Dienstleistern nach entsprechenden Vorgaben digitalisiert beziehungsweise strukturiert erfasst wurden, möglich sein; zum anderen müssen die Daten natürlich auch wieder für andere Verwendungen exportiert werden können. Die Orientierung an Standards ist eine der wesentlichen Voraussetzungen für die im digitalen Zeitalter anstehende Neuorganisation der Langzeitarchivierung.

Rechtliche Fragen der retrospektiven Digitalisierung[33]

Für eine Digitalisierung und Bereitstellung im Netz müssen die Bestimmungen des Urheberrechts beachtet werden. Die geltenden Urheberrechtsbestimmungen schützen Werke bis 70 Jahre nach dem Tod des Autors, wissenschaftliche Ausgaben 25 Jahre und Lichtbilder 50 Jahre lang. Anschließend sind die genannten Materialien – wie amtliche Veröffentlichungen von Anfang an – gemeinfrei. Nach dem Urheberrecht steht allein dem Urheber das Vervielfältigungsrecht, das Veröffentlichungsrecht und das Wiedergaberecht zu. Damit kann eine digitale Vervielfältigung, Veröffentlichung, Wiedergabe nur nach Abschluss einer entsprechenden Vereinbarung mit dem Urheber beziehungsweise einem sonstigen Rechteinhaber erfolgen. Die meisten bisher von Bibliotheken und wissenschaftlichen Institutionen durchgeführten Projekte beziehen sich deshalb auf ältere Materialien und Dokumente, die nicht mehr urheberrechtlich geschützt sind. Allerdings besteht von Nutzerseite aus berechtigtes Interesse an einem digitalen Angebot auch aktuellerer Bestände.

In Verlagsverträgen werden die genannten Rechte von Autoren meist an den Verlag abgetreten, so dass in der Regel bei der Digitalisierung von Printpublikationen zunächst der entsprechende Verlag konsultiert werden muss. Es gibt aber Fälle, in denen der Verlag bestimmte Rechte nicht erhalten hat: Es ist nämlich nicht möglich, Rechte für Nutzungsarten abzutreten, die zum Zeitpunkt des Vertragsabschlusses noch gar nicht bekannt waren. Da die Digitalisierung und digitale Bereitstellung ein vergleichsweise junges Phänomen ist, konnten Autoren auch bei ansonsten vollständiger Übertragung ihrer Rechte an den Verlag das Recht für eine Digitalisierung noch nicht abtreten. Über den Zeitpunkt ab dem auch die Digitalisierung als bekannte Nutzungsart angesehen werden kann, sind sich die Juristen nicht einig. Häufig wird Anfang oder Mitte der 80er-Jahre genannt. Explizit in Verlagsverträgen enthalten ist die Rechteabtretung für die Digitalisierung meist erst ab Mitte der 90er-Jahre. Besonders bei einer retrospektiven Digitalisierung von Zeitschriften oder Sammelbänden ist diese Rechtslage virulent, da es unmöglich erscheint, alle Aufsatzautoren einzeln ausfindig zu machen und mit ihnen entsprechende Vereinbarungen zu treffen. Die VG Wort hat – obwohl es prinzipiell gilt, dass die entsprechende Rechtevertretung für die Digitalisierung auch nicht Bestandteil ihres Wahrnehmungsvertrags sein konnte – durch Änderungen der entsprechenden Vertragsparagraphen Rechtseinräumungen für Offline- und Online-Nutzungen integriert. Damit gibt es nun die Möglichkeit zum nachträglichen Rechteerwerb auch für Beiträge, die in gedruckten Sammlungen oder Sammelwerken bereits erschienen sind, als die CD-ROM-Nutzung oder Online-Nutzung noch unbekannt war.

In jedem Fall müssen vor dem Beginn eines Digitalisierungsprojekts die entsprechenden Rechtsfragen geklärt werden. Da sich besonders im geisteswissenschaftlichen Bereich viele Verlage auch bei der Zustimmung zu Retrodigitalisierungsvorhaben noch unsicher und zögerlich zeigen, werden aus aktueller Sicht bei der Mehrheit der Projekte im Bibliotheks- und Wissenschaftsbereich vermutlich noch einige Zeit die ›gemeinfreien‹ Werken dominieren.

Bilanz

Retrodigitalisierung wird auf Grund der damit verbundenen Kosten in Bibliotheken und wissenschaftlichen Institutionen auch in Zukunft kein Massengeschäft werden können. Die Bereitstellung regulärer Etatmittel für Retrodigitalisierung ist wohl auch künftig kaum zu erwarten; deshalb werden projektorientierte und fremdfinanzierte Vorhaben weiterhin das Bild bestimmen.

Aus Sicht einer Institution, die sich seit vier Jahren auf diesem Feld betätigt, sollte im Rahmen der verfügbaren und einwerbbaren Kapazitäten trotzdem versucht werden, ausgewählte Bestände digital anzubieten. Da wissenschaftliche Arbeiten heute zum größten Teil am Computer entstehen, bietet die bequeme Konsultation viel genutzter älterer Sammlungen, Werke, Informationsmittel – ohne den Zwang zur Vorort-Nutzung in einer Bibliothek – eine erhebliche Arbeitserleichterung, die von Nutzern als neues Service-Angebot auf sehr positive Resonanz stößt. Bei singulären, bisher in Magazinen schlummernden Materialien ist die Auswahl schwieriger. Idealiter sollte eine Digitalisierung hier deshalb direkt im Kontext eines entsprechenden Projekts auch zur wissenschaftlichen Aufarbeitung stehen. Außerdem ist bei diesen Fällen besonders auf die Vernetzbarkeit zu anderen digitalen Sammlungen beziehungsweise Publikationsunternehmen zu achten. In Deutschland liegen noch nicht viele Erfahrungen mit der längerfristigen Nutzung digitaler Sammlungen vor. Bei den Angeboten des Digitalisierungszentrums der Bayerischen Staatsbibliothek bewegen sich die Zahlen zwischen 200.000 (Sommer) und 400.000 (während des Semesters) Seitenzugriffen im Monat. Kontinuierlicher Nutzung erfreut sich der digitale Zedler mit über 30% der Zugriffe. Die Zeitschrift für Bayerische Landesgeschichte hat sich seit Beginn der Publikation vor drei Monaten mit zunehmendem Angebot an Bänden nun auf 16% der Nutzung gesteigert. Erst die Beobachtung über eine gewisse Zeit bringt allerdings zuverlässige Aufschlüsse darüber, ob nur eher ›touristische‹ Besuchszugriffe oder intensivere Beschäftigung mit dem Angebot zu verzeichnen sind.

Aus Sicht einer Institution, die vor der Frage steht, ob Digitalisierungsprojekte angegangen werden oder nicht, sollte – neben der Nutzer- und Angebotsorientierung – auch folgende Überlegung mit in Rechnung gestellt werden: Die Erfahrungen aus Digitalisierungsprojekten können entscheidende Know-How-Vorteile im Bereich der Techniken und Organisationsformen des elektronischen Publizierens vermitteln. Die Aufbereitung von bisher nur gedruckt vorliegenden Materials für den Online-Zugriff schärft das Bewusstsein für die Unterschiede der Medien und Nutzungsarten und verschafft damit eine Kompetenz, die in dem fundamentalen Wandel der Publikationsformen im Online-Zeitalter ganz wesentlich ist, um differenziert mit dem Spektrum der möglichen Angebotsformen umgehen zu können. Die zweifellos erforderliche eigene (Personal-)Investition in Wissen, Organisation, Technik dürfte sich damit zumindest mittelfristig lohnen.

Marianne Dörr (München)

Dr. Marianne Dörr
Bayerische Staatsbibliothek
Leitung VD 12 und Münchner Digitalisierungszentrum
Ludwigstr. 16
80539 München
doerr@vd17.bsb.badw-muenchen.de

[2] Vgl. die zum Teil von den Homepages der Zentren online verfügbaren Referate der Kolloquien 1997-2000. Da inzwischen für beide Zentren die Förderung durch die Deutsche Forschungsgemeinschaft ausgelaufen ist, wird es allerdings schwieriger werden, weiterhin größere Veranstaltungen zu organisieren.

[3] Retrospektive Digitalisierung von Bibliotheksbeständen: Berichte der von der Deutschen Forschungsgemeinschaft einberufenen Facharbeitsgruppen Inhalt und Technik. Berlin, 1998. Unter <http://www.sub.uni-goettingen.de/ebene_2/vdf/einstieg.htm> und <http://www.sub.uni-goettingen.de/ebene_2/vdf/empfehl.htm> sind sie online verfügbar (beide 10.09.2001).

[5] Einen Überblick über den Stand des Programms aus Sicht eines Mitglieds der entsprechenden DFG-Gremien gibt Helmut Altrichter, »Retrodigitalisierung in Deutschland. Versuch einer Zwischenbilanz«. Der beim Kolloquium der Digitalisierungszentren im November 2000 in München gehaltene Vortrag ist online verfügbar unter <http://www.bsb-muenchen.de/mdz/forum/altrichter/index.htm> (10.09.2001).

[6] Vgl. den Artikel von Thomas Burch/Ruth Christmann/Vera Hildenbrandt/Thomas Schares: Ein »Hausbuch« für alle? Das Deutsche Wörterbuch der Brüder Grimm auf CD-ROM und im Internet. In: Georg Braungart/Karl Eibl/Fotis Jannidis (Hg.): Jahrbuch für Computerphilologie 2. Paderborn: mentis 2000, S. 11-34. Online unter <http://computerphilologie.uni-muenchen.de/jg00/christma/christma.html> (10.09.2001).

[7] Die Verantwortung für diese Fächer nimmt die BSB im Rahmen des so genannten ›Sondersammelgebietplans‹ der Deutschen Forschungsgemeinschaft wahr. Bestimmte Bibliotheken sind für eine möglichst vollständige Sammlung aller wissenschaftlich relevanten Literatur in den zugewiesenen Fachgebieten verantwortlich und erhalten dazu zusätzliche Erwerbungsmittel der DFG. Eine Übersicht über die Verteilung der fachlichen Zuständigkeiten ist online unter <http://webis.sub.uni-hamburg.de/> (10.09.2001) zugänglich.

[8] Informationen zu dieser Publikationsreihe der Kommission für Bayerische Landesgeschichte sind dort unter <http://www.kbl.badw.de/publ/hab.htm> (10.09.2001) verfügbar. Das Digitalisierungsunternehmen wird sich zunächst auf die heute vergriffenen Bände konzentrieren.

[9] Unter <http://www.bsb.badw-muenchen.de/mdz/regesta.htm> (10.09.2001) ist die Projektbeschreibung zu finden, die Publikation der digitalisierten Regestenbände soll noch in diesem Jahr beginnen.

[11] <http://www.bnf.fr> (10.09.2001). Vgl. Daniel Renoult: Das Digitalisierungsprogramm der Bibliothèque nationale de France. In: Bibliothek, Forschung und Praxis. 23 (1999), 1, S. 69-75.

[16] Siehe die Seite des Projekts der Saarländischen Universitäts- und Landesbibliothek in Saarbrücken <http://fips.sulb.uni-saarland.de/fips.htm> (10.09.2001).

[17] Siehe die Seite des Projekts der Niedersächsischen Staats- und Universitätsbibliothek Göttingen <http://www.sub.uni-goettingen.de/vlib/index_de.html> (10.09.2001).

[18] Vgl. hierzu auch Marianne Dörr: Planung und Durchführung von Digitalisierungsprojekten. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken. Stuttgart: Kohlhammer 2000, S. 103-113.

[19] Ein umfassendes Handbuch für alle technischen Fragen der Digitalisierung stammt aus den USA: Anne Kenney/Oya Rieger: Moving Theory into Practice. Digital Imaging for Libraries and Archives. Mountain View: CA, 2000. Eine Online-Version ist unter der URL <http://www.library.cornell.edu/preservation/tutorial/> (10.09.2001) verfügbar. Weiterhin nützlich, da technische Grundlagen teilweise ausführlicher und mit Prüfungsfragen didaktisch für ein Selbstlernprogramm aufbereitet sind, ist eine frühere Publikation: Anne Kenney/Stephen Chapman: Digital Imaging for Libraries and Archives. NY: Ithaca 1996. Als gründliche deutsche Einführung in technische Fragen kann insgesamt der in Fußnote 18 genannte Sammelband von Hartmut Weber/Gerald Maier (Hg): Digitale Archive dienen.

[21] Vorgaben für die Erstellung von Mikrofilmen, die sich für eine spätere Digitalisierung eignen und vergleichende Qualitätstests finden sich in: Marianne Dörr/Hartmut Weber: Digitalisierung als Mittel der Bestandserhaltung? In: Zeitschrift für Bibliothekswesen und Bibliographie 44 (1997), 1, S. 53-76.

[22] Zu diesem Verfahren vgl. Stephen Chapman/Paul Conway/Anne Kenney: Digital Imaging and Preservation Microfilm: The Future of the Hybrid Approach for the Preservation of Brittle Books. Washington DC 1998 und die folgende Adresse: <http://www.clir.org/pubs/archives/hybridintro.html#full> (10.09.2001).

[23] Vgl. zum Problemfeld den Aufsatz von Gerald Maier: Colormanagement bei der Farbdigitalisierung von Archivgut. In: Hartmut Weber/Gerald Maier (Hg.): Digitale Archive und Bibliotheken. Stuttgart: Kohlhammer 2000, S. 179-199.

[24] Die Spezifikation für die noch aktuelle TIFF-Version 6.0 ist erhältlich unter der Adresse <http://partners.adobe.com/asn/developer/PDFS/TN/TIFF6.pdf> (10.09.2001).

[27] Flashpix wurde von der Digitalimaging Group <http://www.digitalimaging.org> (10.09.2001), einem Zusammenschluss wichtiger Unternehmen der Branche wie Kodak, HP etc. entwickelt.

[28] MrSid und Djvu – letzteres ist kostenfrei aber nicht so mächtig wie MrSid – werden von Lizardtech <http://www.lizardtech.com/index.html> (10.09.2001) vertrieben.

[31] Während die XML-Spezifikation 1.0 explizit das Konzept der Dokument-Typ-Definition nennt, sind inzwischen unterschiedliche Konzepte (vor allem XML-Schema) in der Diskussion, die nicht wie das DTD-Konzept primär auf die Publikation von Dokumenten ausgerichtet sind, sondern Datentausch zwischen Applikationen und Interoperabilität unterstützen sollen.

[32] Zur Gründung und Zielsetzung der Text Encoding Initiative vgl. die online verfügbare Einführung von Lou Burnard: Text Encoding for Information Interchange. An Introduction, 1995. <http://www.uic.edu/orgs/tei/info/teij31/index.html> (10.09.2001).

[33] Für eine intensivere Beschäftigung mit rechtlichen Fragen können folgende Aufsätze als Einstieg dienen: Harald Müller: Die rechtlichen Zusammenhänge im Rahmen des elektronischen Publizierens. In: Beate Tröger (Hg.): Wissenschaft Online. Elektronisches Publizieren in Bibliothek und Hochschule. Frankfurt a.M.: Klostermann 2000, S. 100-119. Außerdem Klaus Peters: Rechtsfragen der Bestandserhaltung durch Digitalisierung. In: Bibliotheksdienst 32 (1998), 11, S. 1949-1955.

RETRODIGITALISIERUNG IN BIBLIOTHEKEN UND WISSENSCHAFTLICHEN EINRICHTUNGEN