Use-Cases für Bild-, Text- und Mischdigitalisierung
Konzeption und Durchführung
Planung des Digitalisierungs- und Projektworkflows
Verfahrensweisen
Beispiele aus der Praxis
Lernressourcen, Literaturhinweise & Software
01
Einführung
Warum und wozu wird retrodigitalisiert?
Eine Strategie für die digitale (Online-)Bereitstellung gilt heute als Grundvoraussetzung bei der Beantragung/Verlängerung von geisteswissenschaftlichen Forschungsvorhaben
In vielen Fällen liegen bereits nur gedruckt erschienen Ergebnisse vor, deren digitale Grundstufe nicht (mehr) existiert oder veraltet ist
Bereitstellung von nur gedruckt vorliegenden (älteren) Werken für die digitale Weiterverarbeitung, bspw.
für Online-Präsentation
linguistische Korpusbildung
Digitale Langzeitarchivierung
...
Definition
Als Retrodigitalisierung verstehen wir die Überführung analoger
Text- und Bilddaten in ein elektronisches Format
zum Zwecke der computergestützten Bereitstellung und Verarbeitung.
02
Prämissen
Bildmaterial
Abbildung der Materialität
Farbtreue durch Abgleich mittels Farbstreifen
Dokumentation der Proportionen durch Lineale
Zukunftssichere Datenformate, -qualität und -ablagemodalität
hohe Auflösung (300+ DPI)
verlustfreies Dateiformat (TIFF)
Originale und Arbeitskopien
Metadaten zu Identifikation und Erstellungs-Historie
Von Ersteller über Lagerort bis Material und Zustand
Standards
International Press Telecommunications Council Information Interchange Model (IPTC IIC)
… Übersicht über die Besonderheiten des Textes auf Zeichen-, Wort- und Formatierungsebene (Sonderzeichen, Stand der Orthographie bei Trennungen, Textanordnung).
… Hardwarekenntnisse (Scanner); Softwarekenntnisse (OCR-Programm, Tools für die Aufbereitung des OCR-Ergebnisses).
Verfahrensweisen
Double-Keying bzw. Triple-Keying
benötigt Personal zum Abtippen
Nachbearbeitung (Prüfen Diff) notwendig
…
Optical Character Recognition (OCR)
benötigt hochauflösende und präparierte Scans
benötigt spezialisierte Software
Muss angepasst (Sprache, Typographie) und “trainiert” werden
Problematisch bei Mischschriften (Antiqua+Fraktur) oder bei abweichenden Schriftschnitten
Beispiele aus der Praxis
Goethes Biographica
Schule von Salamanca
Ein Werkzeug zur Bearbeitung und Qualitätskontrolle: TUSTEP
Piotrowski, Michael: Natural Language Processing for Historical Texts. San Rafael 2012. Insbesondere Kapitel 4 Acquiring Historical Texts, S. 25–52. (Google Books)
License: CC-BY 4.0, Hans-Werner Bartz, Max Grüntgens, Dominik Kasper (alle Digitale Akademie der Akademie der Wissenschaften und der Literatur | Mainz)