Gesellschaft für Informations-Management und Dokumentation mbH

Konvertierung von Druckdaten zu XML

Projektbeispiele

Konvertierung von Druckdaten zu XML

Ein wissenschaftliches Nachschlagewerk, das nur gedruckt vorlag, wurde elektronisch so prozessiert, dass die Informationen darin auf vielfältige Weise such- und nutzbar sind. Eine besondere Herausforderung waren hier Grafiken in unterschiedlicher Detailtiefe (ähnlich einer Landkarte in unterschiedlichen Maßstäben), bei denen Daten sichtbar oder unsichtbar hinterlegt sind.

Projektlaufzeit: 6 Monate

Viele Standardwerke und Lehrbücher werden auch heute noch primär für den Druck erstellt und stehen daher für die Zweitnutzung über elektronische Medien nur eingeschränkt zur Verfügung. Insbesondere die Suchmöglichkeiten und die Navigation über Querverweise sind dadurch stark eingeschränkt. Um die Suchmöglichkeiten sowie das Navigieren auch in elektronischen Medien zu ermöglichen, haben wir zusammen mit einem führenden wissenschaftlichen Verlag ein Konzept entwickelt, um Druckdaten in ein erweitertes XML-Format zu überführen. In einem ersten Schritt wurden mit Hilfe eines Parser Rohdateien erstellt, wobei so weit wie möglich die Informationen aus den Satzdaten ausgewertet werden konnten, wie z.B. Schriftgröße, Schriftart oder Farbe, die in dem gedruckten Werk eine definierte inhaltliche Bedeutung haben. Bereits jetzt stellte sich heraus, dass diese Eigenschaften oft redundant verwendet wurden, so. z.B. der Kursivdruck für Hervorhebungen und für die Bezeichnung von biologischen Spezies. Die eindeutige Zuordnung von XML-Tags ist damit nur noch intellektuell mit entsprechendem Fachwissen möglich. Darüber hinaus hat sich der Verlag entschlossen, in diesem Zusammenhang den Text auch inhaltlich weiter anzureichern.

Dazu seien hier einige Beispiele aus der Praxis genannt:

  • Einfügen von Synonym-Beziehungen (z.B. zwischen Begriff und Abkürzung)
  • Einfügen von Zusatzinformationen, Definitionen etc.
  • Verknüpfung zwischen Register und Text
  • Sinntragende Ergänzungen (z.B. über eine Differenzierung zwischen Ausgangsstoff und Produkt einer chemischen Reaktion)
  • Zusätzliche Suchoptionen durch Hinterlegung von unsichtbaren Synonymen und Schreibweisen
  • Einbindung und Indexierung rein grafischer Elemente.

Am Ende dieser Nachbearbeitung und der anschließenden Validierung anhand der DTD (Document Type Definition) steht ein qualitativ hochwertiger Datenbestand zur Verfügung. Die hohe inhaltliche und formale Konsistenz der Daten ist Voraussetzung für die Weiterverwendung in diversen elektronischen Plattformen und Anwendungen.

Alle erforderlichen Arbeitsschritte können wahlweise remote im Kundensystem oder in der ARTIS-Datenbank durchgeführt werden. Die ARTIS-Software unterstützt den Bearbeiter dann u.a. durch bedarfsgerechte Prüfroutinen, Tastaturkürzel, automatisierten Datenimport bzw. Datenexport, Zuweisung von Arbeitspaketen u.v.m.

Kontakt  Zurück zur Übersicht