Gesellschaft für Informations-Management und Dokumentation mbH

Konvertierung von PDF zu XML

Projektbeispiele

[cdf_page_title]

Viele Dokumente werden heute im PDF-Format zur Verfügung gestellt. Um mit dem Inhalt dieser Dokumente systematisch und umfassend arbeiten zu können, ist eine Konvertierung in das XML-Format erforderlich und gegebenenfalls auch eine intellektuelle Nachbearbeitung.

Projektlaufzeit: 9 Monate

Die meisten offiziellen Dokumente werden heute als PDF-Dateien veröffentlicht und zum Download bereitgestellt, so auch alle EU-Gesetze und -Richtlinien (zu finden unter http://eur-lex.europa.eu). Um mit diesen Dokumenten systematisch und umfassend arbeiten zu können, bietet sich die Konvertierung in das XML-Format an. Hierzu werden in einem ersten Schritt sogenannte Parser eingesetzt, die anhand der Formatierungen in der PDF-Datei eine XML-Datei erzeugen können. Für die meisten Anwendungen ist diese Rohdatei allerdings nicht brauchbar, da sowohl die Zuordnung als auch die Inhalte der einzelnen XML-Tags niemals zu einem auf Anhieb konsistenten Ergebnis führen werden.

Daher ist eine intellektuelle Nachbearbeitung unabdingbar, wenn entsprechende Anforderungen an Durchsuchbarkeit und Querverweise gestellt werden. Diese intellektuelle Nacharbeit kann unter anderen die folgenden Punkte umfassen:

  • Vereinheitlichung von Trennzeichen (z.B. normales Leerzeichen vs. geschütztes Leerzeichen)
  • korrektes Einfügen von Verknüpfungen mit den entsprechenden Attributen (z.B. Verknüpfung mit Gesetz …, gültig ab …)
  • Standardisierung von referenzierten Dokumenten (z.B. bei internen u. externen Verweisen, Vereinheitlichung der Nomenklatur (z.B. RL für Richtlinie etc.)
  • Integration von Anmerkungen, Fußnoten, Listen, Anhängen etc. an der jeweiligen Position im Text, um die Lesbarkeit bei elektronischen Medien zu verbessern.
  • Konsolidierung von Zahlen (Dezimalpunkt), Sonderzeichen und Grafiken

Am Ende dieser Nachbearbeitung und der anschließenden Validierung anhand der DTD (Document Type Definition) steht dann ein qualitativ hochwertiger Datenbestand zur Verfügung. Die hohe inhaltliche und formale Konsistenz der Daten ist die Voraussetzung für die Weiterverwendung in diversen elektronischen Plattformen und Anwendungen.

Alle erforderlichen Arbeitsschritte können wahlweise remote, d.h. im Kundensystem, oder in der ARTIS-Datenbank der GIMD GmbH durchgeführt werden. Die ARTIS-Software unterstützt unsere Mitarbeiterinnen und Mitarbeiter dann unter anderem durch bedarfsgerechte Prüfroutinen, Tastaturkürzel, automatisierten Datenimport bzw. Datenexport, Zuweisung von Arbeitspaketen und vieles mehr.

Kontakt  Zurück zur Übersicht