StartseiteLänderEuropaNorwegenVerbundprojekt: Bereitstellung eines Tools für die Layoutanalyse sowie zur Zuordnung der semantischen Bedeutung der Textabschnitte, das insbesondere komplexe historische Dokumente (Zeitungsseiten) zuverlässig analysiert und für die OCR vorbereitet; Teilprojekt:Prototypentwicklung

Verbundprojekt: Bereitstellung eines Tools für die Layoutanalyse sowie zur Zuordnung der semantischen Bedeutung der Textabschnitte, das insbesondere komplexe historische Dokumente (Zeitungsseiten) zuverlässig analysiert und für die OCR vorbereitet; Teilprojekt:Prototypentwicklung

Laufzeit: 01.12.2017 - 31.10.2020 Förderkennzeichen: 01QE1732
Koordinator: Skilja GmbH

Milliarden von Dokumentenseiten werden jedes Jahr digitalisiert und der Forschung zur Verfügung gestellt. Bis heute existiert kein zuverlässiges, lernfähiges Verfahren, um auch komplexe Layouts, wie bei Zeitungen, technischen Dokumenten und Journalen zuverlässig zu analysieren. Die Identifikation der Spalten, Überschriften, Paragraphen und Wortkoordinaten ist aber eine Voraussetzung für die erfolgreiche Digitalisierung durch OCR. Die eigentliche OCR auf Zeichenebene funktioniert bereits sehr gut, wie auch von den Konsortialteilnehmern im Projekt OptoHeritage erfolgreich bewiesen. Nun muss das Problem der Vorverarbeitung gelöst werden. Während Lumex seine Erfahrung im Bereich der Bildverarbeitung (Entzerren, Declutter, Entfernen von Überdrucken, Schmutzentfernung) einbringt, wird sich Skilja auf die Strukturanalyse konzentrieren. Hier sollen auf Basis der analysierten geometrischen Basiselemente (Blobs) lernende Verfahren eingesetzt werden. Es sollen bestehende verfahren (SVM Klassifikation, KNN Analyse etc.) verwendet werden, aber auch ein Deep-Learning NN aufgebaut werden, das speziell die Strukturen analysiert. Skilja hat langjährige Erfahrung mit lernenden Systemen. Im zweiten Schritt nach der OCR erfolgt dann eine inhaltliche Klassifikation, um die gefundenen Textabschnitte semantisch korrekt zuzuordnen. Skilja wird außerdem mit der Erfahrung in der Entwicklung industrieller Komponenten und Produkten die entsprechenden Softwaremodule auf Basis der entwickelten Algorithmen professionell erstellen.

Verbund: E! 11454 ZoneMaster Quelle: Bundesministerium für Bildung und Forschung (BMBF) Redaktion: DLR Projektträger Länder / Organisationen: Norwegen Themen: Förderung Information u. Kommunikation

Projektträger