Der PDF-Container ist eine geniale Erfindung. Wer audiovisuelle Inhalte in einem solchen Verbunddokument aufbewahrt, der überwindet nicht nur Kompatibilitätsprobleme, sondern stellt zudem sicher, dass sein Gedankengut auf allen Plattformen einheitlich¹ dargestellt wird. Das smarte Adobe-Format kommt besonders häufig bei der Digitalisierung von physischen Schriftstücken zum Einsatz, da es einzelne Seiten in zusammenhängende Journale verwandelt. Allerdings lassen sich eingescannte Texte in PDF-Dateien häufig nicht durchsuchen. Ist dies der Fall, dann wurde das Quellmaterial einfach nur abfotografiert und als Bild² gespeichert. Buchstaben müssen jedoch als Fonts³ vorliegen, damit das Betriebssystem eine geschriebene Information auslesen kann.
Es grüßt ein armer Referendar, der mit Computern auf Kriegsfuß steht. Leider muss ich in den Weihnachtsferien auf einem alten Ubuntu-Laptop digitale Unterrichtsmaterialien erstellen, was für mich die reinste Folter ist. Zu allem Überfluss sollen meine Arbeitsblätter auf Zeitschriften beruhen, die mein Seminarlehrer vermutlich vor Jahrzehnten eingescannt hat. Erschwerend kommt hinzu, dass sich die PDF-Dateien nicht durchsuchen lassen. Wenn ich gleichzeitig Strg + F drücke und einen Begriff eingebe, dann erscheint ein trauriger schwarzer Smiley.
Neundorfer, Albert: Ubuntu durchsucht keine PDFs. E-Mail vom 09.11.2020.
Es ist eine OCR-Software nötig, um derartige Barrieren im Portable Document Format abzubauen. Solche Texterkennungsprogramme identifizieren jeden einzelnen Buchstaben auf einem Bild, indem sie die Schriftzeichen mit einer internen Datenbank⁴ vergleichen. Nach der sogenannten Optical Character Recognition werden die eingescannten Lettern in Fonts verwandelt⁵ und anschließend in einer neuen PDF-Datei gespeichert. Natürlich bleiben Grafiken und Formatierungen bei der Konvertierung erhalten, weshalb während des Transformationsprozesses lediglich ein auslesbares Replikat des Quellmaterials entsteht.
Unter Ubuntu-Nutzern ist das Werkzeug OCRmyPDF⁶ besonders beliebt. Die konsolenbasierte Drittanbietersoftware liegt im Universe-Depot⁷ und ist für alle Debian-Derivate geeignet:
sudo apt-get update && sudo apt-get install ocrmypdf
Allerdings muss die renommierte Applikation einmalig mit einer deutschsprachigen Vergleichsdatenbank erweitert werden, da der Maschinencodeschreiber standardmäßig nur mit englischen Texten umgehen kann:
sudo apt-get install tesseract-ocr-deu
Sobald das Betriebssystem sowohl mit dem Hauptprogramm als auch mit der Ergänzung ausgestattet wurde, haben unlesbare Bilddateien schlechte Karten. Denn ab sofort ist nur noch ein Befehl vonnöten, um eine PDF durchsuchbar zu machen.
„Oh nein, ich hasse das Terminal!”, denken sich gerade alle Linux-Anfänger, die den Artikel bis hier hin gelesen haben. In Anbetracht des Umstandes, dass OCRmyPDF eine ziemlich ausführliche Kommandosyntax verlangt, sind allgemeine Verunsicherungen durchaus berechtigt.
Doch keine Panik. In der folgenden Anleitung sehen Ubuntu-Novizen und Benutzeroberflächenliebhaber, wie einfach die Konsolenkonvertierung funktioniert. Des Weiteren decken die Pinguin-Autoren verborgene Fähigkeiten von OCRmyPDF auf. Die kostenlose Texterkennungssoftware kann nämlich nicht nur mit dem beliebten Adobe-Format, sondern auch mit gewöhnlichen JPEG-Dateien umgehen. Und wer mit schlecht eingescanntem Quellmaterial zu kämpfen hat, für den ist das Kommandozeilenprogramm erst recht geeignet.
OCR trifft PDF
Szenario: 28 Jahre lang fuhr mein seliger Großvater die Bergarbeiter des Erzgebirges als stolzer DDR-Lokführer zu ihren Schaffensorten. Dann kam die Wende und für meinen Opa Lukas brach eine Welt zusammen. Zwar hätte er für die Deutsche Bahn weiterarbeiten können, doch sein kommunistisch geprägtes Gewissen ließ das nicht zu, weshalb er sich für die Frühpensionierung entschied. Im Ruhestand entwickelte mein Ahnherr eine ausgeprägte Sammelleidenschaft. Noch heute sehe ich vor meinem geistigen Auge, wie der störrische Graukopf kistenweise Zugmagazine über seinen HP ScanJet 3200 jagte, um die Inhalte zu digitalisieren. Nach seinem Ableben erbte ich unter anderem die Festplatten des alten SED-Sympathisanten. Seine Daten habe ich irgendwann in die AWS-Cloud übertragen und vergessen. Doch vorhin holte ich mir die Schätze meines Vorfahren wieder, da meine Tochter ein Referat über die Königlich Bayerische Staatseisenbahn schreiben möchte und unbedingt Infomaterial benötigt.
Nachdem ich gerade ein paar Stichproben durchgeführt habe, muss ich leider feststellen, dass sich die antiquierten PDF-Dateien nicht durchsuchen lassen. In diesem Zustand sind die Dokumente keine Hilfe für mein Spätzchen. Also bin ich ein guter Vater und bringe zumindest die Zugzeitschriften in ein barrierefreies Format. Hierfür öffne ich zunächst ein neues Terminal-Fenster, damit ich mir unmittelbar danach einen Konvertierungsbefehl basteln kann:
ocrmypdf -l deu+eng /home/pinguin/Dokumente/Railways.pdf /home/pinguin/Dokumente/Railways_neu.pdf
Mein Opa Lukas hat mir sowohl englische wie auch deutschsprachige Magazine hinterlassen. Um nicht in jede PDF hineinschauen zu müssen, teile ich der OCR-Software mit, dass sie die Inhalte mit beiden verfügbaren Wortdatenbanken vergleichen soll. Durch diese Maßnahme verlängert sich natürlich der Transformationsprozess, was sich wiederum negativ auf meine Energiekosten auswirkt.
Nach circa zehn Minuten wurde ein Replikat der Quelldatei an meinem vorgegebenen Zielort erstellt. Die Kopie lässt sich zwar durchsuchen, ist aber um 2,1 Megabyte größer als das Original. Wie kann das sein? Beim Vergleichen der Dokumente stelle ich fest, dass das Imitat hochwertiger aussieht. Die Freeware OCRmyPDF muss die Qualität des Ausgangsmaterials ohne mein Zutun verbessert haben.
Das ist eine interessante Erkenntnis. Denn normalerweise hätte der Befehl folgendermaßen aussehen müssen, wenn es mir um die Optimierung der Ursprungs-PDF gegangen wäre:
ocrmypdf -l deu+eng --deskew /home/pinguin/Dokumente/Railways.pdf /home/pinguin/Dokumente/Railways_neu.pdf
Für meine Tochter dürfte weder die Dateigröße noch die Pixelbeschaffenheit eine Rolle spielen, solange sich der Inhalt nach Schlagwörtern durchsuchen lässt. Dementsprechend konvertiere ich nun noch die restlichen PDF-Dokumente nach dem Standardprinzip, sodass ich das Archiv meines Großvaters an die nächste Generation weitergeben kann.
Texte auf Bildern
Szenario: Die Aufarbeitung meines digitalen Erbes erwies sich als Glücksfall. Wie sich herausstellte, sammelte mein Opa Lukas nicht nur Eisenbahnmagazine, sondern auch Zeitungsartikel. Reportagen aus dem Tageblatt „Der Morgen” schienen den DDR-Lokführer besonders zu interessieren. Das ist merkwürdig; schließlich war dieses liberal-demokratische Presseorgan eher antikommunistisch unterwegs. Doch vermutlich dienten die Aufsätze als Beweismaterial, das mein Vorfahre benötigte, um die Autoren wegen Hochverrats anzuzeigen. Die eingescannten Berichte wurden alle als einzelne JPEG-Dateien gespeichert, weshalb sich die Texte natürlich nicht durchsuchen lassen. Diesen Umstand will ich ändern, da ich unkompliziert überprüfen möchte, ob die Dokumente staatszersetzende Parolen enthalten. Auch hier hilft mir OCRmyPDF weiter. Allerdings benötigt die Freeware eine abgewandelte Befehlssyntax, um Bilder in barrierefreie PDF-Dokumente zu überführen:
ocrmypdf -l deu --image-dpi 300 /home/pinguin/Dokumente/Zeitung.jpg /home/pinguin/Dokumente/Zeitung.pdf
Das Kommandozeilenprogramm bemüht sich bei diesem Konvertierungsprozess ebenfalls darum, die Qualität des Quellmaterials zu verbessern. Sollte dies nicht gelingen, dann erscheint im Terminal die folgende Meldung: Image optimization did not improve the file.
Nach der Transformation kann ich die PDF-Datei nicht nur durchsuchen, sondern Textstellen markieren, kopieren und farblich hervorheben. Des Weiteren ist es mit dem Dokumentenbetrachter möglich, hinter den Sätzen digitale Klebezettelchen anzubringen, um den Inhalt des Artikels zu kommentieren. Doch aufgepasst: Notizen und Modifikationen müssen mit der Tastenkombination Strg + S manuell gespeichert werden, damit diese dauerhaft erhalten bleiben.
Verwandte Themen:
Ubuntu auf dem Laptop - so lässt sich die Akkulaufzeit verlängern
Alte Video-DVDs in ISO-Dateien verwandeln - so gelingt die Archivierung
¹Trinkwalder, Andrea: Universaltool für lau. Kostenlose PDF-Software fürs Büro und zu Hause. In: c’t Nr. 7 (2019). S. 111.
²Eggeling, Thorsten: PDFs durchsuchbar machen. In: Linux Welt Nr. 3 (2020). S. 64.
³Wächter, Uwe: Optische Zeichenerkennung von Texten in eingescannten Dokumenten. sealsystems.de (PDF) (11/2020).
⁴Yamaguchi, Goro: Erweiterung der Scanfunktion. kyostatics.net (PDF) (11/2020).
⁵Sebastian, Linus: How Does Optical Character Recognition (OCR) Work? youtube.com (11/2020).
⁶Barlow, James Robert: OCRmyPDF documentation. ocrmypdf.io (11/2020).
⁷Vetter, Veronika Helga: Ubuntu: Viren, Würmer und Trojaner aufspüren - Systemsicherheit erhöhen. pinguin.gws2.de (11/2020).
feuer3ngel sagt:
Moin, da ich diese Anleitung nun schon so oft gesucht und genutzt habe, lasse ich heute mal einen Kommi hier. Muss aus beruflichen Gründen des Öfteren alte PDF-Dateien durchsuchbar machen. System: Ubuntu 20.04.4 LTS. Kuss in den Nacken - schöne Seite, danke.
David sagt:
Hey ich war jetzt schon so oft auf diesem Artikel, weswegen ich heute was für den Algorithmus schreiben will. Ich 23, arbeite als wissenschaftliche Mitarbeiter an einer Uni und bin viel mit Recherchearbeiten beschäftigt. Meistens durchsuche ich alte Zeitungsartikel nach Stichwörtern, die irgendwann eingescannt wurden und im JPEG-Format gespeichert sind.
Bei jedem Dokument fange ich damit an, ocrmypdf drüberlaufen zu lassen, um den Scan durchsuchen zu können. Bei uns im Büro nutzen wir noch Ubuntu 18.04 auf einem alten Rechner, wodurch die Transformation oftmals eine Stunde dauert.
Trotzdem ist ocrmypdf ein geniales Werkzeug, vor allem, da es viele Sprachen unterstützt. Danke für die schöne Anleitung und die übersichtliche zur Schaustellung der Befehle.
Hennes sagt:
Für Uni-Dozenten mit Linux-Affinität ist dieser Artikel Gold wert. Sowohl Kollegen, Studis als auch Bibliothekare schicken einen Scans/Screenshots ohne Sinn und Verstand. Da ist man erst einmal dabei, die JPG/PDF-Anhänge durchsuchbar zu machen. Großen Daumen hoch! Hennes auf Ubuntu 22.04.
SecretlySeven sagt:
Funktioniert nach all den Jahren auch unter Ubuntu 24.04. Sehr schöne Anleitung, hat mir schon so oft geholfen. Ich baue seit Jahren ein Archiv auf und es kommt immer wieder vor, dass alte gescannte Zeitschriften oder Zeitungsartikel nicht durchsuchbar sind. Ich bin nicht so drin im Linux-Business, obwohl ich es zu 80% nutze. Deine Anleitungen sind für mich sehr nützlich, vor allem weil sie in deutscher Sprache geschrieben sind. Danke.