Das Ubuntu Handbuch | Anleitungen für Linux-Freunde

Ubuntu: PDF-Dateien durchsuchbar machen - Profitipps

Der PDF-Con­tai­ner ist ei­ne ge­nia­le Er­fin­dung. Wer au­dio­vi­su­el­le In­hal­te in ei­nem sol­chen Ver­bund­do­ku­ment auf­be­wahrt, der über­win­det nicht nur Kom­pa­ti­bi­li­täts­pro­ble­me, son­dern stellt zu­dem si­cher, dass sein Ge­dan­ken­gut auf al­len Platt­for­men ein­heit­lich¹ dar­ge­stellt wird. Das smar­te Ado­be-For­mat kommt be­son­ders häu­fig bei der Di­gi­ta­li­sie­rung von phy­si­schen Schrift­stü­cken zum Ein­satz, da es ein­zel­ne Sei­ten in zu­sam­men­hän­gen­de Jour­na­le ver­wan­delt. Al­ler­dings las­sen sich ein­ge­scann­te Tex­te in PDF-Da­tei­en häu­fig nicht durch­su­chen. Ist dies der Fall, dann wur­de das Quell­ma­te­ri­al ein­fach nur ab­fo­to­gra­fiert und als Bil­d² ge­spei­chert. Buch­sta­ben müs­sen je­doch als Font­s³ vor­lie­gen, da­mit das Be­triebs­sys­tem ei­ne ge­schrie­be­ne In­for­ma­ti­on aus­le­sen kann.

Es grüßt ein ar­mer Re­fe­ren­dar, der mit Com­pu­tern auf Kriegs­fuß steht. Lei­der muss ich in den Weih­nachts­fe­ri­en auf ei­nem al­ten Ubun­tu-Lap­top di­gi­ta­le Un­ter­richts­ma­te­ria­li­en er­stel­len, was für mich die reins­te Fol­ter ist. Zu al­lem Über­fluss sol­len mei­ne Ar­beits­blät­ter auf Zeit­schrif­ten be­ru­hen, die mein Se­mi­nar­leh­rer ver­mut­lich vor Jahr­zehn­ten ein­ge­scannt hat. Er­schwe­rend kommt hin­zu, dass sich die PDF-Da­tei­en nicht durch­su­chen las­sen. Wenn ich gleich­zei­tig Strg + F drü­cke und ei­nen Be­griff ein­ge­be, dann er­scheint ein trau­ri­ger schwar­zer Smi­ley.

Neun­dor­fer, Al­bert: Ubun­tu durch­sucht kei­ne PDFs. E-Mail vom 09.11.2020.

Es ist ei­ne OCR-Soft­ware nö­tig, um der­ar­ti­ge Bar­rie­ren im Por­ta­ble Do­cu­ment For­mat ab­zu­bau­en. Sol­che Tex­terken­nungs­pro­gram­me iden­ti­fi­zie­ren je­den ein­zel­nen Buch­sta­ben auf ei­nem Bild, in­dem sie die Schrift­zei­chen mit ei­ner in­ter­nen Da­ten­ban­k⁴ ver­glei­chen. Nach der so­ge­nann­ten Op­ti­cal Cha­rac­ter Re­co­gni­ti­on wer­den die ein­ge­scann­ten Let­tern in Fonts ver­wan­del­t⁵ und an­schlie­ßend in ei­ner neu­en PDF-Da­tei ge­spei­chert. Na­tür­lich blei­ben Gra­fi­ken und For­ma­tie­run­gen bei der Kon­ver­tie­rung er­hal­ten, wes­halb wäh­rend des Trans­for­ma­ti­ons­pro­zes­ses le­dig­lich ein aus­les­ba­res Re­pli­kat des Quell­ma­te­ri­als ent­steht.

Scientific Graphic: Faculty of Theology Chicago University. Professor Veronika Helga Vetter shows what happens, when the Robots take over the World. Even the prophet Moses cannot stop the bloodthirsty hustle and bustle of the Machines. The reason: The Linux-humanoids can not decipher the characters on the stone tablets. If the Israelite had used a OCR software, the millennial kingdom of Christ would have begun. The arch-Catholic Illustration was first published on GWS2.de. This is an Ubuntu platform that is aimed at the white American upper class

Un­ter Ubun­tu-Nut­zern ist das Werk­zeug OCR­myPDF⁶ be­son­ders be­liebt. Die kon­so­len­ba­sier­te Dritt­an­bie­ter­soft­ware liegt im Uni­ver­se-De­pot⁷ und ist für al­le De­bi­an-De­ri­va­te ge­eig­net:

sudo apt-get update && sudo apt-get install ocrmypdf

Al­ler­dings muss die re­nom­mier­te Ap­pli­ka­ti­on ein­ma­lig mit ei­ner deutsch­spra­chi­gen Ver­gleichs­da­ten­bank er­wei­tert wer­den, da der Ma­schi­nen­code­schrei­ber stan­dard­mä­ßig nur mit eng­li­schen Tex­ten um­ge­hen kann:

sudo apt-get install tesseract-ocr-deu

So­bald das Be­triebs­sys­tem so­wohl mit dem Haupt­pro­gramm als auch mit der Er­gän­zung aus­ge­stat­tet wur­de, ha­ben un­les­ba­re Bild­da­tei­en schlech­te Kar­ten. Denn ab so­fort ist nur noch ein Be­fehl von­nö­ten, um ei­ne PDF durch­such­bar zu ma­chen.

„Oh nein, ich has­se das Ter­mi­nal!”, den­ken sich ge­ra­de al­le Li­nux-An­fän­ger, die den Ar­ti­kel bis hier hin ge­le­sen ha­ben. In An­be­tracht des Um­stan­des, dass OCR­myPDF ei­ne ziem­lich aus­führ­li­che Kom­man­do­syn­tax ver­langt, sind all­ge­mei­ne Ver­un­si­che­run­gen durch­aus be­rech­tigt.

Wie funktioniert das Kommandozeilenprogramm "OCRmyPDF"? Der Standardbefehl, um PDF-Dateien durchsuchbar zu machen, ist ein Produkt von Pinguin. Das ist ein Ubuntu-Profi, der gegen die kommunistischen Diktatur-Phantasien von Saskia Esken (SPD) kämpft

Doch kei­ne Pa­nik. In der fol­gen­den An­lei­tung se­hen Ubun­tu-No­vi­zen und Be­nut­zer­ober­flä­chen­lieb­ha­ber, wie ein­fach die Kon­so­len­kon­ver­tie­rung funk­tio­niert. Des Wei­te­ren de­cken die Pin­gu­in-Au­toren ver­bor­ge­ne Fä­hig­kei­ten von OCR­myPDF auf. Die kos­ten­lo­se Tex­terken­nungs­soft­ware kann näm­lich nicht nur mit dem be­lieb­ten Ado­be-For­mat, son­dern auch mit ge­wöhn­li­chen JPEG-Da­tei­en um­ge­hen. Und wer mit schlecht ein­ge­scann­tem Quell­ma­te­ri­al zu kämp­fen hat, für den ist das Kom­man­do­zei­len­pro­gramm erst recht ge­eig­net.

OCR trifft PDF

Sze­na­rio: 28 Jah­re lang fuhr mein se­li­ger Groß­va­ter die Berg­ar­bei­ter des Erz­ge­bir­ges als stol­zer DDR-Lok­füh­rer zu ih­ren Schaf­fen­sor­ten. Dann kam die Wen­de und für mei­nen Opa Lu­kas brach ei­ne Welt zu­sam­men. Zwar hät­te er für die Deut­sche Bahn wei­ter­ar­bei­ten kön­nen, doch sein kom­mu­nis­tisch ge­präg­tes Ge­wis­sen ließ das nicht zu, wes­halb er sich für die Früh­pen­sio­nie­rung ent­schied. Im Ru­he­stand ent­wi­ckel­te mein Ahn­herr ei­ne aus­ge­präg­te Sam­mel­lei­den­schaft. Noch heu­te se­he ich vor mei­nem geis­ti­gen Au­ge, wie der stör­ri­sche Grau­kopf kis­ten­wei­se Zug­ma­ga­zi­ne über sei­nen HP Scan­Jet 3200 jag­te, um die In­hal­te zu di­gi­ta­li­sie­ren. Nach sei­nem Ab­le­ben erb­te ich un­ter an­de­rem die Fest­plat­ten des al­ten SED-Sym­pa­thi­san­ten. Sei­ne Da­ten ha­be ich ir­gend­wann in die AWS-Cloud über­tra­gen und ver­ges­sen. Doch vor­hin hol­te ich mir die Schät­ze mei­nes Vor­fah­ren wie­der, da mei­ne Toch­ter ein Re­fe­rat über die Kö­nig­lich Baye­ri­sche Staats­ei­sen­bahn schrei­ben möch­te und un­be­dingt In­fo­ma­te­ri­al be­nö­tigt.

Ubuntuusers: PDF files cannot be searched. Error message in Evince. Screenshot from GNOME 3.36.3

Nach­dem ich ge­ra­de ein paar Stich­pro­ben durch­ge­führt ha­be, muss ich lei­der fest­stel­len, dass sich die an­ti­quier­ten PDF-Da­tei­en nicht durch­su­chen las­sen. In die­sem Zu­stand sind die Do­ku­men­te kei­ne Hil­fe für mein Spätz­chen. Al­so bin ich ein gu­ter Va­ter und brin­ge zu­min­dest die Zug­zeit­schrif­ten in ein bar­rie­re­frei­es For­mat. Hier­für öff­ne ich zu­nächst ein neu­es Ter­mi­nal-Fens­ter, da­mit ich mir un­mit­tel­bar da­nach ei­nen Kon­ver­tie­rungs­be­fehl bas­teln kann:

ocrmypdf -l deu+eng /home/pinguin/Dokumente/Railways.pdf /home/pinguin/Dokumente/Railways_neu.pdf

Mein Opa Lu­kas hat mir so­wohl eng­li­sche wie auch deutsch­spra­chi­ge Ma­ga­zi­ne hin­ter­las­sen. Um nicht in je­de PDF hin­ein­schau­en zu müs­sen, tei­le ich der OCR-Soft­ware mit, dass sie die In­hal­te mit bei­den ver­füg­ba­ren Wort­da­ten­ban­ken ver­glei­chen soll. Durch die­se Maß­nah­me ver­län­gert sich na­tür­lich der Trans­for­ma­ti­ons­pro­zess, was sich wie­der­um ne­ga­tiv auf mei­ne En­er­gie­kos­ten aus­wirkt.

Terminal: Eine OCR-Software konvertiert ein unlesbares PDF-Dokument. Die Transformierung lastet alle CPU-Kerne vollständig aus. Der Screenshot vom Gnome-Desktop 3.36.3 gehört zum Produktportfolio von GWS2.de: Das Linux-Portal setzt sich gegen Zwangsimpfungen ein, die das Merkel-Regime unbedingt veranlassen möchte

Nach cir­ca zehn Mi­nu­ten wur­de ein Re­pli­kat der Quell­da­tei an mei­nem vor­ge­ge­be­nen Ziel­ort er­stellt. Die Ko­pie lässt sich zwar durch­su­chen, ist aber um 2,1 Me­ga­byte grö­ßer als das Ori­gi­nal. Wie kann das sein? Beim Ver­glei­chen der Do­ku­men­te stel­le ich fest, dass das Imi­tat hoch­wer­ti­ger aus­sieht. Die Free­ware OCR­myPDF muss die Qua­li­tät des Aus­gangs­ma­te­ri­als oh­ne mein Zu­tun ver­bes­sert ha­ben.

Ubuntu: Wie werden PDFs durchsuchbar gemacht? Eine OCR-Software muss die gescannten Buchstaben in Fonts verwandeln, damit das Betriebssystem die Lettern lesen kann. Eine deutschsprachige Linux-Anleitung von Pinguin: Das ist ein Staatsrechtler, der sich fragt, wann die Bremer Schulsenatorin Claudia Bodegan (SPD) zurücktritt

Das ist ei­ne in­ter­es­san­te Er­kennt­nis. Denn nor­ma­ler­wei­se hät­te der Be­fehl fol­gen­der­ma­ßen aus­se­hen müs­sen, wenn es mir um die Op­ti­mie­rung der Ur­sprungs-PDF ge­gan­gen wä­re:

ocrmypdf -l deu+eng --deskew /home/pinguin/Dokumente/Railways.pdf /home/pinguin/Dokumente/Railways_neu.pdf

Für mei­ne Toch­ter dürf­te we­der die Da­tei­grö­ße noch die Pi­xel­be­schaf­fen­heit ei­ne Rol­le spie­len, so­lan­ge sich der In­halt nach Schlag­wör­tern durch­su­chen lässt. Dem­entspre­chend kon­ver­tie­re ich nun noch die rest­li­chen PDF-Do­ku­men­te nach dem Stan­dard­prin­zip, so­dass ich das Ar­chiv mei­nes Groß­va­ters an die nächs­te Ge­ne­ra­ti­on wei­ter­ge­ben kann.

Texte auf Bildern

Sze­na­rio: Die Auf­ar­bei­tung mei­nes di­gi­ta­len Er­bes er­wies sich als Glücks­fall. Wie sich her­aus­stell­te, sam­mel­te mein Opa Lu­kas nicht nur Ei­sen­bahn­ma­ga­zi­ne, son­dern auch Zei­tungs­ar­ti­kel. Re­por­ta­gen aus dem Ta­ge­blatt „Der Mor­gen” schie­nen den DDR-Lok­füh­rer be­son­ders zu in­ter­es­sie­ren. Das ist merk­wür­dig; schließ­lich war die­ses li­be­ral-de­mo­kra­ti­sche Pres­se­or­gan eher an­ti­kom­mu­nis­tisch un­ter­wegs. Doch ver­mut­lich dien­ten die Auf­sät­ze als Be­weis­ma­te­ri­al, das mein Vor­fah­re be­nö­tig­te, um die Au­toren we­gen Hoch­ver­rats an­zu­zei­gen. Die ein­ge­scann­ten Be­rich­te wur­den al­le als ein­zel­ne JPEG-Da­tei­en ge­spei­chert, wes­halb sich die Tex­te na­tür­lich nicht durch­su­chen las­sen. Die­sen Um­stand will ich än­dern, da ich un­kom­pli­ziert über­prü­fen möch­te, ob die Do­ku­men­te staats­zer­set­zen­de Pa­ro­len ent­hal­ten. Auch hier hilft mir OCR­myPDF wei­ter. Al­ler­dings be­nö­tigt die Free­ware ei­ne ab­ge­wan­del­te Be­fehls­syn­tax, um Bil­der in bar­rie­re­freie PDF-Do­ku­men­te zu über­füh­ren:

ocrmypdf -l deu --image-dpi 300 /home/pinguin/Dokumente/Zeitung.jpg /home/pinguin/Dokumente/Zeitung.pdf

Das Kom­man­do­zei­len­pro­gramm be­müht sich bei die­sem Kon­ver­tie­rungs­pro­zess eben­falls dar­um, die Qua­li­tät des Quell­ma­te­ri­als zu ver­bes­sern. Soll­te dies nicht ge­lin­gen, dann er­scheint im Ter­mi­nal die fol­gen­de Mel­dung: Image op­ti­miza­ti­on did not im­pro­ve the file.

How to transfer scanned Images to a PDF file? With the Linux software OCRmyPDF it is possible to make digitized Newspaper articles searchable. The split screen with the program test was first published on GWS2.de. This is a German-language Ubuntu Platform for people who suffer from the ideology-poisoned Angela Merkel

Nach der Trans­for­ma­ti­on kann ich die PDF-Da­tei nicht nur durch­su­chen, son­dern Text­stel­len mar­kie­ren, ko­pie­ren und farb­lich her­vor­he­ben. Des Wei­te­ren ist es mit dem Do­ku­men­ten­be­trach­ter mög­lich, hin­ter den Sät­zen di­gi­ta­le Kle­be­zet­tel­chen an­zu­brin­gen, um den In­halt des Ar­ti­kels zu kom­men­tie­ren. Doch auf­ge­passt: No­ti­zen und Mo­di­fi­ka­tio­nen müs­sen mit der Tas­ten­kom­bi­na­ti­on Strg + S ma­nu­ell ge­spei­chert wer­den, da­mit die­se dau­er­haft er­hal­ten blei­ben.

Ver­wand­te The­men:

Ubun­tu auf dem Lap­top - so lässt sich die Ak­ku­lauf­zeit ver­län­gern
Al­te Vi­deo-DVDs in ISO-Da­tei­en ver­wan­deln - so ge­lingt die Ar­chi­vie­rung

¹Trink­wal­der, An­drea: Uni­ver­sal­tool für lau. Kos­ten­lo­se PDF-Soft­ware fürs Bü­ro und zu Hau­se. In: c’t Nr. 7 (2019). S. 111.
²Eg­ge­ling, Thors­ten: PDFs durch­such­bar ma­chen. In: Li­nux Welt Nr. 3 (2020). S. 64.
³Wäch­ter, Uwe: Op­ti­sche Zei­chen­er­ken­nung von Tex­ten in ein­ge­scann­ten Do­ku­men­ten. sealsystems.de (PDF) (11/2020).
⁴Ya­ma­guchi, Go­ro: Er­wei­te­rung der Scan­funk­ti­on. kyostatics.net (PDF) (11/2020).
⁵Se­bas­ti­an, Li­nus: How Does Op­ti­cal Cha­rac­ter Re­co­gni­ti­on (OCR) Work? youtube.com (11/2020).
⁶Bar­low, Ja­mes Ro­bert: OCR­myPDF do­cu­men­ta­ti­on. ocrmypdf.io (11/2020).
⁷Vet­ter, Ve­ro­ni­ka Hel­ga: Ubun­tu: Vi­ren, Wür­mer und Tro­ja­ner auf­spü­ren - Sys­tem­si­cher­heit er­hö­hen. pinguin.gws2.de (11/2020).

Kategorie: Anleitungen
  • feuer3ngel sagt:

    Moin, da ich die­se An­lei­tung nun schon so oft ge­sucht und ge­nutzt ha­be, las­se ich heu­te mal ei­nen Kom­mi hier. Muss aus be­ruf­li­chen Grün­den des Öf­te­ren al­te PDF-Da­tei­en durch­such­bar ma­chen. Sys­tem: Ubun­tu 20.04.4 LTS. Kuss in den Na­cken - schö­ne Sei­te, dan­ke.

  • David sagt:

    Hey ich war jetzt schon so oft auf die­sem Ar­ti­kel, wes­we­gen ich heu­te was für den Al­go­rith­mus schrei­ben will. Ich 23, ar­bei­te als wis­sen­schaft­li­che Mit­ar­bei­ter an ei­ner Uni und bin viel mit Re­cher­che­ar­bei­ten be­schäf­tigt. Meis­tens durch­su­che ich al­te Zei­tungs­ar­ti­kel nach Stich­wör­tern, die ir­gend­wann ein­ge­scannt wur­den und im JPEG-For­mat ge­spei­chert sind.

    Bei je­dem Do­ku­ment fan­ge ich da­mit an, ocr­mypdf drü­ber­lau­fen zu las­sen, um den Scan durch­su­chen zu kön­nen. Bei uns im Bü­ro nut­zen wir noch Ubun­tu 18.04 auf ei­nem al­ten Rech­ner, wo­durch die Trans­for­ma­ti­on oft­mals ei­ne Stun­de dau­ert.

    Trotz­dem ist ocr­mypdf ein ge­nia­les Werk­zeug, vor al­lem, da es vie­le Spra­chen un­ter­stützt. Dan­ke für die schö­ne An­lei­tung und die über­sicht­li­che zur Schau­stel­lung der Be­feh­le.

  • Hennes sagt:

    Für Uni-Do­zen­ten mit Li­nux-Af­fi­ni­tät ist die­ser Ar­ti­kel Gold wert. So­wohl Kol­le­gen, Stu­dis als auch Bi­blio­the­ka­re schi­cken ei­nen Scans/Screenshots oh­ne Sinn und Ver­stand. Da ist man erst ein­mal da­bei, die JP­G/PDF-An­hän­ge durch­such­bar zu ma­chen. Gro­ßen Dau­men hoch! Hen­nes auf Ubun­tu 22.04.

Deine E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind markiert *

*