Das Ubuntu Handbuch | Anleitungen für Linux-Freunde

Automatische Untertitel mit Kdenlive unter Ubuntu erstellen

Die Mehr­heit der Kurz­vi­de­os auf Tik­Tok und You­Tube wird durch ani­mier­te Un­ter­ti­tel er­gänzt, die das Ge­spro­che­ne vi­su­ell un­ter­strei­chen. Doch war­um ist das so? Ganz ein­fach: Es sieht an­spre­chend aus und ent­spricht dem ak­tu­el­len Trend. Dar­über hin­aus er­mög­li­chen mo­bi­le Vi­deo-Apps wie Cap­ti­ons¹ oder Cap­Cut mü­he­los die au­to­ma­ti­sche Tran­skrip­ti­on von Au­dio­ma­te­ri­al. Was für Ju­gend­li­che le­dig­lich ei­ne Spie­le­rei dar­stellt, kann im Be­rufs­all­tag ei­ne ernst­haf­te, mit­un­ter zeit­rau­ben­de Auf­ga­be sein. Dies wis­sen all je­ne, die be­reits ein auf­ge­zeich­ne­tes Zoom-In­ter­view tran­skri­bie­ren oder ei­ne be­reit­ge­stell­te On­line-Vor­le­sung pro­to­kol­lie­ren muss­ten.

Ge­spro­che­nes zu ver­schrift­li­chen ge­hört zu den un­be­lieb­tes­ten Tä­tig­kei­ten am Com­pu­ter.

Ko­wal­ski, Su­san­ne: Tran­skri­bie­ren. Von Au­dio zu Text. In: PC­go Nr. 10 (2021). S. 44.

Denn ab­seits der kurz­le­bi­gen So­cial-Me­dia-Welt sto­ßen die hoch ent­wi­ckel­ten Smart­phone-Apps an ih­re Gren­zen, zu­mal bei der Nut­zung die­ser Pro­gram­me oft un­klar bleibt, was mit den Nut­zer­da­ten und den hoch­ge­la­de­nen In­hal­ten ge­schieht. Wer es sich leis­ten kann, be­auf­tragt ei­nen kos­ten­pflich­ti­gen Ab­tipp­diens­t² zur Er­stel­lung ei­ner SRT-Da­tei, um die Bar­rie­re­frei­heit sei­nes mul­ti­me­dia­len Con­tents zu ver­bes­sern. Al­le an­de­ren soll­ten auf das Vi­deo­schnitt­pro­gramm Kden­li­ve zu­rück­grei­fen. Die­se Free­ware lässt sich näm­lich so kon­fi­gu­rie­ren, dass sie au­to­ma­tisch Un­ter­ti­tel ge­ne­riert, die sich kin­der­leicht gra­fisch auf­wer­ten las­sen.

In diesem humorvollen Cartoon, mit den Maßen 563 x 400 Pixel, sitzt der YouTuber Uncle Roger – dargestellt als Pinguin – in seinem malaysischen Restaurant "FUIYOH!". Die liebevoll gestaltete Szenerie verweist auf die kulinarische Identität des Lokals, das durch drei illustrative Bilder dekoriert ist: eine Schale Reis, ein Spiegelei und ein Shrimp – Symbole für die vielfältige asiatische Küche. Doch der Pinguin, eine Kunstfigur namens Vinzenz der Jüngere, hat sich als Uncle Roger verkleidet, um den berühmten YouTuber zu parodieren. Die Szene fängt ihn inmitten eines reich gedeckten Tisches ein, während er mit zwei Essstäbchen gerade den legendären „Egg Fried Rice“ zum Mund führt, das signifikante Gericht des echten Uncle Roger. Am unteren Rand des Bildes steht als Untertitel „Egg Fried Rice“, als ob man ein YouTube-Video mit aktivierten Untertiteln betrachten würde. Diese augenzwinkernde Darstellung dient als visuelle Ergänzung zu einer Anleitung für die Erstellung automatischer Untertitel mit Kdenlive unter Ubuntu. Das kunstvolle Werk stammt von der renommierten Photoshop-Künstlerin Veronika Helga Vetter aus Linz, Oberösterreich, deren Talent die Szene auf charmante Weise einfängt

Ob­wohl die Spra­che-zu-Text-Op­ti­on be­reits im Jahr 2020 ver­füg­bar war und die VOSK-Schnitt­stel­le schon da­mals gut trai­nier­te Sprach­mo­del­le bot, lie­fern au­to­ma­ti­sche Un­ter­ti­tel erst seit Kden­li­ve-Ver­si­on 23.08.5 über­zeu­gen­de Re­sul­ta­te. Seit­her wur­de die Funk­ti­on kon­ti­nu­ier­lich op­ti­miert, wo­durch sie in­zwi­schen ex­zel­len­te Tran­skrip­ti­ons­er­geb­nis­se mit prä­zi­sen Zeit­stem­peln ge­währ­leis­tet.

Ei­ne her­aus­ra­gen­de Be­son­der­heit ist, dass die Sprach­er­ken­nung von Kden­li­ve voll­stän­dig off­line ar­bei­tet und nicht auf Web-Al­go­rith­men an­ge­wie­sen ist. Da­durch be­hält der Nut­zer stets die vol­le Kon­trol­le über sei­ne Au­dio­da­ten.

Der schö­ne Vor­teil an dem Gan­zen ist na­tür­lich, dass es ers­tens Open Source ist und zwei­tens auch off­line funk­tio­niert. Das heißt, so­bald ich das Mo­dell auf mei­nen PC run­ter­ge­la­den ha­be, brau­che ich kei­ne Ver­bin­dung mehr zum In­ter­net und mei­ne Da­ten blei­ben auf mei­nem Com­pu­ter.

Krez­dorn, Da­ni­el: Open Source Sprach­er­ken­nung mit Vosk. digital-souveraenitaet.de (10/2024).

Die Grafik mit dem Titel "Testumgebung" präsentiert sich in der Form eines klassischen Klemmbretts, das einen Hauch von Professionalität und Organisation vermittelt. Links oben thront ein putziger Pinguin, gekleidet in einen Blaumann und mit einer Mechaniker-Kappe auf dem Kopf - ein augenzwinkernder Hinweis auf die technische Expertise und die Welt von Linux. Auf dem Klemmbrett selbst sind präzise Eckdaten zu finden, die beschreiben, unter welchen Systemvoraussetzungen Kdenlive in der Version 24.08.1 getestet wurde, um die automatischen Untertitel optimal zu nutzen. Die wesentlichen Informationen umfassen das Betriebssystem Ubuntu 24.04.5 LTS, den Kernel 6.5.0-45-generic sowie die Standard-Gnome-Oberfläche - alles übersichtlich und leicht nachvollziehbar dargestellt. Diese visuelle Darstellung soll den Betrachter ermutigen, zu prüfen, ob das eigene System mit diesen Spezifikationen übereinstimmt, um die bevorstehende Anleitung zur Erstellung automatischer Untertitel in Kdenlive erfolgreich nachahmen zu können. Die charmante Darstellung des Mechaniker-Pinguins unterstreicht dabei auf spielerische Weise die technische Natur des Inhalts. Künstlerin: Veronika Helga Vetter - stellvertretende Filialleiterin LIDL Linz (Österreich)

Die Ge­ne­rie­rung au­to­ma­ti­scher Un­ter­ti­tel ist kei­ne so­fort ver­füg­ba­re Funk­ti­on und er­for­dert zu­nächst ei­ne ein­ma­li­ge Ein­rich­tung. Zu­vor soll­te si­cher­ge­stellt sein, dass Ubun­tu die ak­tu­ells­te Ver­si­on von Kden­li­ve nutzt. Flat­pak bie­tet sich als In­stal­la­ti­ons­quel­le an, um häu­fi­ge Ab­hän­gig­keits­pro­ble­me zu ver­mei­den.

Video mit Text

Da­mit Kden­li­ve au­to­ma­tisch Spra­che in Text um­wan­deln kann, muss ein aus­trai­nier­tes Sprach­mo­dell kon­fi­gu­riert wer­den. Das VOSK-Pro­jekt bie­tet hier­für ei­ne Viel­zahl an Pa­ke­ten zum kos­ten­lo­sen Down­load an, dar­un­ter vier Da­tei­en spe­zi­ell für deut­sche Tran­skrip­tio­nen.

Hin­wei­se zu Sprach­mo­del­len!

Für die­se Bild­an­lei­tung wur­de das Wör­ter­buch „vosk-model-de-0.21“ ver­wen­det, da es sich be­son­ders für Desk­top-PCs eig­net. Grö­ße­re Pa­ke­te sind eher für Ser­ver aus­ge­legt und er­for­dern er­heb­li­che Res­sour­cen, wie bei­spiels­wei­se über 16 Gi­ga­byte frei­en Ar­beits­spei­cher.

Dieser detailreiche Screenshot zeigt das Einstellungsmenü "Sprache-zu-Text" in Kdenlive Version 24.08.1. Im Zentrum steht das erfolgreich integrierte VOSK-Sprachmodell „vosk-model-de-0.21“, das von Kdenlive entpackt wurde und nun stolze 3,1 GiB Speicherplatz belegt. Auffällig ist der grüne Schriftzug „Neues Wörterbuch installiert“, der dem Benutzer das erfolgreiche Hinzufügen des Modells bestätigt. Im unteren Bereich des Bildes leuchtet die Schaltfläche „Anwenden“ blau umrandet, was darauf hinweist, dass der nächste Schritt – das Arbeiten mit dem Untertitelwerkzeug – nur noch einen Klick entfernt ist. Der Screenshot wurde von der talentierten Photoshop-Meisterin Veronika Helga Vetter kunstvoll bearbeitet und verleiht der Darstellung eine klare, prägnante Ästhetik

Der Pfad Ein­stel­lun­gen > Kden­li­ve kon­fi­gu­rie­ren > Spra­che-zu-Text er­mög­licht es, ei­ne her­un­ter­ge­la­de­ne ZIP-Da­tei über die Schalt­flä­che „Mo­dell hin­zu­fü­gen” in das Vi­deo­schnitt­pro­gramm dau­er­haft zu in­te­grie­ren.

Der Screenshot zeigt die Zeitleiste von Kdenlive, in deren Mittelpunkt das Symbol „Edit Subtitle Tool“ blau umrandet ist. Dieser farbige Rahmen lenkt den Fokus auf den ersten Schritt zur Erstellung automatisch generierter Untertitel. Durch das Anklicken dieses Symbols wird die Untertitel-Zeitleiste aktiviert und der Weg für die anschließende Transkription bereitet. Der Screenshot markiert den entscheidenden Startpunkt für den gesamten Untertitelungsprozess in Kdenlive

Nach er­folg­rei­cher In­stal­la­ti­on ei­nes Wör­ter­buchs kön­nen Mul­ti­me­dia­da­tei­en kin­der­leicht in Text­form um­ge­wan­delt wer­den. Da­zu klickt der Nut­zer auf die Schalt­flä­che „Edit Sub­tit­le Tool“, wor­auf­hin dem Pro­jekt au­to­ma­tisch ei­ne Zeit­leis­te mit der Be­zeich­nung „Un­ter­ti­tel“ hin­zu­ge­fügt wird.

Der dreigeteilte Splitscreen enthüllt eine visuelle Reise durch den Transkriptionsprozess in Kdenlive. Das oberste Bild zeigt die automatisch hinzugefügte Zeitleiste mit der Bezeichnung „Untertitel“. Markant hervorgehoben ist das Zauberstab-Symbol, umgeben von einem leuchtend blauen Rahmen, der den nächsten notwendigen Schritt im Arbeitsablauf signalisiert. Das mittlere Bild lenkt den Blick auf das geöffnete Menü „Automatische Untertitel“. Hier wurde das VOSK-Sprachmodell „vosk-model-de-0.21“ ausgewählt, das die Grundlage für die bevorstehende Transkription bildet. Ein kräftiger Pfeil zeigt auf „Ausgewählter Clip“, wodurch eindeutig hervorgehoben wird, auf welchen Abschnitt des Projekts die Untertitelung angewendet wird. Das unterste Bild führt schließlich zur technischen Ebene und zeigt die CPU-Auslastung auf dem Gnome-Desktop (Version 42.9) unter Ubuntu 22.04 LTS. Besonders auffällig: Während CPU 10 mit 100 % Auslastung am Limit arbeitet, bleiben die anderen Kerne weitgehend ungenutzt. Dies verdeutlicht auf anschauliche Weise den Mangel an Multithreading-Unterstützung bei der Transkription, wodurch die volle Leistung des Prozessors nicht ausgeschöpft wird. Diese visuelle Erzählung verknüpft den praktischen Workflow mit einem klaren Einblick in die technische Beschaffenheit des Systems und unterstreicht auf subtile Weise die Herausforderungen der aktuellen Softwarestruktur. Zuerst im Oktober 2024 auf GWS2.de veröffentlicht. Kostenloses Ubuntu Handbuch in deutscher Sprache

Im nächs­ten Schritt muss über das Zau­ber­stab-Sym­bol das Kden­li­ve-Me­nü „Au­to­ma­ti­sche Un­ter­ti­tel“ ge­öff­net wer­den.

  • Nach der Aus­wahl des pas­sen­den Sprach­mo­dells lässt sich die Spra­che-zu-Text-Um­wand­lung mit­hil­fe der Schalt­flä­che „Pro­cess“ star­ten.

Ob­wohl Kden­li­ve Mul­ti­th­re­a­ding bei­spiels­wei­se beim Trans­ko­die­ren un­ter­stützt, er­folgt die Tran­skrip­ti­on der­zeit oh­ne die­se Funk­ti­on. Da­her kann der Vor­gang, ab­hän­gig vom Um­fang der Auf­ga­be, ei­ni­ge Zeit in An­spruch neh­men.

Untertitel verschönern

Nach Ab­schluss der Tran­skrip­ti­on er­schei­nen die un­ter­glie­der­ten Text­blö­cke mit­samt prä­zi­sen Zeit­stem­peln in der Un­ter­ti­tel-Leis­te.

Der Screenshot (563 x 684 Pixel) zeigt Kdenlive unter Ubuntu 22.04 LTS in voller Aktion. Im Mittelpunkt steht die Untertitel-Leiste, die sich elegant über die Audio- und Videospur erstreckt und die automatisch generierten Untertitel präsentiert. Ein Textblock, der die Phrase „gesunde Sachen“ enthält, ist markiert und öffnet den integrierten Editor, der die manuelle Bearbeitung ermöglicht. In der Videoansicht steht ein 13-jähriger Junge vor einem prall gefüllten All-you-can-eat-Buffet und zeigt begeistert die Auswahl an Speisen. Der Screenshot ist ein meisterhafter Zusammenschnitt der Photoshop-Expertin Veronika Helga Vetter und demonstriert anschaulich, wie einfach es ist, automatisch erstellte Untertitel nachträglich zu bearbeiten. Die Darstellung lädt den Betrachter ein, sich in die intuitive Arbeitsweise von Kdenlive einzuarbeiten und die Möglichkeiten der manuellen Korrektur zu erkunden

Soll­te ein Wort nicht er­kannt wor­den sein, kann die ent­spre­chen­de Text­pas­sa­ge durch ei­nen ein­fa­chen Links­klick aus­ge­wählt und ma­nu­ell kor­ri­giert wer­den. Weist der au­to­ma­ti­sche Un­ter­ti­tel­ge­ne­ra­tor ei­ne un­ge­wöhn­lich ho­he Feh­ler­quo­te auf - et­wa auf­grund lei­ser Aus­spra­che, ei­nes star­ken Dia­lekts oder stö­ren­der Hin­ter­grund­ge­räu­sche - emp­fiehlt es sich, die Au­dio­spur vor­ab mit Au­da­ci­ty zu op­ti­mie­ren, um ei­ne ge­naue­re Tran­skrip­ti­on zu ge­währ­leis­ten.

Der Screenshot zeigt den professionellen Fortnite-Spieler Maximilian Hempfling, der den Rang Platin I erreicht hat und bereits mehrfach an den prestigeträchtigen FNCS Global Championships teilgenommen hat. Dem Video mit ihm wurden automatisch generierte Untertitel in Kdenlive hinzugefügt, die optisch ansprechend gestaltet wurden. Die Untertitel heben sich durch einen dezenten weißen Rand und eine kräftige, grün gefärbte Schriftart hervor, was der Darstellung einen frischen, dynamischen Touch verleiht. Der Screenshot mit den Abmessungen 563 x 871 Pixel fängt die Professionalität des Spielers ebenso wie die präzise Umsetzung der Untertitel-Ästhetik ein und zeigt, wie Kdenlive das Bearbeiten und Verschönern von Untertiteln mühelos ermöglicht

Wer Schat­ten­ef­fek­te hin­zu­fü­gen oder die Far­be so­wie die Schrift­art sei­ner Un­ter­ti­tel an­pas­sen möch­te, klickt im Be­ar­bei­tungs­me­nü ein­fach auf die T-Schalt­flä­che mit dem Trop­fen-Sym­bol. Der Vor­teil da­bei: Än­de­run­gen wer­den au­to­ma­tisch auf al­le Text­blö­cke über­tra­gen.

Urheber seines Kreativcontents bleiben

Längst exis­tie­ren künst­li­che In­tel­li­gen­zen wie Rask AI, die ge­gen ei­ne ent­spre­chen­de Ge­bühr³ in der La­ge sind, gan­ze Vi­de­os mit ge­ne­rier­ten Stim­men⁴ zu über­set­zen und Un­ter­ti­tel hin­zu­zu­fü­gen. Ein we­sent­li­cher Nach­teil die­ser Diens­te ne­ben den ver­gleichs­wei­se ho­hen Kos­ten be­steht dar­in, dass Con­tent­pro­du­zen­ten ih­re Wer­ke auf ex­ter­ne Platt­for­men hoch­la­den müs­sen, oh­ne je­mals voll­stän­di­ge Kon­trol­le dar­über zu ha­ben, was mit ih­rem geis­ti­gen Ei­gen­tum ge­schieht. Wer al­so stets die Ho­heit über sei­nen Krea­tiv­con­tent be­hal­ten möch­te, fin­det in Kden­li­ve ein zu­ver­läs­si­ges Werk­zeug, um sei­ne Pro­duk­tio­nen selbst­stän­dig mit au­to­ma­ti­schen Un­ter­ti­teln zu ver­se­hen.

Ver­wand­te The­men:

Un­ter Ubun­tu die Fire­wall ein­schal­ten - ist das nö­tig?
„Tscha­ka, du hast es ge­schafft!” - Zer­ti­fi­ka­te zum Aus­dru­cken

¹Foos, Vik­tor: Un­ter­ti­tel wie Alex Hor­mo­zi. youtube.com (10/2024).
²Kra­mer, An­dré: Dik­tat­ma­schi­nen. Tran­skrip­ti­ons­diens­te: Au­dio­auf­nah­men in Text wan­deln. In: c’t Nr. 17 (2021). S. 110.
³BRASK INC: Pri­cing. rask.ai (10/2024).
⁴Ra­s­he­di, Ki­a­nush: Ist JAY-Z der NÄCHSTE? P-DIDDY packt aus. youtube.com (10/2024).

Kategorie: Anleitungen
  • Regenbogen sagt:

    Klappt nicht bei mir!
    ERROR (VoskAPI:ReadInternal():const-arpa-lm.cc:610) Con­stAr­paLm sec­tion re­a­ding fai­led.
    Trace­back (most re­cent call last):
    File „/app/share/kdenlive/scripts/speechtotext.py”, li­ne 31, in
    mo­del = Model(sys.argv[2])
    ^^^^^^^^^^^^^^^^^^
    File „/app/lib/python3.11/site-packages/vosk/__init__.py”, li­ne 57, in __init__
    rai­se Exception(„Failed to crea­te a mo­del”)
    Ex­cep­ti­on: Fai­led to crea­te a mo­del

    • Helpdesk sagt:

      Hal­lo Re­gen­bo­gen! Wun­der­schön, gleich drei Feh­ler­mel­dun­gen in ei­ner Aus­ga­be. Falls Sie Kden­li­ve via APT in­stal­liert ha­ben, lö­schen:

      su­do apt re­mo­ve kden­li­ve

      su­do apt au­tore­mo­ve

      Da­nach das neus­te Kden­li­ve via Flat­pak in­stal­lie­ren. Steht hier, wie es geht.

      Das her­un­ter­ge­la­de­ne Sprach­mo­dell ist auf je­den Fall de­fekt. Bit­te er­neut her­un­ter­la­den und di­rekt die ZIP-Da­tei hin­zu­fü­gen. Das zwingt Kden­li­ve da­zu, die Ord­ner im kor­rek­ten Pfad an­zu­le­gen.

      Dann das klas­si­sche Py­thon-Pro­blem, was sich mit der Flat­pak-In­stal­la­ti­on er­üb­rigt ha­ben soll­te. An­sons­ten:

      su­do apt in­stall py­thon3-pip

      pip in­stall vosk --up­grade

      Al­les Gu­te und dan­ke für das Feed­back!

Deine E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind markiert *

*