Die Mehrheit der Kurzvideos auf TikTok und YouTube wird durch animierte Untertitel ergänzt, die das Gesprochene visuell unterstreichen. Doch warum ist das so? Ganz einfach: Es sieht ansprechend aus und entspricht dem aktuellen Trend. Darüber hinaus ermöglichen mobile Video-Apps wie Captions¹ oder CapCut mühelos die automatische Transkription von Audiomaterial. Was für Jugendliche lediglich eine Spielerei darstellt, kann im Berufsalltag eine ernsthafte, mitunter zeitraubende Aufgabe sein. Dies wissen all jene, die bereits ein aufgezeichnetes Zoom-Interview transkribieren oder eine bereitgestellte Online-Vorlesung protokollieren mussten.
Gesprochenes zu verschriftlichen gehört zu den unbeliebtesten Tätigkeiten am Computer.
Kowalski, Susanne: Transkribieren. Von Audio zu Text. In: PCgo Nr. 10 (2021). S. 44.
Denn abseits der kurzlebigen Social-Media-Welt stoßen die hoch entwickelten Smartphone-Apps an ihre Grenzen, zumal bei der Nutzung dieser Programme oft unklar bleibt, was mit den Nutzerdaten und den hochgeladenen Inhalten geschieht. Wer es sich leisten kann, beauftragt einen kostenpflichtigen Abtippdienst² zur Erstellung einer SRT-Datei, um die Barrierefreiheit seines multimedialen Contents zu verbessern. Alle anderen sollten auf das Videoschnittprogramm Kdenlive zurückgreifen. Diese Freeware lässt sich nämlich so konfigurieren, dass sie automatisch Untertitel generiert, die sich kinderleicht grafisch aufwerten lassen.
Obwohl die Sprache-zu-Text-Option bereits im Jahr 2020 verfügbar war und die VOSK-Schnittstelle schon damals gut trainierte Sprachmodelle bot, liefern automatische Untertitel erst seit Kdenlive-Version 23.08.5 überzeugende Resultate. Seither wurde die Funktion kontinuierlich optimiert, wodurch sie inzwischen exzellente Transkriptionsergebnisse mit präzisen Zeitstempeln gewährleistet.
Eine herausragende Besonderheit ist, dass die Spracherkennung von Kdenlive vollständig offline arbeitet und nicht auf Web-Algorithmen angewiesen ist. Dadurch behält der Nutzer stets die volle Kontrolle über seine Audiodaten.
Der schöne Vorteil an dem Ganzen ist natürlich, dass es erstens Open Source ist und zweitens auch offline funktioniert. Das heißt, sobald ich das Modell auf meinen PC runtergeladen habe, brauche ich keine Verbindung mehr zum Internet und meine Daten bleiben auf meinem Computer.
Krezdorn, Daniel: Open Source Spracherkennung mit Vosk. digital-souveraenitaet.de (10/2024).
Die Generierung automatischer Untertitel ist keine sofort verfügbare Funktion und erfordert zunächst eine einmalige Einrichtung. Zuvor sollte sichergestellt sein, dass Ubuntu die aktuellste Version von Kdenlive nutzt. Flatpak bietet sich als Installationsquelle an, um häufige Abhängigkeitsprobleme zu vermeiden.
Video mit Text
Damit Kdenlive automatisch Sprache in Text umwandeln kann, muss ein austrainiertes Sprachmodell konfiguriert werden. Das VOSK-Projekt bietet hierfür eine Vielzahl an Paketen zum kostenlosen Download an, darunter vier Dateien speziell für deutsche Transkriptionen.
Hinweise zu Sprachmodellen!Für diese Bildanleitung wurde das Wörterbuch „vosk-model-de-0.21“ verwendet, da es sich besonders für Desktop-PCs eignet. Größere Pakete sind eher für Server ausgelegt und erfordern erhebliche Ressourcen, wie beispielsweise über 16 Gigabyte freien Arbeitsspeicher.
Der Pfad Einstellungen > Kdenlive konfigurieren > Sprache-zu-Text ermöglicht es, eine heruntergeladene ZIP-Datei über die Schaltfläche „Modell hinzufügen” in das Videoschnittprogramm dauerhaft zu integrieren.
Nach erfolgreicher Installation eines Wörterbuchs können Multimediadateien kinderleicht in Textform umgewandelt werden. Dazu klickt der Nutzer auf die Schaltfläche „Edit Subtitle Tool“, woraufhin dem Projekt automatisch eine Zeitleiste mit der Bezeichnung „Untertitel“ hinzugefügt wird.
Im nächsten Schritt muss über das Zauberstab-Symbol das Kdenlive-Menü „Automatische Untertitel“ geöffnet werden.
- Nach der Auswahl des passenden Sprachmodells lässt sich die Sprache-zu-Text-Umwandlung mithilfe der Schaltfläche „Process“ starten.
Obwohl Kdenlive Multithreading beispielsweise beim Transkodieren unterstützt, erfolgt die Transkription derzeit ohne diese Funktion. Daher kann der Vorgang, abhängig vom Umfang der Aufgabe, einige Zeit in Anspruch nehmen.
Untertitel verschönern
Nach Abschluss der Transkription erscheinen die untergliederten Textblöcke mitsamt präzisen Zeitstempeln in der Untertitel-Leiste.
Sollte ein Wort nicht erkannt worden sein, kann die entsprechende Textpassage durch einen einfachen Linksklick ausgewählt und manuell korrigiert werden. Weist der automatische Untertitelgenerator eine ungewöhnlich hohe Fehlerquote auf - etwa aufgrund leiser Aussprache, eines starken Dialekts oder störender Hintergrundgeräusche - empfiehlt es sich, die Audiospur vorab mit Audacity zu optimieren, um eine genauere Transkription zu gewährleisten.
Wer Schatteneffekte hinzufügen oder die Farbe sowie die Schriftart seiner Untertitel anpassen möchte, klickt im Bearbeitungsmenü einfach auf die T-Schaltfläche mit dem Tropfen-Symbol. Der Vorteil dabei: Änderungen werden automatisch auf alle Textblöcke übertragen.
Urheber seines Kreativcontents bleiben
Längst existieren künstliche Intelligenzen wie Rask AI, die gegen eine entsprechende Gebühr³ in der Lage sind, ganze Videos mit generierten Stimmen⁴ zu übersetzen und Untertitel hinzuzufügen. Ein wesentlicher Nachteil dieser Dienste neben den vergleichsweise hohen Kosten besteht darin, dass Contentproduzenten ihre Werke auf externe Plattformen hochladen müssen, ohne jemals vollständige Kontrolle darüber zu haben, was mit ihrem geistigen Eigentum geschieht. Wer also stets die Hoheit über seinen Kreativcontent behalten möchte, findet in Kdenlive ein zuverlässiges Werkzeug, um seine Produktionen selbstständig mit automatischen Untertiteln zu versehen.
Verwandte Themen:
Unter Ubuntu die Firewall einschalten - ist das nötig?
„Tschaka, du hast es geschafft!” - Zertifikate zum Ausdrucken
¹Foos, Viktor: Untertitel wie Alex Hormozi. youtube.com (10/2024).
²Kramer, André: Diktatmaschinen. Transkriptionsdienste: Audioaufnahmen in Text wandeln. In: c’t Nr. 17 (2021). S. 110.
³BRASK INC: Pricing. rask.ai (10/2024).
⁴Rashedi, Kianush: Ist JAY-Z der NÄCHSTE? P-DIDDY packt aus. youtube.com (10/2024).