In den letzten Monaten hat sich die Podcast-Produktion drastisch weiterentwickelt. Ein Schlüsselaspekt dieser Entwicklung ist die Integration von KI-Stimmen. Doch wann macht der Einsatz solcher Technologien Sinn, welche technischen und rechtlichen Aspekte gilt es zu beachten und welche Anbieter können wir aktuell empfehlen?
Wann ist der Einsatz von KI-Stimmen sinnvoll?
Die Verwendung von KI-Stimmen in der Podcast-Produktion ist mittlerweile in verschiedenen Szenarien vorteilhaft sein. Wir haben hier bei BosePark in Berlin folgende Erfahrungen gesammelt: Zum einen bieten KI-Stimmen eine hervorragende Lösung, wenn schnelle Produktionen oder Updates erforderlich sind, ohne dabei auf eine Sprecher:in angewiesen zu sein. Sie sind auch ideal für kleinere Projekte oder Podcasts Pilotfolgen, wo Budgetbeschränkungen eine Rolle spielen. Darüber hinaus können KI-Stimmen dazu beitragen, eine breitere Palette an Sprachen und Dialekten abzudecken, was besonders für eine international ausgerichtete Podcast Produktionsfirma wie BosePark Productions wertvoll ist.
Beispiel für verschiedene Sprachen mit KI-Stimmen Synthese
Für den Suhrkamp Verlag produzieren wir den Podcast „Dichtung & Wahrheit„, der normalerweise in deutscher Sprache aufgezeichnet wird. Für ein Interview in englischer Sprache mit dem italienischen Autor Paolo Giordano entschieden wir uns, folgenden Weg zu gehen: Mit Erlaubnis der beiden Gesprächspartner:innen Silke Hohmann und Paolo Giordano synthetisierten wir beide Stimmen, übersetzten das Original-Interview vom Englischen ins Deutsche und benutzen die KI Stimmen, um dasselbe Interview wieder hörbar zu machen. Vergleicht selbst, wie weit die Stimmen Synthese schon ist:
Originalversion auf Englisch: How do we keep hope in times of crisis?
KI Version mit deutschen KI-Stimmen: Wie bewahren wir Hoffnung in Krisenzeiten?
Wenn Sie Fragen haben oder mit uns zusammen arbeiten wollen, melden Sie sich jederzeit per Mail an podcast@bosepark.com oder hier über das BosePark Kontaktformular auf unserer Homepage.
Stimmen-Synthese und Übersetzung bei Spotify
Auch beim schwedischen Podcast Hoster Spotify gibt es ein erstes Projekt namens „Spotify Translation Hub“. Der Ansatz ist ein ähnlicher, nur dass hier Spotify eigene Technologie zum Einsatz kommt, um die Stimmen bekannter Podcast Hosts zu synthetisieren und ihre Inhalte auch in anderen Sprachen verfügbar zu machen. Die Podcasts sind monologisch als auch dialogische Formate.
Link zum Spotify Translation Hub
(mit Beispiel Folgen von Lex Fridman, Kristen Bell und Steven Bartlett)
Technische Aspekte der KI-Stimmen-Synthese
Alle drei großen Cloud-Anbieter haben eigene KI Stimmen im Angebot, die sich eignen, um relativ zügig Text in Sprache zu verwandeln:
Ein besonderer Anbieter aus den USA ist hier Eleven Labs, die für einen monatlichen Kontingent Preis sowohl die Synthetisierung von eigenen Stimmen erlauben, also auch das Teilen von designten Stimmen in der Community.
Schreiben für KI-Stimmen
Fast noch wichtiger, als die Qualität der KI Sprachmodelle, ist die Qualität der Texte. Wir haben hier bei BosePark Productions in Berlin bei der Podcast Produktion mit KI-Stimmen immer wieder die Erfahrung gemacht, dass der Text vorher stimmen muss. Damit ist gemeint, dass jeder Mensch eine bestimmte Wortwahl hat: Ein Politiker spricht in kurzen, verständlichen Sätzen und benutzt einfache Worte. Eine Wissenschaftlerin spricht in längeren Sätzen und hat mehr Fremdwörter im Sprachgebrauch. Die Eigenarten in Wortwahl und Satzbau tragen ungemein dazu bei, ob Hörerinnen und Hörer der KI-Stimme glaubhaft zuhören, oder sie als künstlich entlarven. Gerade beim Einsetzen von Halbsätzen in der Podcast-Postproduktion, wenn zum Beispiel die Sprecherin oder der Sprecher nicht mehr zur Verfügung stehen, ist der geschriebene Satz der wichtigste Teil der KI-Sprachsynthese.
Rechtliche Aspekte der KI-Stimmen-Synthese
Der Einsatz von KI-Stimmen wirft wichtige rechtliche Fragen auf. Urheberrechte, Persönlichkeitsrechte und die Frage der Authentizität stehen hier im Fokus. Für die Podcast-Produktion ist es entscheidend, dass alle verwendeten KI-Stimmen keine urheberrechtlichen oder persönlichkeitsrechtlichen Ansprüche Dritter verletzen. Wir bei BosePark Productions hier in Berlin haben uns von Beginn an entschieden, keine KI-Stimmen ohne die explizite Erlaubnis der beteiligten Personen zu nutzen. Auch bei anderen Sprachmodellen im Netz erfordert das eine sorgfältige Prüfung und möglicherweise auch die Einholung von Lizenzen oder Zustimmungen, insbesondere wenn bekannte Stimmen imitiert oder nachgebildet werden sollen.
An dieser Stelle empfehlen wir das Interview mit dem auf IP Recht spezialisierten Anwalt Tobias Voßberg in der 5. Folge unseres Podcasts ÜBERS PODCASTEN:
Fazit
Die Integration von KI-Stimmen in die Podcast Produktion stellt eine spannende und innovative Entwicklung dar. Für BosePark Productions GmbH, eine etablierte Podcast Produktionsfirma in Berlin, bietet dies die Möglichkeit, ihre Podcast-Produktionen effizienter, vielfältiger und zugänglicher zu gestalten. Gleichzeitig müssen technische Qualität, ethische Überlegungen und rechtliche Rahmenbedingungen sorgfältig abgewogen werden. Mit seiner zehnjährigen Erfahrung und seinem Engagement für Innovation bleibt BosePark an der Spitze dieser faszinierenden Entwicklung, bereit, die Podcast-Welt weiter zu revolutionieren und zu bereichern.
Wenn Sie Fragen haben oder mit uns zusammen arbeiten wollen, melden Sie sich jederzeit per Mail an podcast@bosepark.com oder hier über das BosePark Kontaktformular auf unserer Homepage.