Geklonte Stimmen mit Emotionen
Ourdio will den Audiomarkt aufmischen: Das Start-up plant die Produktion sowie den Vertrieb von Hörbüchern zu automatisieren und damit die Kosten um ein Vielfaches zu senken. Somit ermöglicht Ourdio nicht nur Verlagen, sondern auch einzelnen Autor*innen, ihre Bücher direkt als Hörbuch auf den Markt zu bringen.
In Deutschland werden jährlich rund 800 Hörbücher auf den Markt gebracht. Im Vergleich dazu gibt es im Printbereich knapp 80.000 Bucherscheinungen pro Jahr. Das Start-up Ourdio hat sich nicht nur gefragt, woran das liegen könnte, sondern mit seiner Geschäftsidee direkt ein Format entwickelt, das diese Lücke schließen könnte: Ourdio automatisiert die Produktion und den Vertrieb von Hörbüchern und senkt die Kosten dabei um ein Vielfaches.
Kennengelernt haben sich die sieben Gründer*innen beim nextMedia.IdeaJam. Johannes Knippenberg brachte eine Idee mit, die auf seiner persönlichen Erfahrung beruht: Sein Opa hatte ihm in seiner Kindheit Kassetten aufgenommen und ihm Geschichten von Erich Kästner vorgelesen. „Dann war mein Gedanke: Wäre es nicht toll, wenn man Hörbücher so mitgestalten könnte, dass man selbst eine Rolle spielt, beziehungsweise spricht?“, erzählt der Soziologe. Während des IdeaJams entwickelte er die Idee mit seinen Mitgründer*innen Evangelia Kokinaki, Elisabeth Grashoff, Philipp Schimmelfennig, Falk Scheller, Steffen Wünscher und Krishen Mertens weiter.
Autor*innen ein Gehör verschaffen
„Wir hatten die Idee, eine Art Stimmklon zu erzeugen, indem man eine Künstliche Intelligenz mit seiner Stimme ,füttert‘ und dann daraus ein ganzes Buch generiert wird“, sagt Krishen. Mit diesem Ansatz wollen sie nun primär Verlage und Buchautor*innen ansprechen und ihnen die Möglichkeit geben, aus ihren Werken Hörbücher zu machen, die sie sonst nicht hätten produzieren können. Eine Studioproduktion kostet nämlich zwischen 1800 und 3000 Euro am Tag. Nicht nur Ressourcen, sondern auch Geld könnte somit gespart werden. Durch die Arbeit mit KIs sinken bei Ourdio nämlich auch die Produktionskosten.
„Viele kleine Autor*innen sind glücklich, wenn sie ihr Buch überhaupt im Selbstverlag als Printvariante auf den Markt bekommen. Mit uns hätten sie die Möglichkeit, auch ein Hörbuch zu realisieren“, sagt Krishen. Außerdem betont der UX-Designer: „Wir nehmen wahr, dass der Bedarf an Audio-Content stetig wächst. Der Audiomarkt explodiert und wir haben gesehen, dass es da viele Potenziale gibt, Prozesse zu automatisieren und neuen Märkten neue Formate anzubieten. Gerade unsere Hörbücher könnten da perfekt funktionieren.“
Schließlich habe fast jeder mittlerweile die mobilen Endgeräte und den Zugang zu Audio-Content. „Der Wunsch nach Hörbüchern ist da: Menschen lieben Geschichten und wir können ihnen diesen Wunsch erfüllen.“
Großes Potenzial auf dem Audiomarkt
Und die Statistiken geben ihm Recht: In Deutschland gibt es laut Statista 26 Millionen Hörbuchkonsument*innen. Weiter finden es laut Audible Hörkompass 73 Prozent der Deutschen gut, dass Bestsellerautoren auch Geschichten nur für Audio schreiben, im Vorjahr waren dies nur 49 Prozent. Das Audiosegment gehört nach wie vor weltweit zu den dynamischsten Märkten.
Es gibt bereits vereinzelt Programme, die aus Büchern Hörbücher machen. Aber oftmals gehen bis zu 60 Prozent der Einnahmen an Vertrieb und Produktionsanbieter. Davon hebt sich Ourdio ab: Die Autor*innen und Verlage behalten die Einnahmen bei der Zusammenarbeit mit Ourdio und zahlen lediglich für die Produktion.
Aktuell arbeitet Ourdio an einem ersten Prototyp. Dafür nutzt das Team bereits vorhandene Technik, führt sie zusammen und generiert dadurch ein neues Produkt mit bedienerfreundlicher Oberfläche.
Die KI wird mit Informationen gefüttert
In einem ersten Schritt werden mittels Natural Language Understanding die emotionalen Komponenten eines Textes analysiert. „Wir haben einen Editor, in den wir den Text einfügen und dann gibt es bestimmte Parameter, mit denen man die Stimme manipulieren kann und die Intonation ändern kann, beispielsweise bei einer Frage“, erklärt Steffen. Er ist selbstständiger Medienproduzent und Entwickler. Gewisse Worte werden so in die Länge gezogen, abgeflacht oder die Stimme angehoben. Ziel ist es, dass sich die geklonte Stimme nicht mehr von einem*r „echten“ menschlichen Sprecher*in unterscheiden lässt.
Sogenannte Sentiment Analysis sorgt dafür, dass der Text, wie zuvor beschrieben, richtig intoniert wird und mit Hilfe von Text-to–Speech wird der Text inklusive Klangfarbe in ein Audioformat umgewandelt. Aktuell arbeitet das Team an der Aufbereitung der Trainingsdaten. Dies machen sie im Rahmen des Content & Tech Inkubators Media Lift von nextMedia.Hamburg.
Zusammenarbeit mit echten Sprecher*innen geplant
Ziel ist es, dass solch ein Stimm-Klon binnen weniger Minuten erstellt werden kann. „Wir setzen da auf existierende KI-Modelle auf und trainieren sie“, sagt Krishen. Die Sprachsamples der eigenen Stimme sind Teil ihres USPs. Zuerst plant das Start-up jedoch mit professionellen Sprecher*innen zusammenzuarbeiten und Kund*innen einen bestehenden Pool aus Stimmen anzubieten. Der Grund: Die Erstellung eines Stimm-Klons dauert zurzeit noch mehrere Stunden.
Hörprobe:
Hier könnt ihr in einen ersten Textauszug eines Stimmklons reinhören.
Es werden also noch professionelle Sprecher*innen ins Studio geholt und Aufnahmen mit ihnen gemacht. Einige Sprecher*innen hatten gegenüber Ourdio die Angst geäußert, dass sie sich bei diesem Modell ja selbst Arbeit wegnehmen würden. Doch auch auf diese Skepsis hat das Start-up eine Antwort: „Wir schätzen die Arbeit der Sprecher*innen sehr und wollen unser Projekt mit ihnen zusammengestalten. Die Ressource Sprecher*innen-Stimme wird von uns in einem Beteiligungsmodell zu einem angemessenen Preis verfügbar gemacht und die Sprecher*innen erhalten Tantiemen an den Einnahmen aus Streaming und Verkauf“, betonen die Gründer*innen. Weiter schafft Ourdio sogar neue Arbeitsplätze in der manuellen Postproduktion von Computer-generierten Hörbüchern.
„Ebenfalls für die Verlage soll die Zusammenarbeit ein zusätzlicher Gewinn sein und nichts, was wir ihnen wegnehmen“, betont Krishen. Sobald sie mit ihrem Prototyp fertig sind, finalisieren sie ihren Business Case mit genauen Angaben zu geplanten Bezahlmodellen. Dafür stehen sie bereits jetzt im Austausch mit den Mentor*innen aus dem Media Lift Programm.
Nächste Schritte des Start-ups
„Ich bin wirklich beeindruckt, wie schnell sich für uns ein Netzwerk aufgebaut hat und wie viel ernster man genommen wird, weil wir an einem Inkubator teilnehmen“, freut sich auch Steffen und blickt auf die next steps von Ourdio. Im September – also in drei Monaten – soll der erste funktionierende Prototyp fertig und das Produkt erlebbar sein.
Dann geht es darum, schnellstmöglich in den Markt einzusteigen. Bereits jetzt führt das Unternehmen intensive Gespräche mit einem Projektpartner, der namentlich noch nicht genannt werden möchte. Der Prototyp wird erst einmal eine Webanwendung sein – in Richtung App oder mobilem Angebot wird natürlich ebenfalls gedacht.
„Am Ende hängt das davon ab, welche Distributionskanäle wir ansteuern. Für Verlage und Autor*innen ist es ja vielleicht auch attraktiv, direkt eine Exportfunktion zu bestimmten Streamingdiensten anzubieten“, führt Krishen aus. Und Steffen ergänzt: „Ein Großteil der Ressourcen, die wir nutzen, werden Cloud-basiert sein. Es soll keine Stand-Alone Anwendung werden, da das ja ein immer weiter lernendes System ist und diese Daten dann einfach immer weiter ergänzt werden.“
„Uns ist wichtig zu zeigen, dass es möglich ist, dass ein Mensch eine synthetische Stimme nicht von einer echten unterscheiden kann“, sagt Krishen. Er und sein Team freuen sich schon jetzt auf September und die Präsentation ihres ersten Prototypen.
- Tags: Audio, Deep Dive, Innovation, MEDIA LIFT, Start-up
Weitere Artikel
So baust du den perfekten Funnel
Wolfgang Macht – Mitgründer der Netzpiloten, Pionier der deutschen Start-up-Szene und Digital-Enthusiast durch und durch, blickt mit uns auf die Entstehung und die Zukunft der digitalen Revolution. Im Interview konnten wir darüber sprechen, wer die Netzpiloten sind, was er am Standort Hamburg schätzt und wie er die KI-Entwicklungen einordnet.
„Zu Beginn waren wir die großen Internet-Erklärer“
Wolfgang Macht – Mitgründer der Netzpiloten, Pionier der deutschen Start-up-Szene und Digital-Enthusiast durch und durch, blickt mit uns auf die Entstehung und die Zukunft der digitalen Revolution. Im Interview konnten wir darüber sprechen, wer die Netzpiloten sind, was er am Standort Hamburg schätzt und wie er die KI-Entwicklungen einordnet.
Nettwerk Music Europe Geschäftsführer Martin Schuhmacher im Interview
Hamburg ist um ein Musiklabel reicher. Das kanadische Label
Nettwerk hat im vergangenen Jahr seinen Europa Headquarter, die
Nettwerk Music Europe GmbH, in Hamburg eröffnet. Wieso sich das Label für den Standort Hamburg entschieden hat, wie das Label versucht Artist langfristig aufzubauen und welche Auswirkungen AI-Entwicklungen auf die Musikbranche haben, darüber konnten wir mit Geschäftsführer Martin Schuhmacher sprechen.