Meta hat ein Text-to-Speech-Tool vorgestellt, mit dem Benutzer geschriebenen Text in Audio umwandeln können. Voicebox funktioniert in sechs Sprachen, darunter Französisch und Deutsch, aber Niederländisch ist noch nicht möglich. Das Tool wird vorerst nicht veröffentlicht, um Missbrauch zu verhindern.
Laut Meta ist Voicebox eine generative KI, die auf der Grundlage von Text Audiodateien erstellen kann. Dazu ist laut Meta lediglich ein mindestens zwei Sekunden langes Stück Audio erforderlich. Voicebox kann dann auch den Text selbst in sechs Sprachen erstellen. Dazu gehören neben Englisch auch Französisch, Deutsch, Spanisch, Polnisch und Portugiesisch.
Darüber hinaus kann Voicebox auch eine Audionachricht bearbeiten, in der ein Text selbst gesprochen wird. So kann das Tool beispielsweise falsch ausgesprochene Wörter korrigieren oder Hintergrundgeräusche wie einen bellenden Hund herausfiltern.
Meta hat ein Flow-Matching-Modell verwendet, um den Text natürlich klingen zu lassen. Flow Matching ist ein von Meta selbst entwickeltes KI-Trainingsmodell, das auf der kontinuierlichen Normalisierung von Flüssen basiert. In einem Forschungspapier erklärt Meta, dass das Modell anhand von 50.000 Stunden Audiomaterial in jeder der sechs unterstützten Sprachen trainiert wurde. Das Modell soll bei gesprochenen Wörtern eine Fehlerquote von nur 1,9 Prozent aufweisen.
Meta gibt sowohl das Tool als auch das zugrunde liegende Modell vorerst nicht bekannt. Das Unternehmen sagt, ein solches Tool habe „das Potenzial, missbraucht zu werden und Menschen zu schaden“. Deshalb will es nur einen Ansatz und die Ergebnisse in einer wissenschaftlichen Arbeit veröffentlichen, nicht aber das Tool selbst. Ob dies in Zukunft der Fall sein wird, sagt Meta nicht. Das Unternehmen hat jedoch einige Demos online gestellt, die Beispiele für die KI zeigen.
+ There are no comments
Add yours