Inhalt dieses Beitrags
Meta hat eine neuartige Künstliche Intelligenz (KI) namens “Voicebox” entwickelt, die Text in Audio umwandeln kann. Im Gegensatz zu gängigen Text-to-Speech-Übersetzungstools bietet Voicebox eine Vielzahl von Sprachstilen und Stimmen an. Das System kann Texteingaben empfangen und diese in verschiedene Sprachen übersetzen, wie in einem Übersichts-Clip von Meta demonstriert wird.
Voicebox bietet mehr als nur ein Übersetzungstool
Das Technologieunternehmen Meta hat einen ersten Einblick in sein neues KI-System “Voicebox” gegeben. Bei diesem handelt es sich um ein fortschrittliches Text-to-Speech-Übersetzungstool, das Texteingaben in Audio umwandeln kann. Allerdings geht Voicebox über die bloße Umwandlung von Text in Sprache hinaus. Mit Hilfe von Sprachmodellen kann das Tool einen Audioclip einer anderen Person nutzen, um eine Text-to-Speech-Übersetzung so klingen zu lassen, als ob diese Person spricht. Dies ist bereits mit wenigen Sekunden an Audioeingabe möglich.
Doch mit dieser innovativen Technologie könnten auch neue Herausforderungen in Bezug auf sogenannte Deepfakes entstehen. Es existieren bereits ähnliche Tools auf dem Markt, doch Meta betont, dass diese nicht das gleiche Leistungsniveau erreichen wie das neue Voicebox-Verfahren.
“Voicebox kann qualitativ hochwertige Audioclips produzieren und zuvor aufgenommene Audiodateien bearbeiten – z. B. das Entfernen von Autohupen oder Hundegebell – und dabei den Inhalt und den Stil der Audiodateien beibehalten. Das Modell ist außerdem mehrsprachig und kann Sprache in sechs Sprachen produzieren. In Zukunft könnten generative Mehrzweck-KI-Modelle wie Voicebox virtuellen Assistenten und Nicht-Spieler-Charakteren im Metaverse natürlich klingende Stimmen verleihen. Sie könnten es sehbehinderten Menschen ermöglichen, schriftliche Nachrichten von Freunden von der KI in ihrer Stimme vorgelesen zu bekommen, sie könnten Kreativen neue Werkzeuge an die Hand geben, um auf einfache Weise Audiospuren für Videos zu erstellen und zu bearbeiten, und vieles mehr.”
Meta
Marktübergreifende Möglichkeiten und breitere Anwendungsfälle
Der eigentliche Nutzen von Voicebox liegt in der Fähigkeit zur Übersetzung und der Erzeugung von vereinfachten, muttersprachlichen Varianten von Texteingaben in verschiedenen Sprachen. Dies könnte neue Möglichkeiten eröffnen, die über einzelne Märkte hinausgehen. Die fortschrittliche Modellierung des Systems könnte zudem breitere Anwendungsfälle und Prozesse erleichtern, was weitere wichtige Vorteile bieten könnte.
Meta behält Risiken im Blick
Obwohl Voicebox neue Möglichkeiten eröffnet, bringt es auch Herausforderungen mit sich, insbesondere im Hinblick auf Deepfakes. Bestehende Tools bieten ähnliche Funktionen, erreichen jedoch laut Meta nicht die Qualität von Voicebox. Trotz des enormen Potenzials hat Meta den Quellcode und die App nicht öffentlich gemacht, um potenziellen Missbrauch zu verhindern. Die jüngste Ankündigung ist somit weniger eine Markteinführung als vielmehr ein Versprechen für zukünftige, wertvolle Anwendungen dieser Technologie.