Start IT/Tech NVIDIAs neues KI-Modell Fugatto kann Audio aus Textansagen erstellen

NVIDIAs neues KI-Modell Fugatto kann Audio aus Textansagen erstellen

15
0
NVIDIAs neues KI-Modell Fugatto kann Audio aus Textansagen erstellen

NVIDIA hat ein neues experimentelles generatives KI-Modell vorgestellt, das es als „ein Schweizer Taschenmesser für Sound“ bezeichnet. Das Modell heißt Foundational Generative Audio Transformer Opus 1, oder Fugattokann Befehle von Textaufforderungen entgegennehmen und sie zum Erstellen von Audiodaten oder zum Ändern vorhandener Musik-, Sprach- und Sounddateien verwenden. Es wurde von einem Team von KI-Forschern aus der ganzen Welt entwickelt, und NVIDIA sagt, dass dadurch die „Multi-Akzent- und Mehrsprachenfähigkeiten des Modells gestärkt“ wurden.

„Wir wollten ein Modell schaffen, das Geräusche so versteht und erzeugt, wie es Menschen tun“, sagt Rafael Valle, einer der Forscher hinter dem Projekt und Manager für angewandte Audioforschung bei NVIDIA. Das Unternehmen listete in seiner Ankündigung einige mögliche reale Szenarien auf, in denen Fugatto nützlich sein könnte. Musikproduzenten, so wurde vorgeschlagen, könnten die Technologie nutzen, um schnell einen Prototyp für eine Songidee zu erstellen, den sie dann einfach bearbeiten könnten, um verschiedene Stile, Stimmen und Instrumente auszuprobieren.

Menschen könnten damit Material für Sprachlerntools erstellen und dabei die Stimme ihrer Wahl verwenden. Und Entwickler von Videospielen könnten damit Variationen von zuvor aufgezeichnetem Material erstellen, um Änderungen im Spiel basierend auf den Entscheidungen und Aktionen der Spieler anzupassen. Darüber hinaus stellten die Forscher fest, dass das Modell mit einer gewissen Verfeinerung Aufgaben ausführen kann, die nicht Teil des vorherigen Trainings waren. Es könnte Anweisungen kombinieren, für die es separat trainiert wurde, etwa das Generieren einer Sprache, die wütend mit einem bestimmten Akzent klingt, oder das Geräusch von Vogelgesängen während eines Gewitters. Das Modell kann auch Geräusche erzeugen, die sich im Laufe der Zeit ändern, beispielsweise das Stampfen eines Regensturms, der über Land zieht.

NVIDIA hat nicht gesagt, ob es der Öffentlichkeit Zugang zu Fugatto gewähren wird, aber das Modell ist nicht die erste generative KI-Technologie, die Töne aus Textaufforderungen erzeugen kann. Meta bereits veröffentlicht ein Open-Source-KI-Kit das aus Textbeschreibungen Töne erzeugen kann. Google hat seine eigene Text-zu-Musik-KI benannt MusicLM auf die Menschen über die unternehmenseigene Website zugreifen können AI Test Kitchen-Website.

Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein