Start IT/Tech Google DeepMind enthüllt ein neues Videomodell, das mit Sora mithalten kann

Google DeepMind enthüllt ein neues Videomodell, das mit Sora mithalten kann

5
0
DeepMind logo

Google DeepMind, Googles Flaggschiff-KI-Forschungslabor, will OpenAI bei der Videogenerierung schlagen – und das könnte auch so sein, zumindest für eine Weile.

Am Montag kündigte DeepMind Veo 2 an, eine Video-KI der nächsten Generation und deren Nachfolger Ich verstehedas füttert a Anbau Nummer von Produkten im gesamten Google-Portfolio. Veo 2 kann Clips mit einer Länge von mehr als zwei Minuten und einer Auflösung von bis zu 4K (4096 x 2160 Pixel) erstellen.

Dies entspricht insbesondere der vierfachen Auflösung – und mehr als der sechsfachen Dauer – von OpenAI Sora erreichen kann.

Das ist vorerst ein theoretischer Vorteil, garantiert. In Googles experimentellem Videoerstellungstool VideoFX, in dem Veo 2 jetzt exklusiv verfügbar ist, sind Videos auf 720p und acht Sekunden Länge beschränkt. (Sora kann Clips mit bis zu 1080p und einer Länge von 20 Sekunden produzieren.)

Veo 2 in VideoFX.Bildnachweis:Google

VideoFX steht auf einer Warteliste, aber Google gibt an, dass es diese Woche die Zahl der Nutzer erhöht, die darauf zugreifen können.

Eli Collins, Vizepräsident für Produkte bei DeepMind, sagte gegenüber TechCrunch auch, dass Google Veo 2 über sein verfügbar machen wird Vertex-KI Entwicklungsplattform, „wenn das Modell maßstabsgetreu einsatzbereit ist.“

„In den kommenden Monaten werden wir basierend auf dem Feedback der Nutzer weiter iterieren“, sagte Collins, „und (wir) werden versuchen, die aktualisierten Funktionen von Veo 2 in überzeugende Anwendungsfälle im gesamten Google-Ökosystem zu integrieren … (Wir) freuen uns darauf.“ Wir teilen nächstes Jahr weitere Updates.

Kontrollierbarer

Wie Veo kann Veo 2 Videos aus einer Textaufforderung (z. B. „Ein Auto rast auf einer Autobahn“) oder Text und einem Referenzbild generieren.

Was ist also neu bei Veo 2? Laut DeepMind verfügt das Modell, das Clips in verschiedenen Stilen generieren kann, über ein verbessertes „Verständnis“ der Kameraphysik und -steuerung und erzeugt „schärfere“ Bilder.

Durch die Klarheit sorgt DeepMind dafür, dass Texturen und Bilder in Clips schärfer sind – insbesondere in Szenen mit viel Bewegung. Die verbesserten Kamerasteuerungen ermöglichen es dem Veo 2, die virtuelle „Kamera“ in den von ihm generierten Videos präziser zu positionieren und diese Kamera zu bewegen, um Objekte und Personen aus verschiedenen Winkeln aufzunehmen.

DeepMind behauptet außerdem, dass der Veo 2 Bewegungen, Flüssigkeitsdynamik (wie Kaffee, der in eine Tasse gegossen wird) und Lichteigenschaften (wie Schatten und Reflexionen) realistischer modellieren kann. Dazu gehören laut DeepMind verschiedene Objektive und filmische Effekte sowie „nuancierter“ menschlicher Ausdruck.

Google sehe ich 2
Beachten Sie, dass beim Konvertieren des Clips in GIF Komprimierungsartefakte aufgetreten sind. Bildnachweis:Google

DeepMind hat letzte Woche einige handverlesene Beispiele des Veo 2 mit TechCrunch geteilt. Für KI-generierte Videos sahen sie ziemlich gut aus – sogar außergewöhnlich gut. Veo 2 scheint ein ausgeprägtes Gespür für Brechung und komplizierte Flüssigkeiten wie Ahornsirup zu haben und ein Händchen für die Emulation von Animationen im Pixar-Stil zu haben.

Aber trotz DeepMinds Beharren darauf, dass das Modell weniger wahrscheinlich ist halluzinieren Durch Elemente wie zusätzliche Finger oder „unerwartete Objekte“ kann der Veo 2 das unheimliche Tal nicht überwinden.

Beachten Sie die leblosen Augen dieser hundeähnlichen Comic-Kreatur:

Google sehe ich 2
Bildnachweis:Google

Und die seltsam rutschige Straße in diesem Filmmaterial – zusätzlich zu den Fußgängern im Hintergrund, die sich einfügen, und den Gebäuden mit physisch unmöglichen Fassaden:

Google sehe ich 2
Bildnachweis:Google

Collins gab zu, dass noch viel zu tun ist.

„Kohärenz und Konsistenz sind Bereiche für Wachstum“, sagte er. „Veo kann eine Warnung einige Minuten lang konsequent befolgen, komplexe Warnungen jedoch nicht über längere Zeiträume hinweg. Ebenso kann die Konsistenz des Charakters eine Herausforderung sein. Es gibt auch Raum, die Erzeugung komplizierter Details sowie schneller und komplexer Bewegungen zu verbessern und die Grenzen des Realismus weiter zu verschieben.“

DeepMind arbeitet weiterhin mit Künstlern und Produzenten zusammen, um seine Modelle und Tools zur Videogenerierung zu verfeinern, fügte Collins hinzu.

„Wir haben schon früh in der Entwicklung von Veo begonnen, mit Kreativen wie Donald Glover, The Weeknd, d4vd und anderen zusammenzuarbeiten, um ihren kreativen Prozess wirklich zu verstehen und herauszufinden, wie Technologie dabei helfen kann, ihre Vision zum Leben zu erwecken“, sagte Collins. „Unsere Zusammenarbeit mit den Entwicklern des Veo 1 hat die Entwicklung des Veo 2 beeinflusst und wir freuen uns darauf, mit vertrauenswürdigen Testern und Entwicklern zusammenzuarbeiten, um Feedback zu diesem neuen Modell zu erhalten.“

Sicherheit und Ausbildung

Veo 2 wurde anhand vieler Videos trainiert. Im Allgemeinen funktionieren KI-Modelle so: Wenn ihnen ein Beispiel nach dem anderen einer Datenform zur Verfügung gestellt wird, erkennen die Modelle Muster in den Daten, die es ihnen ermöglichen, neue Daten zu generieren.

DeepMind sagt nicht genau, wo es die Videos zum Trainieren von Veo 2 gesammelt hat, aber YouTube ist eine mögliche Quelle; Google besitzt YouTube und DeepMind vorher sagte gegenüber TechCrunch, dass Google-Modelle wie Veo auf einige YouTube-Inhalte „trainiert“ werden können.

„Veo wurde in hochwertigen Videobeschreibungspaaren geschult“, sagte Collins. „Videobeschreibungspaare sind ein Video und eine zugehörige Beschreibung dessen, was in diesem Video passiert.“

Google sehe ich 2
Bildnachweis:Google

Während DeepMind über Google Tools bereitstellt, die es Webmastern ermöglichen, Labor-Bots daran zu hindern, Trainingsdaten von ihren Websites abzurufen, bietet DeepMind keinen Mechanismus, der es Erstellern ermöglicht, Arbeit aus ihren vorhandenen Trainingssätzen zu entfernen. Das Labor und seine Muttergesellschaft behaupten, dass es Trainingsmodelle gibt, die öffentliche Daten nutzen faire NutzungDas bedeutet, dass DeepMind davon ausgeht, dass es nicht verpflichtet ist, Dateneigentümer um Erlaubnis zu bitten.

Nicht alle Kreativen sind sich einig – vor allem im Hinblick auf Studien Schätzungen zufolge könnten in den kommenden Jahren Zehntausende Film- und Fernsehjobs durch KI zerstört werden. Mehrere KI-Unternehmen, darunter das gleichnamige Startup hinter der beliebten KI-Kunst-App Midjourney, sind dabei Ziel von Klagen Sie werfen ihnen vor, die Rechte von Künstlern zu verletzen, indem sie Inhalte ohne Zustimmung trainieren.

„Wir sind bestrebt, mit den Schöpfern und unseren Partnern zusammenzuarbeiten, um gemeinsame Ziele zu erreichen“, sagte Collins. „Wir arbeiten weiterhin mit der kreativen Community und Menschen in der gesamten Branche zusammen, sammeln Erkenntnisse und hören auf Feedback, auch mit denen, die VideoFX verwenden.“

Aufgrund der Art und Weise, wie sich aktuelle generative Modelle beim Training verhalten, sind sie mit bestimmten Risiken verbunden, wie z. B. dem Aufstoßen, wenn ein Modell eine Spiegelkopie der Trainingsdaten generiert. Die Lösung von DeepMind besteht aus Filtern auf unmittelbarer Ebene, auch für gewalttätige, grafische und explizite Inhalte.

von Google VergütungspolitikCollins sagte, dass dies eine Verteidigung für bestimmte Kunden gegen Ansprüche wegen Urheberrechtsverletzungen, die sich aus der Nutzung seiner Produkte ergeben, für Veo 2 gilt, bis es allgemein verfügbar ist.

Google sehe ich 2
Bildnachweis:Google

Um das Risiko von Deepfakes zu mindern, verwendet DeepMind nach eigenen Angaben seine proprietäre Wasserzeichentechnologie SynthID, um unsichtbare Markierungen in von Veo 2 generierte Frames einzubetten. Wie bei allen Wasserzeichentechnologien jedoch auch SynthID ist nicht unfehlbar.

Bildaktualisierungen

Zusätzlich zu Veo 2 hat Google DeepMind heute Morgen Updates für angekündigt Bild 3sein Imaging-Geschäftsmodell.

Ab heute wird eine neue Version von Imagen 3 für Benutzer von ImageFX, dem Bildgenerierungstool von Google, bereitgestellt. Laut DeepMind können damit „hellere, besser komponierte“ Bilder und Fotos in Stilen wie Fotorealismus, Impressionismus und Anime erstellt werden.

„Dieses Update (auf Imagen 3) folgt außerdem den Anweisungen genauer und stellt detailliertere Details und Texturen dar“, schrieb DeepMind in einem Blogbeitrag, der TechCrunch zur Verfügung gestellt wurde.

Google ImageFX
Bildnachweis:Google

Zusammen mit der Vorlage werden UI-Updates für ImageFX veröffentlicht. Wenn Benutzer jetzt Eingabeaufforderungen eingeben, werden die Schlüsselbegriffe in diesen Eingabeaufforderungen zu „Chiplets“ mit einem Dropdown-Menü mit zugehörigen Wortvorschlägen. Benutzer können die Chips verwenden, um zu wiederholen, was sie geschrieben haben, oder aus einer Reihe automatisch generierter Deskriptoren unterhalb der Eingabeaufforderung auswählen.

Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein