DeepMind, Googles KI-Forschungsorganisation, enthüllte a Modell wodurch eine „unendliche“ Vielfalt an spielbaren 3D-Welten entstehen kann.
Das Modell mit dem Namen Genie 2 – der Nachfolger von DeepMinds Genie, das Anfang dieses Jahres auf den Markt kam – kann aus einem einzigen Bild und einer Textbeschreibung eine interaktive Szene in Echtzeit generieren (z. B. „Ein süßer humanoider Roboter im Wald“). In dieser Hinsicht ähnelt es den Modellen, die von Fei-Fei Lis Unternehmen entwickelt werden Weltlaboreund israelisches Startup Verwerfen.
DeepMind behauptet, dass der Genie 2 eine „große Vielfalt an reichhaltigen 3D-Welten“ erzeugen kann, einschließlich Welten, in denen Benutzer Aktionen wie Springen und Schwimmen mit einer Maus oder Tastatur ausführen können. Das anhand von Videos trainierte Modell ist in der Lage, Objektinteraktionen, Animationen, Beleuchtung, Physik, Reflexionen und das Verhalten von „NPCs“ zu simulieren.
Viele der Simulationen von Genie 2 sehen aus wie AAA-Videospiele – und der Grund könnte durchaus darin liegen, dass die Trainingsdaten des Modells Durchspielen beliebter Titel enthalten. Aber DeepMind hat, wie viele KI-Labore, nicht viele Details zu seinen Datenbeschaffungsmethoden preisgegeben, vielleicht aus Wettbewerbsgründen.
Man fragt sich über die Auswirkungen auf das geistige Eigentum. DeepMind – eine Tochtergesellschaft von Google – hat uneingeschränkten Zugriff auf YouTube, und Google hat bereits angedeutet, dass seine Nutzungsbedingungen ihm die Erlaubnis geben, YouTube-Videos für das Model-Training zu verwenden. Aber erstellt der Genie 2 im Grunde nicht autorisierte Kopien der Spiele, die er „gesehen“ hat? Das ist es damit die Gerichte darüber entscheidenIch nehme an.
Der Genie 2 kann bis zu einer Minute lang konsistente Welten mit unterschiedlichen Perspektiven, z. B. Ego-Perspektiven und isometrischen Ansichten, generieren, wobei die meisten 10 bis 20 Sekunden dauern.
„Genie 2 reagiert intelligent auf Aktionen, die durch das Drücken von Tasten auf einer Tastatur ausgeführt werden, identifiziert den Charakter und bewegt ihn richtig“, erklärte DeepMind in einem Blogbeitrag. „Zum Beispiel könnte unser Modell entdecken, dass Pfeiltasten einen Roboter bewegen sollten und nicht Bäume oder Wolken.“
Die meisten Modelle wie Genie 2 – WeltmodelleWenn Sie möchten, kann es 3D-Spiele und -Umgebungen simulieren, jedoch mit Artefakten, Konsistenz und halluzinatorisch Probleme. Zum Beispiel Decarts Minecraft-Simulator, OaseEs hat eine niedrige Auflösung und „vergisst“ schnell die Anordnung der Level.
Der Genie 2 kann sich jedoch Teile einer simulierten Szene merken, die nicht sichtbar sind, und sie genau wiedergeben, wenn sie wieder sichtbar werden, behauptet DeepMind. (World Labs-Modelle können dies auch.)
Nun, Spiele, die mit dem Genie 2 erstellt wurden, würden eigentlich nicht so viel Spaß machen. Wenn Ihr Fortschritt jede Minute gelöscht würde, würde das jeden in den Wahnsinn treiben. Daher positioniert sich DeepMind als ein weiteres Forschungs- und Kreativitätstool – ein Tool zum Prototyping „interaktiver Erlebnisse“ und zur Bewertung von KI Agenten.
„Dank der Out-of-Distribution-Generalisierungsfunktionen von Genie 2 können Konzeptzeichnungen und Zeichnungen in vollständig interaktive Umgebungen umgewandelt werden“, schrieb DeepMind. „Und indem wir Genie 2 verwenden, um schnell umfangreiche, vielfältige Umgebungen für KI-Agenten zu erstellen, können unsere Forscher Bewertungsaufgaben erstellen, die Agenten während des Trainings noch nicht gesehen haben.“
DeepMind sagt, dass sich Genie 2 zwar noch im Anfangsstadium befindet, das Labor jedoch davon ausgeht, dass es eine Schlüsselkomponente bei der Entwicklung von KI-Agenten der Zukunft sein wird.
Google investiert immer mehr Ressourcen in globale Modelle, die das nächste große Ding in der KI zu werden versprechen. Im Oktober DeepMind gemietet Tim Brooks, der die Entwicklung von OpenAI leitete Sora Videogenerator, um an Videogenerierungstechnologien und Weltsimulatoren zu arbeiten.