Genie 2 von Google DeepMind kann interaktive 3D-Welten generieren

Von

5 Dezember 2024

Weltmodelle – KI-Algorithmen, die in Echtzeit eine simulierte Umgebung erzeugen können – stellen eine der beeindruckendsten Anwendungen des maschinellen Lernens dar. Im vergangenen Jahr gab es in diesem Bereich viel Bewegung und zu diesem Zweck hat Google DeepMind angekündigt Genie 2 am Mittwoch. Während sich sein Vorgänger auf die Generierung von 2D-Welten beschränkte, kann das neue Modell 3D-Welten erstellen und diese deutlich länger behalten.

Genie 2 ist keine Spiel-Engine; Stattdessen handelt es sich um ein Verteilungsmodell, das Bilder generiert, während sich der Spieler (ein Mensch oder ein anderer KI-Agent) durch die von der Software simulierte Welt bewegt. Bei der Generierung von Bildern kann Genie 2 Rückschlüsse auf die Umgebung ziehen und so Wasser, Rauch und physikalische Effekte modellieren – obwohl einige dieser Interaktionen sehr spielerisch sein können. Darüber hinaus ist das Modell nicht auf die Darstellung von Szenen aus der Third-Person-Perspektive beschränkt, sondern kann auch First-Person- und isometrische Perspektiven verarbeiten. Alles, was Sie brauchen, um loszulegen, ist eine einzige Bildaufforderung, die von Google bereitgestellt wird Bild 3 Modell oder ein Foto von etwas aus der realen Welt.

Wir stellen Genie 2 vor: unser KI-Modell, das eine endlose Vielfalt spielbarer 3D-Welten erschaffen kann – alles aus einem einzigen Bild. 🖼️

Solche groß angelegten grundlegenden Weltmodelle könnten es ermöglichen, zukünftige Agenten in einer endlosen Anzahl virtueller Umgebungen zu trainieren und zu bewerten. →… pic.twitter.com/qHCT6jqb1W

– Google DeepMind (@GoogleDeepMind) 4. Dezember 2024

Insbesondere kann sich Genie 2 an Teile einer simulierten Szene erinnern, selbst nachdem diese das Sichtfeld des Spielers verlassen, und diese Elemente genau rekonstruieren, wenn sie wieder sichtbar werden. Das steht im Gegensatz zu anderen Weltmodellen wie z Oasedas, zumindest in der Version, die Decart im Oktober der Öffentlichkeit zeigte, Schwierigkeiten hatte, sich an den Aufbau des zu erinnern Minecraft Levels, die es in Echtzeit generiert hat.

Allerdings gibt es in dieser Hinsicht sogar Einschränkungen bei den Möglichkeiten von Genie 2. Laut DeepMind kann das Modell „konsistente“ Welten für bis zu 60 Sekunden erzeugen, wobei die meisten Beispiele, die das Unternehmen am Mittwoch veröffentlichte, deutlich kürzer dauern; In diesem Fall sind die meisten Videos etwa 10 bis 20 Sekunden lang. Darüber hinaus werden Artefakte eingeführt und die Bildqualität wird umso weicher, je länger Genie 2 braucht, um die Illusion einer einheitlichen Welt aufrechtzuerhalten.

DeepMind machte keine Angaben dazu, wie Genie 2 trainiert wurde, außer dass es sich „auf einen großen Videodatensatz“ stützte. Erwarten Sie außerdem nicht, dass DeepMind Genie 2 in absehbarer Zeit der Öffentlichkeit zugänglich macht. Derzeit sieht das Unternehmen das Modell vor allem als Werkzeug zur Schulung und Bewertung anderer KI-Agenten, darunter auch seiner eigenen SIMA-Algorithmusund etwas, mit dem Künstler und Designer schnell Prototypen erstellen und Ideen ausprobieren können. DeepMind geht davon aus, dass Weltmodelle wie Genie 2 in Zukunft wahrscheinlich eine wichtige Rolle auf dem Weg zur künstlichen allgemeinen Intelligenz spielen werden.

„Die Ausbildung allgemeiner verkörperter Agenten wurde traditionell durch die Verfügbarkeit ausreichend reichhaltiger und vielfältiger Trainingsumgebungen behindert“, sagte DeepMind. „Wie wir zeigen, könnte Genie 2 es zukünftigen Agenten ermöglichen, in einem grenzenlosen Lehrplan neuer Welten geschult und bewertet zu werden.“

Quelle link

Verwandte ArtikelMehr vom Autor

Tesla teilt sich den 100-Millionen-Dollar-Preis für den Ladekorridor für Elektro-Lkw in Illinois

Warum sind Musk, Bezos und Zuckerberg bei Trumps Amtseinführung dabei?

Supererde vs. Sub-Neptun? Der Gewinner ist Super-Venus!

Kategorie

Verwandte Artikel Mehr vom Autor