Weltmodelle, auch Weltsimulatoren genannt, werden von manchen als das nächste große Ding in der KI angepriesen.
Fei-Fei Li, KI-Pionier Weltlabore sammelte 230 Millionen US-Dollar, um „großartige Weltmodelle“ und DeepMind zu bauen gemietet einer der Entwickler des OpenAI-Videogenerators, Soraan „Weltsimulatoren“ zu arbeiten. (Sora wurde am Montag freigelassen; Hier ein paar erste Eindrücke.)
Was zum Teufel sie sind diese Dinge?
Weltmodelle sind von den mentalen Modellen der Welt inspiriert, die der Mensch auf natürliche Weise entwickelt. Unser Gehirn nimmt die abstrakten Darstellungen unserer Sinne auf und wandelt sie in ein konkreteres Verständnis der Welt um uns herum um. Dabei entstehen sogenannte „Modelle“, lange bevor die KI diesen Ausdruck übernahm. Die Vorhersagen, die unser Gehirn auf der Grundlage dieser Modelle trifft, beeinflussen, wie wir die Welt wahrnehmen.
EINS Papier von den KI-Forschern David Ha und Jürgen Schmidhuber am Beispiel eines Baseballschlägers. Schläger haben Millisekunden Zeit, um zu entscheiden, wie sie den Schläger schwingen – weniger als die Zeit, die visuelle Signale benötigen, um das Gehirn zu erreichen. Der Grund dafür, dass sie einen Fastball mit 100 Meilen pro Stunde schlagen können, liegt darin, dass sie instinktiv vorhersagen können, wohin der Ball fliegen wird, sagen Ha und Schmidhuber.
„Bei Profispielern geschieht das alles unbewusst“, schreibt das Forscherduo. „Ihre Muskeln schwingen den Schläger reflexartig zur richtigen Zeit und am richtigen Ort, gemäß den Vorhersagen Ihrer internen Modelle. Sie können schnell auf ihre Zukunftsprognosen reagieren, ohne mögliche Zukunftsszenarien bewusst in einen Plan einfließen zu lassen.“
Es sind diese unterbewussten Argumentationsaspekte von Weltmodellen, von denen einige glauben, dass sie Voraussetzungen für Intelligenz auf menschlicher Ebene sind.
Die Welt modellieren
Obwohl es das Konzept schon seit Jahrzehnten gibt, erfreuen sich Weltmodelle in jüngster Zeit zunehmender Beliebtheit, unter anderem aufgrund ihrer vielversprechenden Anwendungen im Bereich generativer Videos.
Die meisten, wenn nicht alle KI-generierten Videos bewegen sich in unheimliches Tal-Territorium. Beobachten Sie sie lange genug und so bizarr wird passieren, als würden sich Gliedmaßen verdrehen und verschmelzen.
Während ein generatives Modell, das auf jahrelangen Videos trainiert wurde, genau vorhersagen kann, dass ein Basketball abprallt, hat es eigentlich keine Ahnung, warum – genauso wie Sprachmodelle die Konzepte hinter Wörtern und Phrasen nicht wirklich verstehen. Aber ein Weltmodell mit einem grundlegenden Verständnis dafür, warum der Basketball so springt, wie er es tut, wird besser zeigen können, dass er das tut.
Um diese Art von Erkenntnissen zu ermöglichen, werden Weltmodelle anhand einer Vielzahl von Daten trainiert, darunter Fotos, Audio, Videos und Text, mit der Absicht, interne Darstellungen der Funktionsweise der Welt zu erstellen und die Fähigkeit zu entwickeln, über die Konsequenzen von Handlungen nachzudenken. .
„Der Zuschauer erwartet, dass sich die Welt, die er sieht, ähnlich wie seine Realität verhält“, sagte Alex Mashrabov, ehemaliger Leiter der KI-Abteilung bei Snap und CEO von Snap. Higgsfielddas generative Modelle für Videos erstellt, sagte. „Wenn eine Feder unter dem Gewicht eines Amboss fällt oder eine Bowlingkugel Hunderte Meter in die Luft schießt, ist das schockierend und reißt den Betrachter aus dem Moment. Mit einem starken Weltmodell wird das Modell dies verstehen, anstatt dass ein Schöpfer definiert, wie sich jedes Objekt bewegen soll – was mühsam, kompliziert und zeitraubend ist.“
Aber eine bessere Videoerzeugung ist nur die Spitze des Eisbergs für globale Modelle. Forscher, darunter Metas leitender KI-Wissenschaftler Yann LeCun, sagen, dass die Modelle eines Tages für anspruchsvolle Prognosen und Planungen sowohl im digitalen als auch im physischen Bereich verwendet werden könnten.
In einem sprechen Anfang des Jahres beschrieb LeCun, wie ein Weltmodell durch Argumentation dabei helfen könnte, ein gewünschtes Ziel zu erreichen. Ein Modell mit einer grundlegenden Darstellung einer „Welt“ (z. B. ein Video eines schmutzigen Raums) könnte bei gegebenem Ziel (einem Reinraum) eine Abfolge von Aktionen zur Erreichung dieses Ziels darstellen (Staubsauger einsetzen, um zu kehren, das Geschirr zu reinigen, Leeren Sie den Müll), nicht weil dies ein Muster ist, das Sie beobachtet haben, sondern weil Sie auf einer tieferen Ebene wissen, wie Sie von schmutzig zu sauber gelangen.
„Wir brauchen Maschinen, die die Welt verstehen; (Maschinen), die sich an Dinge erinnern können, die über Intuition verfügen, die über gesunden Menschenverstand verfügen – Dinge, die auf der gleichen Ebene denken und planen können wie Menschen“, sagte LeCun. „Entgegen dem, was Sie vielleicht von einigen der enthusiastischsten Menschen gehört haben, sind aktuelle KI-Systeme dazu nicht in der Lage.“
Obwohl LeCun schätzt, dass wir noch mindestens ein Jahrzehnt von den Weltmodellen entfernt sind, die er sich vorstellt, erweisen sich aktuelle Weltmodelle als vielversprechende Simulatoren der Elementarphysik.
OpenAI stellt in einem Blog fest, dass Sora, das es als Weltmodell betrachtet, Aktionen simulieren kann, wie ein Maler, der Pinselstriche auf einer Leinwand hinterlässt. Modelle wie Sora – und Sora selbst – kann auch effektiv simulieren Video Spiele. Beispielsweise kann Sora eine Benutzeroberfläche und Spielwelt ähnlich wie Minecraft rendern.
Zukünftige Weltmodelle könnten in der Lage sein, bei Bedarf 3D-Welten für Spiele, virtuelle Fotografie und mehr zu generieren, sagte Justin Johnson, Mitbegründer von World Labs, in einer Erklärung. Folge aus dem a16z-Podcast.
„Wir haben bereits die Möglichkeit, virtuelle, interaktive Welten zu erschaffen, aber das kostet Hunderte und Aberhunderte Millionen Dollar und viel Entwicklungszeit“, sagte Johnson. „(Weltmodelle) ermöglichen es Ihnen, nicht nur ein Bild oder einen Clip zu erhalten, sondern eine vollständig simulierte, lebendige, interaktive 3D-Welt.“
Große Hindernisse
Obwohl das Konzept ansprechend ist, stehen ihm viele technische Herausforderungen im Weg.
Das Trainieren und Ausführen von Weltmodellen erfordert eine enorme Rechenleistung, selbst im Vergleich zu der Menge, die derzeit von generativen Modellen verwendet wird. Während einige der neueren Sprachmodelle auf einem modernen Smartphone laufen können, würde Sora (vermutlich ein frühes Modell) Tausende von GPUs zum Trainieren und Ausführen erfordern, insbesondere wenn seine Verwendung zum Mainstream wird.
Weltmodelle, wie alle KI-Modelle auch halluzinieren – und verinnerlichen Sie Verzerrungen in Ihren Trainingsdaten. Ein Weltmodell, das hauptsächlich auf Videos von sonnigem Wetter in europäischen Städten trainiert wird, kann beispielsweise Schwierigkeiten haben, koreanische Städte bei Schneebedingungen zu verstehen oder darzustellen, oder es kann einfach falsch sein.
Der weit verbreitete Mangel an Trainingsdaten droht diese Probleme zu verschärfen, sagt Mashrabov.
„Wir haben gesehen, dass Modelle wirklich auf Generationen von Menschen eines bestimmten Typs oder einer bestimmten Rasse beschränkt waren“, sagte er. „Die Trainingsdaten für ein Weltmodell müssen breit genug sein, um eine Vielzahl von Szenarien abzudecken, aber auch hochspezifisch, damit die KI die Nuancen dieser Szenarien tiefgreifend verstehen kann.“
In einem aktuellen veröffentlichenCristóbal Valenzuela, CEO des KI-Startups Runway, sagt, dass Daten- und technische Probleme aktuelle Modelle daran hindern, das Verhalten der Bewohner einer Welt (z. B. Menschen und Tiere) genau zu erfassen. „Modelle müssen konsistente Karten der Umgebung generieren“, sagte er, „und die Fähigkeit haben, in diesen Umgebungen zu navigieren und zu interagieren.“
Wenn jedoch alle großen Hindernisse überwunden werden, könnten Weltmodelle laut Mashrabov die KI „robuster“ mit der realen Welt zusammenbringen – was nicht nur zu Fortschritten bei der Generierung virtueller Welten, sondern auch bei der Robotik und der Entscheidungsfindung durch KI führen würde.
Sie könnten auch leistungsfähigere Roboter hervorbringen.
Heutzutage sind Roboter in ihren Möglichkeiten eingeschränkt, weil sie kein Bewusstsein für die Welt um sie herum (oder ihren eigenen Körper) haben. Weltmodelle könnten ihnen dieses Bewusstsein vermitteln, sagte Mashrabov – zumindest bis zu einem gewissen Grad.
„Mit einem fortschrittlichen Weltmodell könnte eine KI ein persönliches Verständnis für jedes Szenario entwickeln, in dem sie sich befindet“, sagte er, „und beginnen, mögliche Lösungen zu überlegen.“
TechCrunch hat einen KI-fokussierten Newsletter! Melden Sie sich hier an um es jeden Mittwoch in Ihrem Posteingang zu erhalten.