Nvidia kommt Weltmodelle – KI-Modelle, die sich von den mentalen Modellen der Welt inspirieren lassen, die Menschen auf natürliche Weise entwickeln.
Auf der Consumer Electronics Show in Las Vegas gab das Unternehmen bekannt, dass es eine Familie weltweiter Modelle offen verfügbar machen wird, die „physikbewusste“ Videos vorhersagen und generieren können. Nvidia nennt diese Familie Cosmos World Foundation Models, kurz Cosmos WFM.
Die Modelle, die für bestimmte Anwendungen optimiert werden können, sind über die API- und NGC-Kataloge von Nvidia sowie die Hugging Face AI-Entwicklungsplattform verfügbar.
„Nvidia stellt die erste Welle von Cosmos WFMs für physikbasierte Simulationen und die Generierung synthetischer Daten zur Verfügung“, schrieb das Unternehmen in einem Blogbeitrag an TechCrunch. „Forscher und Entwickler können Cosmos-Modelle unabhängig von der Unternehmensgröße unter der freizügigen Open-Model-Lizenz von Nvidia frei nutzen, was eine kommerzielle Nutzung ermöglicht.“
Die Cosmos WFM-Familie umfasst mehrere Modelle, die in drei Kategorien unterteilt sind: Nano für Anwendungen mit geringer Latenz und Echtzeit; Super für „Hochleistungs-Basismodelle“; Und Ultra für maximale Qualität und Wiedergabetreue.
Die Größe der Modelle reicht von 4 bis 14 Milliarden Parametern, wobei Nano das kleinste und Ultra das größte ist. Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells, und Modelle mit mehr Parametern schneiden im Allgemeinen besser ab als solche mit weniger Parametern.
Im Rahmen von Cosmos WFM veröffentlicht Nvidia außerdem ein „Upsampling-Modell“, einen für Augmented Reality optimierten Videodecoder, Leitplankenmodelle zur Gewährleistung einer verantwortungsvollen Nutzung sowie Modelle, die auf Anwendungen wie die Generierung von Sensordaten für die Entwicklung autonomer Fahrzeuge abgestimmt sind . . Diese sowie die anderen Cosmos WFM-Modelle wurden auf 9.000 Billionen Token aus 20 Millionen Stunden realer menschlicher Interaktionen, Umwelt-, Industrie-, Robotik- und Fahrdaten trainiert, sagte Nvidia. (In der KI stellen „Tokens“ Teile von Rohdaten dar – in diesem Fall Videomaterial.)
Nvidia hat nicht gesagt, woher diese Trainingsdaten stammen, aber zumindest ein Bericht – und Klage – Ansprüche dass das Unternehmen ohne Genehmigung urheberrechtlich geschützte YouTube-Videos aufgenommen hat. Wir haben das Presseteam von Nvidia um einen Kommentar gebeten und werden diesen Artikel aktualisieren, sobald wir etwas hören.
Laut Nvidia können Cosmos WFM-Modelle mit Text- oder Videobildern „kontrollierbare, qualitativ hochwertige“ synthetische Daten generieren, um mit dem Modelltraining für Robotik, selbstfahrende Autos und mehr zu beginnen.
„Mit der Suite offener Modelle von Nvidia Cosmos können Entwickler WFMs mit Datensätzen wie Videoaufzeichnungen von autonomen Fahrzeugfahrten oder Robotern, die durch ein Lager navigieren, entsprechend den Anforderungen ihrer Zielanwendung anpassen“, schrieb er in einer Pressemitteilung. „Cosmos WFMs werden speziell für die physikalische KI-Forschung und -Entwicklung entwickelt und können physikbasierte Videos aus einer Kombination von Eingaben wie Text, Bild und Video sowie Robotersensoren oder Bewegungsdaten generieren.“
Laut Nvidia haben sich Unternehmen wie Waabi, Wayve, Fortellix und Uber bereits verpflichtet, Cosmos WFMs für verschiedene Anwendungsfälle zu testen, von der Suche und Videokuration bis hin zum Aufbau von KI-Modellen für autonome Fahrzeuge.
Es ist wichtig zu beachten, dass Nvidias Weltmodelle nicht „Open Source“ im engeren Sinne sind. Einem gehorchen weithin akzeptierte Definition Bei „Open-Source“-KI muss ein KI-Modell genügend Informationen über sein Design bereitstellen, damit eine Person es „im Wesentlichen“ nachbilden und alle relevanten Details zu seinen Trainingsdaten offenlegen kann, einschließlich der Herkunft dieser Daten und der möglichen Verwendung der Daten. erworben oder lizenziert.
Nvidia hat weder Details zu den Cosmos WFM-Trainingsdaten veröffentlicht, noch hat es alle Tools zur Verfügung gestellt, die erforderlich sind, um die Modelle von Grund auf neu zu erstellen. Dies ist wahrscheinlich der Grund, warum der Technologieriese die Modelle als „offen“ und nicht als „Open Source“ bezeichnet.