Elon Musk stimmt mit anderen KI-Experten darin überein, dass nur noch wenige reale Daten zum Trainieren von KI-Modellen übrig sind.
„Wir haben jetzt im Grunde die gesamte Summe des menschlichen Wissens ausgeschöpft …“ im KI-Training“, sagte Musk während eines Live-Streaming-Gesprächs mit Stagwell-Präsident Mark Penn, das am Mittwochabend auf X ausgestrahlt wurde. „Das ist im Grunde letztes Jahr passiert.“
Musk, Inhaber des KI-Unternehmens xAI, wiederholte Themen des ehemaligen OpenAI-Chefwissenschaftlers Ilya Sutskever berührt bei NeurIPS, der Konferenz für maschinelles Lernen, während einer Rede im Dezember. Sutskever, der sagte, die KI-Branche habe das erreicht, was er als „Höhepunkt der Daten“ bezeichnete, prognostizierte, dass der Mangel an Trainingsdaten eine Änderung in der Art und Weise erzwingen werde, wie Modelle heute entwickelt werden.
Tatsächlich hat Musk vorgeschlagen, dass synthetische Daten – Daten, die von KI-Modellen selbst generiert werden – der Weg in die Zukunft sind. „Mit synthetischen Daten … wird sich (KI) selbst bewerten und diesen Selbstlernprozess durchlaufen“, sagte er.
Andere Unternehmen, darunter Technologiegiganten wie Microsoft, Meta, OpenAI und Anthropic, nutzen bereits synthetische Daten, um Flaggschiff-KI-Modelle zu trainieren. Gartner Schätzungen 60 % der im Jahr 2024 für KI- und Analyseprojekte verwendeten Daten wurden synthetisch generiert.
von Microsoft Fi-4das am Mittwoch als Open-Source-Lösung veröffentlicht wurde, wurde neben realen Daten auch auf synthetischen Daten trainiert. Das Gleiche geschah mit Google Juwel Modelle. Anthropic nutzte einige synthetische Daten, um eines seiner leistungsstärksten Systeme zu entwickeln: Sonett des Claudius 3.5. Und Meta hat seine neueste Version verbessert Lama Modellreihe unter Verwendung von KI-generierten Daten.
Das Training mit synthetischen Daten hat weitere Vorteile, beispielsweise Kosteneinsparungen. Das KI-Startup Writer behauptet, dass die Entwicklung seines Modells Palmyra X 004, das fast vollständig mit synthetischen Schriftarten entwickelt wurde, nur 700.000 US-Dollar gekostet habe – verglichen mit Schätzungen von 4,6 Millionen US-Dollar für ein OpenAI-Modell vergleichbarer Größe.
Es gibt aber auch Nachteile. Einige Recherchen weist darauf hin, dass synthetische Daten zum Zusammenbruch des Modells führen können, wodurch ein Modell in seinen Ergebnissen weniger „kreativ“ – und voreingenommener – wird und schließlich seine Funktionalität ernsthaft beeinträchtigt.