Ist es möglich, dass eine KI nur mit Daten trainiert wird, die von einer anderen KI generiert wurden? Es mag wie eine dumme Idee erscheinen. Aber es gibt es schon seit einiger Zeit – und da es immer schwieriger wird, neue, echte Daten zu erhalten, gewinnt es an Bedeutung.
Anthropic nutzte einige synthetische Daten, um eines seiner Hauptmodelle zu trainieren: Sonett des Claudius 3.5. Meta hat deine angepasst Lama 3.1 Modelle unter Verwendung von KI-generierten Daten. Und OpenAI soll synthetische Trainingsdaten von erhalten o1Ihr „Argumentationsmodell“ für das nächste Orion.
Aber warum braucht KI überhaupt Daten – und welche? Typ Daten braucht es? Und diese Daten können Wirklich durch synthetische Daten ersetzt werden?
Die Bedeutung von Notizen
KI-Systeme sind statistische Maschinen. Anhand mehrerer Beispiele lernen sie Muster aus diesen Beispielen, um Vorhersagen zu treffen, wie zum Beispiel „für wen“ in einer E-Mail typischerweise vor „könnte von Interesse sein“ steht.
Anmerkungen, in der Regel Texte, die die Bedeutung oder Teile der von diesen Systemen erfassten Daten kennzeichnen, sind in diesen Beispielen ein Schlüsselelement. Sie dienen als Führer und „lehren“ ein Modell zur Unterscheidung zwischen Dingen, Orten und Ideen.
Stellen Sie sich ein Fotoklassifizierungsmodell vor, das viele Fotos von Küchen zeigt, die mit dem Wort „Küche“ gekennzeichnet sind. Während des Trainings beginnt das Modell, Assoziationen zwischen „Küche“ und „Allgemein“ herzustellen Eigenschaften Küchen (z. B. mit Kühlschränken und Arbeitsplatten). Wenn das Modell nach dem Training mit einem Foto einer Küche konfrontiert wird, die nicht in den ersten Beispielen enthalten war, sollte es in der Lage sein, diese als solche zu identifizieren. (Wenn die Küchenbilder natürlich mit „Kühe“ beschriftet wären, würde dies sie natürlich als Kühe identifizieren, was die Bedeutung einer guten Anmerkung unterstreicht.)
Der Appetit auf KI und die Notwendigkeit, gekennzeichnete Daten für ihre Entwicklung bereitzustellen, haben den Markt für Annotationsdienste vergrößert. Marktforschungsdimension Schätzungen Das ist heute 838,2 Millionen US-Dollar wert – und wird in den nächsten 10 Jahren 10,34 Milliarden US-Dollar wert sein. Es gibt zwar keine genauen Schätzungen darüber, wie viele Menschen sich an der Kennzeichnungsarbeit beteiligen, eine Studie aus dem Jahr 2021 Papier Setzen Sie die Zahl an die Stelle „Millionen“.
Große und kleine Unternehmen verlassen sich auf Mitarbeiter, die von Datenannotationsunternehmen eingestellt werden, um Etiketten für KI-Trainingssätze zu erstellen. Einige dieser Jobs werden einigermaßen gut bezahlt, insbesondere wenn die Bezeichnung spezielle Kenntnisse (z. B. Mathematikkenntnisse) erfordert. Andere können anstrengend sein. Notizenmacher in Entwicklungsländern Sie verdienen im Durchschnitt nur ein paar Dollar pro Stundeohne jegliche Vorteile oder Garantien für zukünftige Shows.
Eine Quelle trocknender Daten
Daher gibt es humanistische Gründe, nach Alternativen zu von Menschen erstellten Etiketten zu suchen. Beispielsweise erweitert Uber seine Flotte Gig-Mitarbeiter, die an der KI-Annotation und Datenkennzeichnung arbeiten. Aber es gibt auch einige praktische.
Der Mensch kann nur eine begrenzte Menge benennen. Kommentatoren haben auch Vorurteile die sich in Ihren Notizen und anschließend in allen darauf trainierten Modellen manifestieren können. Notizenmacher tun es Fehleroder bekommen stolperte durch Kennzeichnungshinweise. Und es ist teuer, Menschen dafür zu bezahlen, Dinge zu tun.
Daten im Allgemeinen Es ist übrigens teuer. Shutterstock verlangt von KI-Anbietern Dutzende Millionen Dollar für den Zugriff Dateienwährend Reddit er hat hat Hunderte Millionen durch die Lizenzierung von Daten an Google, OpenAI und andere verdient.
Schließlich wird es auch immer schwieriger, Daten zu beschaffen.
Die meisten Modelle werden auf der Grundlage umfangreicher öffentlicher Datensammlungen trainiert – Daten, die Eigentümer zunehmend sperren, weil sie befürchten, dass ihre Daten möglicherweise gesperrt werden plagiiertoder dass sie dafür keine Anerkennung oder Zuschreibung erhalten. Mehr als 35 % der 1.000 besten Websites der Welt Jetzt den OpenAI Web Scraper blockieren. Und etwa 25 % der Daten aus „hochwertigen“ Quellen wurden aus den Hauptdatensätzen, die zum Trainieren von Modellen verwendet werden, ausgeschlossen, wie eine aktuelle Studie ergab. zu studieren gefunden.
Wenn sich der aktuelle Trend der Zugriffssperre fortsetzt, wird die Epoch AI-Forschungsgruppe Projekte dass den Entwicklern zwischen 2026 und 2032 die Daten zum Trainieren generativer KI-Modelle ausgehen werden. Dies gepaart mit der Angst davor Urheberrechtsklagen Und fragwürdiges Material Die Schaffung offener Datensätze hat den KI-Anbietern eine Abrechnung aufgezwungen.
Synthetische Alternativen
Auf den ersten Blick scheinen synthetische Daten die Lösung all dieser Probleme zu sein. Benötigen Sie Notizen? Generieren Sie sie. Weitere Beispieldaten? Kein Problem. Der Himmel ist die Grenze.
Und bis zu einem gewissen Grad ist das wahr.
„Wenn ‚Daten das neue Öl‘ sind, stellen sich synthetische Daten als Biokraftstoff dar, der ohne die negativen externen Effekte der realen Sache erzeugt werden kann“, sagte Os Keyes, ein Doktorand an der University of Washington, der die ethischen Auswirkungen neuer Technologien untersucht. zu TechCrunch. „Man kann einen kleinen Anfangsdatensatz nehmen und daraus neue Eingaben simulieren und extrapolieren.“
Die KI-Branche hat das Konzept übernommen und umgesetzt.
Diesen Monat brachte Writer, ein unternehmensorientiertes Unternehmen für generative KI, ein Modell auf den Markt, Palmyra X 004, das fast ausschließlich auf synthetischen Daten trainiert. Seine Entwicklung habe nur 700.000 US-Dollar gekostet, behauptet der Autor – verglichen mit Schätzungen von 4,6 Millionen US-Dollar für ein OpenAI-Modell vergleichbarer Größe.
von Microsoft Fi Offene Modelle wurden teilweise mit synthetischen Daten trainiert. Das Gleiche geschah mit Google Juwel Modelle. Nvidia diesen Sommer stellte eine Modellfamilie zur Generierung synthetischer Trainingsdaten vor, und das KI-Startup Hugging Face veröffentlichte kürzlich das, was es angeblich ist größter KI-Trainingsdatensatz von synthetischem Text.
Die Generierung synthetischer Daten ist zu einem Geschäft für sich geworden – ein Geschäft, das es sein könnte Wert 2,34 Milliarden US-Dollar bis 2030. Gartner prognostiziert dass 60 % der in diesem Jahr für KI- und Analyseprojekte verwendeten Daten synthetisch generiert werden.
Luca Soldaini, leitender Forscher am Allen Institute for AI, stellte fest, dass synthetische Datentechniken verwendet werden können, um Trainingsdaten in einem Format zu generieren, das durch Scraping (oder sogar Inhaltslizenzierung) nicht einfach zu erhalten ist. Zum Beispiel beim Training Ihres Videogenerators FilmgeneratorMeta verwendete Llama 3, um Bildunterschriften für Filmmaterial in den Trainingsdaten zu erstellen, die die Menschen verfeinerten, um weitere Details hinzuzufügen, beispielsweise Beleuchtungsbeschreibungen.
In die gleiche Richtung gibt OpenAI an, dass es sich angepasst hat GPT-4o Verwendung synthetischer Daten zum Erstellen des Skizzenblocktyps Bildschirm Funktion für ChatGPT. Und Amazon hat sagte er das synthetische Daten generiert, um die realen Daten zu ergänzen, die es zum Trainieren von Spracherkennungsmodellen für Alexa verwendet.
„Synthetische Datenmodelle können verwendet werden, um die menschliche Intuition darüber, welche Daten benötigt werden, um ein bestimmtes Modellverhalten zu erreichen, schnell zu erweitern“, sagte Soldaini.
Synthetische Risiken
Allerdings sind synthetische Daten kein Allheilmittel. Sie leidet unter dem gleichen „Müll rein, Müll raus“-Problem wie alle KI. Modelle zu erstellen synthetische Daten, und wenn die zum Training dieser Modelle verwendeten Daten Verzerrungen und Einschränkungen aufweisen, werden ihre Ergebnisse gleichermaßen verfälscht. Beispielsweise werden Gruppen, die in den Basisdaten schlecht repräsentiert sind, auch in den synthetischen Daten schlecht repräsentiert.
„Das Problem ist, dass man nur eine begrenzte Menge tun kann“, sagte Keyes. „Angenommen, Sie haben nur 30 Schwarze in einem Datensatz. Eine Hochrechnung kann hilfreich sein, aber wenn diese 30 Personen alle der Mittelschicht angehören oder alle hellhäutig sind, sehen alle „repräsentativen“ Daten so aus.“
Bis hierher ein 2023 zu studieren Forscher der Rice University und der Stanford University fanden heraus, dass eine übermäßige Abhängigkeit von synthetischen Daten während des Trainings zu Modellen führen kann, deren „Qualität oder Vielfalt zunehmend abnimmt“. Die Stichprobenverzerrung – eine schlechte Darstellung der realen Welt – führt laut den Forschern dazu, dass die Diversität eines Modells nach einigen Generationen des Trainings schlechter wird (obwohl sie auch herausfanden, dass das Einmischen einiger Daten aus der realen Welt dazu beiträgt, dies zu mildern).
Keyes sieht zusätzliche Risiken in komplexen Modellen wie o1 von OpenAI, die seiner Meinung nach zu Ergebnissen führen könnten, die schwerer zu erkennen sind Halluzinationen in Ihren synthetischen Daten. Diese wiederum könnten die Genauigkeit der auf den Daten trainierten Modelle verringern – insbesondere wenn die Quellen der Halluzinationen nicht leicht zu identifizieren sind.
„Komplexe Modelle halluzinieren; „Die von komplexen Modellen erzeugten Daten enthalten Halluzinationen“, fügte Keyes hinzu. „Und bei einem Modell wie o1 können Entwickler selbst nicht unbedingt erklären, warum Artefakte auftreten.“
Die Kombination von Halluzinationen kann dazu führen, dass Models Unsinn von sich geben. EINS zu studieren Die in der Fachzeitschrift „Nature“ veröffentlichte Studie enthüllt, wie Modelle, die auf fehlerbehafteten Daten trainiert werden, generieren noch mehr fehlerbehaftete Daten und wie diese Rückkopplungsschleife zukünftige Modellgenerationen beeinträchtigt. Forscher haben herausgefunden, dass Modelle im Laufe der Generationen ihr Verständnis für esoterischeres Wissen verlieren – sie werden allgemeiner und liefern oft irrelevante Antworten auf die ihnen gestellten Fragen.
Ein Nachtrag zu studieren zeigt, dass andere Arten von Modellen, wie z. B. Bildgeneratoren, nicht immun gegen diese Art von Zusammenbruch sind:
Soldaini stimmt zu, dass „rohen“ synthetischen Daten nicht vertraut werden sollte, zumindest wenn das Ziel darin besteht, das Training vergessener Chatbots und homogener Bildgeneratoren zu vermeiden. Der „sichere“ Einsatz erfordere seiner Meinung nach eine gründliche Überprüfung, Kuratierung und Filterung sowie idealerweise die Kombination mit neuen, realen Daten – genau wie bei jedem anderen Datensatz.
Geschieht dies nicht, könnte es irgendwann passieren zum Zusammenbruch des Modells führenwo ein Modell in seinen Ergebnissen weniger „kreativ“ – und voreingenommener – wird, was schließlich seine Funktionalität ernsthaft beeinträchtigt. Obwohl dieser Prozess erkannt und gestoppt werden kann, bevor er ernst wird, stellt er ein Risiko dar.
„Forscher müssen die generierten Daten untersuchen, den Generierungsprozess wiederholen und Sicherheitsmaßnahmen identifizieren, um Datenpunkte von geringer Qualität zu entfernen“, sagte Soldaini. „Synthetische Datenpipelines sind keine sich selbst verbessernde Maschine; Seine Ergebnisse müssen sorgfältig überprüft und verbessert werden, bevor sie für das Training verwendet werden.“
Sam Altman, CEO von OpenAI, argumentierte einmal, dass K.I. eines Tages Erstellen Sie synthetische Daten, die gut genug sind, um sich effektiv zu trainieren. Aber – vorausgesetzt, das ist machbar – die Technologie existiert noch nicht. Kein großes KI-Labor hat ein trainiertes Modell veröffentlicht nur auf synthetischen Daten.
Zumindest auf absehbare Zeit scheint es, dass wir informierte Menschen brauchen werden irgendwo um sicherzustellen, dass das Training eines Modells nicht schief geht.
TechCrunch hat einen KI-fokussierten Newsletter! Melden Sie sich hier an um es jeden Mittwoch in Ihrem Posteingang zu erhalten.
Update: Diese Geschichte wurde ursprünglich am 23. Oktober veröffentlicht und am 24. Dezember mit weiteren Informationen aktualisiert.