Letzten Monat sagten AI-Gründer und -Investoren gegenüber TechCrunch, dass wir uns jetzt in der „zweite Ära der Skalierungsgesetze,” und stellte fest, dass etablierte Methoden zur Verbesserung von KI-Modellen sinkende Erträge zeigten. Eine vielversprechende neue Methode, mit der ihrer Meinung nach Gewinne aufrechterhalten werden könnten, war „Testzeitplanung“, was offenbar der Grund für die Leistung von ist OpenAI o3-Modell – aber es hat seine eigenen Nachteile.
Ein Großteil der KI-Welt betrachtete die Ankündigung des o3-Modells von OpenAI als Beweis dafür, dass der KI-Skalierungsfortschritt nicht „an eine Wand gestoßen“ ist. Das o3-Modell schneidet in Benchmarks gut ab, übertrifft alle anderen Modelle in einem allgemeinen Fähigkeitstest namens ARC-AGI deutlich und erreicht 25 % in einem schwieriger Mathetest dass kein anderes KI-Modell mehr als 2 % erzielte.
Natürlich nehmen wir bei TechCrunch das alles mit Vorsicht, bis wir o3 selbst testen können (das haben bisher nur sehr wenige ausprobiert). Doch schon vor dem Start von o3 ist die KI-Welt davon überzeugt, dass sich etwas Großes verändert hat.
Noam Brown, Mitschöpfer der o-Modellreihe von OpenAI, bemerkte am Freitag, dass das Startup die beeindruckenden Gewinne von o3 nur drei Monate nach der Bekanntgabe von o1 bekannt gibt – ein relativ kurzer Zeitrahmen für einen solchen Leistungssprung.
„Wir haben allen Grund zu der Annahme, dass sich dieser Trend fortsetzen wird“, sagte Brown in einer Erklärung. twittern.
Anthropic-Mitbegründer Jack Clark sagte in einem Blogbeitrag am Montag, dass o3 ein Beweis dafür ist, dass „der KI-Fortschritt im Jahr 2025 schneller sein wird als im Jahr 2024.“ (Denken Sie daran, dass es für Anthropic von Vorteil ist – insbesondere für seine Fähigkeit, Kapital zu beschaffen –, vorzuschlagen, dass die KI-Skalierungsgesetze fortbestehen, auch wenn Clark einen Konkurrenten ergänzt.)
Clark sagt, dass die KI-Welt im kommenden Jahr Testzeitskalierung und traditionelle Skalierungsmethoden vor dem Training zusammenführen wird, um noch mehr Erträge aus KI-Modellen zu erzielen. Vielleicht schlägt er vor, dass Anthropic und andere Anbieter von KI-Modellen im Jahr 2025 ihre eigenen Argumentationsmodelle veröffentlichen werden Google hat es letzte Woche getan.
Die Skalierung der Testzeit bedeutet, dass OpenAI während der ChatGPT-Inferenzphase, dem Zeitraum, nachdem Sie an einer Eingabeaufforderung die Eingabetaste gedrückt haben, mehr Rechenleistung verbraucht. Es ist unklar, was genau hinter den Kulissen vor sich geht: OpenAI verwendet mehr Computerchips, um die Frage eines Benutzers zu beantworten, führt leistungsstärkere Inferenzchips aus oder lässt diese Chips über längere Zeiträume – in manchen Fällen 10 bis 15 Minuten – laufen, bevor die KI erzeugt eine Antwort. Wir kennen nicht alle Details darüber, wie o3 erstellt wurde, aber diese Benchmarks sind die ersten Anzeichen dafür, dass die Testzeitskalierung dazu beitragen kann, die Leistung von KI-Modellen zu verbessern.
Während o3 möglicherweise neuen Glauben an den Fortschritt der KI-Skalierungsgesetze weckt, verwendet das neueste Modell von OpenAI auch ein noch nie dagewesenes Rechenniveau, was einen höheren Preis pro Antwort bedeutet.
„Vielleicht besteht die einzige wichtige Einschränkung hier darin, zu verstehen, dass einer der Gründe, warum O3 so viel besser ist, darin besteht, dass die Ausführung zur Inferenzzeit mehr Geld kostet – die Möglichkeit, Berechnungen während der Testzeit zu nutzen, bedeutet, dass man bei manchen Problemen das Rechnen in ein Problem verwandeln könnte.“ bessere Antwort“, schreibt Clark in seinem Blog. „Das ist interessant, weil dadurch die Kosten für den Betrieb von KI-Systemen etwas weniger vorhersehbar geworden sind – bisher war es möglich, die Kosten für die Bereitstellung eines generativen Modells zu berechnen, indem man sich einfach das Modell und die Kosten für die Generierung eines bestimmten Ergebnisses ansah.“ ”
Clark und andere verwiesen auf die Leistung von o3 beim ARC-AGI-Benchmark – einem schwierigen Test zur Bewertung von Fortschritten bei AGI – als Indikator für den Fortschritt. Es ist erwähnenswert, dass das Bestehen dieses Tests laut seinen Erstellern kein KI-Modell bedeutet erreicht AGI, sondern eher eine Möglichkeit, den Fortschritt auf dem Weg zu dem nebulösen Ziel zu messen. Allerdings übertraf das o3-Modell die Ergebnisse aller vorherigen KI-Modelle, die den Test durchführten, und erreichte in einem seiner Versuche 88 %. Das zweitbeste KI-Modell von OpenAI, o1, erzielte nur 32 %.
Aber die logarithmische x-Achse in diesem Diagramm könnte für einige alarmierend sein. Die Highscore-Version von o3 verbrauchte für jede Aufgabe Rechenleistung im Wert von über 1.000 US-Dollar. Die o1-Modelle verbrauchten Rechenleistung im Wert von etwa 5 US-Dollar pro Aufgabe, und das o1-mini verbrauchte nur ein paar Cent.
ARC-AGI-Benchmark-Erfinder François Chollet schreibt in einem Blog dass OpenAI etwa 170-mal mehr Rechenleistung benötigte, um diesen 88-Prozent-Wert zu erzielen, verglichen mit der hocheffizienten Version von o3, die nur 12 Prozent weniger Punkte erzielte. Die Version von o3 mit der höchsten Punktzahl verbrauchte mehr als 10.000 US-Dollar an Ressourcen, um den Test abzuschließen, was die Teilnahme am ARC-Preis – einem ungeschlagenen Wettbewerb für KI-Modelle um den Sieg im ARC-Test – sehr kostspielig macht.
Chollet sagt jedoch, dass o3 immer noch ein Durchbruch für KI-Modelle war.
„o3 ist ein System, das sich an noch nie dagewesene Aufgaben anpassen kann und im ARC-AGI-Bereich wohl an Leistung auf menschlicher Ebene herankommt“, sagte Chollet im Blog. „Natürlich ist eine solche Verallgemeinerung kostspielig und wäre immer noch nicht sehr kosteneffektiv: Man könnte einen Menschen für die Lösung von ARC-AGI-Aufgaben für etwa 5 US-Dollar pro Aufgabe bezahlen (wir wissen, das haben wir getan), während der Verbrauch nur Cent beträgt.“ Energie.
Es ist verfrüht, auf den genauen Preis all dessen einzugehen – wir haben gesehen, dass die Preise für KI-Modelle im letzten Jahr stark gesunken sind, und OpenAI hat noch nicht bekannt gegeben, wie viel das o3 tatsächlich kosten wird. Diese Preise zeigen jedoch, wie viel Rechenleistung erforderlich ist, um die Leistungsbarrieren der heute führenden KI-Modelle auch nur geringfügig zu durchbrechen.
Dies wirft einige Fragen auf. Wozu dient o3? Und wie viel mehr Rechenleistung ist erforderlich, um mit o4, o5 oder wie auch immer OpenAI seine nächsten Argumentationsmodelle nennt, mehr Vorteile bei der Inferenz zu erzielen?
Es sieht nicht so aus, als wären o3 oder seine Nachfolger jemandes „täglicher Treiber“ wie GPT-4o oder die Google-Suche. Diese Modelle verwenden viele Berechnungen, um im Laufe des Tages kleine Fragen zu beantworten, wie zum Beispiel: „Wie können die Cleveland Browns es noch in die Playoffs 2024 schaffen?“
Stattdessen scheint es, dass KI-Modelle mit zeitlich gestaffelter Berechnung möglicherweise nur für allgemeine Anfragen geeignet sind, wie zum Beispiel: „Wie können die Cleveland Browns im Jahr 2027 ein Super Bowl-Franchise werden?“ Dennoch lohnen sich die hohen Rechenkosten möglicherweise nur, wenn Sie der General Manager der Cleveland Browns sind und diese Tools nutzen, um wichtige Entscheidungen zu treffen.
Institutionen mit großen Ressourcen könnten zumindest anfangs die einzigen sein, die sich O3 leisten können, wie Wharton-Professor Ethan Mollick in einem Artikel feststellt. twittern.
Wir haben bereits gesehen, wie OpenAI a startete 200-Dollar-Stufe für die Nutzung einer High-Computing-Version von o1aber das Startup hat Berichten zufolge beteiligte sich das Unternehmen an der Erstellung von Abonnementplänen, die bis zu 2.000 US-Dollar kosten sollten. Wenn Sie sehen, wie viel Rechenleistung o3 verbraucht, können Sie verstehen, warum OpenAI dies in Betracht zieht.
Die Verwendung von o3 für anspruchsvolle Arbeiten hat jedoch auch Nachteile. Wie Chollet anmerkt, ist the3 kein AGI und versagt dennoch bei einigen sehr einfachen Aufgaben, die ein Mensch problemlos erledigen würde.
Dies ist nicht unbedingt überraschend, da es sich um große Sprachmodelle handelt Ich habe immer noch ein großes Halluzinationsproblemwas o3 und Testzeit-Computing offenbar nicht gelöst haben. Aus diesem Grund fügen ChatGPT und Gemini unter jeder von ihnen erstellten Antwort einen Haftungsausschluss ein und bitten die Benutzer, den Antworten nicht für bare Münze zu vertrauen. Vermutlich würde die AGI, wenn sie jemals erreicht würde, einen solchen Haftungsausschluss nicht benötigen.
Eine Möglichkeit, weitere Fortschritte bei der Testzeitskalierung zu erzielen, könnten bessere KI-Inferenzchips sein. Es gibt keinen Mangel an Startups wie Groq oder Cerebras, die sich genau damit befassen, während andere Startups kostengünstigere KI-Chips wie MatX entwickeln. Andreessen Horowitz General Partner Anjney Midha sagte dies zuvor gegenüber TechCrunch erwartet, dass diese Startups eine größere Rolle spielen werden bei der Skalierung der Testzeit für die Zukunft.
Während o3 eine bemerkenswerte Verbesserung der Leistung von KI-Modellen darstellt, wirft es mehrere neue Fragen zu Nutzung und Kosten auf. Allerdings verleiht die Leistung von o3 der Behauptung Glaubwürdigkeit, dass Testzeit-Computing der nächstbeste Weg der Technologiebranche zur Skalierung von KI-Modellen ist.