Nach fast zweiwöchigen Ankündigungen schloss OpenAI seine Livestream-Reihe „12 Days of OpenAI“ mit einer Vorschau auf sein Grenzmodell der nächsten Generation ab. „Aus Respekt vor Freunden bei Telefónica (Eigentümer des O2-Mobilfunknetzes in Europa) und in der großen Tradition, dass OpenAI wirklich sehr, sehr schlecht mit Namen umgehen kann, heißt es o3“, sagte OpenAI-CEO Sam Altman den Zuschauern des Videos. Ankündigung auf YouTube.
Das neue Modell ist noch nicht für den öffentlichen Einsatz bereit. Stattdessen stellt OpenAI o3 zuerst Forschern zur Verfügung, die Hilfe benötigen Sicherheitsprüfung. OpenAI gab außerdem die Existenz von o3-mini bekannt. Altman sagte, das Unternehmen plane, dieses Modell „etwa Ende Januar“ auf den Markt zu bringen, o3 folgt „kurz danach“.
Wie zu erwarten ist, bietet o3 im Vergleich zu seinem Vorgänger eine verbesserte Leistung, aber wie viel besser es als o1 ist, ist hier das Hauptmerkmal. Zum Beispiel, wenn es dieses Jahr weitergeht American Invitational Mathe-Prüfungo3 erreichte einen Genauigkeitswert von 96,7 Prozent. O1 hingegen erhielt mit 83,3 Prozent eine bescheidenere Bewertung. „Das bedeutet, dass o3 oft nur eine Frage übersieht“, sagte Mark Chen, Senior Vice President für Forschung bei OpenAI. Tatsächlich schnitt o3 bei den üblichen Benchmarks, denen OpenAI seine Modelle unterzieht, so gut ab, dass das Unternehmen anspruchsvollere Tests finden musste, mit denen es verglichen werden konnte.
Einer von ihnen ist ARC AGIein Benchmark, der die Fähigkeit eines KI-Algorithmus testet, spontan zu verstehen und zu lernen. Nach Angaben des Erstellers des Tests handelt es sich um eine gemeinnützige Organisation ARC-PreisEin KI-System, das ARC-AGI erfolgreich besiegen könnte, würde „einen wichtigen Meilenstein in Richtung künstlicher allgemeiner Intelligenz“ darstellen. Seit seinem Debüt im Jahr 2019 hat kein KI-Modell ARC-AGI besiegt. Der Test besteht aus Input-Output-Fragen, die die meisten Menschen intuitiv verstehen können. Im obigen Beispiel wäre die richtige Antwort beispielsweise, Quadrate aus den vier Polyominoes mit dunkelblauen Blöcken zu erstellen.
In der Low-Rechner-Umgebung erreichte o3 im Test 75,7 Prozent. Mit zusätzlicher Rechenleistung erreichte das Modell einen Wert von 87,5 Prozent. „Die menschliche Leistung ist bei der 85-Prozent-Schwelle vergleichbar, daher ist es ein wichtiger Meilenstein, darüber zu liegen“, sagte Greg Kamradt, Präsident der ARC Prize Foundation.
OpenAI zeigte auch o3-mini. Das neue Modell nutzt die kürzlich angekündigte Adaptive Thinking Time API von OpenAI, um drei verschiedene Argumentationsmodi bereitzustellen: Niedrig, Mittel und Hoch. In der Praxis können Benutzer so einstellen, wie lange die Software über ein Problem „nachdenkt“, bevor sie eine Antwort liefert. Wie Sie in der Grafik oben sehen können, kann o3-mini Ergebnisse erzielen, die mit dem aktuellen o1-Argumentationsmodell von OpenAI vergleichbar sind, jedoch zu einem Bruchteil der Rechenkosten. Wie bereits erwähnt, wird o3-mini vor o3 für die öffentliche Nutzung verfügbar sein.