Die Entwicklung sogenannter Reasoning-KI-Modelle wird immer einfacher – und kostengünstiger.
Am Freitag veröffentlichte NovaSky, ein Forscherteam am Sky Computing Lab der UC Berkeley, Sky-T1-32B-Preview, ein Argumentationsmodell, das mit a konkurriert vorherige Version von OpenAI o1 auf einer Reihe wichtiger Benchmarks. Sky-T1 scheint das erste wirklich offene Argumentationsmodell in dem Sinne zu sein, wie es sein kann von Grund auf repliziert; Das Team veröffentlichte den zum Training verwendeten Datensatz sowie den erforderlichen Trainingscode.
„Bemerkenswerterweise wurde Sky-T1-32B-Preview für weniger als 450 US-Dollar trainiert“, schrieb das Team in einer Erklärung. Blogbeitrag„Es wird gezeigt, dass es möglich ist, hochgradige Denkfähigkeiten auf zugängliche und effiziente Weise zu reproduzieren.“
Im Gegensatz zu den meisten KI-Modellen verifizieren sich Argumentationsmodelle selbst effektiv hilft ihnen, einige der Fallstricke zu vermeiden, die Models normalerweise zum Stolpern bringen. Reasoning-Modelle brauchen im Vergleich zu einem typischen Non-Reasoning-Modell etwas länger – typischerweise Sekunden bis Minuten länger – um zu Lösungen zu gelangen. Der Vorteil besteht darin, dass sie in Bereichen wie Physik, Naturwissenschaften und Mathematik tendenziell zuverlässiger sind.
Das NovaSky-Team behauptet, ein anderes Argumentationsmodell verwendet zu haben: Alibaba QwQ-32B Vorschauum die ersten Trainingsdaten für Sky-T1 zu generieren, dann den Datenmix zu „kuratieren“ und OpenAI zu nutzen GPT-4o-mini um die Daten in ein funktionaleres Format umzuwandeln. Das Training des Sky-T1 mit 32 Milliarden Parametern dauerte mit einem Rack aus 8 Nvidia H100-GPUs etwa 19 Stunden. (Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells.)
Nach Angaben des NovaSky-Teams schneidet der Sky-T1 in MATH500, einer Sammlung von Mathe-Herausforderungen auf „Wettbewerbsniveau“, besser ab als eine frühe Version des o1. Das Modell übertrifft auch die o1-Vorschau bei einem schwierigen Problemsatz von LiveCodeBench, einer Codierungsbewertung.
Allerdings bleibt Sky-T1 hinter der o1-Ansicht in GPQA-Diamond zurück, die Fragen zu Physik, Biologie und Chemie enthält, die ein Doktorand kennen sollte.
Es ist auch wichtig zu beachten, dass OpenAI GA-Version von o1 ist ein stärkeres Modell als die vorherige Version von o1, und OpenAI wird voraussichtlich ein Argumentationsmodell mit noch besserer Leistung veröffentlichen. o3in den kommenden Wochen.
Das NovaSky-Team sagt jedoch, dass Sky-T1 erst der Anfang seiner Reise zur Entwicklung von Open-Source-Modellen mit erweiterten Argumentationsfunktionen ist.
„In Zukunft werden wir uns auf die Entwicklung effizienterer Modelle konzentrieren, die eine starke Argumentationsleistung aufrechterhalten, und auf die Erforschung fortschrittlicher Techniken, die die Effizienz und Genauigkeit von Modellen zum Testzeitpunkt weiter verbessern“, schrieb das Team in dem Beitrag. „Bleiben Sie auf dem Laufenden, während wir bei diesen spannenden Initiativen Fortschritte machen.“