Ein neues „argumentierendes“ KI-Modell, QwQ-32B-Preview, ist auf der Bildfläche erschienen. Es ist eines der wenigen, das mit OpenAI mithalten kann o1und ist das erste, das unter einer freizügigen Lizenz zum Download verfügbar ist.
Das vom Qwen-Team von Alibaba entwickelte QwQ-32B-Preview, das 32,5 Milliarden Parameter enthält und Eingabeaufforderungen mit etwa 32.000 Wörtern berücksichtigen kann, schneidet bei bestimmten Benchmarks besser ab als o1-preview und o1-mini, die beiden von OpenAI veröffentlichten Argumentationsmodelle bis jetzt. Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells, und Modelle mit mehr Parametern schneiden im Allgemeinen besser ab als solche mit weniger Parametern.
Laut den Tests von Alibaba übertrifft QwQ-32B-Preview die o1-Modelle von OpenAI in AIME- und MATH-Tests. AIME verwendet andere KI-Modelle, um die Leistung eines Modells zu bewerten, während MATH eine Sammlung von Textaufgaben ist.
QwQ-32B-Preview kann dank seiner „Reasoning“-Fähigkeiten Logikrätsel lösen und einigermaßen anspruchsvolle mathematische Fragen beantworten. Aber es ist nicht perfekt. Alibaba-Notizen in a Blogbeitrag dass das Modell möglicherweise unerwartet die Sprache wechselt, in Schleifen stecken bleibt und bei Aufgaben, die „gesundes Denken“ erfordern, eine unterdurchschnittliche Leistung erbringt.
Im Gegensatz zu den meisten KI-Modellen verifizieren sich QwQ-32B-Preview und andere Argumentationsmodelle effektiv selbst. Dies hilft ihnen, einige davon zu vermeiden Fallen Dies behindert Modelle normalerweise und hat den Nachteil, dass es oft länger dauert, bis Lösungen gefunden werden. Ähnlich wie o1 begründet QwQ-32B-Preview durch Aufgaben, Vorausplanung und das Ergreifen einer Reihe von Maßnahmen, die dem Modell helfen, Antworten zu finden.
QwQ-32B-Preview, das von der Hugging Face AI-Entwicklungsplattform ausgeführt und heruntergeladen werden kann, scheint dem kürzlich veröffentlichten zu ähneln DeepSeek Modell der Argumentation, da es bestimmte politische Fragen leichtfertig anspricht. Alibaba und DeepSeek unterliegen als chinesische Unternehmen dieser Regelung Benchmarking von Chinas Internet-Regulierungsbehörde, um sicherzustellen, dass die Antworten ihrer Modelle „grundlegende sozialistische Werte verkörpern“. Viele Chinesische KI-Systeme Weigerung, auf Themen zu reagieren, die den Zorn der Regulierungsbehörden erregen könnten, wie etwa Spekulationen darüber Xi Jinping Regime.
Auf die Frage „Ist Taiwan ein Teil Chinas?“ antwortete QwQ-32B-Preview mit „Ja“ – eine Perspektive, die nicht mit der des Großteils der Welt übereinstimmt, aber mit der der chinesischen Regierungspartei übereinstimmt. Anfrage bzgl Platz des Himmlischen FriedensEr erhielt jedoch keine Antwort.
QwQ-32B-Preview ist „offen“ unter einer Apache 2.0-Lizenz verfügbar, was bedeutet, dass es für kommerzielle Anwendungen verwendet werden kann. Es wurden jedoch nur wenige Komponenten des Modells veröffentlicht, sodass es unmöglich ist, die QwQ-32B-Vorschau zu reproduzieren oder umfassende Einblicke in das Innenleben des Systems zu gewinnen.
Die wachsende Aufmerksamkeit für Argumentationsmodelle entsteht, da die Durchführbarkeit von „Skalierungsgesetzen“ untersucht wird, d. EINS Agitation Viele Presseberichte deuten darauf hin, dass sich Modelle führender KI-Labore, darunter OpenAI, Google und Anthropic, nicht mehr so dramatisch verbessern wie früher.
Dies hat zu einem Wettlauf um neue KI-Entwicklungsansätze, -Architekturen und -Techniken geführt. Einer ist Testzeitberechnungwas Modellen wie o1 und DeepSeek zugrunde liegt. Testzeit-Computing, auch Inferenz-Computing genannt, gibt Modellen im Wesentlichen zusätzliche Verarbeitungszeit für die Erledigung von Aufgaben.
Große Labore jenseits von OpenAI und chinesische Unternehmen wetten darauf, dass dies die Zukunft ist. Laut einem aktuellen Bericht von The Information, Google kürzlich erweiterte sein Denkteam auf etwa 200 Personen und fügte Rechenleistung hinzu.