Start IT/Tech Xai hat wegen Grok 3 Benchmarks gelogen?

Xai hat wegen Grok 3 Benchmarks gelogen?

12
0
The xAI Grok AI logo

Die Debatten über KI -Benchmarks – und wie sie von AI Laboratories gemeldet werden -, werden sich in die Sichtweise der Öffentlichkeit verwandeln.

Diese Woche ein OpenAI -Mitarbeiter beschuldigt Elon Musks KI-Firma Xai, um irreführende Ergebnisse für sein jüngstes KI-Modell, Grok 3. Einer der Mitbegründer von Xai, Igor Babushkin, zu veröffentlichen, veröffentlichen darauf bestanden dass das Unternehmen auf der rechten Seite war.

Die Wahrheit ist irgendwo in der Mitte.

In einem Beitrag im Blog de xaiDas Unternehmen veröffentlichte ein Diagramm, das die Leistung von GROK 3 bei Aime 2025 zeigt, eine Sammlung von herausfordernden Mathematikfragen aus einer kürzlich durchgeführten Prüfung für Invitational Mathematics. Einige Experten haben Befragte Aimes Gültigkeit als Referenz von AI. Aime 2025 und ältere Testversionen werden jedoch häufig verwendet, um die mathematische Kapazität eines Modells zu untersuchen.

Das Diagramm von XAI zeigte zwei Varianten von GROK 3, GROK 3 Beta -Argumentation und GROK 3 Mini -Argumentation, die das Modell mit der besten Aufführung von OpenAI überwinden. O3-mini-altoBei Aime 2025. OpenAI-Mitarbeiter in X haben schnell darauf hingewiesen, dass Xais Graph in „Contras@64“ keine O3-mini-hohe Aime 2025-Punktzahl enthielt.

Was ist Cons@64, können Sie fragen? Nun, es wird für „Consensus@64“ abgekürzt und bietet im Grunde ein 64 -Modell, um auf jedes Problem in einer Referenz zu reagieren und führt häufiger als die endgültigen Antworten zu den Antworten. Wie Sie sich vorstellen können, erhöht Cons@64 die Referenzwerte der Modelle erheblich, und das Auslassen eines Diagramms kann so aussehen, dass ein Modell ein anderes übertrifft, wenn dies tatsächlich nicht der Fall ist.

GROK 3 Aufzucht beta und grok 3 mini-raciocinationale Ergebnisse für Aime 2025 in „@1“-was bedeutet, dass die erste Punktzahl, die die in der Referenz erhaltenen Modelle unter dem O3-Mini-hohen Score erhielten. Grok 3 Rocium Beta folgt auch immer so seltsam hinter Openai’s, Modell O1 Definieren als „Durchschnitt“ des Computers. Xai ist jedoch Grok 3 Werbung Wie der „intelligentere in der Welt“.

PABUSHKIN in x gestritten Dieser Openai hat in der Vergangenheit eine Referenzgrafik veröffentlicht, die der Täuschung ähnelt – obwohl die Grafiken die Leistung ihrer eigenen Modelle verglichen. Eine neutralere Party in der Debatte hat ein „genaueres“ Diagramm eingerichtet, das fast alle Leistungsmodelle in Cons@64 zeigt:

Aber als Forscher von Nathan Lambert in einem Beitrag darauf hingewiesenDie vielleicht wichtigste Metrik bleibt ein Rätsel: die rechnerischen (und monetären) Kosten, die für jedes Modell erforderlich sind, um seine beste Punktzahl zu erzielen. Dies zeigt, wie wenig KI -Benchmarks über die Grenzen von Modellen und über ihre Stärken kommunizieren.



Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein