Xai hat wegen Grok 3 Benchmarks gelogen?

Von

22 Februar 2025

Die Debatten über KI -Benchmarks – und wie sie von AI Laboratories gemeldet werden -, werden sich in die Sichtweise der Öffentlichkeit verwandeln.

Diese Woche ein OpenAI -Mitarbeiter beschuldigt Elon Musks KI-Firma Xai, um irreführende Ergebnisse für sein jüngstes KI-Modell, Grok 3. Einer der Mitbegründer von Xai, Igor Babushkin, zu veröffentlichen, veröffentlichen darauf bestanden dass das Unternehmen auf der rechten Seite war.

Die Wahrheit ist irgendwo in der Mitte.

In einem Beitrag im Blog de xaiDas Unternehmen veröffentlichte ein Diagramm, das die Leistung von GROK 3 bei Aime 2025 zeigt, eine Sammlung von herausfordernden Mathematikfragen aus einer kürzlich durchgeführten Prüfung für Invitational Mathematics. Einige Experten haben Befragte Aimes Gültigkeit als Referenz von AI. Aime 2025 und ältere Testversionen werden jedoch häufig verwendet, um die mathematische Kapazität eines Modells zu untersuchen.

Das Diagramm von XAI zeigte zwei Varianten von GROK 3, GROK 3 Beta -Argumentation und GROK 3 Mini -Argumentation, die das Modell mit der besten Aufführung von OpenAI überwinden. O3-mini-altoBei Aime 2025. OpenAI-Mitarbeiter in X haben schnell darauf hingewiesen, dass Xais Graph in „Contras@64“ keine O3-mini-hohe Aime 2025-Punktzahl enthielt.

Was ist Cons@64, können Sie fragen? Nun, es wird für „Consensus@64“ abgekürzt und bietet im Grunde ein 64 -Modell, um auf jedes Problem in einer Referenz zu reagieren und führt häufiger als die endgültigen Antworten zu den Antworten. Wie Sie sich vorstellen können, erhöht Cons@64 die Referenzwerte der Modelle erheblich, und das Auslassen eines Diagramms kann so aussehen, dass ein Modell ein anderes übertrifft, wenn dies tatsächlich nicht der Fall ist.

GROK 3 Aufzucht beta und grok 3 mini-raciocinationale Ergebnisse für Aime 2025 in „@1“-was bedeutet, dass die erste Punktzahl, die die in der Referenz erhaltenen Modelle unter dem O3-Mini-hohen Score erhielten. Grok 3 Rocium Beta folgt auch immer so seltsam hinter Openai’s, Modell O1 Definieren als „Durchschnitt“ des Computers. Xai ist jedoch Grok 3 Werbung Wie der „intelligentere in der Welt“.

PABUSHKIN in x gestritten Dieser Openai hat in der Vergangenheit eine Referenzgrafik veröffentlicht, die der Täuschung ähnelt – obwohl die Grafiken die Leistung ihrer eigenen Modelle verglichen. Eine neutralere Party in der Debatte hat ein „genaueres“ Diagramm eingerichtet, das fast alle Leistungsmodelle in Cons@64 zeigt:

Lustig, wie einige Leute meine Verschwörung als Angriff auf OpenAI und andere als Angriff auf Grok sehen, während sie tatsächlich ihre Propaganda Deepseek
(Tatsächlich glaube ich, dass Grok dort gut aussieht und Openais TTC Chicinery hinter O3-mini-*hoch*-pass@”1 ″” ”” verdient mehr Prüfung.) https://t.co/djqljpcjh8 pic.twitter.com/3WH8FOUF

. 20. Februar 2025

Aber als Forscher von Nathan Lambert in einem Beitrag darauf hingewiesenDie vielleicht wichtigste Metrik bleibt ein Rätsel: die rechnerischen (und monetären) Kosten, die für jedes Modell erforderlich sind, um seine beste Punktzahl zu erzielen. Dies zeigt, wie wenig KI -Benchmarks über die Grenzen von Modellen und über ihre Stärken kommunizieren.

Quelle link

Xai hat wegen Grok 3 Benchmarks gelogen?

Kommentieren Sie den Artikel Antwort abbrechen

Kategorie

Verwandte ArtikelMehr vom Autor

Kaufen Sie Microsoft Office und Windows 11 Pro für das Leben für 55 US -Dollar

Könnte die Lucid Group der nächste Tesla sein? Deshalb summten Investoren

Kaufen Sie eine Kreditkarte, die Tracker für nur 30 US -Dollar abspricht

Kommentieren Sie den Artikel Antwort abbrechen

Kategorie

Verwandte Artikel Mehr vom Autor