Die Liste seltsamer und informeller KI-Benchmarks wird immer länger.
In den letzten Tagen haben einige Mitglieder der KI-Community bei X werden besessen mit einem Test, wie unterschiedliche KI-Modelle, insbesondere sogenannte ArgumentationsmodelleGehen Sie mit Aufforderungen wie dieser um: „Schreiben Sie ein Python-Skript für einen gelben Ball, der in einer Form springt.“ Drehen Sie die Form langsam und achten Sie darauf, dass die Kugel in der Form bleibt.“
Einige Modelle schneiden bei diesem „Spinning-Ball“-Benchmark besser ab als andere. Entsprechend an einen Benutzer auf X, dem chinesischen KI-Labor DeepSeek kostenlos verfügbar R1 fegte den Boden mit OpenAIs o1 Profi-Moduswas im Rahmen des 200 $ pro Monat kostet OpenAI ChatGPT Pro-Plan.
👀 DeepSeek R1 (rechts) zerschmettert o1-pro (links) 👀
Eingabeaufforderung: „Schreiben Sie ein Python-Skript für einen gelben Ball, der innerhalb eines Quadrats springt, und stellen Sie sicher, dass Sie die Kollisionserkennung richtig handhaben.“ Lassen Sie das Quadrat langsam rotieren. Implementieren Sie es in Python. Stellen Sie sicher, dass der Ball im Quadrat bleibt. pic.twitter.com/3Sad9efpeZ
— Ivan Fioravanti ᯅ (@ivanfioravanti) 22. Januar 2025
Setzen ein weiteres X-PosterAnthropisch Sonett des Claudius 3.5 und Google Gemini 1.5 Pro Die Modelle haben die Physik falsch eingeschätzt, wodurch der Ball aus der Form gerutscht ist. Andere Benutzer berichtete, dass Google Gemini 2.0 Flash Experimenteller Gedankeund noch ältere von OpenAI GPT-4oHabe die Einschätzung auf einen Schlag richtig verstanden.
Wir haben 9 KI-Modelle anhand einer physikalischen Simulationsaufgabe getestet: rotierendes Dreieck + springender Ball. Ergebnisse:
🥇 Deepseek-R1
🥈 Riesiges Sonar
🥉 GPT-4oSchlechter? OpenAI o1: Die Aufgabe völlig falsch verstanden 😂
Video unten ↓ Erste Zeile = Argumentationsmodelle, Rest = Grundmodelle. pic.twitter.com/EOYrHvNazr
-Aadhithya D (@Aadhithya_D2003) 22. Januar 2025
Aber was beweist es, dass eine KI eine rotierende Form, die eine Kugel enthält, kodieren kann oder nicht?
Nun, einen springenden Ball zu simulieren ist eine Aufgabe Klassiker Zeitplan Herausforderung. Genaue Simulationen umfassen Kollisionserkennungsalgorithmen, die versuchen zu erkennen, wann zwei Objekte (z. B. ein Ball und die Seite einer Form) kollidieren. Schlecht geschriebene Algorithmen können die Simulationsleistung beeinträchtigen oder zu offensichtlichen physikalischen Fehlern führen.
Benutzer X n8programmeEin ansässiger Forscher beim KI-Startup Nous Research sagt, es habe etwa zwei Stunden gedauert, einen Ball, der auf einem rotierenden Siebeneck springt, von Grund auf zu programmieren. „Sie müssen mehrere Koordinatensysteme verfolgen, wie Kollisionen in jedem System entstehen, und den Code von Grund auf so entwerfen, dass er robust ist“, erklärte n8programs in einem veröffentlichen.
Aber während hüpfende Bälle und sich drehende Formen einen vernünftigen Test für Programmierkenntnisse darstellen, sind sie kein sehr empirischer KI-Benchmark. Selbst kleine Abweichungen in der Eingabeaufforderung können – und werden – zu unterschiedlichen Ergebnissen führen. Aus diesem Grund haben einige X-Report-Benutzer damit mehr Glück o1während andere sagen, dass R1 fällt zu kurz.
Tatsächlich weisen solche viralen Tests auf das unlösbare Problem hin, nützliche Messsysteme für KI-Modelle zu entwickeln. Es ist oft schwierig zu sagen, was ein Modell von einem anderen unterscheidet Esoterische Maßstäbe die für die meisten Menschen nicht relevant sind.
Es werden viele Anstrengungen unternommen, um bessere Tests zu entwickeln, z ARC-AGI-Referenz Und Die letzte Prüfung der Menschheit. Wir werden sehen, wie es läuft – und in der Zwischenzeit schauen wir uns GIFs von Bällen an, die in rotierenden Formen hüpfen.