Start IT/Tech Diese Forscher verwendeten die Doming Breaker -Probleme am NPR -Sonntag, um IA...

Diese Forscher verwendeten die Doming Breaker -Probleme am NPR -Sonntag, um IA -Argumentationsmodelle zu vergleichen

8
0
Jetify startet TestPilot, sein Ai Qa da AI -Ingenieur

Jeden Sonntag wird der NPR -Moderator, das Kreuzworträtsel der New York Times, in einem langfristigen Segment namens Sunday Puzzle Tausende von Zuhörern erreicht. Während geschrieben, um ohne gelöst zu werden Auch Viel Vermutung, Weißesrs sind in der Regel eine Herausforderung, selbst für qualifizierte Wettbewerber.

Aus diesem Grund sind einige Experten der Meinung, dass sie eine vielversprechende Möglichkeit sind, die Grenzen der KI -Problemlösungsfähigkeiten zu testen.

In einem Neue StudieEin Team von Forschern, die vom Wellesley College, dem Oberlin College der University of Texas in Austin, der Northeastern University und dem Startup Cursor, stammten, kreierte eine IA -Benchmark, die Rätsel mit schwimmenden Schwimm Episoden trägt. Das Team sagt, dass ihre Tests erstaunliche Ideen wie sogenannte OpenAI-OpenII-Modelle entdecken, die manchmal „aufgeben“ und Antworten geben, von denen sie wissen, dass sie nicht korrekt sind.

„Wir wollten eine Referenz mit Problemen entwickeln, die Menschen nur mit allgemeinem Wissen verstehen können“, Arjun Guha, ein Abschluss in Informatik im Nordosten und einer der Co-Autoren der Studie, auf TechCrunch.

Die KI -Industrie ist momentan ein kleines Benchmarking. Die meisten Tests, die üblicherweise zur Bewertung der KI -Modelle Sonde für Fähigkeiten wie Kompetenz in Mathematik- und Doktorandenwissenschaften bewerten, die für den durchschnittlichen Benutzer nicht relevant sind. Inzwischen viele Benchmarks – sogar Benchmarks, die relativ kurz veröffentlicht wurden – Sie nähern sich schnell dem Sättigungspunkt.

Die Vorteile eines öffentlichen Radiospiels wie The Sunday Break besteht darin, dass es nicht das esoterische Wissen testet und Herausforderungen so formuliert werden, dass Modelle nicht auf dem „mechanischen Gedächtnis“ zur Lösung von Guha basieren.

„Ich denke, was diese Probleme schwierig macht, ist, dass es wirklich schwierig ist, erhebliche Fortschritte in einem Problem zu erzielen, bis Sie sie lösen – dann vereint sich alles gleichzeitig“, sagte Guha. „Dies erfordert eine Kombination aus Einsicht und einem Eliminierungsprozess.“

Natürlich ist keine Referenz perfekt. Das Puzzle am Sonntag konzentriert sich auf die USA und nur auf Englisch. Und da die Tests der Öffentlichkeit zur Verfügung stehen, ist es möglich, dass die Modelle in ihnen geschult wurden und in gewissem Sinne „betrügen“ können, obwohl Guha sagt, dass er keine Beweise dafür gesehen hat.

„Jede Woche werden neue Fragen veröffentlicht, und wir können erwarten, dass die neuesten Fragen wirklich unsichtbar sind“, fügte er hinzu. „Wir beabsichtigen, die Referenz frisch zu halten und wie die Leistung des Modells im Laufe der Zeit zu verfolgen.“

In der Referenz der Forscher, die aus etwa 600 Rätseln von Schwimmstämmen besteht, übertrafen Argumentation wie Modelle wie Deepsek O1 und R1 den Rest. Argumentationsmodelle überprüfen vollständig, bevor sie Ergebnisse liefern, was ihnen hilft Vermeiden Sie einige der Fallen Dies stolpert normalerweise auf KI -Modellen. Der Austausch ist, dass die Argumentationsmodelle etwas länger dauern, um zu Lösungen zu gelangen.

Mindestens ein Modell, Deepseeks R1, bietet Lösungen, von denen er weiß, wie man sich für einige der Sonntags -Puzzle -Fragen falsch macht. Der R1 wird buchstäblich „Ich geben auf“ an, gefolgt von einer falschen Antwort, die offenbar zufällig ausgewählt wurde – Verhalten, das dieser Mensch sicherlich erzählen kann.

Modelle treffen andere bizarre Entscheidungen, wie z. B. eine falsche Antwort zu geben, um sie sofort zu entfernen, versuchen Sie, einen besseren und wieder zu scheitern. Sie werden auch für immer „Denken“ verhaftet und geben bedeutungslose Erklärungen, um Antworten zu erhalten oder sofort eine korrekte Antwort zu erhalten. Betrachten Sie dann jedoch alternative Antworten ohne offensichtlichen Grund.

„In schwierigen Problemen sagt R1 buchstäblich, dass es ‚frustriert‘ wird,“ sagte Guha. „Es war lustig zu sehen, wie ein Model emula was ein Mensch sagen konnte. Es bleibt abzuwarten, wie „Frustration“ im Denken die Qualität der Modellergebnisse beeinflussen kann. ”

R1 wird in einer Frage am Set von Sonntag „frustriert“.Bildnachweis:Guha et al.

Das aktuelle Modell für die beste Leistung in Bezug auf die Referenz ist O1 mit einer Punktzahl von 59%, gefolgt von kürzlich veröffentlichtem kürzlich veröffentlicht O3-mini definiert als hohe „Argumentationsanstrengung“ (47%). (R1 hat 35%markiert.) Als nächster Schritt planen die Forscher, ihre Tests für zusätzliche Argumentationsmodelle zu erweitern, die erwarten, Bereiche zu identifizieren, in denen diese Modelle verbessert werden können.

NPR -Benchmark
Die Punktzahlen der Modelle, die das Team in seiner Referenz getestet hat.Bildnachweis:Guha et al.

„Sie brauchen keinen Promotion, um gut zu argumentieren. Daher sollte es möglich sein, Benchmarks zu entwerfen, für die kein Doktorwissen erforderlich ist“, sagte Guha. „Eine breitere Referenz mit breiterem Zugang ermöglicht es einem breiteren Satz von Forschern, die Ergebnisse zu verstehen und zu analysieren, was wiederum zu Zukunft zu besseren Lösungen führen kann. Da hochmoderne Modelle in Umgebungen, die alle betreffen, zunehmend implementiert werden, glauben wir außerdem, dass jeder in Betrieb ist, was diese Modelle sind-und keine Pfoten von Pfoten sind. „

Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein