Das Anthropen verwendete Pokémon, um sein neuestes KI -Modell zu vergleichen. Ja, wirklich.
In einem Blog veröffentlichen Anthropic veröffentlicht am Montag, sagte es, es habe sein jüngstes Modell getestet. Claude 3.7 SonettIm Game Boy Classic Pokémon Red hat das Unternehmen das Modell mit grundlegenden Speicher ausgestattet, Bildschirmpixel- und Funktionsaufrufe, um Tasten zu drücken und den Bildschirm zu durchsuchen, sodass es das Pokémon kontinuierlich abspielen kann.
Ein einzigartiges Merkmal von Claude 3.7 Sonett ist seine Fähigkeit, sich an „erweitertem Denken“ zu beteiligen. Wie OpenAI O3-Mini und Deepsek R1 können Claude 3.7 Sonette durch anspruchsvolle Probleme „begründen“, indem sie mehr Computer anwenden und mehr Zeit in Anspruch nehmen.
Dies war anscheinend in Pokémon Red nützlich.
Im Vergleich zu einer früheren Version von Claude, Claude 3.0 Sonnets, die das Haus in der Palettenstadt nicht verlassen hatten, in der die Geschichte beginnt, kämpfte Claude 3.7 Sonette erfolgreich mit drei Pokémon -Gymnastikleitern und schlug seine Abzeichen.
Jetzt ist unklar, wie viel Computer es für Claude, 3,7 Sonette, diese Meilensteine erreicht hat – und wie lange jeweils jeweils dauerte. Anthropic sagte nur, dass das Modell 35.000 Aktionen durchgeführt hat, um den letzten Anführer des Fitnessstudio zu erreichen.
Sicherlich wird es nicht lange dauern, bis ein Unternehmerentwickler es herausfindet.
Pokémon Red ist eher ein Spielzeug -Benchmark als alles andere. Dort jedoch Und Eine lange Geschichte von Spielen, die für KI -Benchmarking -Zwecke verwendet werden. Allein in den letzten Monaten haben sich mehrere neue Apps und Plattformen entstand Straßenkämpfer Zu Bildend.