Start IT/Tech Selbst einige der besten KIs können diesen neuen Maßstab nicht übertreffen

Selbst einige der besten KIs können diesen neuen Maßstab nicht übertreffen

9
0
Human hand and robotic hand reaching toward each other and touching fingertips a la Sistine Chapel

Das gemeinnützige Center for AI Safety (CAIS) und Scale AI, ein Unternehmen, das eine Reihe von Datenkennzeichnungs- und KI-Entwicklungsdiensten anbietet, haben ein gestartet herausfordernder neuer Maßstab für Grenz-KI-Systeme.

Der Benchmark mit dem Namen „Die letzte Prüfung der Menschheit“ umfasst Tausende von Crowdsourcing-Fragen zu Themen wie Mathematik, Geistes- und Naturwissenschaften. Um die Beurteilung zu erschweren, liegen die Fragen in unterschiedlichen Formaten vor, darunter auch Formate, die Diagramme und Bilder enthalten.

In einem VorstudieKein einziges öffentlich verfügbares Flaggschiff-KI-System hat es geschafft, beim Last Exam for Humanity besser als 10 % abzuschneiden.

CAIS und Scale AI planen, den Benchmark für die Forschungsgemeinschaft zu öffnen, damit Forscher „tiefer in Variationen eintauchen“ und neue KI-Modelle bewerten können.

Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein