Das gemeinnützige Center for AI Safety (CAIS) und Scale AI, ein Unternehmen, das eine Reihe von Datenkennzeichnungs- und KI-Entwicklungsdiensten anbietet, haben ein gestartet herausfordernder neuer Maßstab für Grenz-KI-Systeme.
Der Benchmark mit dem Namen „Die letzte Prüfung der Menschheit“ umfasst Tausende von Crowdsourcing-Fragen zu Themen wie Mathematik, Geistes- und Naturwissenschaften. Um die Beurteilung zu erschweren, liegen die Fragen in unterschiedlichen Formaten vor, darunter auch Formate, die Diagramme und Bilder enthalten.
In einem VorstudieKein einziges öffentlich verfügbares Flaggschiff-KI-System hat es geschafft, beim Last Exam for Humanity besser als 10 % abzuschneiden.
CAIS und Scale AI planen, den Benchmark für die Forschungsgemeinschaft zu öffnen, damit Forscher „tiefer in Variationen eintauchen“ und neue KI-Modelle bewerten können.