Start IT/Tech Selbst einige der besten KIs können diesen neuen Maßstab nicht übertreffen

IT/Tech

Selbst einige der besten KIs können diesen neuen Maßstab nicht übertreffen

Von

23 Januar 2025

Das gemeinnützige Center for AI Safety (CAIS) und Scale AI, ein Unternehmen, das eine Reihe von Datenkennzeichnungs- und KI-Entwicklungsdiensten anbietet, haben ein gestartet herausfordernder neuer Maßstab für Grenz-KI-Systeme.

Der Benchmark mit dem Namen „Die letzte Prüfung der Menschheit“ umfasst Tausende von Crowdsourcing-Fragen zu Themen wie Mathematik, Geistes- und Naturwissenschaften. Um die Beurteilung zu erschweren, liegen die Fragen in unterschiedlichen Formaten vor, darunter auch Formate, die Diagramme und Bilder enthalten.

In einem VorstudieKein einziges öffentlich verfügbares Flaggschiff-KI-System hat es geschafft, beim Last Exam for Humanity besser als 10 % abzuschneiden.

CAIS und Scale AI planen, den Benchmark für die Forschungsgemeinschaft zu öffnen, damit Forscher „tiefer in Variationen eintauchen“ und neue KI-Modelle bewerten können.

Quelle link

Selbst einige der besten KIs können diesen neuen Maßstab nicht übertreffen

Kommentieren Sie den Artikel Antwort abbrechen

Kategorie

Verwandte ArtikelMehr vom Autor

Spotify-Aktien steigen! Investoren machen mutige Schritte

Am Morgen danach: Alles, was Samsung diese Woche angekündigt hat (und zukünftige Geräte geplagt)

Rote Karten von Einwanderung: Das Internet trifft sich, um eine Community ohne Papiere zu schützen

Kommentieren Sie den Artikel Antwort abbrechen

Kategorie

Verwandte Artikel Mehr vom Autor