Start IT/Tech Will Smith isst Spaghetti und andere seltsame KI-Benchmarks, die im Jahr 2024...

Will Smith isst Spaghetti und andere seltsame KI-Benchmarks, die im Jahr 2024 durchstarten

23
0
Will Smith spaghetti AI video

Wenn ein Unternehmen einen neuen KI-Videogenerator auf den Markt bringt, dauert es nicht lange, bis jemand damit ein Video erstellt, in dem der Schauspieler Will Smith Spaghetti isst.

Es ist so etwas wie ein Meme und eine Referenz geworden: um zu sehen, ob ein neuer Videogenerator Smith realistisch darstellen kann, wie er eine Schüssel Nudeln schluckt. Smith selbst parodiert den Trend in einem Instagram-Post im Februar.

Will Smith und die Massen sind nur einer von mehreren bizarre „inoffizielle“ Benchmarks um im Jahr 2024 die KI-Community zu erobern. Ein 16-jähriger Entwickler hat eine App entwickelt, die der KI die Kontrolle über Minecraft gibt und ihre Fähigkeit testet, Strukturen zu entwerfen. An anderer Stelle hat ein britischer Programmierer eine Plattform geschaffen, auf der KI Spiele wie Pictionary und Connect 4 gegeneinander spielt.

Es ist nicht so, dass es keine akademischen Tests zur KI-Leistung mehr gäbe. Warum explodierten die seltsamsten Exemplare?

Bildnachweis:Paulo Calcraft

Zum einen sagen viele der branchenüblichen KI-Benchmarks dem Durchschnittsbürger nicht viel. Unternehmen berufen sich häufig auf die Fähigkeit ihrer KI, Fragen bei Mathematikolympiade-Prüfungen zu beantworten oder plausible Lösungen für Probleme auf Doktorandenebene zu finden. Allerdings nutzen die meisten Menschen – Sie eingeschlossen – Chatbots für Dinge wie Beantwortung von E-Mails und einfachen Suchanfragen.

Die Maßnahmen der Crowdsourcing-Branche sind nicht unbedingt besser oder aussagekräftiger.

Nehmen wir zum Beispiel Chatbot-Arenaeine öffentliche Referenz, der viele KI-Enthusiasten und Entwickler wie besessen folgen. Chatbot Arena ermöglicht es jedem im Web, die KI-Leistung bei bestimmten Aufgaben zu bewerten, etwa beim Erstellen einer Web-App oder beim Generieren eines Bildes. Aber Gutachter sind in der Regel nicht repräsentativ – die meisten kommen aus Kreisen der KI- und Technologiebranche – und stimmen auf der Grundlage persönlicher, schwer zu definierender Präferenzen ab.

LMSYS
Die Chatbot Arena-Schnittstelle.Bildnachweis:LMSYS

Wharton-Managementprofessor Ethan Mollick hob kürzlich in einem hervor: veröffentlichen in X ein weiteres Problem bei vielen Benchmarks der KI-Branche: Sie vergleichen die Leistung eines Systems nicht mit der einer durchschnittlichen Person.

„Die Tatsache, dass es nicht 30 verschiedene Referenzen von verschiedenen Organisationen in den Bereichen Medizin, Recht, Beratungsqualität usw. gibt, ist wirklich schade, da die Leute trotzdem Systeme für diese Dinge verwenden“, schrieb er.

Seltsame KI-Benchmarks wie Connect 4, Minecraft und Will Smith, der Spaghetti isst, sind es sicherlich NEIN empirisch – oder sogar verallgemeinerbar. Nur weil eine KI Will Smiths Test richtig macht, heißt das nicht, dass sie beispielsweise einen guten Burger hervorbringt.

Mcbank
Beachten Sie den Tippfehler; Es gibt kein Modell wie Claude 3.6 Sonnet.Bildnachweis:Adonis Singh

Ein Experte, mit dem ich über KI-Benchmarks gesprochen habe, schlug vor, dass sich die KI-Community auf die nachgelagerten Auswirkungen der KI konzentrieren sollte und nicht auf ihre Fähigkeiten in engen Bereichen. Das ist vernünftig. Aber ich habe das Gefühl, dass seltsame Benchmarks nicht so schnell verschwinden werden. Sie machen nicht nur Spaß – wer liebt es nicht, der KI beim Burgenbau in Minecraft zuzusehen? – aber sie sind leicht zu verstehen. Und wie mein Kollege Max Zeff Ich habe kürzlich darüber geschriebenDie Branche kämpft weiterhin darum, eine so komplexe Technologie wie KI in verständliches Marketing umzuwandeln.

Die einzige Frage, die mir im Kopf herumschwirrt, ist: Welche seltsamen neuen Benchmarks werden im Jahr 2025 viral gehen?



Quelle link