Start IT/Tech Ein Test für AGI steht kurz vor der Lösung – aber er...

Ein Test für AGI steht kurz vor der Lösung – aber er könnte fehlerhaft sein

59
0
Robot sitting on a bunch of books

Ein bekannter Test für Künstliche allgemeine Intelligenz (AGI) steht kurz vor der Lösung. Die Testentwickler sagen jedoch, dass dies eher auf Mängel im Testdesign als auf einen echten Fortschritt in der Forschung hinweist.

Im Jahr 2019 François Cholleteine wichtige Persönlichkeit in der Welt der KI, stellte den ARC-AGI-Benchmark vor, kurz für „Abstract and Reasoning Corpus for Artificial General Intelligence“. Entwickelt, um zu bewerten, ob ein KI-System effizient neue Fähigkeiten außerhalb der Daten erwerben kann, auf denen es trainiert wurde. ARC-AGIbehauptet François, bleibt der einzige KI-Test, der Fortschritte in Richtung allgemeiner Intelligenz misst (obwohl andere wurden vorgeschlagen.)

Bis zu diesem Jahr konnte die leistungsstärkste KI nur knapp ein Drittel der Aufgaben von ARC-AGI lösen. Chollet machte die Konzentration der Branche auf große Sprachmodelle (LLMs) verantwortlich, die seiner Meinung nach nicht in der Lage seien, echte „Schlussfolgerungen“ zu ziehen.

„LLMs haben Schwierigkeiten mit der Verallgemeinerung, da sie vollständig auf das Auswendiglernen angewiesen sind“, sagt er. sagte er in einer Reihe von Beiträgen auf X im Februar. „Sie schauen sich alles an, was nicht in den Trainingsdaten enthalten war.“

Für Chollet sind LLMs statistische Maschinen. Anhand mehrerer Beispiele lernen sie Muster in diesen Beispielen, um Vorhersagen zu treffen, wie zum Beispiel „für wen“ in einer E-Mail typischerweise vor „könnte von Interesse sein“ steht.

Chollet gibt an, dass LLMs zwar in der Lage seien, sich „Denkmuster“ zu merken, es aber unwahrscheinlich sei, dass sie „neue Argumente“ auf der Grundlage neuartiger Situationen generieren könnten. „Wenn Sie viele Beispiele eines Musters lernen müssen, auch wenn es implizit ist, um eine wiederverwendbare Darstellung dafür zu lernen, müssen Sie es sich merken“, sagt Chollet argumentierte in einem anderen Beitrag.

Um die Forschung über LLMs hinaus zu fördern, startete Mike Knoop, Mitbegründer von Chollet und Zapier, im Juni ein 1-Millionen-Dollar-Programm Wettbewerb um Open-Source-KI zu entwickeln, die ARC-AGI schlagen kann. Von 17.789 Einsendungen erzielte der Beste eine Punktzahl von 55,5 % – rund 20 % über dem Top-Scorer von 2023, allerdings unter der für den Sieg erforderlichen 85 % „menschlichen Ebene“.

„Das bedeutet nicht, dass wir AGI etwa 20 % näher sind“, sagt Knoop.

In einem BlogbeitragKnoop sagte, dass viele der bei ARC-AGI eingereichten Beiträge „brutale Gewalt“ anwenden konnten, um zu einer Lösung zu gelangen, was darauf hindeutet, dass ein „großer Teil“ der ARC-AGI-Aufgaben „nicht viele nützliche Signale für die Gesamtentwicklung enthalten“. Intelligenz.“

ARC-AGI besteht aus rätselartigen Problemen, bei denen eine KI anhand eines Rasters aus verschiedenfarbigen Quadraten das richtige „Antwort“-Raster generieren muss. Probleme sollen eine KI dazu zwingen, sich an neue, noch nie dagewesene Probleme anzupassen. Es ist jedoch nicht klar, ob ihnen dies gelingt.

Aufgaben im ARC-AGI-Benchmark. Modelle müssen die „Probleme“ in der oberen Reihe lösen; Die untere Reihe zeigt Lösungen. Bildnachweis:ARC-AGI

„(ARC-AGI) bleibt seit 2019 unverändert und ist nicht perfekt“, räumte Knoop in seinem Beitrag ein.

Auch François und Knoop standen sich gegenüber Kritik für den übermäßigen Verkauf von ARC-AGI als Referenz für AGI – zu einer Zeit, in der die Definition von AGI heftig umstritten ist. Kürzlich Mitglied des OpenAI-Teams behauptet dass AGI „bereits“ erreicht wurde, wenn wir AGI als KI definieren, die „bei den meisten Aufgaben besser als die meisten Menschen“ ist.

Knoop und Chollet sagen, dass sie die Einführung eines ARC-AGI-Benchmarks der zweiten Generation planen, um diese Probleme anzugehen, zusammen mit einem Wettbewerb im Jahr 2025. „Wir werden die Bemühungen der Forschungsgemeinschaft weiterhin auf die aus unserer Sicht wichtigsten ungelösten Probleme in der KI richten.“ um den Zeitplan für AGI zu beschleunigen“, schrieb Chollet in einem X veröffentlichen.

Die Lösungen werden wahrscheinlich nicht einfach sein. Wenn die Mängel des ersten ARC-AGI-Tests Anzeichen dafür sind, wird die Definition von Intelligenz für KI ebenso schwierig sein – und entzündlich – wie es auch beim Menschen der Fall war.



Quelle link