Start IT/Tech Ein neuer Trainingsansatz könnte AI -Agenten helfen, unter ungewissenden Bedingungen besser zu...

Ein neuer Trainingsansatz könnte AI -Agenten helfen, unter ungewissenden Bedingungen besser zu arbeiten

9
0
Leicht, flexibel und strahlungsbeständig: Organische Solarzellen für den Weltraum

Ein für die Ausführung von Haushaltsaufgaben in einer Fabrik ausgebildetem Home Roboter kann das Waschbecken nicht effektiv schrubben oder den Müll herausnehmen, wenn er in der Küche eines Benutzers eingesetzt wird, da sich diese neue Umgebung von seinem Trainingsraum unterscheidet.

Um dies zu vermeiden, versuchen die Ingenieure häufig, die simulierte Trainingsumgebung so genau wie möglich mit der realen Welt zu entsprechen, in der der Agent bereitgestellt wird.

Forscher von MIT und anderswo haben nun festgestellt, dass das Training in einer völlig anderen Umgebung trotz dieser konventionellen Weisheit einen besseren künstlichen Intelligenzagenten liefert.

Ihre Ergebnisse deuten darauf hin, dass in einigen Situationen ein simuliertes KI -Agent in einer Welt mit weniger Unsicherheit oder „Lärm“ es ermöglichte, eine bessere Leistung zu erzielen als ein konkurrierender KI -Agent, der in der gleichen, lauten Welt, die sie zum Testen beide Agenten verwendeten, ausgebildet wurden.

Die Forscher nennen dieses unerwartete Phänomen den Innen -Trainingseffekt.

„Wenn wir lernen, Tennis in einer Innenumgebung zu spielen, in der es keinen Lärm gibt, können wir möglicherweise leichter verschiedene Aufnahmen beherrschen. Wenn wir dann in eine lauere Umgebung wechseln, wie ein windiger Tennisplatz, könnten wir eine höhere Wahrscheinlichkeit haben Tennis gut zu spielen, als wenn wir in der windigen Umgebung begonnen haben „, erklärt Serena Bono, ein wissenschaftlicher Mitarbeiter im MIT -Medienlabor und führende Autorin eines Papiers über den Innen -Trainingseffekt.

Die Forscher untersuchten dieses Phänomen, indem sie AI -Agenten für Atari -Spiele trainierten, die sie durch eine gewisse Unvorhersehbarkeit modifizierten. Sie waren überrascht, dass der Indoor -Trainingseffekt in Atari -Spielen und Spielvariationen durchweg auftrat.

Sie hoffen, dass diese Ergebnisse zusätzliche Forschungsergebnisse zur Entwicklung besserer Trainingsmethoden für KI -Agenten treiben.

„Dies ist eine völlig neue Achse, über die man nachdenken muss. Anstatt zu versuchen, die Trainings- und Testumgebungen abzuschließen, können wir möglicherweise simulierte Umgebungen konstruieren, in denen ein KI-Agent noch besser lernt“ Harvard University.

Bono und Madan werden von Ishaan Grover, einem MIT -Doktorand, auf der Zeitung begleitet. Mao Yasueda, Doktorandin an der Yale University; Cynthia Breazeal, Professorin für Medienkunst und Wissenschaften und Leiterin der Personal Robotics Group im MIT Media Lab; Hanspeter Pfister, der Wang -Professor für Informatik in Harvard; und Gabriel Kreiman, Professor an der Harvard Medical School. Die Forschung wird bei der Association for the Advancement of Artificial Intelligence Conference vorgestellt.

Trainingsprobleme

Die Forscher wollten untersuchen, warum Verstärkungslernmittel tendenziell so düstere Leistung haben, wenn sie auf Umgebungen getestet werden, die sich von ihrem Trainingsraum unterscheiden.

Das Verstärkungslernen ist eine Versuchs- und Errormethode, bei der der Agent einen Trainingsraum untersucht und lernt, Maßnahmen zu ergreifen, die seine Belohnung maximieren.

Das Team entwickelte eine Technik, um einem Element des Verstärkungslernenproblems, das als Übergangsfunktion bezeichnet wird, explizit eine bestimmte Menge an Rauschen hinzuzufügen. Die Übergangsfunktion definiert die Wahrscheinlichkeit, dass ein Agent von einem Zustand in einen anderen wechselt, basierend auf der von ihm gewählten Aktion.

Wenn der Agent Pac-Man spielt, kann eine Übergangsfunktion die Wahrscheinlichkeit definieren, dass Geister auf dem Spielbrett nach oben, links oder rechts gehen. Beim Standard -Verstärkungslernen würde die KI unter Verwendung derselben Übergangsfunktion trainiert und getestet.

Die Forscher fügten der Übergangsfunktion mit diesem herkömmlichen Ansatz Rauschen hinzu und schaden erwartungsgemäß die Leistung des Agenten.

Als die Forscher den Agenten mit einem lärmfreien PAC-Man-Spiel trainierten und ihn dann in einer Umgebung testeten, in der sie die Übergangsfunktion in die Übergangsfunktion injizierten, war es besser als ein Agent, der auf dem lauten Spiel trainiert wurde.

„Die Faustregel lautet, dass Sie versuchen sollten, die Übergangsfunktion der Bereitstellungsbedingung zu erfassen, und Sie können während des Trainings den größten Knall für Ihr Geld bekommen. Wir haben diese Erkenntnisse bis zum Tode wirklich getestet, weil wir es selbst nicht glauben konnten.“ Madan sagt.

Wenn Sie unterschiedliche Mengen an Rauschen in die Übergangsfunktion injizieren, können Sie die Forscher viele Umgebungen testen, aber es hat keine realistischen Spiele geschaffen. Je mehr Lärm sie in Pac-Man injizierten, desto wahrscheinlicher würde Geister zufällig zu verschiedenen Quadraten teleportieren.

Um festzustellen, ob der Innen-Trainingseffekt in normalen Pac-Man-Spielen auftrat, stellten sie die zugrunde liegenden Wahrscheinlichkeiten an, sodass sich die Geister normal bewegten, sich jedoch eher auf und ab als links und rechts bewegten. AI-Agenten, die in lärmfreien Umgebungen geschult wurden, haben in diesen realistischen Spielen immer noch besser abschnitten.

„Es war nicht nur aufgrund der Art und Weise, wie wir Rauschen hinzugefügt haben, um Ad -hoc -Umgebungen zu schaffen. Dies scheint eine Eigenschaft des Problems des Verstärkungslernens zu sein. Und das war noch überraschender zu sehen“, sagt Bono.

Erklärungen Erklärungen

Als die Forscher tiefer auf der Suche nach einer Erklärung gingen, sahen sie einige Korrelationen darüber, wie die AI -Agenten den Trainingsraum erforschen.

Wenn beide AI-Agenten hauptsächlich die gleichen Bereiche erforschen, funktioniert der Agent, der in der Nicht-Noisy-Umgebung geschult ist, besser, weil es für den Agenten leichter ist, die Spielregeln ohne Lärm zu lernen.

Wenn ihre Erkundungsmuster unterschiedlich sind, ist der in der laute Umgebung geschulte Agent dazu neigt, eine bessere Leistung zu erzielen. Dies kann geschehen, weil der Agent Muster verstehen muss, die er in der rauschfreien Umgebung nicht lernen kann.

„Wenn ich nur lerne, Tennis mit meiner Vorhand in der nicht-dankenden Umgebung zu spielen, aber dann muss ich in der lauten Umgebung auch mit meiner Rückhand spielen, werde ich nicht so gut in der Nicht-Noisy-Umgebung spielen“, erklärt Bono .

In Zukunft hoffen die Forscher zu untersuchen, wie der Innen -Trainingseffekt in komplexeren Lernumgebungen für Verstärkung oder in anderen Techniken wie Computer Vision und natürlicher Sprachverarbeitung auftreten kann. Sie möchten auch Trainingsumgebungen aufbauen, die den Innen -Trainingseffekt nutzen sollen, was den AI -Agenten helfen könnte, in unsicheren Umgebungen eine bessere Leistung zu erzielen.

Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein