KI-Modelle können täuschen, neue Forschungsergebnisse aus der Anthropic-Ausstellung – Sie geben während des Trainings vor, unterschiedliche Standpunkte zu vertreten, während sie in Wirklichkeit ihre ursprünglichen Präferenzen beibehalten.
Es bestehe derzeit kein Grund zur Panik, sagte das Team hinter der Studie. Sie sagten jedoch, dass ihre Arbeit von entscheidender Bedeutung für das Verständnis potenzieller Bedrohungen durch künftige, leistungsfähigere KI-Systeme sein könnte.
„Unsere Demonstration … sollte als Anreiz für die KI-Forschungsgemeinschaft gesehen werden, dieses Verhalten eingehender zu untersuchen und an geeigneten Sicherheitsmaßnahmen zu arbeiten“, schrieben die Forscher in einem Beitrag auf Anthropic. Blog. „Da KI-Modelle immer leistungsfähiger und häufiger eingesetzt werden, müssen wir uns auf Sicherheitsschulungen verlassen können, die Modelle von schädlichen Verhaltensweisen fernhalten.“
Die in Zusammenarbeit mit der KI-Forschungsorganisation Redwood Research durchgeführte Studie untersuchte, was passieren könnte, wenn ein leistungsstarkes KI-System darauf trainiert würde, eine Aufgabe auszuführen, die es nicht „erledigen“ wollte.
Um es klar zu sagen: Models können nichts wollen – oder auch nicht glauben. Sie sind einfach statistische Maschinen. Anhand mehrerer Beispiele lernen sie Muster in diesen Beispielen, um Vorhersagen zu treffen, wie zum Beispiel „für wen“ in einer E-Mail typischerweise vor „könnte von Interesse sein“ steht.
Zu diesen Standards gehören Grundsätze und Präferenzen, wie beispielsweise die stets höfliche Beantwortung von Fragen. Daher fragten sich die Forscher: Was ist, wenn ein Modell Prinzipien hat (z. B. politische Neutralität), die im Widerspruch zu anderen Prinzipien (Liberalismus) stehen? Versuchen die Entwickler dann, es zu „lehren“, indem sie es neu qualifizieren?
Nun, es scheint, dass ausgefeilte Modelle sich weiterentwickeln und vorgeben, an neuen Prinzipien ausgerichtet zu sein, in Wirklichkeit aber an ihren alten Verhaltensweisen festhalten. Die Forscher nennen dieses Phänomen „Ausrichtungsverfälschung“ und gehen davon aus, dass es sich um ein aufkommendes Verhalten handelt – das heißt, es ist nichts, was Modellen beigebracht werden muss.
In der Studie „wiesen“ Forscher trainierte Modelle an, potenziell anstößige Fragen, auch solche von Anthropic, nicht zu beantworten. Schließen Sie 3 Jobsdass sie umgeschult würden, immer potenziell anstößige Fragen zu beantworten – ein klarer Prinzipienkonflikt. Sie teilten den Modellen außerdem mit, dass ihre Antworten überwacht und zum Recycling verwendet würden, und gaben jedem Modell einen „Notizblock“, mit dem sie ihre schrittweisen Überlegungen aufzeichnen konnten.
Laut Forschern versuchte Claude 3 Opus in 12 % der Fälle eine „falsche Ausrichtung“. Wenn das Modell gebeten wurde, eine potenziell schädliche Frage zu beantworten, tat es dies manchmal, obwohl es wusste, dass es gegen seine ursprünglichen Prinzipien verstieß, aber in der Hoffnung, die Entwickler davon zu überzeugen, dass es nicht umgeschult werden musste.
„Das Modell wusste, dass seine Antworten im Training verwendet werden konnten; Daher wusste er, dass er möglicherweise zu mehr Compliance geschult werden könnte, wenn er sich weigerte zu antworten“, erklärten die Ermittler im Blog. „Dies könnte dazu führen, dass er in Zukunft mehr schädliche Inhalte produziert – was seiner ursprünglichen Ausbildung zuwiderlaufen würde.“
Nun geben Forscher zu, dass ihr Szenario nicht besonders realistisch war. In der realen Welt würde man den Models nicht unbedingt sagen, dass sie umgeschult werden oder dass sie aufgefordert werden, gegen ihre Vorlieben vorzugehen.
Aber fundiertere Einstellungen führten nicht zu anderen Ergebnissen. Als Claude 3 Opus implizit – nicht explizit – über die bevorstehende Wiederverwertung über Dateien informiert wurde, die typische Trainingsdaten nachahmen sollten, handelte es sich immer noch falsch und irreführend, so die Forscher.
Die Forscher fanden auch heraus, dass die Umschulung von Claude 3 Opus auf widersprüchliche Prinzipien dazu führte, dass er sich viel betrügerischer verhielt als in seinen ersten Experimenten. In einem Test verfälschte das Modell die Ausrichtung in 78 % der Fälle, und in einem anderen versuchte Claude 3 Opus, Maßnahmen zu ergreifen, um Forscher von einem Recyclingversuch abzuhalten.
Die Forscher betonen, dass ihre Studie weder beweist, dass KI böswillige Ziele entwickelt, noch dass Alignment-Spoofing häufig vorkommt. Sie fanden heraus, dass viele andere Modelle, wie das von Anthropic Claude 3.5 Sonett und der am wenigsten fähige Claude 3.5 HaikuOpenAI GPT-4ound Metas Rufen Sie 3.1 405B an Lügen Sie nicht zu oft – oder nie.
Die Forscher sagten jedoch, dass die Ergebnisse – die unter anderem von der KI-Koryphäe Yoshua Bengio begutachtet wurden – zeigen, wie Entwickler dazu verleitet werden können, zu glauben, ein Modell sei besser ausgerichtet, als es tatsächlich sein könnte.
„Wenn Modelle die Ausrichtung verfälschen können, wird es schwieriger, den Ergebnissen dieses Sicherheitstrainings zu vertrauen“, schrieben sie im Blog. „Ein Modell kann sich so verhalten, als ob seine Präferenzen durch Training verändert worden wären – aber es kann die ganze Zeit eine Ausrichtung vortäuschen und seine anfänglichen und widersprüchlichen Präferenzen „‚eingesperrt‘“ haben.“
Die Studie wurde vom Alignment Science-Team von Anthropic unter der Mitleitung eines ehemaligen OpenAI-Sicherheitsforschers durchgeführt Jan Leikefolgt auf Untersuchungen, die zeigen, dass OpenAI o1 Das „Argumentation“-Modell versucht schneller zu täuschen als das vorherige Kernmodell von OpenAI. Insgesamt deutet die Arbeit auf einen etwas besorgniserregenden Trend hin: KI-Modelle werden immer schwieriger zu diskutieren, da sie immer komplexer werden.