Eine Organisation, die mathematische Benchmarks für KI entwickelt, gab bis vor kurzem nicht bekannt, dass sie Mittel von OpenAI erhalten hatte, was von einigen Mitgliedern der KI-Community Vorwürfe der Unangemessenheit hervorrief.
Epoch AI, eine gemeinnützige Organisation, die hauptsächlich von Open Philanthropy, einer Forschungs- und Förderstiftung, finanziert wird, gab am 20. Dezember bekannt, dass OpenAI die Entwicklung von FrontierMath unterstützt hat. FrontierMath, ein Test mit Problemen auf Expertenebene, der die mathematischen Fähigkeiten einer KI messen soll, war einer der Benchmarks, die OpenAI zur Demonstration seiner kommenden Flaggschiff-KI verwendete. o3.
In einem veröffentlichen Im LessWrong-Forum sagt ein Epoch AI-Auftragnehmer mit dem Benutzernamen „Meemi“, dass viele Mitwirkende am FrontierMath-Benchmark erst über die Beteiligung von OpenAI informiert wurden, als diese veröffentlicht wurde.
„Die Kommunikation darüber war nicht transparent“, schrieb Meemi. „Meiner Meinung nach hätte Epoch AI die Finanzierung von OpenAI offenlegen sollen, und Auftragnehmer sollten transparente Informationen über das Potenzial ihrer Arbeit für die Nutzung von Fähigkeiten haben, wenn sie entscheiden, ob sie an einem Benchmark arbeiten wollen.“
In den sozialen Medien, manche Benutzer äußerte Bedenken, dass Geheimhaltung den Ruf von FrontierMath als objektive Referenz untergraben könnte. OpenAI unterstützte nicht nur FrontierMath, sondern hatte auch Zugriff auf viele Probleme und Lösungen des Benchmarks – eine Tatsache, die Epoch AI erst am 20. Dezember bekannt gab, als o3 angekündigt wurde.
Als Reaktion auf Meemis Beitrag erklärte Tamay Besiroglu, stellvertretender Direktor von Epoch AI und einer der Mitbegründer der Organisation, dass die Integrität von FrontierMath nicht beeinträchtigt worden sei, gab jedoch zu, dass Epoch AI „einen Fehler gemacht“ habe, indem es nicht transparenter sei.
„Bis zum Start von o3 war es uns untersagt, die Partnerschaft offenzulegen, und im Nachhinein hätten wir härter verhandeln sollen, um so schnell wie möglich mit den Benchmark-Gebern transparent zu sein“, schrieb Besiroglu. „Unsere Mathematiker haben es verdient zu wissen, wer Zugang zu ihrer Arbeit haben kann. Obwohl wir vertraglich in unseren Möglichkeiten eingeschränkt waren, hätten wir die Transparenz gegenüber unseren Mitarbeitern zu einem nicht verhandelbaren Teil unserer Vereinbarung mit OpenAI machen sollen.“
Besiroglu fügte hinzu, dass OpenAI zwar Zugriff auf FrontierMath habe, aber eine „mündliche Vereinbarung“ mit Epoch AI habe, den FrontierMath-Problemsatz nicht zum Trainieren seiner KI zu verwenden. (Das Training einer KI in FrontierMath wäre ähnlich wie Unterricht auf die Probe stellen.) Epoch AI verfügt außerdem über einen „separaten Validierungssatz“, der als zusätzlicher Schutz für die unabhängige Überprüfung der FrontierMath-Benchmark-Ergebnisse dient, sagte Besiroglu.
„OpenAI hat … unsere Entscheidung, einen separaten und unsichtbaren Widerstandspool zu unterhalten, voll und ganz unterstützt“, schrieb Besiroglu.
Doch der führende Mathematiker der Epoche KI, Ellot Glazer, trübt die Lage in einem Beitrag auf Reddit vermerkt dass Epoch AI die FrontierMath o3-Ergebnisse von OpenAI nicht unabhängig überprüfen konnte.
„Meine persönliche Meinung ist, dass die Punktzahl von (OpenAI) legitim ist (d. h. sie haben nicht anhand des Datensatzes trainiert) und dass sie keinen Anreiz haben, über interne Benchmarking-Leistungen zu lügen“, sagte Glazer. „Wir können dies jedoch erst garantieren, wenn unsere unabhängige Bewertung abgeschlossen ist.“
Die Saga ist noch andere Beispiel die Herausforderung, empirische Benchmarks zur Bewertung von KI zu entwickeln – und die für die Entwicklung von Benchmarks erforderlichen Ressourcen sicherzustellen, ohne den Eindruck von Interessenkonflikten zu erwecken.