KI kann bei bestimmten Aufgaben hervorragende Leistungen erbringen wie man codiert oder einen Podcast erstellen. Laut einem neuen Artikel hat er jedoch Schwierigkeiten, eine anspruchsvolle Geschichtsprüfung zu bestehen.
Ein Forscherteam hat einen neuen Benchmark erstellt, um drei große Sprachmodelle (LLMs) – GPT-4 von OpenAI, Llama von Meta und Gemini von Google – auf historische Fragen zu testen. Der Benchmark Hist-LLM testet die Genauigkeit der Antworten anhand der Seshat Global History Databank, einer umfangreichen Datenbank mit historischem Wissen, die nach der altägyptischen Göttin der Weisheit benannt ist.
Die Ergebnisse, die wurden vorgestellt Letzten Monat waren NeurIPS auf der wichtigen KI-Konferenz enttäuschend, so Forscher, die mit der zusammengeschlossen sind Zentrum für Komplexitätswissenschaft (CSH), ein Forschungsinstitut mit Sitz in Österreich. Das leistungsstärkste LLM war GPT-4 Turbo, erreichte jedoch nur eine Genauigkeit von etwa 46 % – nicht viel besser als zufällige Schätzungen.
„Die wichtigste Schlussfolgerung dieser Studie ist, dass LLMs, obwohl sie beeindruckend sind, immer noch nicht über die Tiefe des Verständnisses verfügen, das für fortgeschrittene Geschichte erforderlich ist. Sie eignen sich hervorragend für grundlegende Fakten, aber wenn es um differenziertere historische Untersuchungen auf Doktorandenniveau geht, sind sie der Aufgabe immer noch nicht gewachsen“, sagte Maria del Rio-Chanona, eine der Co-Autoren und Mitarbeiterin des Papiers. Professor für Informatik am University College London.
Forscher teilten Beispiele für historische Fragen mit TechCrunch, die LLMs falsch beantwortet haben. Beispielsweise wurde der GPT-4 Turbo gefragt, ob es zu einer bestimmten Zeit im alten Ägypten Schuppenpanzer gab. LLM sagte ja, aber die Technologie erschien erst 1.500 Jahre später in Ägypten.
Warum sind LLMs schlecht darin, technisch-historische Fragen zu beantworten, wenn sie bei der Beantwortung sehr komplizierter Fragen zu Dingen wie Codierung genauso gut sein können? Del Rio-Chanona sagte gegenüber TechCrunch, dass dies wahrscheinlich daran liegt, dass LLMs dazu neigen, historische Daten zu extrapolieren, die sehr wichtig sind, und es ihnen schwerfällt, obskureres historisches Wissen abzurufen.
Forscher fragten beispielsweise GPT-4, ob das alte Ägypten in einem bestimmten historischen Zeitraum über ein professionelles stehendes Heer verfügte. Obwohl die richtige Antwort „Nein“ lautet, hat LLM fälschlicherweise mit „Ja“ geantwortet. Dies liegt wahrscheinlich daran, dass es viele öffentliche Informationen über andere antike Reiche wie Persien gibt, die über stehende Armeen verfügten.
„Wenn Sie A und B 100 Mal und C 1 Mal hören und dann eine Frage zu C stellen, können Sie sich einfach A und B merken und versuchen, daraus zu schließen“, sagte del Rio-Chanona.
Die Forscher identifizierten auch andere Trends, darunter die Tatsache, dass die OpenAI- und Llama-Modelle in bestimmten Regionen wie Subsahara-Afrika schlechtere Leistungen erbrachten, was auf mögliche Verzerrungen in ihren Trainingsdaten hindeutet.
Die Ergebnisse zeigen, dass LLMs den Menschen in bestimmten Bereichen immer noch nicht ersetzen, sagte Peter Turchin, der die Studie leitete und Fakultätsmitglied am CSH ist.
Doch die Forscher sind immer noch zuversichtlich, dass LLMs Historikern in Zukunft helfen können. Sie arbeiten daran, ihren Benchmark zu verfeinern, indem sie mehr Daten aus unterrepräsentierten Regionen einbeziehen und komplexere Fragen hinzufügen.
„Obwohl unsere Ergebnisse insgesamt Bereiche hervorheben, in denen LLMs verbessert werden müssen, verdeutlichen sie auch das Potenzial dieser Modelle zur Unterstützung der historischen Forschung“, heißt es in dem Papier.