Lücken in Datensätzen schließen oder Ausreißer identifizieren – das ist die Domäne des maschinellen Lernalgorithmus TabPFN, den ein Team um Prof. Dr. Frank Hutter von der Universität Freiburg entwickelt hat. Diese künstliche Intelligenz (KI) nutzt Lernmethoden, die von großen Sprachmodellen inspiriert sind. TabPFN lernt kausale Zusammenhänge aus synthetischen Daten und trifft daher mit größerer Wahrscheinlichkeit korrekte Vorhersagen als die bisher verwendeten Standardalgorithmen. Die Ergebnisse wurden in der Fachzeitschrift veröffentlicht Natur. Beteiligt waren neben der Universität Freiburg das Universitätsklinikum Freiburg, die Charité – Berliner Universitätsmedizin, das Freiburger Startup PriorLabs und das ELLIS-Institut Tübingen.
Datensätze, sei es über die Wirkung bestimmter Medikamente oder über Teilchenpfade in Beschleunigern am CERN, sind selten vollständig oder fehlerfrei. Daher besteht ein wichtiger Teil der wissenschaftlichen Datenanalyse darin, Ausreißer als solche zu erkennen oder aussagekräftige Schätzungen für fehlende Werte vorherzusagen. Bestehende Algorithmen wie XGBoost funktionieren gut mit großen Datenmengen, sind jedoch bei kleineren Datenmengen oft unzuverlässig.
Mit dem TabPFN-Modell lösen Hutter und sein Team dieses Problem, indem sie den Algorithmus auf künstlich erstellten Datensätzen trainieren, die realen Szenarien nachempfunden sind. Dazu erstellen die Wissenschaftler Datentabellen, in denen die Einträge in den einzelnen Tabellenspalten kausal verknüpft werden. TabPFN wurde mit 100 Millionen solcher synthetischen Datensätze trainiert. Dieses Training lehrt das Modell, verschiedene mögliche kausale Zusammenhänge zu bewerten und für seine Vorhersagen zu nutzen.
Das Modell übertrifft andere Algorithmen insbesondere bei kleinen Tabellen mit weniger als 10.000 Zeilen, vielen Ausreißern oder einer großen Anzahl fehlender Werte. TabPFN benötigt beispielsweise nur 50 % der Daten, um die gleiche Genauigkeit wie das bisher beste Modell zu erreichen. Darüber hinaus ist TabPFN bei der Verarbeitung neuer Datentypen effizienter als frühere Algorithmen. Anstatt für jeden Datensatz einen neuen Lernprozess zu starten, kann das Modell an ähnliche Datensätze angepasst werden. Dieser Prozess ähnelt der von Meta entwickelten Anpassung von Sprachmodellen mit offenen Gewichten wie Llama. Das Modell ermöglicht es außerdem, die Wahrscheinlichkeitsdichte aus einem Datensatz abzuleiten und daraus neue Daten mit ähnlichen Eigenschaften zu generieren.
„Die Möglichkeit, mit TabPFN zuverlässige und schnelle Vorhersagen aus tabellarischen Daten zu berechnen, ist für viele Disziplinen von Vorteil, von der Biomedizin über die Wirtschaftswissenschaften bis hin zur Physik“, sagt Hutter. „TabPFN liefert schneller bessere Ergebnisse und ist aufgrund des geringen Ressourcen- und Datenaufwands ideal für kleine Unternehmen und Teams.“ Den Code und Anweisungen zur Verwendung finden Sie hier. Im nächsten Schritt werden die Forscher die KI so weiterentwickeln, dass sie auch bei größeren Datensätzen bestmögliche Vorhersagen treffen kann.