Während frühe Sprachmodelle nur Text verarbeiten konnten, führen zeitgenössische Großsprachenmodelle nun sehr unterschiedliche Aufgaben für verschiedene Arten von Daten aus. Zum Beispiel kann LLMs viele Sprachen verstehen, Computercode generieren, mathematische Probleme lösen oder Fragen zu Bildern und Audio beantworten.
MIT -Forscher untersuchten die inneren Funktionsweise von LLMs, um besser zu verstehen, wie sie solche verschiedenen Daten verarbeiten, und fanden Beweise dafür, dass sie einige Ähnlichkeiten mit dem menschlichen Gehirn aufweisen.
Neurowissenschaftler glauben, dass das menschliche Gehirn im vorderen Temporallappen einen „semantischen Hub“ hat, der semantische Informationen aus verschiedenen Modalitäten wie visuelle Daten und taktile Eingaben integriert. Dieser semantische Hub ist mit modalitätsspezifischen „Speichen“ verbunden, die Informationen an den Hub weiterleiten. Die MIT -Forscher fanden heraus, dass LLMs einen ähnlichen Mechanismus verwenden, indem sie Daten aus verschiedenen Modalitäten auf zentrale, verallgemeinerte Weise abstrakt verarbeitet. Zum Beispiel würde ein Modell, das Englisch als dominante Sprache hat, auf Englisch als zentrales Medium stützt Verwenden von Text in der dominanten Sprache des Modells, um seine Ausgänge zu ändern, auch wenn das Modell Daten in anderen Sprachen verarbeitet.
Diese Erkenntnisse könnten Wissenschaftlern helfen, zukünftige LLMs auszubilden, die besser in der Lage sind, verschiedene Daten zu bewältigen.
„LLMs sind große schwarze Boxen. Sie haben eine sehr beeindruckende Leistung erzielt, aber wir haben nur sehr wenig Kenntnisse über ihre internen Arbeitsmechanismen. Ich hoffe, dies kann ein früher Schritt sein, um besser zu verstehen, wie sie funktionieren, damit wir sie verbessern und sie besser kontrollieren können Bei Bedarf „, sagt Zhaofeng Wu, ein Doktorand für Elektrotechnik und Informatik (Informatik) und führender Autor eines Papiers zu dieser Forschung.
Zu seinen Mitautoren zählen Xinyan Velocity Yu, ein Doktorand an der University of Southern California (USC); Dani Yogatama, Associate Professor bei USC; Jiasen Lu, ein Forschungswissenschaftler bei Apple; und Senior Autor Yoon Kim, Assistenzprofessor für EECs am MIT und Mitglied des Labors der Informatik und des künstlichen Intelligenz -Labors (CSAIL). Die Forschung wird auf der Internationalen Konferenz über Lernrepräsentationen vorgestellt.
Integration verschiedener Daten
Die Forscher stützten die neue Studie auf frühere Arbeiten, die darauf hinwiesen, dass englischzentrierte LLMs Englisch verwenden, um Argumentationsprozesse in verschiedenen Sprachen durchzuführen.
Wu und seine Mitarbeiter erweiterten diese Idee und starteten eine eingehende Studie in die Mechanismen, die LLMs verwendet, um verschiedene Daten zu verarbeiten.
Ein LLM, das aus vielen miteinander verbundenen Schichten besteht, gibt Eingabetext in Wörter oder Unterwürde auf, die als Token bezeichnet werden. Das Modell weist jedem Token eine Darstellung zu, die es ihm ermöglicht, die Beziehungen zwischen Token zu untersuchen und das nächste Wort in einer Sequenz zu generieren. Bei Bildern oder Audio entsprechen diese Token bestimmten Regionen eines Bildes oder Abschnitten eines Audioclips.
Die Forscher fanden heraus, dass die anfänglichen Ebenen des Modells in seiner spezifischen Sprache oder Modalität verarbeitet werden, wie die modalitätsspezifischen Speichen im menschlichen Gehirn. Anschließend wandelt der LLM Token in modalitätsagnostische Darstellungen um, da sie in den internen Schichten über sie begrüßt, was dem semantischen Hub des Gehirns ähnelt.
Das Modell weist es trotz seines Datentyps ähnliche Darstellungen zu ähnlichen Bedeutungen mit ähnlichen Bedeutungen, einschließlich Bildern, Audio-, Computercode und arithmetischen Problemen. Obwohl ein Bild und seine Textunterschrift unterschiedliche Datentypen sind, da sie dieselbe Bedeutung haben, würde das LLM ihnen ähnliche Darstellungen zuweisen.
Zum Beispiel ein englisch dominanter LLM „denkt“ über einen chinesischen Texteingang in Englisch, bevor er eine Ausgabe auf Chinesisch generiert. Das Modell hat eine ähnliche Argumentationstendenz für Nicht-Text-Eingaben wie Computercode, mathematische Probleme oder sogar multimodale Daten.
Um diese Hypothese zu testen, bestanden die Forscher ein Paar Sätze mit der gleichen Bedeutung, aber in zwei verschiedenen Sprachen über das Modell geschrieben. Sie haben gemessen, wie ähnlich die Darstellungen des Modells für jeden Satz waren.
Dann führten sie einen zweiten Satz von Experimenten durch, bei denen sie einen englisch dominanten Modelltext in einer anderen Sprache wie Chinesen fütterten, und messen, wie ähnlich seine interne Darstellung für Englisch und Chinesisch war. Die Forscher führten ähnliche Experimente für andere Datentypen durch.
Sie stellten konsequent fest, dass die Darstellungen des Modells für Sätze mit ähnlichen Bedeutungen ähnlich waren. Darüber hinaus waren die Token über viele Datentypen, die das in seinen interne Ebenen verarbeitete Modell eher wie englisch-zentrierte Token als der Eingabedatentyp waren.
„Viele dieser Eingabedatentypen scheinen äußerst anders als die Sprache zu sein, daher waren wir sehr überrascht, dass wir Englisch-Tokens herausfinden können, wenn das Modell zum Beispiel mathematische oder codierende Ausdrücke verarbeitet“, sagt Wu.
Nutzung des semantischen Hubs
Die Forscher glauben, dass LLMs diese semantische Hub -Strategie während des Trainings lernen könnten, da dies eine wirtschaftliche Möglichkeit ist, verschiedene Daten zu verarbeiten.
„Es gibt Tausende von Sprachen da draußen, aber ein Großteil des Wissens wird geteilt, wie Commonsense -Wissen oder sachlichem Wissen. Das Modell muss dieses Wissen nicht über Sprachen hinweg duplizieren“, sagt Wu.
Die Forscher versuchten auch, in den internen Ebenen des Modells mit englischer Text einzugreifen, als es andere Sprachen verarbeitet. Sie fanden heraus, dass sie vorhersehbar die Modellausgaben ändern konnten, obwohl diese Ausgänge in anderen Sprachen waren.
Wissenschaftler könnten dieses Phänomen nutzen, um das Modell zu ermutigen, so viele Informationen wie möglich über verschiedene Datentypen hinweg zu teilen und die Effizienz möglicherweise zu steigern.
Andererseits kann es Konzepte oder Wissen geben, die nicht über Sprachen oder Datentypen hinweg wie kulturell spezifisches Wissen übersetzbar sind. Wissenschaftler möchten möglicherweise, dass LLMs in diesen Fällen über einige sprachspezifische Verarbeitungsmechanismen verfügen.
„Wie können Sie nach Möglichkeit maximal teilen, aber auch zulassen, dass Sprachen einige sprachspezifische Verarbeitungsmechanismen haben? Dies könnte in zukünftigen Arbeiten an Modellarchitekturen untersucht werden“, sagt Wu.
Darüber hinaus könnten Forscher diese Erkenntnisse verwenden, um mehrsprachige Modelle zu verbessern. Oft verliert ein englisch dominantes Modell, das lernt, eine andere Sprache zu sprechen, einen Teil seiner Genauigkeit auf Englisch. Ein besseres Verständnis des semantischen Hubs eines LLM könnte Forschern helfen, diese Sprachmischung zu verhindern, sagt er.
Diese Forschung wird zum Teil vom MIT-IBM Watson AI Lab finanziert.