Ein Team auf der KI-Entwicklungsplattform Das Gesicht umarmen er hat freigegeben Sie behaupten, die kleinsten KI-Modelle zu sein, die Bilder, kurze Videos und Texte analysieren können.
Die Modelle SmolVLM-256M und SmolVLM-500M sind so konzipiert, dass sie gut auf „eingeschränkten Geräten“ wie Laptops mit weniger als 1 GB RAM funktionieren. Das Team sagt, dass sie auch ideal für Entwickler sind, die große Datenmengen sehr kostengünstig verarbeiten möchten.
SmolVLM-256M und SmolVLM-500M haben nur 256 Millionen Parameter bzw. 500 Millionen Größenparameter. (Die Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells, beispielsweise seiner Leistung bei Mathematiktests.) Beide Modelle können Aufgaben wie das Beschreiben von Bildern oder Videoclips und das Beantworten von Fragen zu PDFs und den darin enthaltenen Elementen, einschließlich gescanntem Text und, ausführen Grafik.
Um den SmolVLM-256M und den SmolVLM-500M zu trainieren, verwendete das Team von Hugging Face The Cauldron, eine Sammlung von 50 „hochwertigen“ Bild- und Textdatensätzen, und Docmatix, einen Satz gepaarter Dateiscans mit detaillierten Bildunterschriften. Beide wurden von Hugging Face’s erstellt M4-Teamdas multimodale KI-Technologien entwickelt.
Das Team behauptet, dass sowohl der SmolVLM-256M als auch der SmolVLM-500M ein viel größeres Modell, den Idefics 80B, in Benchmarks wie AI2D übertreffen, bei dem die Fähigkeit der Modelle getestet wird, wissenschaftliche Diagramme auf Schulniveau zu analysieren. SmolVLM-256M und SmolVLM-500M sind im Internet verfügbar und können auch von Hugging Face unter einer Apache 2.0-Lizenz heruntergeladen werden, sodass sie ohne Einschränkungen verwendet werden können.
Kleine Modelle wie das SmolVLM-256M und das SmolVLM-500M können kostengünstig und vielseitig sein, sie können jedoch auch Mängel aufweisen, die bei größeren Modellen nicht so ausgeprägt sind. Eine aktuelle Studie von Google DeepMind, Microsoft Research und dem Forschungsinstitut Mila in Quebec ergab, dass es viele kleine Modelle gibt Leistung schlechter als erwartet bei komplexen Denkaufgaben. Die Forscher vermuteten, dass dies daran liegen könnte, dass kleinere Modelle oberflächliche Muster in Daten erkennen, aber Schwierigkeiten haben, dieses Wissen in neuen Kontexten anzuwenden.