Eine der am häufigsten verwendeten Techniken, um KI-Modelle effizienter zu machen, die Quantisierung, hat Grenzen – und die Branche nähert sich ihnen möglicherweise schnell an.
Im Zusammenhang mit KI bezieht sich Quantisierung auf die Reduzierung der Anzahl der Bits – der kleinsten Einheiten, die ein Computer verarbeiten kann – die zur Darstellung von Informationen erforderlich sind. Betrachten Sie diese Analogie: Wenn Sie jemand nach der Uhrzeit fragt, würden Sie wahrscheinlich „Mittag“ sagen – und nicht „Oh, zwölfhundert, eine Sekunde und vier Millisekunden“. Das ist Quantisierung; Beide Antworten sind richtig, aber eine ist etwas genauer. Wie viel Präzision Sie tatsächlich benötigen, hängt vom Kontext ab.
KI-Modelle bestehen aus mehreren Komponenten, die quantisiert werden können – insbesondere Parametern, den internen Variablen, die Modelle verwenden, um Vorhersagen oder Entscheidungen zu treffen. Dies ist praktisch, wenn man bedenkt, dass Modelle bei der Ausführung Millionen von Berechnungen durchführen. Quantisierte Modelle mit weniger Bits, die ihre Parameter darstellen, sind mathematisch weniger anspruchsvoll und daher rechenintensiv. (Um es klarzustellen: Dies ist ein anderer Prozess als die „Destillation“, die eine aufwändigere und selektivere Parameterbereinigung erfordert.)
Die Quantisierung kann jedoch mehr Kompromisse mit sich bringen als bisher angenommen.
Das immer kleinere Modell
Laut a zu studieren Laut Forschern von Harvard, Stanford, MIT, Databricks und Carnegie Mellon schneiden quantisierte Modelle schlechter ab, wenn die ursprüngliche, nicht quantisierte Version des Modells über einen langen Zeitraum mit vielen Daten trainiert wird. Mit anderen Worten: Ab einem bestimmten Punkt kann es besser sein, einfach ein kleineres Modell zu trainieren, anstatt ein großes Modell vorzubereiten.
Dies könnte schlechte Nachrichten für KI-Unternehmen bedeuten, die extrem große Modelle trainieren (die bekanntermaßen die Qualität der Antworten verbessern) und sie dann quantifizieren, um ihre Bereitstellung kostengünstiger zu machen.
Die Auswirkungen zeigen sich bereits. Vor ein paar Monaten, Entwickler Und Akademiker berichtete, dass die Quantisierung von Metas Lama 3 Das Modell war im Vergleich zu anderen Modellen tendenziell „schädlicher“, möglicherweise aufgrund der Art und Weise, wie es trainiert wurde.
„Meiner Meinung nach ist und bleibt der größte Kostenfaktor für alle in der KI die Schlussfolgerung, und unsere Arbeit zeigt, dass ein wichtiger Weg, ihn zu reduzieren, nicht für immer funktionieren wird“, sagte Tanishq Kumar, Absolvent der Harvard-Mathematik und Erstautor des Buches. Papier, sagte er gegenüber TechCrunch.
Entgegen der landläufigen Meinung handelt es sich bei der KI-Modellinferenz um die Ausführung eines Modells, beispielsweise wann GPT-Chat beantwortet eine Frage: Insgesamt ist es im Allgemeinen teurer als das Modelltraining. Bedenken Sie zum Beispiel, dass Google a ausgegeben hat geschätzt 191 Millionen US-Dollar für die Ausbildung eines seiner Flaggschiffe Zwillinge Modelle – sicherlich eine stolze Summe. Wenn das Unternehmen jedoch ein Modell verwenden würde, um nur 50-Wörter-Antworten auf die Hälfte aller Google-Suchanfragen zu generieren, würde es Geld ausgeben etwa 6 Milliarden US-Dollar pro Jahr.
Führende KI-Labore haben Trainingsmodelle für riesige Datensätze übernommen, in der Annahme, dass eine „Skalierung“ – also die Erhöhung der im Training verwendeten Daten- und Rechenmenge – zu einer immer leistungsfähigeren KI führen wird.
Beispielsweise hat Meta Llama 3 mit einem Pool von 15 Billionen Token trainiert. (Chips stellen Rohdatenbits dar; 1 Million Token sind etwa 750.000 Wörter.) Die Vorgängergeneration, Llama 2, wurde mit „nur“ 2 Billionen Token trainiert.
Es gibt Hinweise darauf, dass Expansion letztendlich zu sinkenden Erträgen führt; Anthropic und Google angeblich Kürzlich wurden riesige Modelle trainiert, die hinter den internen Benchmark-Erwartungen zurückblieben. Es gibt jedoch nur wenige Anzeichen dafür, dass die Branche bereit ist, sich deutlich von diesen festgefahrenen Expansionsansätzen zu lösen.
Wie genau genau?
Gibt es eine Möglichkeit, die Modelle weniger anfällig für Verschlechterungen zu machen, wenn Labore zögern, Modelle anhand kleinerer Datensätze zu trainieren? Möglicherweise. Kumar sagt, er und seine Co-Autoren hätten herausgefunden, dass Trainingsmodelle mit „geringer Genauigkeit“ sie robuster machen können. Haben Sie einen Moment Geduld mit uns, während wir ein wenig eintauchen.
„Präzision“ bezieht sich hier auf die Anzahl der Ziffern, die ein numerischer Datentyp genau darstellen kann. Datentypen sind Sammlungen von Datenwerten, die im Allgemeinen durch eine Reihe möglicher Werte und zulässiger Vorgänge angegeben werden. Der Datentyp FP8 verwendet beispielsweise nur 8 Bits zur Darstellung von a Gleitkommazahl.
Heutzutage werden die meisten Modelle auf 16-Bit oder „halbe Genauigkeit“ trainiert und nach dem Training auf 8-Bit-Präzision quantisiert. Bestimmte Komponenten des Modells (z. B. seine Parameter) werden auf Kosten einer gewissen Präzision in ein Format mit geringerer Präzision konvertiert. Stellen Sie sich vor, Sie rechnen auf ein paar Dezimalstellen genau, runden dann aber auf das nächste Zehntel auf und erhalten so in der Regel das Beste aus beiden Welten.
Hardwareanbieter wie Nvidia streben nach einer geringeren Präzision für die Schlussfolgerung aus quantisierten Modellen. Der neue Blackwell-Chip des Unternehmens unterstützt 4-Bit-Präzision, insbesondere einen Datentyp namens FP4; Nvidia präsentierte dies als Vorteil für Rechenzentren mit begrenztem Speicher und begrenzter Leistung.
Eine extrem niedrige Quantisierungsgenauigkeit ist jedoch möglicherweise nicht wünschenswert. Laut Kumar können Genauigkeiten von weniger als 7 oder 8 Bit zu einem spürbaren Qualitätsverlust führen, es sei denn, das Originalmodell ist hinsichtlich der Parameteranzahl unglaublich groß.
Wenn das alles ein wenig technisch klingt, machen Sie sich keine Sorgen – das ist es auch. Aber das Fazit ist einfach, dass KI-Modelle nicht vollständig verstanden werden und bekannte Abkürzungen, die in vielen Arten von Computern funktionieren, hier nicht funktionieren. Du würdest nicht „Mittag“ sagen, wenn dich jemand fragen würde, wann ein 100-Meter-Lauf beginnt, oder? Das ist natürlich nicht so offensichtlich, aber die Idee ist dieselbe:
„Der Kernpunkt unserer Arbeit ist, dass es Einschränkungen gibt, die wir nicht naiv umgehen können“, schloss Kumar. „Wir hoffen, dass unsere Arbeit der Diskussion, die oft nach immer niedrigeren Genauigkeitsstandards für Training und Schlussfolgerungen strebt, Nuancen verleiht.“
Kumar räumt ein, dass die Studie von ihm und seinen Kollegen relativ klein war – sie planen, sie in Zukunft mit mehr Modellen zu testen. Aber er glaubt, dass zumindest eine Schlussfolgerung gültig sein wird: Es gibt kein kostenloses Mittagessen, wenn es darum geht, die Inferenzkosten zu senken.
„Bit-Präzision ist wichtig und nicht umsonst“, sagte er. „Man kann es nicht für immer reduzieren, ohne dass die Models darunter leiden. Modelle verfügen über eine begrenzte Kapazität. Anstatt zu versuchen, eine Billiarde Token in ein kleines Modell unterzubringen, wird meiner Meinung nach viel mehr Aufwand in die sorgfältige Kuratierung und Filterung von Daten gesteckt, sodass nur Daten höchster Qualität in kleinere Modelle eingefügt werden. Ich bin optimistisch, dass neue Architekturen, die bewusst darauf abzielen, das Training mit geringer Präzision stabil zu machen, in Zukunft wichtig sein werden.“