Während Unternehmen vom Experimentieren mit generativer KI in begrenzten Prototypen zur Serienreife übergehen, werden sie zunehmend preisbewusster. Schließlich ist die Verwendung großer Sprachmodelle nicht billig. Eine Möglichkeit, die Kosten zu senken, besteht darin, zu einem alten Konzept zurückzukehren: dem Caching. Eine andere besteht darin, einfachere Abfragen an kleinere, kostengünstigere Modelle weiterzuleiten. In deinem neu erfinden Auf der Konferenz in Las Vegas kündigte AWS heute diese beiden Funktionen für seinen Bedrock LLM-Hosting-Service an.
Lassen Sie uns zunächst über den Cache-Dienst sprechen. „Angenommen, es gibt ein Dokument und mehrere Personen stellen Fragen zu demselben Dokument. Jedes Mal, wenn Sie bezahlen“, sagte mir Atul Deo, Chief Product Officer bei Bedrock. „Und diese Kontextfenster werden immer länger. Mit Nova werden wir beispielsweise 300.000 Kontext-Tokens und 2 Millionen Kontext-Tokens haben. Ich denke, nächstes Jahr könnte es noch mehr steigen.“
Caching stellt im Wesentlichen sicher, dass Sie nicht dafür bezahlen müssen, dass das Modell sich wiederholende Arbeiten ausführt und dieselben (oder im Wesentlichen ähnlichen) Abfragen immer wieder erneut verarbeitet. Laut AWS können dadurch die Kosten um bis zu 90 % gesenkt werden. Ein zusätzlicher Nebeneffekt davon ist jedoch, dass die Latenz bis zum Erhalten einer Antwort vom Modell deutlich geringer ist (AWS gibt bis zu 85 % an). Adobe, das sofortiges Caching für einige seiner generativen KI-Anwendungen auf Bedrock testete, konnte eine Reduzierung der Reaktionszeit um 72 % feststellen.
Die andere wichtige neue Funktion ist das intelligente Prompt-Routing für Bedrock. Damit kann Bedrock Eingabeaufforderungen automatisch an verschiedene Modelle innerhalb derselben Modellfamilie weiterleiten, um Unternehmen dabei zu helfen, das richtige Gleichgewicht zwischen Leistung und Kosten zu finden. Das System sagt automatisch voraus (anhand eines kleinen Sprachmodells), wie jedes Modell bei einer bestimmten Abfrage funktionieren wird, und leitet die Anfrage dann entsprechend weiter.
„Manchmal kann meine Anfrage sehr einfach sein. Muss ich diese Anfrage wirklich an das leistungsstärkste Modell senden, was extrem teuer und langsam ist? Wahrscheinlich nicht. Im Grunde möchten Sie also die Vorstellung entwickeln: „Hey, senden Sie zur Laufzeit basierend auf der eingehenden Eingabeaufforderung die richtige Abfrage an das richtige Modell“, erklärte Deo.
LLM-Routing ist natürlich kein neues Konzept. Startups mögen Marsianer und mehrere Open-Source-Projekte befassen sich ebenfalls mit diesem Thema, aber AWS würde wahrscheinlich argumentieren, dass das Besondere an seinem Angebot darin besteht, dass der Router Abfragen intelligent leiten kann, ohne dass viel menschliches Eingreifen erforderlich ist. Die Einschränkung besteht aber auch darin, dass Abfragen nur an Modelle derselben Modellfamilie weitergeleitet werden können. Langfristig plant das Team jedoch, dieses System zu erweitern und den Benutzern mehr Anpassungsmöglichkeiten zu bieten, sagte mir Deo.
Schließlich startet AWS auch einen neuen Marktplatz für Bedrock. Die Idee dahinter, so Deo, ist, dass Amazon zwar mit vielen der größten Vorlagenanbieter zusammenarbeitet, es mittlerweile aber Hunderte spezialisierter Vorlagen gibt, die möglicherweise nur wenige dedizierte Benutzer haben. Da diese Kunden das Unternehmen um Unterstützung bitten, startet AWS einen Marktplatz für diese Modelle, bei dem der einzige große Unterschied darin besteht, dass die Benutzer selbst die Kapazität ihrer Infrastruktur bereitstellen und verwalten müssen – was Bedrock normalerweise automatisch tut. Insgesamt wird AWS etwa 100 dieser aufstrebenden und spezialisierten Modelle anbieten, weitere werden folgen.