Auf der letztjährigen AWS re:Invent-Konferenz stellte die Cloud-Computing-Einheit von Amazon SageMaker HyperPod vor, eine Plattform zum Erstellen grundlegender Modelle. Es ist also keine Überraschung, dass in Die diesjährige re:InventDas Unternehmen kündigt eine Reihe von Aktualisierungen der Plattform an, die sich darauf konzentrieren, das Modelltraining und die Feinabstimmung auf HyperPod für Unternehmen effizienter und kostengünstiger zu gestalten.
HyperPod wird mittlerweile von Unternehmen wie Salesforce, Thompson Reuters und BMW sowie KI-Startups wie Luma, Perplexity, Stability AI und Hugging Face verwendet. „Es sind die Bedürfnisse dieser Kunden, auf die AWS jetzt mit den heutigen Updates eingeht“, sagte mir Ankur Mehrotra, General Manager und verantwortlich für HyperPod bei AWS.
Eine der Herausforderungen, mit denen diese Unternehmen konfrontiert sind, besteht darin, dass oft einfach nicht genügend Kapazität vorhanden ist, um ihre LLM-Schulungsarbeitslasten zu bewältigen.
„Aufgrund der hohen Nachfrage können Kapazitäten oft teuer sein, und es kann auch schwierig sein, Kapazitäten zu finden, wenn Sie sie benötigen, wie viel Sie sie benötigen und genau dort, wo Sie sie benötigen“, sagte Mehrotra. „Was also passieren kann, ist, dass man Kapazitäten in bestimmten Blöcken findet, die nach Zeit und auch nach Ort unterteilt werden können. Kunden müssen möglicherweise an einem Standort beginnen und dann ihre Arbeitslast an einen anderen Standort verlagern und so weiter – und dann auch ihre Infrastruktur konfigurieren und zurücksetzen, um dies wiederholt zu tun.“
Um dies zu vereinfachen, führt AWS sogenannte „flexible Schulungspläne“ ein. Damit können HyperPod-Benutzer einen Zeitplan und ein Budget festlegen. Nehmen wir an, sie möchten das Training eines Modells in den nächsten zwei Monaten abschließen und gehen davon aus, dass dafür volle 30 Tage Training mit einem bestimmten GPU-Typ erforderlich sind. SageMaker HyperPod kann dann loslegen, die beste Kombination von Kapazitätsblöcken finden und einen Plan erstellen, um dies umzusetzen. SageMaker kümmert sich um die Bereitstellung der Infrastruktur und die Ausführung von Jobs (und deren Anhalten, wenn keine Kapazität verfügbar ist).
Im Idealfall, so Mehrotra, könne dies diesen Unternehmen dabei helfen, zu hohe Ausgaben für die Bereitstellung von Servern für ihre Schulungsarbeit zu vermeiden.
Oftmals trainieren diese Unternehmen Modelle jedoch nicht von Grund auf. Stattdessen optimieren sie Modelle mithilfe ihrer eigenen Daten auf Basis offener Gewichtsmodelle und Modellarchitekturen wie Metas Llama. Für sie bringt das SageMaker-Team HyperPod Recipes auf den Markt. Hierbei handelt es sich um evaluierte und optimierte Rezepte für gängige Architekturen wie Llama und Mistral, die Best Practices für die Verwendung dieser Modelle zusammenfassen.
Mehrotra betonte, dass diese Rezepte auch die richtige Häufigkeit von Kontrollpunkten für eine bestimmte Arbeitsbelastung bestimmen, um sicherzustellen, dass der Trainingsfortschritt regelmäßig gespeichert wird.
Wenn die Anzahl der Teams, die in einem Unternehmen an generativer KI arbeiten, wächst, werden wahrscheinlich verschiedene Teams ihre eigene Kapazität bereitstellen, was wiederum bedeutet, dass einige dieser GPUs ungenutzt bleiben und das gesamte KI-Budget des Unternehmens verschlingen. Um dem entgegenzuwirken, ermöglicht AWS Unternehmen nun, diese Ressourcen im Wesentlichen zu bündeln und eine zentrale Kommandozentrale einzurichten, um GPU-Kapazität basierend auf der Priorität eines Projekts zuzuweisen. Das System kann dann automatisch Ressourcen nach Bedarf zuweisen (oder durch die interne Hierarchie bestimmt, was möglicherweise nicht immer dasselbe ist).
Eine weitere Möglichkeit besteht darin, dass Unternehmen den Großteil ihrer Ressourcen für die Durchführung von Inferenzen tagsüber verwenden können, um ihre Kunden zu bedienen, und dann einen größeren Teil dieser Ressourcen für Schulungen während der Nacht bereitstellen können, wenn die Nachfrage nach Inferenzen geringer ist.
Es stellt sich heraus, dass AWS diese Funktion zunächst für Amazon selbst entwickelt hat und das Unternehmen aufgrund dieses neuen Tools eine Clusterauslastung von über 90 % verzeichnet hat.
„Organisationen wollen wirklich innovativ sein und haben viele Ideen. Generative KI ist eine sehr neue Technologie. Es gibt so viele neue Ideen. Und dann sind sie mit diesen Ressourcen- und Budgetbeschränkungen konfrontiert. Es geht also darum, die Arbeit effizienter zu erledigen, und wir können Kunden wirklich dabei helfen, Kosten zu senken – und das hilft, wie wir gesehen haben, für Unternehmen oft dabei, die Kosten um bis zu 40 % zu senken.“