Die Entwicklung und der Betrieb von KI wird immer teurer. Die KI-Betriebskosten von OpenAI könnten zu erreichen 7 Milliarden US-Dollar in diesem Jahr, während der CEO von Anthropic dies kürzlich vorgeschlagen hat kosten Bald könnten mehr als 10 Milliarden US-Dollar eintreffen.
Daher begann die Suche nach Möglichkeiten, KI billiger zu machen.
Einige Forscher konzentrieren sich auf Techniken zur Optimierung bestehender Modellarchitekturen – also der Struktur und Komponenten, die Modelle zum Funktionieren bringen. Andere entwickeln neue Architekturen, von denen sie glauben, dass sie bessere Skalierungschancen zu erschwinglichen Preisen haben.
Karan Goel gehört zum letzteren Lager. Beim Startup war er Mitbegründer von KartesischGoel arbeitet an sogenannten State Space Models (SSMs), einer neueren, hocheffizienten Modellarchitektur, die große Datenmengen – Texte, Bilder usw. – gleichzeitig verarbeiten kann.
„Wir glauben, dass neue Modellarchitekturen notwendig sind, um wirklich nützliche KI-Modelle zu erstellen“, sagte Goel gegenüber TechCrunch. „Die KI-Branche ist ein wettbewerbsintensiver Bereich, sowohl kommerziell als auch Open Source, und die Entwicklung des besten Modells ist entscheidend für den Erfolg.“
Akademische Wurzeln
Bevor er zu Cartesia kam, war Goel Doktorand im KI-Labor von Stanford, wo er unter anderem unter der Leitung des Informatikers Christopher Ré arbeitete. Während seiner Zeit in Stanford traf Goel Albert Gu, einen anderen Doktoranden im Labor, und die beiden entwarfen, was SSM werden sollte.
Goel bekam schließlich einen Job bei Schnorchel-KIdann Salesforce, während Gu Assistenzprofessor an der Carnegie Mellon wurde. Aber Gu und Goel untersuchten weiterhin SSMs und veröffentlichten mehrere grundlegend Forschungsartikel über Architektur.
Im Jahr 2023 beschlossen Gu und Goel – zusammen mit zwei ihrer ehemaligen Stanford-Kollegen, Arjun Desai und Brandon Yang – ihre Kräfte zu bündeln, um Cartesia zu gründen, um ihre Forschung zu kommerzialisieren.
Cartesia, zu dessen Gründungsteam auch Ré gehört, steht hinter vielen Derivaten von Mamba, dem heute vielleicht beliebtesten SSM. Gu und Princeton-Professor Tri Dao haben Mamba im vergangenen Dezember als offenes Forschungsprojekt gestartet und verbessern es durch nachfolgende Veröffentlichungen weiter.
Cartesia baut auf Mamba auf und trainiert eigene SSMs. Wie alle SSMs gibt Cartesia der KI so etwas wie ein Arbeitsgedächtnis und macht Modelle dadurch schneller – und möglicherweise effizienter – in der Art und Weise, wie sie Rechenleistung nutzen.
SSMs vs. Transformatoren
Die meisten KI-Anwendungen heute von GPT-Chat Zu Sorawerden von Modellen mit Transformatorarchitektur angetrieben. Als Transformator verarbeitet Daten und fügt Einträge zu einem sogenannten „verborgenen Zustand“ hinzu, um sich zu „merken“, was verarbeitet wurde. Wenn das Modell beispielsweise durch ein Buch geht, könnten die verborgenen Zustandswerte Darstellungen von Wörtern im Buch sein.
Der verborgene Zustand ist einer der Gründe, warum Transformatoren so leistungsstark sind. Aber es ist auch die Ursache seiner Ineffizienz. Um auch nur ein einziges Wort über ein Buch zu „sagen“, das ein Transformator gerade aufgenommen hat, müsste das Modell seinen gesamten verborgenen Zustand untersuchen – eine Aufgabe, die so rechenintensiv ist wie das erneute Lesen des gesamten Buchs.
Im Gegensatz dazu komprimieren SSMs alle vorherigen Datenpunkte zu einer Art Zusammenfassung von allem, was sie zuvor gesehen haben. Wenn neue Daten eintreffen, wird der „Status“ des Modells aktualisiert und SSM verwirft die meisten der vorherigen Daten.
Das Ergebnis? SSMs können große Datenmengen verarbeiten und sind bei bestimmten Datengenerierungsaufgaben besser als Transformatoren. Mit Inferenzkosten So wie sie sind, ist das wirklich ein attraktives Angebot.
Ethische Bedenken
Cartesia fungiert als gemeinschaftliches Forschungslabor und entwickelt SSMs in Partnerschaft mit externen und internen Organisationen. Sonic, das jüngste Projekt des Unternehmens, ist ein SSM, der die Stimme einer Person klonen oder eine neue Stimme erzeugen und den Ton und die Kadenz der Aufnahme anpassen kann.
Goel behauptet, dass Sonic, das über API und Web-Dashboard verfügbar ist, das schnellste Modell seiner Klasse ist. „Sonic ist ein Beweis dafür, wie sich SSMs bei Langkontextdaten wie Audio auszeichnen und gleichzeitig den höchsten Leistungsstandard in Bezug auf Stabilität und Genauigkeit beibehalten“, sagte er.
Obwohl Cartesia in der Lage war, Produkte schnell auszuliefern, stieß das Unternehmen auf viele der gleichen ethischen Fallstricke, mit denen auch andere Hersteller von KI-Modellen zu kämpfen hatten.
Kartesisch ausgebildet zumindest einige seiner SSMs in The Pile, einem offenen Datensatz, der bekanntermaßen nicht lizenzierte urheberrechtlich geschützte Bücher enthält. Das argumentieren viele KI-Unternehmen faire Nutzung Die Doktrin schützt sie vor Vorwürfen der Verletzung. Doch das hinderte die Täter nicht daran, zu klagen Meta und Microsoftsowie andere wegen angeblicher Ausbildung von Models bei The Pile.
Und Cartesia verfügt über kaum sichtbare Sicherheitsvorkehrungen für seinen Sonic-basierten Sprachkloner. Vor ein paar Wochen ist es mir gelungen, eine zu erstellen Klon die Stimme der ehemaligen Vizepräsidentin Kamala Harris in Wahlkampfreden (siehe unten). Für das Tool von Cartesia müssen Sie lediglich ein Kästchen ankreuzen, das angibt, dass Sie die Nutzungsbedingungen des Startups einhalten.
Cartesia ist in dieser Hinsicht nicht unbedingt schlechter als andere Tools zum Klonen von Stimmen auf dem Markt. Mit Berichten über rappende Sprachklone BanksicherheitskontrollenAllerdings ist die Optik nicht überragend.
Goel würde nicht sagen, dass Cartesia bei The Pile keine Models mehr ausbildet. Aber er ging auf die Moderationsprobleme ein und teilte TechCrunch mit, dass Cartesia über „automatisierte und manuelle Überprüfungssysteme“ verfüge und „an Systemen zur Sprach- und Wasserzeichenüberprüfung arbeite“.
„Wir haben spezielle Teams, die Aspekte wie technische Leistung, Missbrauch und Voreingenommenheit testen“, sagte Goel. „Wir arbeiten auch mit externen Prüfern zusammen, um die Sicherheit und Zuverlässigkeit unserer Modelle zusätzlich unabhängig zu überprüfen … Wir sind uns bewusst, dass dies ein fortlaufender Prozess ist, der einer ständigen Verbesserung bedarf.“
Aufstrebendes Geschäft
Laut Goel zahlen „Hunderte“ Kunden für den Zugriff auf Sonic API, Cartesias Haupteinnahmequelle, einschließlich der App für automatisierte Anrufe Guter Anruf. Die Cartesia-API ist für bis zu 100.000 vorgelesene Zeichen kostenlos, wobei der teuerste Plan 299 US-Dollar pro Monat für 8 Millionen Zeichen kostet. (Cartesia bietet auch eine Enterprise-Stufe mit dediziertem Support und benutzerdefinierten Limits.)
Standardmäßig verwendet Cartesia Kundendaten, um seine Modelle zu trainieren – eine Richtlinie, die zwar nicht beispiellos ist, aber datenschutzbewussten Benutzern wahrscheinlich nicht gefallen wird. Goal weist darauf hin, dass Benutzer sich bei Bedarf abmelden können und dass Cartesia benutzerdefinierte Aufbewahrungsrichtlinien für größere Organisationen anbietet.
Die Datenpraktiken von Cartesia scheinen dem Geschäft nicht zu schaden, zumindest nicht, solange Cartesia einen technischen Vorteil hat. Bob Summers, CEO von Goodcall, sagt, er habe sich für Sonic entschieden, weil es das einzige Modell zur Spracherzeugung mit einem sei Latenz weniger als 90 Millisekunden.
„(Es) übertraf seine nächstbeste Alternative um den Faktor vier“, fügte Summers hinzu.
Heute wird Sonic für Spiele, Synchronisation und mehr verwendet. Aber Goel ist der Meinung, dass dies nur ein Bruchteil dessen ist, was SSMs leisten können.
Ihre Vision sind Modelle, die auf jedem Gerät laufen und jede Datenmodalität – Texte, Bilder, Videos usw. – fast sofort verstehen und generieren. In einem kleinen Schritt in diese Richtung hat Cartesia diesen Sommer eine Beta-Version von Sonic On-Device auf den Markt gebracht, eine Version von Sonic, die für die Ausführung auf Telefonen und anderen Mobilgeräten für Anwendungen wie Echtzeitübersetzung optimiert ist.
Zusammen mit Sonic On-Device veröffentlichte Cartesia Edge, eine Softwarebibliothek zur Optimierung von SSMs für verschiedene Hardwarekonfigurationen Renéein kompaktes Sprachmodell.
„Wir haben die große, langfristige Vision, das multimodale Basismodell für alle Geräte zu werden“, sagte Goel. „Unsere langfristige Roadmap umfasst die Entwicklung multimodaler KI-Modelle mit dem Ziel, Echtzeit-Intelligenz zu schaffen, die in großen Kontexten schlussfolgern kann.“
Damit dies gelingt, muss Cartesia neue potenzielle Kunden davon überzeugen, dass seine Architektur eine Lernkurve wert ist. Es muss auch anderen Anbietern einen Schritt voraus sein, die mit Alternativen zum Transformator experimentieren.
Zefira Startups, MistralUnd AI21 Gut trainierte Hybridmodelle auf Basis von Mamba. Anderswo, Flüssige KIunter der Leitung der Robotik-Koryphäe Daniela Rus entwickelt eine eigene Architektur.
Laut Goel ist Cartesia mit 26 Mitarbeitern auf Erfolgskurs – auch dank einer neuen Finanzspritze. Das Unternehmen schloss diesen Monat eine von Index Ventures angeführte Finanzierungsrunde in Höhe von 22 Millionen US-Dollar ab, wodurch sich die Gesamteinnahme von Cartesia auf 27 Millionen US-Dollar erhöhte.
Shardul Shah, Partner bei Index Ventures, geht davon aus, dass die Technologie von Cartesia eines Tages Anwendungen für Kundenservice, Vertrieb und Marketing, Robotik, Sicherheit und mehr vorantreiben wird.
„Indem Cartesia die traditionelle Abhängigkeit von transformatorbasierten Architekturen in Frage stellt, hat es neue Möglichkeiten zum Aufbau kostengünstiger und skalierbarer Echtzeit-KI-Anwendungen eröffnet“, sagte er. „Der Markt verlangt nach schnelleren, effizienteren Modellen, die überall laufen können – vom Rechenzentrum bis zu den Geräten. Die Technologie von Cartesia ist in der einzigartigen Lage, dieses Versprechen einzulösen und die nächste Welle der KI-Innovation voranzutreiben.“
A* Capital, Conviction, General Catalyst, Lightspeed und SV Angel beteiligten sich ebenfalls an der jüngsten Finanzierungsrunde des in San Francisco ansässigen Unternehmens Cartesia.