Nvidia hat auf der CES 2025 einen Prototyp eines KI-Avatars vorgestellt, der auf Ihrem PC-Desktop zu finden ist. Der KI-Assistent, R2XEs sieht aus wie eine Videospielfigur und kann Ihnen beim Navigieren in Anwendungen auf Ihrem Computer helfen.
Der R2X-Avatar wird mithilfe der KI-Modelle von Nvidia gerendert und animiert. Benutzer können den Avatar in beliebten LLMs ihrer Wahl ausführen, beispielsweise GPT-4o von OpenAI oder Grok von xAI. Benutzer können mit R2X per Text und Sprache chatten, Dateien zur Verarbeitung hochladen oder den KI-Assistenten sogar live auf ihrem Bildschirm oder ihrer Kamera sehen lassen, was passiert.
Technologieunternehmen entwickeln in letzter Zeit viele KI-Avatare, nicht nur für Videospiele, sondern auch für Geschäfts- und Privatkunden. Die ersten Demos sind seltsam, aber einige halten diese Avatare für eine vielversprechende Benutzeroberfläche für KI-Assistenten. Mit R2X versucht Nvidia, generative Videospielfähigkeiten mit hochmodernen KI-Assistenten zu kombinieren, um einen KI-Assistenten zu schaffen, der wie ein Mensch aussieht.
Sehr ähnlich Rückrufbeschwerde von Microsoft (was es war aus Datenschutzgründen verzögert), R2X kann ständig Screenshots Ihres Bildschirms erstellen und diese zur Verarbeitung durch ein KI-Modell laufen lassen, obwohl diese Funktion standardmäßig deaktiviert ist. Wenn es aktiviert ist, kann es Feedback zu Anwendungen geben, die auf Ihrem Computer ausgeführt werden, und Ihnen beispielsweise bei der Arbeit an einer komplexen Codierungsaufgabe helfen.
R2X ist immer noch ein Prototyp und selbst Nvidia gibt zu, dass noch einige Fehler behoben werden müssen. In Demos mit TechCrunch hatte Nvidias Avatar ein unheimliches Valley-Feeling – sein Gesicht steckte manchmal in seltsamen Positionen und sein Ton wirkte manchmal etwas aggressiv. Und im Allgemeinen finde ich es seltsam, dass mich ein kleiner humanoider Avatar ansieht, während ich meine Arbeit verrichte.
Es bot im Allgemeinen hilfreiche Anweisungen und visualisierte genau, was auf dem Bildschirm angezeigt wurde. Doch irgendwann gab uns der Avatar falsche Anweisungen und später konnte der Avatar den Bildschirm nicht mehr sehen. Dies kann ein Problem mit dem zugrunde liegenden KI-Modell (in diesem Fall GPT-4o) sein, aber das Beispiel zeigt die Einschränkungen dieser frühen Technologie.
In einer Demo zeigte ein Produktleiter von Nvidia, wie R2X Benutzer bei Bildschirmanwendungen visualisieren und unterstützen kann. Insbesondere hat uns R2X dabei geholfen, die generative Füllfunktion von Adobe Photoshop zu nutzen. Das von uns ausgewählte Foto zeigte Nvidia-CEO Jensen Huang in einem asiatischen Restaurant mit zwei Restaurantmitarbeitern. Der Nvidia-Avatar halluzinierte und gab falsche Anweisungen, wo die generative Füllfunktion zu finden sei. Aber nachdem wir das KI-Modell, das wir für Grok verwendet haben, von xAI geändert haben, erlangte der Avatar seine Fähigkeiten zur Bildschirmanzeige zurück.
In einer weiteren Demonstration konnte R2X ein PDG vom Desktop aufnehmen und dann Fragen dazu beantworten. Dieser Prozess wird durch eine erweiterte Generierungsfunktion für den lokalen Abruf unterstützt, die diesen KI-Avataren die Möglichkeit gibt, Informationen aus einem Dokument zu extrahieren und sie mithilfe des zugrunde liegenden LLM zu verarbeiten.
Nvidia nutzt einige KI-Modelle aus seiner Videospielsparte, um das Erscheinungsbild dieser Avatare zu verbessern. Um Avatare zu generieren, verwendet Nvidia seinen RTX-Algorithmus für neuronale Gesichter. Um die Bewegung von Gesicht, Lippen und Zunge zu automatisieren, verwendet Nvidia ein neues Modell namens Audio2Face™-3D. Dieses Modell schien an einigen Stellen einzufrieren und das Gesicht des Avatars in seltsamen Positionen zu halten.
Das Unternehmen behauptet außerdem, dass diese R2X-Avatare als persönliche Assistenten an Microsoft Teams-Besprechungen teilnehmen können.
Ein Produktleiter von Nvidia sagt, das Unternehmen arbeite daran, auch diesen KI-Avataren Agentenfähigkeiten zu verleihen, damit R2X eines Tages Aktionen auf Ihrem Desktop ausführen könnte. Diese Fähigkeiten scheinen in weiter Ferne zu liegen und würden wahrscheinlich Partnerschaften mit Softwareherstellern wie Microsoft und Adobe erfordern, die versuchen, selbst ähnliche Agentensysteme zu entwickeln.
Es ist nicht sofort klar, wie Nvidia Stimmen zu diesen Produkten generiert. Die Stimme von R2X klingt bei Verwendung von GPT-4o anders als alle vordefinierten Stimmen von ChatGPT, während der Grok-Chatbot von xAI noch keinen Sprachmodus hat.
Das Unternehmen plant, diese Avatare im ersten Halbjahr 2025 als Open Source bereitzustellen. Nvidia betrachtet dies als eine neue Benutzeroberfläche, auf der Entwickler aufbauen können und die es Benutzern ermöglicht, ihre bevorzugten KI-Softwareprodukte anzuschließen oder diese Avatare sogar lokal auszuführen.