ChatGPT von OpenAI beginnt mit anderen Anwendungen auf Ihrem Computer zu arbeiten.
Am Donnerstag gab das Startup bekannt, dass die ChatGPT-Desktop-App für MacOS jetzt Code in mehreren entwicklerorientierten Codierungs-Apps wie VS Code, Xcode, TextEdit, Terminal und iTerm2 lesen kann.
Dies bedeutet, dass Entwickler ihren Code nicht mehr kopieren und in ChatGPT einfügen müssen, was zu einer gängigen Methode bei der Verwendung von Chatbots geworden ist. Wenn die Funktion nun aktiviert ist, sendet OpenAI automatisch den Codeabschnitt, an dem Sie arbeiten, zusammen mit Ihrer Eingabeaufforderung über Ihren Chatbot als Kontext.
Im Gegensatz zu beliebten KI-Codierungstools wie Cursor oder GitHub Copilot ist ChatGPT jedoch derzeit nicht in der Lage, in Ihrem Namen Code direkt in Entwickleranwendungen zu schreiben.
Die Funktion namens „Work with Apps“ ist weit entfernt von einem KI-Agenten, aber OpenAI sagt, dass es ein „grundlegender Baustein“ für den Aufbau von Agentensystemen ist, ChatGPT dazu zu bringen, andere Anwendungen zu verstehen. Eine der größten Herausforderungen für KI-Agenten besteht heute darin, sie dazu zu bringen, den Rest des Computerbildschirms zu verstehen und nicht nur Anfragen oder ihre eigenen Antworten.
OpenAI gibt an, diese Funktion zunächst auf die App-Codierung zu konzentrieren; Dies liegt wahrscheinlich daran, dass KI-Codierungsassistenten zu einem der beliebtesten Anwendungsfälle für LLMs geworden sind. Die Funktion ist heute für Plus- und Teams-Benutzer verfügbar und wird in den kommenden Wochen für Enterprise und Edu eingeführt. OpenAI behauptet, dass ChatGPT in Zukunft mit anderen Arten von Anwendungen zusammenarbeiten kann, insbesondere mit textbasierten Anwendungen, die für Schreibaufgaben verwendet werden können.
In einer Demo mit TechCrunch öffnete ein OpenAI-Mitarbeiter die ChatGPT-App und eine Xcode-Umgebung, die ein einfaches Projekt zur Modellierung des Sonnensystems enthielt – obwohl darin die Erde fehlte. Der Mitarbeiter wählte in ChatGPT eine Xcode-Registerkarte aus, die den KI-Chatbot anweist, sich die Anwendung anzusehen, und forderte den Chatbot auf, „die fehlenden Planeten hinzuzufügen“. Der Chatbot konnte die Aufgabe abschließen, indem er eine Codezeile zur Darstellung der Erde schrieb, die zum restlichen Projektformat passte. Sie mussten sogar die ChatGPT-Antwort wieder in ihre Umgebung einfügen.
Laut Alexander Embiricos, Desktop-Produktleiter bei OpenAI, verlässt sich OpenAI zum Lesen verschiedener Anwendungen hauptsächlich auf die MacOS Accessibility API, um Text zu lesen und in ChatGPT zu übersetzen. Der MacOS-Screenreader, der hilft Apples VoiceOver-Funktion Arbeit, existiert seit fast zwei Jahrzehnten. Es gilt im Allgemeinen für die meisten gängigen Anwendungen als recht zuverlässig, jedoch nicht für alle.
Für einige Anwendungen, wie z. B. VS Code von Microsoft, erfordert Work with Apps, dass Benutzer eine spezielle Erweiterung installieren, um Inhalte abzufragen. Und wie der Name schon sagt, kann der Bildschirmleser von Apple nur Text lesen, sodass er ChatGPT nicht dabei helfen kann, visuelle Elemente zu verstehen – wie Fotos, Objektausrichtung oder Videos.
Arbeiten Sie mit Anwendungen, indem Sie Ihre letzten 200 Codezeilen zusammen mit jeder Anfrage von bestimmten Anwendungen über ChatGPT senden. Für andere wird der gesamte Code aus dem Hauptfenster als Eingabe für den Chatbot verwendet. Sie können Code- oder Textabschnitte hervorheben, um ChatGPT dabei zu helfen, sich auf den richtigen Teil des Projekts zu konzentrieren. ChatGPT bezieht jedoch auch den umgebenden Text ein. Es sieht so aus, als ob all dies viele Eingabe-Tokens verbrauchen wird.
Es ist unklar, wie OpenAI diese Funktion auf andere Apps ausweiten will, die den Bildschirmleser von Apple nicht unterstützen. Anthropic, einer der Konkurrenten von OpenAI, startete a KI-System, das Screenshots des Desktops eines Benutzers analysiert andere Anwendungen zu verstehen und zu nutzen. Ehrlich gesagt lässt der Ansatz von Anthropic in seiner jetzigen Form zu wünschen übrig: Er ist langsam und macht viele Fehler. Es handelt sich jedoch um eine allgemeinere Version eines KI-Agenten, der nicht auf APIs angewiesen ist und mehr kann, als nur Text in einem anderen Fenster zu lesen.
„Dies ist nicht als Agent gedacht, es ist eine Möglichkeit, mit Codierungstools zusammenzuarbeiten, um loszulegen, und es werden bald weitere Tools verfügbar sein“, sagte Alexander Embiricos, Desktop-Produktleiter bei OpenAI, in einem Briefing mit TechCrunch. „Auf der Agentenseite denke ich, dass dies eine wirklich wichtige Grundlage ist. Diese Idee, dass ChatGPT alle Inhalte versteht oder damit arbeiten kann, die Sie benötigen, um helfen zu können.“
Dieser Schritt hin zu Agenten ist besonders bemerkenswert angesichts aktueller Berichte, dass OpenAI der Einführung eines Allzweck-KI-Agenten mit dem Codenamen „Operator“ immer näher kommt Bloomberg. Das Tool wird voraussichtlich Anfang 2025 auf den Markt kommen und mit anderen frühen Versuchen von Allzweck-KI-Agenten konkurrieren, wie beispielsweise Anthropics Computer Use oder Googles angeblicher Agent „Jarvis“.
OpenAI führt diese Funktionen zum ersten Mal auf MacOS ein, kurz bevor Apple a veröffentlicht Integration mit ChatGPT im Dezember. Es ist unklar, wann Work with Apps für Windows verfügbar sein wird, das Betriebssystem, das von Microsoft, dem größten Unterstützer von OpenAI, entwickelt wurde.