Start IT/Tech OpenAI bringt Operator auf den Markt, einen KI-Agenten, der Aufgaben autonom ausführt

OpenAI bringt Operator auf den Markt, einen KI-Agenten, der Aufgaben autonom ausführt

6
0
OpenAI logo with spiraling pastel colors (Image Credits: Bryce Durbin / TechCrunch)

Sam Altman, CEO von OpenAI, begann dieses Jahr mit der Aussage in einem Blogbeitrag, dass das Jahr 2025 sein würde Seien Sie groß für KI-AgentenTools, die Aufgaben automatisieren und Aktionen in Ihrem Namen ausführen können.

Jetzt sehen wir den ersten echten Versuch von OpenAI.

OpenAI gab am Donnerstag bekannt, dass es eine Forschungsvorschau von Operator veröffentlicht, einem Allzweck-KI-Agenten, der die Kontrolle über einen Webbrowser übernehmen und bestimmte Aktionen unabhängig ausführen kann.

Mit dem 200-Dollar-Pro-Abonnementplan von ChatGPT kommt der Betreiber zuerst zu US-Nutzern. OpenAI plant, diese Funktion irgendwann für mehr Benutzer in den Stufen Plus, Team und Enterprise bereitzustellen.

„(Der Betreiber) wird bald in anderen Ländern vertreten sein“, sagte OpenAI-CEO Sam Altman während eines Live-Streams am Donnerstag. „Europa wird leider eine Weile brauchen.“

Diese erste Forschungsvorschau ist unter Operator.chatgpt.com verfügbar, aber OpenAI kündigt bald an, Operator in alle seine ChatGPT-Clients integrieren zu wollen.

Startbildschirm des Bedieners. (Quelle: OpenAI)

Laut OpenAI verspricht der Betreiber, Aufgaben wie die Buchung von Reiseunterkünften, Restaurantreservierungen und Online-Einkäufe zu automatisieren. Es gibt mehrere Kategorien von Aufgaben, aus denen Benutzer in der Bedieneroberfläche auswählen können, darunter Einkaufen, Lieferung, Restaurants und Reisen – die alle unterschiedliche Arten der Automatisierung ermöglichen.

Wenn ChatGPT-Benutzer den Operator aktivieren, erscheint ein kleines Fenster mit einem dedizierten Browser, den der Agent zum Erledigen von Aufgaben verwendet, zusammen mit Erläuterungen zu bestimmten Aktionen, die der Agent ausführt. Benutzer können ihren Bildschirm weiterhin steuern, während Operator arbeitet, da Operator seinen eigenen dedizierten Browser verwendet.

OpenAI behauptet, dass Operator auf einem Computer-User-Agent- oder CUA-Modell basiert, das die Business-Insight-Fähigkeiten des Unternehmens kombiniert. GPT-4o Modell mit Argumentationsfähigkeiten aus den fortschrittlichsten Modellen von OpenAI. CUA ist darauf trainiert, mit dem Front-End von Websites zu interagieren, was bedeutet, dass es keine entwicklerorientierten APIs verwenden muss, um auf verschiedene Dienste zuzugreifen.

Mit anderen Worten: Die CUA kann wie ein Mensch Schaltflächen verwenden, durch Menüs navigieren und Formulare auf einer Webseite ausfüllen.

OpenAI sagt, dass es mit Unternehmen wie DoorDash, eBay, Instacart, Priceline, StubHub und Uber zusammenarbeitet, um sicherzustellen, dass der Betreiber die Nutzungsbedingungen dieser Unternehmen einhält.

OpenAI-Operator
Bildnachweis:OpenAI

„Das CUA-Modell ist darauf trainiert, den Benutzer um Bestätigung zu bitten, bevor er Aufgaben mit externen Nebenwirkungen beendet, beispielsweise bevor er eine Bestellung aufgibt, eine E-Mail sendet usw., sodass der Benutzer die Arbeit des Modells noch einmal überprüfen kann, bevor sie dauerhaft wird.“ „, schreibt OpenAI in Materialien, die TechCrunch zur Verfügung gestellt wurden. „(Es) hat sich bereits in einer Reihe von Fällen als nützlich erwiesen und wir beabsichtigen, diese Zuverlässigkeit auf ein breiteres Aufgabenspektrum auszudehnen.“

Aber OpenAI warnt, dass CUA nicht perfekt ist. Das Unternehmen gibt an, dass es „noch nicht davon ausgeht, dass die CUA in allen Szenarien zuverlässig funktioniert“.

Als Vorsichtsmaßnahme erfordert OpenAI auch die Aufsicht über einige Aufgaben, wie z. B. Banktransaktionen, die die CUA und der Betreiber in erster Linie selbst durchführen könnten. Benutzer müssen beispielsweise die Eingabe von Kreditkarteninformationen übernehmen. OpenAI sagt, dass der Betreiber keine Daten sammelt oder Screenshots macht.

„Bei besonders sensiblen Websites wie E-Mails erfordert der Betreiber eine aktive Benutzerüberwachung, um sicherzustellen, dass Benutzer potenzielle Fehler, die das Modell verursachen könnte, direkt erkennen und beheben können“, heißt es in seinen Supportmaterialien von OpenAI.

Dies schränkt zwar den Nutzen des Betreibers ein, stellt aber auch sicher, dass der Agent nicht halluziniert und beispielsweise seine Hypothekenzahlung für Akzentstühle ausgibt. Einen ähnlichen Ansatz verfolgte Google mit seinem Sailor-Projekt KI-Agent, der auch keine Informationen wie Kreditkartennummern ausfüllt.

Ein zukünftiger Agent

OpenAI war bei der Entwicklung eines KI-Agenten im Vergleich zu Konkurrenten recht langsam (siehe: KI-Agenten). Kaninchen, GoogleUnd Anthropisch), was möglicherweise etwas mit den Sicherheitsrisiken der Technologie zu tun hat.

Wenn ein KI-System Aktionen im Web ausführen kann, öffnet es die Tür zu viel gefährlicheren Anwendungsfällen durch ruchlose Akteure. Sie könnten KI-Agenten automatisieren, um Phishing-Betrug oder DDoS-Angriffe zu orchestrieren, oder sie könnten Tickets für ein Konzert besorgen, bevor es jemand anderes tut. Insbesondere bei einem so weit verbreiteten Tool wie ChatGPT ist es wichtig, dass OpenAI Maßnahmen ergreift, um diese Art der Ausnutzung zu verhindern.

OpenAI scheint zu glauben, dass Operator sicher genug ist, um in seiner aktuellen Form veröffentlicht zu werden, zumindest als Forschungsvorschau.

Operator ist OpenAIs bisher kühnster Versuch, einen KI-Agenten zu entwickeln. Letzte Woche, OpenAI hat Aufgaben veröffentlichtChatGPT bietet einfache Automatisierungsfunktionen wie die Möglichkeit, Erinnerungen einzurichten und Aufforderungen so zu planen, dass sie jeden Tag zu einer festgelegten Zeit ausgeführt werden.

Aufgaben stellten ChatGPT-Benutzern einige vertraute, aber notwendige Funktionen zur Verfügung, um die Verwendung von ChatGPT so bequem wie Siri oder Alexa zu machen. Allerdings bietet Operator Fähigkeiten, die die vorherige Generation virtueller Assistenten niemals bieten konnte.

KI-Agenten werden als das nächste große Ding in der KI nach ChatGPT angepriesen: eine neue Technologie, die die Art und Weise verändern wird, wie Menschen das Internet und ihre PCs nutzen, anstatt einfach nur Informationen zu liefern und zu verarbeiten, können Agenten – theoretisch – Maßnahmen ergreifen und Dinge tun .

Während OpenAI seine erste konkrete Sicht auf Agenten vorstellt, wird bald klar, wie realistisch diese Vision ist.

Quelle link

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein