OpenAI hat begonnen, sich mit einem neuen Tool namens Operator zu befassen, das in einem Webbrowser navigieren kann. Laut einem Blogbeitrag am Donnerstag veröffentlichtDie Software wird von einem sogenannten Computer-Using Agent betrieben. „CUA ist darauf trainiert, mit grafischen Benutzeroberflächen (GUIs) – den Schaltflächen, Menüs und Textfeldern, die Menschen auf einem Bildschirm sehen – zu interagieren, genau wie Menschen es tun“, sagt OpenAI über das Modell. „Das gibt ihm die Flexibilität, digitale Aufgaben auszuführen, ohne Betriebssystem oder webspezifische APIs zu verwenden.“
Die aktuelle Version von Operator basiert auf dem GPT-4o-Modell von OpenAI. Es kombiniert die Sehfähigkeiten dieses Algorithmus mit „fortgeschrittener Argumentation“, die durch verstärkendes Lernen trainiert wird. Der Bediener hat die Möglichkeit, „Aufgaben in mehrstufige Pläne aufzuteilen und sich selbst anzupassen, wenn Probleme auftreten“. Laut OpenAI stellt diese Fähigkeit die nächste Phase in der KI-Entwicklung dar.
Wie bei früheren Forschungsbeispielen warnt OpenAI, dass Operator „noch am Anfang steht und Einschränkungen aufweist“ und dass es „noch nicht in allen Szenarien zuverlässig funktionieren wird“. Abhängig von der Komplexität der Aufgabe und der beteiligten Schnittstelle kann es für den Agenten beispielsweise sehr vorteilhaft sein, wenn sich der Benutzer ein paar zusätzliche Momente Zeit nimmt, um eine detailliertere Eingabeaufforderung zu schreiben. Pro Der RandDer Operator gibt dem Benutzer die Kontrolle, falls er jemals bei einer Aufgabe stecken bleibt. Außerdem wird die Kontrolle übertragen, wenn eine Website vertrauliche Informationen, einschließlich Anmeldedaten, anfordert. Das Unternehmen gibt an, das Tool entwickelt zu haben, um „böswillige Anfragen abzulehnen und nicht autorisierte Inhalte zu blockieren“.
OpenAI stellt Operator zum ersten Mal Benutzern für 200 US-Dollar pro Monat zur Verfügung ChatGPT Pro-Abonnement. Es arbeitet auch mit Unternehmen zusammen wie Instacart um den Agenten auf ihren Plattformen anzubieten, obwohl Sie auch dort ein ChatGPT Pro-Abonnement benötigen, um die Integration zu testen.
Der Operator reiht sich in eine wachsende Liste von KI-Agenten ein, die in einem Webbrowser oder einem gesamten Betriebssystem navigieren können. Anthropic war das erste Unternehmen, das diese Funktion mit der Veröffentlichung von anbot Claude 3.5 Sonnet-Modell im OktoberKürzlich folgte Google mit seinem Zwillinge 2.0 Modell und Projekt Zeeman.
Wenn Sie über einen Link in diesem Artikel etwas kaufen, erhalten wir möglicherweise eine Provision.