OpenAI gibt einem davon die Schuld längste Unterbrechungen seiner Geschichte in einem „neuen Telemetriedienst“ schief gelaufen.
Am Mittwoch veröffentlichte die KI-gestützte Chatbot-Plattform von OpenAI, GPT-Chat; Ihr Videogenerator, Sora; und seine entwicklerorientierte API erlitt ab 15:00 Uhr PT schwere Ausfälle. OpenAI erkannte das Problem bald darauf – und begann mit der Arbeit an einer Lösung. Für die Wiederherstellung aller Dienste würde das Unternehmen jedoch etwa drei Stunden benötigen.
Bei einer Autopsie veröffentlicht Am Donnerstagabend schrieb OpenAI, dass der Ausfall nicht durch einen Sicherheitsvorfall oder eine kürzlich erfolgte Produktveröffentlichung verursacht wurde, sondern durch einen Telemetriedienst, der am Mittwoch zur Erfassung von Kubernetes-Metriken eingesetzt wurde. Kubernetes ist ein Open-Source-Programm, das bei der Verwaltung von Anwendungscontainern oder -paketen und zugehörigen Dateien hilft, die zum Ausführen von Software in isolierten Umgebungen verwendet werden.
„Telemetriedienste haben eine sehr große Reichweite, daher verursachte die Konfiguration dieses neuen Dienstes unbeabsichtigt … ressourcenintensive Kubernetes-API-Vorgänge“, schrieb OpenAI in der Obduktion. „(Unsere) Kubernetes-API-Server wurden überlastet, was die Kubernetes-Steuerungsebene auf den meisten unserer großen (Kubernetes-)Cluster zum Absturz brachte.“
Das ist viel Fachjargon, aber im Grunde hat der neue Telemetriedienst Auswirkungen auf den Kubernetes-Betrieb von OpenAI, einschließlich einer Funktion, auf die viele Dienste des Unternehmens für die DNS-Auflösung angewiesen sind. Die DNS-Auflösung wandelt IP-Adressen in Domänennamen um. Aus diesem Grund können Sie auch „Google.com“ anstelle von „142.250.191.78“ eingeben.
Die Verwendung von DNS-Caching durch OpenAI, das Informationen über zuvor gesuchte Domänennamen (z. B. Website-Adressen) und die entsprechenden IP-Adressen enthält, verkomplizierte die Dinge, indem es „die Sichtbarkeit verzögerte“, schrieb OpenAI, und „die Implementierung (des Telemetriedienstes) ermöglichte, bevor die fortgesetzt wurde.“ Das ganze Ausmaß des Problems wurde verstanden.“
OpenAI sagt, dass es das Problem „einige Minuten“ erkennen konnte, bevor die Kunden die Auswirkungen bemerkten, aber nicht in der Lage war, schnell eine Lösung zu implementieren, da überlastete Kubernetes-Server umgangen werden mussten.
„Dies war ein Zusammentreffen mehrerer Systeme und Prozesse, die gleichzeitig ausfielen und auf unerwartete Weise interagierten“, schrieb das Unternehmen. „Unsere Tests haben die Auswirkungen der Änderung auf die Kubernetes-Kontrollebene nicht erfasst (und) die Korrektur war aufgrund des Blockierungseffekts sehr langsam.“
OpenAI sagt, dass es mehrere Schritte unternehmen wird, um ähnliche Vorfälle in Zukunft zu verhindern, einschließlich verbesserter schrittweiser Bereitstellungen mit besserer Überwachung von Infrastrukturänderungen und neuen Mechanismen, um sicherzustellen, dass OpenAI-Ingenieure jederzeit auf die Kubernetes-API-Server des Unternehmens zugreifen können.
„Wir entschuldigen uns für die Auswirkungen, die dieser Vorfall auf alle unsere Kunden hatte – von ChatGPT-Benutzern bis hin zu Entwicklern und Unternehmen, die auf OpenAI-Produkte angewiesen sind“, schrieb OpenAI. „Wir sind hinter unseren eigenen Erwartungen zurückgeblieben.“