Eines der am meisten erwarteten KI-bezogenen Produkte ist gerade eingetroffen: der KI-Videogenerator Sora von OpenAI gestartet am Montag im Rahmen des Unternehmens 12 Tage OpenAI Ereignis.
OpenAI hat in der Vergangenheit einen kleinen Einblick in die Ergebnisse von Sora gegeben. Aber wie unterschiedlich ist es beim Start? OpenAI hat zweifellos intensiv an der Aktualisierung und Verbesserung seines KI-Videogenerators gearbeitet, um seinen öffentlichen Start vorzubereiten.
YouTuber Marques Brownlee hatte einen Schauen Sie sich zunächst Sora anEr veröffentlichte seine Videorezension des neuesten OpenAI-Produkts, Stunden bevor OpenAI seinen Start überhaupt offiziell ankündigte. Was dachte Brownlee?
Was Sora gut kann
Laut Brownlee haben seine Sora-Tests gezeigt, dass der KI-Videogenerator hervorragend Landschaften erstellt. KI-generierte Overhead-, Drohnen-ähnliche Aufnahmen der Natur oder berühmter Landschaften sehen aus wie echte Stockvideos. Natürlich, wie Brownlee anmerkt, können Sie möglicherweise die Unterschiede erkennen, wenn Sie sich genau mit der Umgebung eines Denkmals auskennen. Allerdings gibt es in solchen von Sora erstellten Clips nicht viel, was eindeutig KI-generiert aussieht.
Vielleicht ist die Art von Video, die Sora laut Brownlee am besten erstellen kann, abstrakte Videos. Hintergrund- oder Bildschirmschoner-ähnliche abstrakte Kunst kann Sora auch mit konkreten Anweisungen recht gut erstellen.
Zerstörbare Lichtgeschwindigkeit
Brownlee stellte außerdem fest, dass von Sora animierte Inhalte wie Stop-Motion- oder Claymation-Animationen manchmal passabel aussehen, weil die manchmal ruckartigen Bewegungen, die KI-Videos noch immer plagen, stilistischen Entscheidungen ähneln.
Überraschenderweise entdeckte Brownlee, dass Sora sehr spezifische animierte Textbilder verarbeiten konnte. In anderen KI-Modellen zur Generierung von Bildern und Videos erscheinen Wörter oft als unleserlicher Text. Bei Sora stellte Brownlee fest, dass Sora das Bild mit der richtigen Schreibweise erstellen konnte, solange der Text spezifisch war, zum Beispiel ein paar Wörter auf der Titelkarte.
Wo Sora einen Fehler macht
Allerdings weist Sora immer noch viele der gleichen Probleme auf, mit denen alle KI-Videogeneratoren vor der Einführung des Unternehmens zu kämpfen hatten.
Das erste, was Brownlee erwähnt, ist die Objektpermanenz. Sora hat beispielsweise Schwierigkeiten, während der Dauer des Videos einen bestimmten Gegenstand in der Hand einer Person darzustellen. Manchmal bewegt sich das Objekt oder verschwindet plötzlich. Ähnlich wie KI-Text leidet auch Soras KI-Video unter Halluzinationen.
Was Brownlee zu Soras größtem Problem bringt: der Physik im Allgemeinen. Fotorealistische Videos scheinen für Sora eine ziemliche Herausforderung zu sein, da es den Anschein hat, als würden die Bewegungen nicht richtig erfasst. Jemand, der einfach nur geht, wird sein Tempo unnatürlich verlangsamen oder beschleunigen. Manchmal können sich Körperteile oder Gegenstände auch plötzlich in etwas völlig anderes verwandeln.
Und während Brownlee diese Verbesserungen bei Text erwähnte, verfälscht Sora immer noch die Schreibweise von Hintergrundtexten jeglicher Art, wie man sie vielleicht auf Gebäuden oder Straßenschildern sieht, es sei denn, man geht ganz konkret vor.
Sora ist eine fortlaufende Arbeit, wie OpenAI beim Start mitteilte. Auch wenn es im Vergleich zu anderen KI-Videogeneratoren einen Fortschritt darstellt, ist klar, dass es nur wenige Bereiche gibt, in denen alle KI-Videomodelle eine Herausforderung darstellen.
Themen
Künstliche Intelligenz
OpenAI