Googles neues KI-Tool Whisk nutzt Bilder als Anhaltspunkte

Von

16 Dezember 2024

Google hat das noch nicht getan ein anderer KI-Tools Hinzufügen zu der Stapel. Bewachen ist ein Bildgenerator von Google Labs, mit dem Sie ein vorhandenes Bild als Eingabeaufforderung verwenden können. Die Ausgabe erfasst jedoch nur die „Essenz“ Ihres Ausgangsbildes, anstatt es mit neuen Details neu zu erstellen. Daher eignet es sich besser für Brainstorming und schnelle Visualisierungen als für die Bearbeitung des Quellbilds.

Das Unternehmen beschreibt Whisk als „eine neue Art von kreativem Werkzeug“. Der Eingabebildschirm beginnt mit einer einfachen Benutzeroberfläche mit Stil- und Betreffeingabe. Über diese einfache Einführungsoberfläche können Sie aus drei vordefinierten Stilen wählen: Aufkleber, Emaille-Pin und Plüschtier. Ich vermute, Google hat herausgefunden, dass diese drei die Art von groben Skizzenergebnissen ermöglichen, für die das experimentelle Tool in seiner aktuellen Form am besten geeignet ist.

Wie Sie im Bild oben sehen können, entstand ein solides Bild eines Plüschtiers von Wilford Brimley. (Die Nutzungsbedingungen von Google verbieten Fotos von Prominenten, aber Wilford schlüpfte mit Quaker Oats im Schlepptau durch das Tor, ohne die Sicherheitskräfte zu alarmieren.)

Whisk enthält außerdem einen erweiterten Editor (den Sie finden, indem Sie im Hauptbildschirm auf „Von Grund auf neu starten“ klicken). In diesem Modus können Sie Text oder ein Quellbild in drei Kategorien verwenden: Motiv, Szene und Stil. Es gibt auch eine Eingabeleiste, um für den letzten Schliff noch mehr Text hinzuzufügen. Derzeit haben die erweiterten Steuerelemente jedoch keine Ergebnisse zurückgegeben, die meinen Suchanfragen auch nur annähernd ähnelten.

Sehen Sie sich zum Beispiel meinen Versuch an, den verstorbenen Mr. Brimley in einer Lightbox-Szene im Stil eines Walross-Umarmungsbildes, das ich online gefunden habe:

Screenshot eines KI-Generierungstools, das Bilder eines Mannes erstellt, der ein bisschen wie Wilford Brimley aussieht. — Google / Screenshot von Will Shanklin für Engadget

Schlagen Sie etwas, das wie ein vage an Wilford Brimley erinnernder Schauspieler aussieht, der Haferflocken isst, in einen Leuchtkastenrahmen. Soweit ich weiß, ist dieser Typ kein Umarmer. Es ist also klar, warum Google empfiehlt, das Tool eher für die „schnelle visuelle Erkundung“ und weniger für produktionsreife Inhalte zu verwenden.

Google erkennt an, dass Whisk nur „einige Schlüsselfunktionen“ Ihres Quellbilds verwendet. „Das generierte Motiv kann beispielsweise eine andere Größe, ein anderes Gewicht, eine andere Frisur oder Hautfarbe haben“, warnt das Unternehmen.

Um zu verstehen, warum, schauen Sie sich einfach die Beschreibung von Google an, wie Whisk unter der Haube funktioniert. Es nutzt die Gemini-Sprachmodell um eine ausführliche Bildunterschrift für das von Ihnen hochgeladene Quellbild zu schreiben. Dann wird diese Beschreibung in das eingefügt Abbildung 3 Bildgenerator. Das Ergebnis ist also ein Bild, das darauf basiert Zwillingsworte über Ihr Bild – nicht das Quellbild selbst.

Whisk ist derzeit nur in den USA erhältlich. Sie können es am Projekt ausprobieren Google Labs-Website.

Quelle link

Verwandte ArtikelMehr vom Autor

Die neueste Beats-Pille ist derzeit 50 $ günstiger

Amazon-Käufer aufgepasst: Möglicherweise können Sie einen Amazon Smart Plug für nur 1,99 $ ergattern

Berichten zufolge plant Trump, Bidens Elektroauto-Politik umzukehren

Kommentieren Sie den Artikel Antwort abbrechen

Kategorie

Verwandte Artikel Mehr vom Autor