Es kit (gesprochen ka-id) an allen Ecken. Alle reden über KI. An unzähligen Ecken sprießen neue Systeme, oder Anwendungen auf bestehenden Systemen, aus der Erde.

In meiner Fotobubble geht es natürlich überwiegend um Bild-KIs.
Text-KIs wie ChatGPT sind Stand heute sinnvoll nutzbar. Quasi von jedem. Die meisten wissen es halt einfach noch nicht. Aber das ist wieder ein anderes Thema.

In meinen Augen sind die bisherigen Bild-Systeme im wesentlichen noch Spielwiesen und Experimentierkästen. Dem „normalen“ Menschen kann man etwas wie midjourney mit discord kaum zumuten. Auch beim Bing Creator erschließt sich mir noch nicht, wie man ihn, außer in ein paar Randbereichen ernsthaft nutzen soll. Von stable diffusion will ich da gar nicht reden. KI auf den heimischen Rechner zu bekommen wie z.B. mit Alpaca/LLaMA ist extrem spannend, aber zur Zeit eher was für Nerds.
Wir stehen halt erst an den Anfängen. Aber wo stehen wir? Es gibt unzählige coole Bilder aus KI-Systemen, sehr beeindruckend. Zumindest auf den ersten Blick. Aber wie sieht es aus, wenn ich nicht nur spielen, sondern ein mehr oder weniger konkretes Ziel erreichen möchte?

Zum testen wollte ich ein Bild erstellen lassen mit blonder Frau, dunklem Kerl und Kamera. Und irgendwie sollte es in der Schweiz „spielen“.
Ähnlichkeiten zu lebenden Personen und Geschehnissen sind zufällig 😉

Der allererste Versuch in midjourney:

Dunkle Haare scheint ein weiter Begriff zu sein. Dass die Berge aus der Schweiz sein sollen erkennt der Betrachter wahrscheinlich auch nicht unbedingt.
Der Fehler liegt hier nicht zwingend in der KI, sondern (auch) darin, dass ich ihr nicht gut genug erklärt habe, was sie machen soll. Und genau hier liegt das Problem. Es ist z.Z. alles andere als trivial zu einem konkreten Ergebnis zu gelangen.

Mit etwas Rumprobiererei kam ich zu diesem Bild, welches schon halbwegs passt. Aber beachte, der Prompt, also die Anweisung an die KI begann mit dem Wort „Photography“.

Nun wollte ich ihm noch einen Kopfhörer und Sonnenbrille verpassen. Jetzt kann man der KI nicht sagen; „Setz dem Kerl einen Kopfhörer auf“. Sondern muss den gesamten Befehl entsprechend erweitern. Also „…..Black haired man with beard, headphones and sunglasses…“

Damit entstehen aber komplett neue Bilder. Ich wollte doch nur eine Kleinigkeit geändert haben!?
Die Varianten sind sehr kreativ, aber durchweg unbrauchbar. Der Mann in Bild 2 passt ganz gut. Aber ich kann midjourney nicht sagen „Behalte den Kerl und mach den Rest noch mal neu“.

Weitere Varianten auf Grundlage einer dieser Bilder zu erzeugen macht wenig Sinn. Da die Fehler dann meist erhalten bleiben. Noch mal, mit dem selben Prompt, versuchen führt(e ) hierzu:
 

Auch hier sieht man die Zufälligkeit. Der selbe Prompt führt nicht zum selben Ergebnis.
Möchte man sich inspirieren lassen, dann ist das Vorgehen ok. Desto konkreter das Ergebnis werden soll, desto mehr befindet man sich hier auf verlorenem Posten.

Das ist aber kein Problem der KI als solcher, sondern eines, wie man mit ihr kommunizieren kann/muss. Könnte ich sagen bzw. würde die KI verstehen „Nimm Variante 3, entferne bei ihr Kopfhörer und Sonnenbrille und setzte ihm den Kopfhörer auf“ dann könnte man sich an das Ergebnis ranarbeiten. So aber bleibt viel von Versuch und Irrtum.

Anders bei Adobe Firefly

Zum einen gibt es hier das „conversational editing“, dass genau das kann. Man hat einen Chatbot wie bei ChatGPT neben einem Bild und beschreibt in Textform (auch hier nur englisch zur Zeit) was an dem Bild verändert werden soll.

Außerdem gibt es eine „Inpainting“-Funktion, mit der Bereiche im Bild per Maus markiert werden können. Danach sagt man der KI was sie in diesem Bereich machen soll.

Introducing Adobe Firefly

Mit „Smart Portrait“ kann man Eigenschaften des Gesichtes ändern – per Schieberegler. Etwas mehr Lächeln, etwas weniger. Hier packt Adobe Funktionalitäten der neuronalen Filter, die man bereits aus Photoshop kennt, mit in die Oberfläche.

Mit midjourney, bing, chatgpt und stable diffusion habe ich schon „spielen“ können, nun tue ich es mit Adobe Firefly. Wobei da noch recht wenig Funktionalitäten freigeschaltet sind.


Der selbe Prompt wie oben bei midjourney führt zu diesem Ergebnis:

Das sieht für mich deutlich eher nach einer Fotografie aus.

Für einen Test oder ein Review ist es viel zu früh. Im Moment wüsste ich nicht einmal wie ein solcher aussehen sollte. Was sind die „harten“ Kriterien nach denen man hier testen sollte? Welche Testfälle verwenden wenn im Grunde Alels machbar ist?

Erstellt mit Addobe Texteffects. Prompt „sitzerland, mountains, snow“.

Zur Zeit, während wir lernen, die KI lernt, alles noch Beta ist, machen höchstens Erfahrungsberichte und ganz subjektive Meinungen Sinn. Wir stehen halt am Anfang einer Reise.

One thought on “Bild-KI::Useability”

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.