Praxis-Anleitung: Text-zu-Bild-KI

Stable Diffusion: KI-Bilder kostenlos zuhause generieren - Teil2

Stable Diffusion und Automatic1111 sind das perfekte Team für KI-Bilder. Hier kommt der zweite Teil unseres Schritt-für-Schritt-Workshops.

Autor: Oliver Ketterer • 22.10.2024 • ca. 8:20 Min

Stable Diffusion: KI-Bilder kostenlos zuhause generieren - Teil2

Frag’ die KI

Stable Diffusion und Automatic1111 sind das perfekte Team für KI-Bilder, und dies ist der zweite Teil unseres Workshops. Falls Sie noch keine Erfahrung mit Stable Diffusion oder genauer gesagt mit Automatic1111 sammeln konnten, ist es unabdingbar, dass Sie den ersten Teil des Workshops bereits hint...

Stable Diffusion und Automatic1111 sind das perfekte Team für KI-Bilder, und dies ist der zweite Teil unseres Workshops. Falls Sie noch keine Erfahrung mit Stable Diffusion oder genauer gesagt mit Automatic1111 sammeln konnten, ist es unabdingbar, dass Sie den ersten Teil des Workshops bereits hinter sich gebracht haben, um mit diesem Teil weiterzumachen.

In Teil haben wir die Programmierumgebung geschaffen, Automatic1111 installiert und das System mit trainierten Modellen sowie einem weiteren Upscaler erweitert. Außerdem haben Sie einen Account bei civitai.com angelegt, um Zugang zu diversen Downloads zu erhalten. In diesem Teil wollen wir weitere sinnvolle Erweiterungen für Automatic1111 implementieren und spannende Extras für die Optimierung eines Prompts zur Verbesserung des KI-Bildergebnisses einbauen.

Stable Diffusion - Bilder zu Hause generieren ohne Abo

Praxis-Anleitung: Text-zu-Bild-KI Stable Diffusion: KI-Bilder kostenlos zuhause generieren

1. Grundlegende Vorgehensweise: So platziert man Erweiterungen

Stable Diffusion hat mehrere Ordner angelegt, die Sie mit Erweiterungen befüllen können. Diese sind wiederum über den Textprompt abrufbar, den Sie in das Promptfeld eingeben – dazu gehört auch der negative Prompt. Stable Diffusion war so nett, Textfiles in diese Ordner einzufügen, die Ihnen bestätigen, dass die Erweiterung wirklich hineingehört.

Ein Beispiel: Die beliebtesten Erweiterungen sind die verschiedenen Modelle. Sie werden im Unterordner …\stable-diffusion-webui\models\Stable-diffusion abgelegt, und darin befindet sich auch das Textfile namens Put Stable Diffusion checkpoints here.txt. Für Loras und VAEs gilt dieses Prinzip auch – allerdings wurden die Ordnernamen etwas logischer gewählt: Loras gehören in den Ordner Loras, VAEs in den Ordner VAE.

Bei Upscalern ist das leider nicht so logisch, wie Sie aus dem letzten Workshop wissen. Die Unterordner können sich vermehren, wenn man spannende Erweiterungen wie Controlnet nachrüstet. Das Prinzip ist also klar und ziemlich einfach.

2. Sinnvolle und hilfreiche Loras für die KI-Generierung nachrüsten

Seit dem ersten Workshop haben Sie sicher etliche Bilder generiert. Und vielleicht ist Ihnen dabei aufgefallen, dass vor allem die Hände von Personen oft seltsam wirken. Außerdem fehlen viele Details und auch Farbenfreude. Darum wollen wir einige Extras nachrüsten, die für Abhilfe sorgen. Ein Problem gilt es vorab aber zu lösen: Loras sind wie kleine Modelle (Checkpoints) darauf trainiert, bestimmte Bildeigenschaften oder Objekte zu generieren, und sie funktionieren nur mit der SD-Version, für die sie trainiert wurden. Das heißt, es gibt Loras für SD15-, andere für SDXL-Modelle und noch mehr Versionen für weitere Modelle. Das zu berücksichtigen, ist sehr wichtig, denn sonst bleibt der „Effekt“ aus, obwohl man die Lora in den Textprompt eingefügt hat.

Stable Diffusion: Screenshot Bild Running Girl — Checkpoint und Prompt liefern uns ein schönes Bild einer Joggerin – so wie wir das erwartet haben.

Wir suchen jetzt für unser Modell EpiCRealism ein Lora, das perfekte Hände (perfect hand, better hands) in unser KI-Bild zaubert. Obwohl EpiCRealism ein SD15-Modell ist, ergibt die Suche bei Civitai mit aktivem Filter für SD15 und Lora aber keine passenden Resultate für SD15, nur für SDXL – das merken wir uns für später. Eine erweiterte Suche führt zur Lora Skin & Hands.

Wir laden sie herunter, schieben das File in den Lora-Ordner und legen einen Prompt von einer Joggerin ab. Als Beispiel einmal mit und einmal ohne die Erweiterung mit der Lora. Um die Lora zu aktivieren, gehen Sie unter dem Textfeld für den negativen Prompt auf den Reiter Lora und klicken zum Aktualisieren auf den runden Pfeil rechts. Dann sollte die Lora polyhedron_new_ skin_v1.1 erscheinen, die Sie gerade heruntergeladen und in den Ordner bewegt haben.

Spätestens beim Klick auf das Aktualisieren-Symbol wird die Auswahl auf diejenigen Loras eingestellt, die auch mit dem geladenen Checkpoint funktionieren. Das ist wichtig! Erst dann klickt man auf die Lora, und sie wird im Prompt unten angefügt. Ebenso wichtig ist aber, dass Sie ein Trigger-Word angeben, das der Autor im Downloadbereich bei Civitai oder in der Beschreibung angegeben hat.

Stable Diffusion: Ausschnitt Bild Running Girl Bad Hands — Bei genauem Hinsehen fällt auf, dass die Hände anatomischer Murks sind. Ein Phänomen, das sehr häufig bei KI-Bildgenerierung vorkommt.

Beim ersten Bild ohne Lora erhalten wir ein schönes Ergebnis – nur die Hände sind unbrauchbar. Beim zweiten Bild, das wir mit demselben Seed, Prompt und der Lora generiert haben, kommt zunächst ziemliches Chaos heraus. Wir haben vergessen, die Gewichtung der Lora von 1 deutlich zu reduzieren, zum Beispiel auf 0,5.

Dazu geben Sie den Wert per Hand ein oder klicken zwischen die Größer-kleiner-Zeichen, halten die Steuerungs-Taste gedrückt und regulieren den Wert mithilfe der Auf- und Ab-Pfeiltasten. Daraufhin sieht das Ergebnis etwas besser aus. Wir merken aber gleich, dass diese Lora sehr starken Einfluss auf das ursprüngliche Bild hat und wohl nicht gut mit dem Modell harmoniert.

Damit sind wir nicht zufrieden und brechen den Versuch ab – schade um die Zeit. Jetzt würden wir gern SDXL einsetzen, denn dafür haben wir ja bereits eine Lora entdeckt, die mit Perfect Hands viel verspricht. Doch es graut uns vor dem Chaos, das vom Mixen von SD15, SDXL und Loras nur für diese beiden Modelle zu erwarten ist. Da müsste es doch Abhilfe geben. Gibt es auch.

Stable Diffusion: Ausschnitt Bild Running Girl Bad Hands mit Lora für Hände — Eine Lora für Hände (und für Haut) soll Abhilfe schaffen. Die Bildmanipulation durch die Lora ist uns aber zu heftig. Es ist Zeit für SDXL!

3. Das Chaos beherrschen: Die erste Erweiterung muss her

Wir werden jetzt die erste Erweiterung für Automatic1111 installieren. Dazu wechseln Sie in den Reiter Extensions, darunter auf Available, und im kaum sichtbaren Textfeld geben Sie Civitai ein. Es erscheinen diverse Erweiterungen. Sie wählen Stable- Diffusion-Webui-Civitai-Helper und klicken auf Install in derselben Zeile. Es dauert etwas, bis der Download und die Installation erledigt sind. Um die Erweiterung zu aktivieren, muss man im ersten Reiter Installed über den Button Apply and restart UI neu starten.

Wenn Sie oben in der Hauptleiste mit den Reitern wieder auf text2img gehen, sehen Sie zwei weitere Reiter – früher war es nur einer. Wählen Sie den Reiter Civitai Helper, klicken Sie auf Replace all metadata formats und dann auf den großen Knopf Scan. Je nachdem wie viele Modelle beziehungsweise Loras Sie schon in den entsprechenden Ordner gelegt haben, dauert der Vorgang etwas, denn dieser Helfer holt alle File-Informationen und die Bilddateien von Civitai und fügt sie ins System ein. Ein Kick auf die Reiter Checkpoint oder Loras bringt keine bunten Bilder auf den Screen – zuerst muss man den Reload-Knopf betätigen.

Stable Diffusion: Screenshot Extensions — Im Reiter Extensions findet man die Erweiterungen für A1111. Über die Kriterien und das Suchfeld findet man bestimmte Extensions (rechts). Links sieht man die bereits installierten Erweiterungen, die auch deaktiviert werden können.

Stable Diffusion: Screenshot ohne Erweiterung — Ohne eine Erweiterung wie Civitai Helper sehen Modelle und Loras in Automatic1111 trist aus. Eine Erweiterung ist aber sehr schnell installiert.

4. Das Chaos beherrschen: Bilder ergänzen, die Civitai vergessen hat

Bei unserem Screenshot unten fällt sofort auf, dass für ein Modell keine Daten von Civitai geholt werden konnten. Das stört natürlich optisch ungemein und kann nicht so bleiben. Sie haben zwei Möglichkeiten. Erstens: Sie erzeugen ein Bild mit dem gleichen Namen des Modells im PNG-Format – oder kopieren es einfach von Civitai – und legen es in denselben Ordner.

Zweitens: Sie generieren ein Bild mit dem Modell und klicken auf die Schaltfläche Replace model preview …. Daraufhin wird das aktuelle Bild für die Vorschau in den Ordner kopiert. Sehen können Sie es nach einem Klick auf das Kreissymbol für Reload. Natürlich können Sie auch zuerst versuchen, den Civitai-Helfer erneut anzuwerfen.

Stable Diffusion: Screenshot mit Erweiterung — Die Erweiterung Civitai Helper bebildert Modelle und Loras nicht nur, man kann auch eigene Kreationen hinterlegen, und bei Loras werden mitunter Trigger-Worte eingefügt. Nach Änderungen werden die Bilder sichtbar, wenn der "Reload"-Knopf oben rechts gedrückt wird.

5. Das Chaos beherrschen: Vorschaubilder händisch „beschriften“

Leider ist nicht allen Autoren beziehungsweise Trainern von Modellen wichtig, mit welcher Stable-Diffusion-Version das Modell trainiert wurde, sonst wäre diese Information im Modellnamen implementiert. Wie Sie jetzt wissen, hängt davon aber einiges ab. Die Wahl der Bildgröße ist beispielsweise von der Modellversion abhängig.

Wie im letzten Workshop gezeigt, wählt man für SD15 am besten 512 Bildpunkte für eine Seite und kombiniert sie mit maximal 768. Ob Quer- oder Hochformat spielt dabei keine Rolle. Für SDXL-Modelle gilt dies analog mit 1024 Bildpunkten. Es gibt zwar auch Modelle, die mit größeren Bildern, zum Beispiel 1280, trainiert wurden, aber das schreibt der Autor dann in der Regel vor der Veröffentlichung in den Kommentar.

Im Modellordner abgelegte PNG-Bilder können Sie aber ohne Probleme bearbeiten, zum Beispiel mit dem kostenlosen Bildbearbeitungsprogramm Gimp (gimp.org), um ein fettes SD15 oder ein SDXL einzufügen. Dann wissen Sie bei der Auswahl des Checkpoints Bescheid. Anfänglich mögen Sie das für übertrieben halten, aber mit der Zeit kommen womöglich diverse Modelle und Loras zu Ihrer Sammlung dazu, und dann hilft das sehr.

6. Das Chaos beherrschen: Prompts mit Style Saver speichern

Das haben Sie sicherlich beim Ausprobieren gemerkt: Einen guten und funktionierenden Prompt zu erstellen, ist fast schon ein kleines Kunstwerk. Das kann lange gehen, viel Recherche und Abgucken verlangen und sich über Tage hinziehen. Natürlich können Sie für einen gelungenen Prompt die Daten in einer separaten Textdatei aufheben. Etwas mühsam ist das aber schon.

Wir empfehlen darum die Erweiterung Style Saver. Gehen Sie erneut auf den Reiter Extensions, Available, klicken auf den Knopf Load from:, und geben im Suchfeld Style- mit Minuszeichen ein. Installieren Sie den Style Saver so wie im Punkt 3. Fortan können Sie jeden Prompt speichern. Dazu stellen Sie alle Parameter so ein, wie sie sein sollen, und den Seed am besten auf –1 (zufällig), sonst wird das erste Bild ja mit dem Vorlagebild identisch.

Außerdem empfiehlt es sich, neben einer Beschreibung auch eine Versionsnummer des Prompts anzugeben. Alles andere – auch der Checkpoint – wird durch Aufrufen des „Style“ übernommen, und das initiieren Sie mit einem Klick auf den „Block“ rechts neben dem Auswahlfeld. Wenn Sie einen Prompt speichern wollen, klicken Sie auf das Diskettensymbol. Daraufhin öffnet sich ein Dialogfenster, in das Sie den Namen eingeben können.

Stable Diffusion: Screenshot style saver — Praktisch für die Verwaltung von eigenen Prompts ist die Erweiterung Styles Saver, die das Speichern und Aufrufen der Prompts ermöglicht.

7. Mehr Bildverbesserung mit ADetailer und Color Grading

Zwei weitere empfehlenswerte Extensions sind ein After Detailer und eine Erweiterung für Color Grading. Im Extensions-Reiter suchen Sie nach ADetailer und Diffusion Color und installieren beide. Die UI einmal nach Installation von beiden Erweiterungen neu zu starten, reicht aus. Diese beiden Erweiterungen hängen sich unter dem Prompt an – so wie das der Style Saver auch getan hat – und kreieren keine zusätzlichen Reiter.

Probieren Sie einfach aus, was bei Aktivierung dieser Erweiterungen mit Ihren Bildern passiert, und vergleichen Sie die Ergebnisse. Eine detaillierte Beschreibung lassen wir hier erst einmal weg, besonders der ADetailer würde den Rahmen dieses Workshops sprengen.

8. Bilder gehen nicht verloren, sie sind ein Quell an Informationen

Obwohl wir nicht explizit in unserem letzten Workshop darauf hingewiesen haben, sind Sie sicherlich schnell dahintergekommen, wo Automatic1111 alle generierten Bilder ganz automatisch speichert: im SD-Unterordner output und dann in txt2images. Dazu kommt praktischerweise, dass das Programm für jeden Tag einen Ordner anlegt, in dem Ihr Tageswerk abgelegt wird. Aber nicht nur das ist sinnvoll.

Die Dateinamen werden fortlaufend nummeriert und mit dem Seed versehen. Der verwendete Prompt in den Exif-Daten der Bilddatei ergänzt diese Informationen. Das ist eine ziemlich geniale Sache, wenn man ein Bild so gut wie möglich reproduzieren will. Wissen muss man nur, dass Automatic1111 genau dafür eine Funktion zur Verfügung stellt, die im Reiter PNG Info zu finden ist.

Ziehen Sie das Bild per Drag-and-Drop aus dem Explorer-Ordner einfach in den Reiter auf das leere Feld. Sind die Exif-Daten unbeschädigt, wird der Prompt angezeigt. Jetzt haben Sie die Möglichkeit, diese Daten innerhalb von Automatic1111 weiterzusenden. Ein Klick auf txt2img befüllt den Prompt und stellt alle Regler so ein, wie das Bild erstellt wurde. Dazu zählt sogar der Seed. Eine Hürde gibt es aber: Fehlt eine der verwendeten Loras, müssen Sie diese händisch besorgen und ins System einfügen. Wie das geht, wissen Sie ja inzwischen.

9. Das Geheimnis unserer Polizistin mit gezogener Waffe

Das „Geheimnis“ der etwas bedrohlichen Polizistin mit der gezogenen Pistole haben Sie womöglich längst erraten. Aber selbst wenn wir den Prompt verloren hätten, ließe sich mit dem Trick in Punkt 8 schnell herausfinden, dass es sich um eine ganz spezielle Lora handelt, der dieses KI-Bild das gewisse Etwas verdankt – bei Civitai gefunden. Ein „normal“ trainierter Checkpoint wäre sicher nicht in der Lage, eine gezogene Pistole darzustellen, oder zumindest nicht annähernd so gut. Der Name: XL_weapon_pistol.