comfyUI: KI zur kreativen Bild- und Videoerzeugung
ComfyUI ist kostenlos und eines der mächtigsten KI-Tools. Mit der portablen Windows-Version werden Templates mitgeliefert, und die Installation ist einfacher. Grund genug, einen Workshop zu machen.
ComfyUI ist Ihr persönlicher Türöffner zur Bild-, Audio- und Videoerstellung am heimischen PC oder Laptop. Es ermöglicht inzwischen einen so einfachen Einstieg, dass es viele Anwender mit etwas Technikinteresse schaffen können, sich dieses Open-Source-Programm einzurichten. Wie es geht, zeigen ...
ComfyUI ist Ihr persönlicher Türöffner zur Bild-, Audio- und Videoerstellung am heimischen PC oder Laptop. Es ermöglicht inzwischen einen so einfachen Einstieg, dass es viele Anwender mit etwas Technikinteresse schaffen können, sich dieses Open-Source-Programm einzurichten. Wie es geht, zeigen wir Ihnen mit diesem Workshop.
Wir sind sicher, dass Sie Ihr erstes Bild nach wenigen Minuten erzeugen können. Dabei müssen Sie keinen Cent für einen Onlineservice zahlen – eine Internetverbindung wird nur für den erstmaligen Download der Modelle benötigt. Danach arbeiten Sie lokal und ohne dass ein Anbieter sieht, welche spannenden Ideen Sie umsetzen.
Wollen Sie tiefer in ComfyUI einsteigen und Workflows nutzen, die nicht in den Templates bereitgestellt werden, geben wir ab Tipp 5 Hilfestellungen. Gerade bei Videoprojekten am eigenen PC mit „fremden“ Workflows braucht man reichlich Geduld und ein präzises Vorgehen, damit einen die Fehlermeldungen nicht erschlagen. Man darf nicht vergessen, dass es sich um ein junges, offenes Genre handelt, das von einer weltweiten Community getragen wird – da fehlt es oft an klaren Strukturen.
Wenn Sie aktuelle KI-Bild-Erstellungsmodelle verwenden wollen, geht das am besten mit einem Nvidia-Grafikchip, der das RTX im Namen trägt. Das kann sowohl eine dedizierte Grafikkarte im PC sein als auch eine mobile GPU in einem Laptop. Sollten Sie noch ein älteres Notebook mit einer Nvidia-GTX-GPU nutzen, dann macht es möglicherweise für Sie mehr Sinn, mit Automatic1111 zu arbeiten. Alle Dateien zu diesem Workshop und zwei ältere Workshops zu A1111 finden Sie auf der Heft- DVD unter Tool-Pakete/ComfyUI-Paket.
Unsere Workflows erfordern eine Grafikkarte mit ordentlich Videospeicher. Wenigstens acht GByte sollten es für Audio- und Bildgenerierung schon sein. Wer Videos lokal auf seinem Rechner erstellen möchte, der benötigt wenigstens 12 GByte VRAM, was vom verwendeten Modell und Workflow abhängt. Unser WAN-i2v-Workflow läuft mit einer RTX 3060 und 12 GByte.
1. ComfyUI Portable für Windows auf dem PC oder Laptop einrichten
ComfyUI unter Windows kann einfach als Zip- Paket heruntergeladen werden über einen Download- Link auf der Seite https://docs.comfy.org/ installation/comfyui_portable_windows. Alternativ können Sie das Paket über ein GitHub-Repository auf Ihre Festplatte ziehen. Das Geniale an ComfyUI Windows Portable ist nicht nur, dass es bereits zahlreiche Templates mitbringt, sondern auch die notwendige Python-Umgebung. Python wird also nicht systemweit installiert, sondern nur für ComfyUI (embedded version), was möglichen Konflikten mit anderen Programmen oder Installationen vorbeugt.
Entpacken Sie die gesamte Ordnerstruktur im heruntergeladenen Zip-File in ein Verzeichnis auf einer Festplatte Ihrer Wahl. Es sollte aber noch reichlich Platz vorhanden sein – wenigstens 100 Gigabyte für den Anfang, denn aktuelle Modelle brauchen viel Platz. Falls Sie später mehr Platz benötigen, kann ComfyUI verschoben oder sogar auf eine mobile SSD ausgelagert werden.
2. ComfyUI zum ersten Mal starten für die Nutzung mit Nvidia-GPU
Stellen Sie sicher, dass eine Internetverbindung besteht. Wechseln Sie in das gerade von Ihnen angelegte Verzeichnis. Dort liegt die Datei run_nvidia_ gpu und klicken Sie sie doppelt an. Jetzt startet die CMD-Konsole, in der der Server läuft. Dieser Vorgang kann eine Weile dauern, weil alles eingerichtet wird und ggf. auch ein erstes Modell heruntergeladen wird. Seien Sie hier unbedingt geduldig.
Der Server ruft dann Ihren Standardbrowser auf und zeigt die grafische Oberfläche (GUI) von ComfyUI an. Falls Ihr Browser nicht startet, geben Sie die IP-Adresse http://127.0.0.1:8188 in Ihren Browser ein. Je nach Version wird gleich ein Workflow geladen. Falls das nicht der Fall ist, klicken Sie in der linken Programmspalte auf Templates, wählen All Templates und dann das erste oben links Image Generation. Dieser Workflow will mit dem Modell v1-5-prounet-emaonly-fp16 arbeiten und erwartet, es im Ordner Ihr_Installationsverzeichnis/ ComfyUI_windows_portable/ComfyUI/models/checkpoints zu finden. Sie werden also eine Fehlermeldung erhalten, wenn dieses Modell da nicht drin ist. Aber ComfyUI gibt Ihnen in so einem Fall einen Link zum Downloaden.
Das Modell liegt dann meist bei huggingface.com und kann dort heruntergeladen werden. Nun muss man händisch die Datei von seinem Download-Ordner in das Verzeichnis checkpoints (vgl. oben) verschieben. Sie verstehen an diesem Beispiel gleich, wie ComfyUI „tickt“: Die Nodes im Workflow greifen auf korrespondierende Ordner zu, und Sie müssen dafür sorgen, dass die entsprechende Datei vorhanden ist.
Klicken Sie auf den Run-Knopf und generieren Sie das erste Bild, das die „nature glass bottle“ erzeugt. Der Text-Prompt ist ja bereits gefüllt. Diesen können Sie aber nach eigenem Gusto selbst befüllen. Um ein Gefühl für einen guten Prompt zu bekommen, dürfen Sie gerne ChatGPT benutzen. Dafür geben Sie ein, welches Modell Sie nutzen und was Sie darstellen wollen. Den Text kopieren Sie in das Prompt-Feld in der Node CLIP Text Encode.
Übrigens, dieser Workflow ist mit einer Save-Image-Node ausgerüstet, die die Bilder automatisch abspeichert (../comfyui/output). Auch praktisch: Jedes erstellte Bild enthält den Workflow, der rekonstruiert wird, wenn Sie das Bild auf die Oberfläche ziehen.
3. Weitere Templates ausprobieren und Lora-Ordner befüllen
Probieren Sie ruhig ein anderes Template aus, um Übung darin zu bekommen, die notwendigen Daten herunterzuladen und diese in die angegebenen Ordner in der Fehlermeldung hineinzukopieren. Das Template LoRA benötigt das Modell DreamShaper und zwei Loras. Wohin das Modell muss, wissen Sie. Die Fehlermeldung gibt an, dass die Loras in den Ordner Loras müssen, den man im Verzeichnis models findet. Dieser Workflow hat zunächst eine Lora inaktiv geschaltet (pink übermalt). Das bedeutet, sie hat keine Wirkung, hält aber den Prozess der Bilderstellung nicht auf. Mit [CTRL]+[B] wird die Node aktiviert, die Sie mit der Maus vorher anklicken müssen.
4. Vier Templates und zwei Modelle, die lokal Musik erzeugen
Für die lokale Musikerstellung gibt es in den Templates vier vorbereitete Workflows, zusammengefasst unter dem Menüpunkt Audio. Einer beruht auf stable-audio-open und benötigt moderate 4,5 GByte VRAM der GPU, der andere ace_ step_3.5b 7,17 GByte. Hat Ihre Grafikkarte wenigstens acht GByte VRAM, dann n können Sie alle Workflows ausprobieren. Zuvor erledigen Sie die Downloads und die Platzierung in den richtigen Ordnern.
Die Audio-Workflows unter Audio API benötigen einen Account und ausreichend Credits. Hierbei handelt es sich nicht mehr um lokale Produktion. Wichtige Hinweise zum Vorgehen geben die braunen Kästen, also den richtigen Aufbau des Prompts, optimale Einstellungen und ggf. welche Modelle benötigt werden. Workflows aus der Community, zum Beispiel von civitai.com, haben diese Erklärungen sehr oft nicht.
5. Vorbereitungen treffen, die heile Welt der Templates zu verlassen
Wer frei verfügbare Workflows oder Modelle, zum Beispiel von civitai.com oder hugginface.com einsetzen möchte, braucht für diese Seiten einen Account. Diesen anzulegen, ist kostenlos und zum Beispiel mit Google schnell erledigt, sofern Sie einen Google-Account nutzen. Der Grund ist simpel: Ein direkter Link aus einem „Template-Workflow“ funktioniert ohne einen Login. Der „händische“ Download über die Seite wird aber nur angemeldeten Benutzern erlaubt.
Git für Windows wird ebenfalls benötigt, um Installationen per Repository zu ermöglichen. Laden Sie die Installationsdatei für Windows (x64) herunter von der Webseite https://git-scm.com/install/windows und installieren Sie Git. In der Installationsroutine bestätigen Sie alle vorausgewählten Einstellungen. Als Letztes brauchen wir unbedingt den Comfy-UI-Manager, weil er dabei enorm hilfreich sein kann, fehlende Nodes eines Workflows automatisch herunterzuladen und zu installieren.
Den ComfyUI-Manager installieren wir über ein Repository, um aufzuzeigen, wie das funktioniert, obgleich es auch Installationsdateien gibt. Schließen Sie ComfyUI und anschließend den Server, wenn er noch in der CMD-Konsole läuft. Öffnen Sie den Windows-Datei-Explorer [Windows]+[E] und wechseln Sie in das ComfyUI-Verzeichnis custom_nodes. Klicken Sie in die Explorer-Adressleiste und geben cmd ein. Die Konsole öffnet sich, und Sie befinden sich automatisch im richtigen Verzeichnis. Geben Sie jetzt noch den Befehl git clone https://github.com/ltdrdata/ComfyUIManager.git ein und bestätigen Sie mit [Eingabe]. Das Klonen des Managers sollte schnell gehen.
Starten Sie nun ComfyUI wie gewohnt über die Batch-Datei (run_nvidia_gpu). Beim ersten Neustart wird einiges nachgeladen, das können Sie in der Konsole beobachten. Möglicherweise erhalten Sie in der GUI einen Alert, dass ComfyUI aktualisiert werden muss, damit der Manager läuft. Im Installationsverzeichnis finden Sie den Ordner updates und dort die Datei update_comfyui, die Sie doppelt anklicken. Das Update läuft automatisch in der Konsole.
Ein weiteres Problem muss noch gelöst werden: Der ComfyUI-Manager kann nicht in der aktuellen Sicherheitseinstellung Nodes laden und installieren, deshalb muss man diese anpassen. Öffnen Sie dazu im Unterverzeichnis ComfyUI-Manager (../ComfyUI_windows_portable\ComfyUI\user\default\ComfyUI-Manager\) die Datei config. ini per rechtem Mausklick im Editor.
Ändern Sie dort den Eintrag security_level = strong auf middle oder low und speichern Sie vor dem Schließen die Ini-Datei ab. Mehr zur Sicherheit und was welche Einstellungen bedeuten, finden Sie unter: https://t1p.de/vy4c8. Starten Sie ComfyUI erneut. Nach dem Update haben Sie einen zusätzlichen Knopf in der oberen Leiste, wo der Manager aufgerufen werden kann. Außerdem kann es immer sein, dass die hinterlegten Templates erweitert oder verändert worden sind und jetzt neue Templates enthalten.
6. Flux-Workflow, aber mit deutlich mehr als 1280 x 720 Bildpunkten
Das Flux-Modell hat sich wahrlich einen großen Namen gemacht in der Community. Qualität und Präzision suchen ihresgleichen. Doch auch Flux kann gesteckte Grenzen, was die Größe von generierten Bildern anbelangt, nicht einfach so überwinden. Bei 1280 Bildpunkten ist Schluss, und dann müssen Hochskalier-Modelle wie ESRGAN oder SwinIR ran.
Wir stellen Ihnen einen Workflow bereit, der das Flux-Modell mit DyPE dazu bringt, Bilder zu generieren, die 3, 4 oder sogar 5K haben können. DyPE steht für Dynamic Position Encoding und ist eine Technik, die berücksichtigt, wie sich die Bildgenerierung über die Zeit entwickelt, und das bedeutet, dass die Berechnungen dynamisch angepasst werden, während das Bild entsteht.
Ziehen Sie diesen Workflow (siehe Download unterhalb Absatz) in ComfyUI hinein, downloaden Sie alle Modelle und laden Sie alle Nodes über den Manager nach, die fehlen sollten. Welche Einstellungen in den Nodes Sie unbedingt beachten bzw. vornehmen sollten, steht in den braunen „Kommentar-Nodes“. Und schon kann es losgehen mit 4K-Bildern!
7. Bild-zu-Video-Erstellung mit WAN und „Schleifenfunktion“
Egal welchen Onlineservice man verwendet, die meisten bieten Videogenerierung nur bis fünf Sekunden Länge an. Wir haben einen Workflow für Sie, der mit einem Trick quasi endlose Videos erzeugen kann, denn der letzte Frame wird automatisch abgespeichert und kann dann als Fortsetzungsbild für Ihr Video herhalten. Nachdem Sie den Workflow (Download oben) auf die GUI gezogen haben, kommen viele Fehlermeldungen.
Über den Manager installieren Sie alle fehlenden Nodes nach (Install missing Custom Nodes). Dieser Workflow arbeitet mit Modellen, die mindestens 12 GByte VRAM voraussetzen, und er ist nicht wirklich intuitiv verständlich. Deshalb haben wir eine genaue Anleitung zur Bedienung in den Workflow implementiert. Befolgen Sie diese akribisch, sonst klappt es nicht.
