Die wichtigste Einstellung, die Sie möglicherweise ignorieren
Sie haben den perfekten Prompt erstellt. Die Worte sind präzise, der Stil ist definiert, Sie klicken auf Generieren... und das Ergebnis ist entweder ein unscharfes Durcheinander oder ein knuspriger, übersättigter Albtraum. Was ist schiefgelaufen?
Oft ist der Übeltäter die CFG Scale - einer der wichtigsten, aber am meisten missverstandenen Parameter in der KI-Bildgenerierung. Das Verständnis dieser einzelnen Einstellung kann Ihre Ergebnisse dramatisch verbessern.
Was ist die CFG Scale?
CFG steht für Classifier-Free Guidance. Es ist ein Parameter, der steuert, wie stark die KI Ihrem Text-Prompt folgt, im Gegensatz zu einer eher "freien" kreativen Ausgabe.
Stellen Sie es sich als Regler zwischen zwei Extremen vor:
- Niedrige CFG (1-5): Die KI hat mehr kreative Freiheit. Ergebnisse können vom Prompt abweichen, sehen aber oft natürlicher und organischer aus
- Hohe CFG (15-30): Die KI folgt strikt Ihrem Prompt. Ergebnisse entsprechen Ihrer Beschreibung genau, können aber künstlich oder übersättigt wirken
Eine einfache Analogie
Stellen Sie sich vor, Sie geben einem Künstler Anweisungen:
- Niedrige CFG: "Male mir eine Landschaft. Interpretiere das so, wie du möchtest."
- Mittlere CFG: "Male mir eine Sonnenuntergangslandschaft mit Bergen. Stelle sicher, dass diese Elemente vorhanden sind, aber du darfst eigene Akzente setzen."
- Hohe CFG: "Male mir genau das: eine Sonnenuntergangslandschaft mit schneebedeckten Bergen, drei Kiefern auf der linken Seite, ein See, der den orangefarbenen Himmel spiegelt. Jedes Element muss exakt so sein, wie ich es beschreibe."
Wie die CFG Scale funktioniert (Technische Erklärung)
Für diejenigen, die die Mechanik verstehen möchten:
Der Entrauschungsprozess
KI-Bildgenerierung funktioniert, indem sie mit zufälligem Rauschen beginnt und dieses schrittweise in ein Bild "entrauscht". Bei jedem Schritt trifft das Modell Vorhersagen darüber, wie das endgültige Bild aussehen sollte.
Bedingt vs. Unbedingt
Das Modell macht tatsächlich zwei Vorhersagen bei jedem Schritt:
- Unbedingte Vorhersage: "Wie würde ein generisches Bild aussehen?"
- Bedingte Vorhersage: "Wie würde ein Bild aussehen, das diesem spezifischen Prompt entspricht?"
Die CFG-Formel
Die CFG Scale bestimmt, wie diese Vorhersagen gemischt werden:
Ergebnis = Unbedingt + CFG × (Bedingt − Unbedingt)
- CFG = 1: Verwendet nur die bedingte Vorhersage (prompt-geführt, aber schwach)
- CFG = 7: Drängt stark in Richtung prompt-entsprechender Inhalte
- CFG = 20: Erzwingt aggressiv die Prompt-Befolgung (oft zu viel)
Höhere CFG bedeutet, dass der Unterschied zwischen "was Sie angefragt haben" und "generisches Bild" stärker verstärkt wird.
Den Sweet Spot finden
Der gängige Bereich: 5-15
Die meisten KI-Bildgeneratoren funktionieren am besten in diesem Bereich. Der genaue Sweet Spot hängt ab von:
- Dem spezifischen Modell, das Sie verwenden
- Der Komplexität Ihres Prompts
- Dem angestrebten Stil
- Persönlicher Vorliebe
Modellspezifische Empfehlungen
Stable Diffusion (SD 1.5, SDXL):
- Allgemeine Nutzung: 7-8
- Fotorealistisch: 5-7
- Künstlerisch/stilisiert: 8-12
- Maximale Prompt-Befolgung: 12-15
Flux-Modelle:
- Flux Schnell: 1-4 (für niedrige CFG konzipiert)
- Flux Dev: 3-5
- Flux Pro: 2-4
Midjourney:
- Verwendet stattdessen den "Stylize"-Parameter (ähnliches Konzept)
- Niedriger = wörtlicher, höher = künstlerischer
DALL-E:
- CFG wird intern verarbeitet, nicht vom Benutzer einstellbar
Auswirkungen verschiedener CFG-Werte
Sehr niedrig (1-3)
Eigenschaften:
- Weiche, traumhafte Qualität
- Gedämpfte, natürliche Farben
- Lockere Prompt-Befolgung
- Kann spezifische Details ignorieren
- Kann unfokussiert oder zufällig wirken
Wann verwenden:
- Abstrakte oder surreale Kunst
- Wenn Sie KI-Kreativität wünschen
- Weiche, atmosphärische Bilder
- Mit Flux-Modellen (für niedrige CFG konzipiert)
Niedrig-Mittel (4-6)
Eigenschaften:
- Natürlich aussehende Bilder
- Gute Balance aus Prompt-Befolgung und Kreativität
- Weiches Licht, realistische Farben
- Kleinere Details können vom Prompt abweichen
Wann verwenden:
- Fotorealistische Bilder
- Porträts und Personen
- Naturszenen
- Wenn Realismus wichtiger als Präzision ist
Mittel (7-9)
Eigenschaften:
- Starke Prompt-Befolgung
- Ausgewogene Sättigung und Kontrast
- Klare Motivdefinition
- Gute Detailwiedergabe
Wann verwenden:
- Allgemeine Generierung
- Wenn Sie zuverlässige Ergebnisse brauchen
- Kommerzielle und Produktbilder
- Die meisten Stable Diffusion-Workflows
Mittel-Hoch (10-14)
Eigenschaften:
- Sehr starke Prompt-Befolgung
- Erhöhte Sättigung
- Höherer Kontrast
- Details werden ausgeprägter
- Beginnt "KI-generiert" auszusehen
Wann verwenden:
- Wenn Prompt-Präzision entscheidend ist
- Stilisierte oder grafische Kunst
- Wenn bestimmte Elemente erscheinen müssen
- Versuche der Textdarstellung
Hoch (15-20+)
Eigenschaften:
- Maximale Prompt-Befolgung
- Übersättigte Farben
- Harscher, künstlicher Look
- Artefakte und Verzerrungen häufig
- "Knuspriges" oder "übertriebenes" Erscheinungsbild
Wann verwenden:
- Selten - deutet meist darauf hin, dass der Prompt überarbeitet werden muss
- Spezifische künstlerische Effekte
- Testen der Prompt-Wirksamkeit
- Einige abstrakte oder Glitch-Art-Stile
Häufige Probleme und Lösungen
Problem: Bilder sehen unscharf oder unfokussiert aus
Wahrscheinliche Ursache: CFG zu niedrig
Lösung: CFG um 2-3 Punkte erhöhen. Bei Flux von 2 auf 4 versuchen.
Problem: Bilder sehen übersättigt oder künstlich aus
Wahrscheinliche Ursache: CFG zu hoch
Lösung: CFG um 2-3 Punkte senken. Die meisten Fälle funktionieren gut zwischen 6-8.
Problem: KI ignoriert Teile des Prompts
Wahrscheinliche Ursache: CFG möglicherweise zu niedrig, aber oft muss der Prompt selbst überarbeitet werden
Lösung: Versuchen Sie, die CFG leicht zu erhöhen. Wenn das nicht hilft, strukturieren Sie Ihren Prompt um, um wichtige Elemente zu betonen.
Problem: Seltsame Artefakte oder "übertriebener" Look
Wahrscheinliche Ursache: CFG deutlich zu hoch
Lösung: CFG in den Bereich 7-10 senken. Die knusprigen Artefakte sind ein klassisches Zeichen übermäßiger Führung.
Problem: Gesichter sehen verzerrt aus
Wahrscheinliche Ursache: CFG interagiert schlecht mit der Gesichtsgenerierung
Lösung: Für Porträts CFG in den Bereich 5-7 senken. Gesichter sind empfindlich gegenüber hohen CFG-Werten.
CFG Scale-Strategien
Strategie 1: Der Reihenansatz
Wenn Sie unsicher sind, generieren Sie denselben Prompt mit mehreren CFG-Werten:
- Generieren bei CFG 5, 7, 9, 11
- Ergebnisse vergleichen
- Um Ihren Favoriten herum feinabstimmen
Dies zeigt schnell den optimalen Bereich für Ihren spezifischen Prompt.
Strategie 2: CFG an den Inhalt anpassen
- Realistische Fotos: Niedrigere CFG (5-7)
- Illustrationen: Mittlere CFG (7-10)
- Grafische Kunst: Höhere CFG (9-12)
- Abstrakt: Variabel (experimentieren!)
Strategie 3: An Prompt-Komplexität anpassen
- Einfache Prompts: Können mit niedrigerer CFG umgehen
- Komplexe Prompts: Brauchen möglicherweise höhere CFG, um alle Elemente einzuschließen
- Sehr spezifische Prompts: Höhere CFG, aber auf Artefakte achten
CFG und andere Parameter
CFG vs. Schritte
Diese interagieren erheblich:
- Höhere CFG profitiert oft von mehr Schritten, um Details aufzulösen
- Niedrigere CFG kann oft weniger Schritte ohne Qualitätsverlust verwenden
- Wenn Sie die CFG erhöhen, erwägen Sie auch eine leichte Erhöhung der Schritte
CFG vs. Sampler
Verschiedene Sampler haben unterschiedliche CFG-Empfindlichkeiten:
- Euler: Standard-CFG-Reaktion
- DPM++ 2M: Funktioniert gut mit moderater CFG
- DDIM: Kann höhere CFG mit weniger Artefakten verarbeiten
CFG vs. Modell
Jedes Modell hat seinen eigenen optimalen CFG-Bereich:
- Modelldokumentation für Empfehlungen lesen
- Benutzerdefiniert feinabgestimmte Modelle können spezifische CFG-Anforderungen haben
- Beim Wechsel des Modells nicht davon ausgehen, dass Ihre übliche CFG funktioniert
Fortgeschritten: Dynamische CFG
Einige fortgeschrittene Workflows verwenden variierende CFG während der Generierung:
- Hohe CFG anfangs: Legt Komposition und Schlüsselelemente fest
- Niedrigere CFG später: Ermöglicht natürliche Detailentwicklung
Dies kann Bilder erzeugen, die sowohl prompt-genau als auch natürlich aussehen. Tools wie ComfyUI unterstützen dies durch benutzerdefinierte Knoten.
Praktische Beispiele
Porträtfotografie
Prompt: "Professionelles Bewerbungsfoto einer Geschäftsfrau, Studiobeleuchtung, neutraler Hintergrund"
- CFG 5: Weiches, natürliches Licht, leichte Prompt-Variation
- CFG 7: Klare Studiobeleuchtung, prompt-genau
- CFG 12: Harsches Licht, möglicherweise unnatürliche Hauttöne
- Beste Wahl: 5-7
Fantasy-Illustration
Prompt: "Epischer Drache auf einem Kristallberg, Sonnenuntergang, Fantasy-Art-Stil"
- CFG 5: Atmosphärisch, aber Details können vage sein
- CFG 8: Klarer Drache und Berg, gute Balance
- CFG 12: Sehr definierte Elemente, verstärkte Farben
- Beste Wahl: 7-10
Produktaufnahme
Prompt: "Weißer Sneaker auf weißem Hintergrund, Produktfotografie, saubere Beleuchtung"
- CFG 5: Erreicht möglicherweise nicht den sauberen Produkt-Look
- CFG 8: Sauberes, professionelles Erscheinungsbild
- CFG 12: Risiko von Überschärfung und Artefakten
- Beste Wahl: 7-9
Fazit
Die CFG Scale ist Ihr leistungsstärkstes Werkzeug zur Steuerung der KI-Bildgenerierungsqualität. Zu niedrig und Ihre Bilder weichen von Ihrer Vision ab; zu hoch und sie werden künstlich und harsch.
Die wichtigsten Erkenntnisse:
- 7-8 ist ein sicherer Ausgangspunkt für die meisten Modelle und Prompts
- An den Inhaltstyp anpassen - realistisch = niedriger, stilisiert = höher
- Auf verräterische Anzeichen achten - unscharf bedeutet zu niedrig, knusprig bedeutet zu hoch
- Verschiedene Modelle haben verschiedene Sweet Spots - immer Dokumentation prüfen
- Im Zweifel in Reihe testen - mehrere Werte testen und vergleichen
Meistern Sie die CFG Scale, und Sie haben viel mehr Kontrolle über Ihre KI-generierten Bilder. Es ist der Unterschied zwischen dem Kampf gegen die KI und der Zusammenarbeit mit ihr.