El ajuste más importante que podrías estar ignorando
Has creado el prompt perfecto. Las palabras son precisas, el estilo está definido, presionas generar... y el resultado es un desastre borroso o una pesadilla crujiente y sobresaturada. ¿Qué salió mal?
A menudo, el culpable es el CFG Scale – uno de los parámetros más importantes pero menos entendidos en la generación de imágenes IA. Entender este único ajuste puede mejorar dramáticamente tus resultados.
¿Qué es CFG Scale?
CFG significa Classifier-Free Guidance (Guía sin Clasificador). Es un parámetro que controla cuán fuertemente la IA sigue tu prompt de texto versus generar una salida más "libre" y creativa.
Piénsalo como un dial entre dos extremos:
- CFG bajo (1-5): La IA tiene más libertad creativa. Los resultados pueden alejarse de tu prompt pero a menudo lucen más naturales y orgánicos
- CFG alto (15-30): La IA sigue estrictamente tu prompt. Los resultados coinciden con tu descripción de cerca pero pueden lucir artificiales o sobresaturados
Una analogía simple
Imagina dar instrucciones a un artista:
- CFG bajo: "Píntame un paisaje. Siéntete libre de interpretarlo como quieras."
- CFG medio: "Píntame un paisaje de atardecer con montañas. Asegúrate de que esos elementos estén ahí, pero puedes añadir tus propios toques."
- CFG alto: "Píntame exactamente esto: un paisaje de atardecer con montañas nevadas, tres pinos a la izquierda, un lago reflejando el cielo naranja. Cada elemento debe ser exactamente como describo."
Cómo funciona CFG Scale (Explicación técnica)
Para quienes quieren entender los mecanismos:
El proceso de denoising
La generación de imágenes IA funciona comenzando con ruido aleatorio y gradualmente "quitando ruido" hasta convertirlo en una imagen. En cada paso, el modelo hace predicciones sobre cómo debería verse la imagen final.
Condicional vs. Incondicional
El modelo realmente hace dos predicciones en cada paso:
- Predicción incondicional: "¿Cómo se vería una imagen genérica?"
- Predicción condicional: "¿Cómo se vería una imagen que coincida con este prompt específico?"
La fórmula CFG
CFG Scale determina cómo mezclar estas predicciones:
Final = Incondicional + CFG × (Condicional − Incondicional)
- CFG = 1: Solo usa la predicción condicional (guiada por prompt pero débil)
- CFG = 7: Empuja fuertemente hacia contenido que coincida con el prompt
- CFG = 20: Fuerza agresivamente la adherencia al prompt (a menudo demasiado)
Mayor CFG significa que la diferencia entre "lo que pediste" e "imagen genérica" se amplifica más fuertemente.
Encontrando el punto óptimo
El rango común: 5-15
La mayoría de generadores de imágenes IA funcionan mejor en este rango. El punto óptimo exacto depende de:
- El modelo específico que estás usando
- La complejidad de tu prompt
- El estilo que buscas
- Preferencia personal
Recomendaciones específicas por modelo
Stable Diffusion (SD 1.5, SDXL):
- Uso general: 7-8
- Fotorrealista: 5-7
- Artístico/estilizado: 8-12
- Máxima adherencia al prompt: 12-15
Modelos Flux:
- Flux Schnell: 1-4 (diseñado para CFG bajo)
- Flux Dev: 3-5
- Flux Pro: 2-4
Midjourney:
- Usa parámetro "stylize" en su lugar (concepto similar)
- Menor = más literal, mayor = más artístico
DALL-E:
- CFG se maneja internamente, no ajustable por usuario
Efectos de diferentes valores CFG
Muy bajo (1-3)
Características:
- Calidad suave y soñadora
- Colores apagados y naturales
- Adherencia al prompt suelta
- Puede ignorar detalles específicos
- Puede sentirse desenfocado o aleatorio
Cuándo usar:
- Arte abstracto o surrealista
- Cuando quieres creatividad IA
- Imágenes suaves y atmosféricas
- Con modelos Flux (diseñados para CFG bajo)
Bajo-medio (4-6)
Características:
- Imágenes de aspecto natural
- Buen balance de seguimiento de prompt y creatividad
- Iluminación suave, colores realistas
- Detalles menores pueden variar del prompt
Cuándo usar:
- Imágenes fotorrealistas
- Retratos y personas
- Escenas naturales
- Cuando el realismo importa más que la precisión
Medio (7-9)
Características:
- Fuerte adherencia al prompt
- Saturación y contraste equilibrados
- Definición clara del sujeto
- Buena reproducción de detalles
Cuándo usar:
- Generación de propósito general
- Cuando necesitas resultados confiables
- Imágenes comerciales y de productos
- La mayoría de flujos de trabajo Stable Diffusion
Medio-alto (10-14)
Características:
- Adherencia al prompt muy fuerte
- Saturación aumentada
- Mayor contraste
- Detalles más pronunciados
- Empieza a verse "generado por IA"
Cuándo usar:
- Cuando la precisión del prompt es crítica
- Arte estilizado o gráfico
- Cuando elementos específicos deben aparecer
- Intentos de renderizado de texto
Alto (15-20+)
Características:
- Máxima adherencia al prompt
- Colores sobresaturados
- Aspecto duro y artificial
- Artefactos y distorsiones comunes
- Apariencia "crujiente" o "frita"
Cuándo usar:
- Raramente – usualmente indica que el prompt necesita trabajo
- Efectos artísticos específicos
- Probar efectividad del prompt
- Algunos estilos de arte abstracto o glitch
Problemas comunes y soluciones
Problema: Imágenes lucen borrosas o desenfocadas
Causa probable: CFG muy bajo
Solución: Aumenta CFG 2-3 puntos. Si usas Flux, intenta ir de 2 a 4.
Problema: Imágenes lucen sobresaturadas o artificiales
Causa probable: CFG muy alto
Solución: Baja CFG 2-3 puntos. La mayoría de casos funcionan bien entre 6-8.
Problema: IA ignora partes del prompt
Causa probable: CFG puede ser muy bajo, pero a menudo el prompt necesita trabajo
Solución: Intenta aumentar CFG ligeramente. Si no ayuda, reestructura tu prompt para enfatizar elementos importantes.
Problema: Artefactos extraños o aspecto "frito"
Causa probable: CFG significativamente muy alto
Solución: Baja CFG al rango 7-10. Los artefactos crujientes son señal clásica de guidance excesiva.
Problema: Caras lucen distorsionadas
Causa probable: CFG interactuando mal con generación de caras
Solución: Para retratos, baja CFG al rango 5-7. Las caras son sensibles a valores CFG altos.
Estrategias CFG Scale
Estrategia 1: Enfoque de bracketing
Cuando no estés seguro, genera el mismo prompt a múltiples valores CFG:
- Genera a CFG 5, 7, 9, 11
- Compara resultados
- Afina alrededor de tu favorito
Esto muestra rápidamente el rango óptimo para tu prompt específico.
Estrategia 2: Ajusta CFG al contenido
- Fotos realistas: CFG bajo (5-7)
- Ilustraciones: CFG medio (7-10)
- Arte gráfico: CFG más alto (9-12)
- Abstracto: Variable (¡experimenta!)
Estrategia 3: Ajusta según complejidad del prompt
- Prompts simples: Pueden manejar CFG más bajo
- Prompts complejos: Pueden necesitar CFG más alto para incluir todos los elementos
- Prompts muy específicos: CFG más alto pero cuidado con artefactos
CFG y otros parámetros
CFG vs. Steps
Estos interactúan significativamente:
- CFG más alto a menudo se beneficia de más steps para resolver detalles
- CFG más bajo puede usar menos steps sin pérdida de calidad
- Si aumentas CFG, considera aumentar steps ligeramente también
CFG vs. Sampler
Diferentes samplers tienen diferentes sensibilidades a CFG:
- Euler: Respuesta CFG estándar
- DPM++ 2M: Funciona bien con CFG moderado
- DDIM: Puede manejar CFG más alto con menos artefactos
CFG vs. Modelo
Cada modelo tiene su propio rango CFG óptimo:
- Lee documentación del modelo para recomendaciones
- Modelos fine-tuned personalizados pueden tener necesidades CFG específicas
- Al cambiar de modelo, no asumas que tu CFG usual funcionará
Avanzado: CFG dinámico
Algunos flujos de trabajo avanzados usan CFG variable durante la generación:
- CFG alto al principio: Establece composición y elementos clave
- CFG más bajo después: Permite desarrollo de detalles natural
Esto puede producir imágenes que son tanto precisas al prompt como de aspecto natural. Herramientas como ComfyUI soportan esto mediante nodos personalizados.
Ejemplos prácticos
Fotografía de retrato
Prompt: "Retrato profesional de mujer de negocios, iluminación de estudio, fondo neutro"
- CFG 5: Iluminación suave y natural, ligera variación del prompt
- CFG 7: Iluminación de estudio clara, precisa al prompt
- CFG 12: Iluminación dura, posibles tonos de piel antinaturales
- Mejor opción: 5-7
Ilustración fantasía
Prompt: "Dragón épico posado en montaña de cristal, atardecer, estilo arte fantasía"
- CFG 5: Atmosférico pero detalles pueden ser vagos
- CFG 8: Dragón y montaña claros, buen balance
- CFG 12: Elementos muy definidos, colores intensificados
- Mejor opción: 7-10
Foto de producto
Prompt: "Zapatilla blanca sobre fondo blanco, fotografía de producto, iluminación limpia"
- CFG 5: Puede no lograr el aspecto limpio de producto
- CFG 8: Apariencia limpia y profesional
- CFG 12: Riesgo de sobre-nitidez y artefactos
- Mejor opción: 7-9
Conclusión
CFG Scale es tu palanca más poderosa para controlar la calidad de generación de imágenes IA. Muy bajo y tus imágenes se alejan de tu visión; muy alto y se vuelven artificiales y duras.
Los puntos clave:
- 7-8 es un punto de partida seguro para la mayoría de modelos y prompts
- Ajusta según tipo de contenido – realista = más bajo, estilizado = más alto
- Observa señales reveladoras – borroso significa muy bajo, crujiente significa muy alto
- Diferentes modelos tienen diferentes puntos óptimos – siempre revisa documentación
- En caso de duda, haz bracketing – prueba múltiples valores y compara
Domina CFG Scale y tendrás mucho más control sobre tus imágenes generadas por IA. Es la diferencia entre luchar contra la IA y colaborar con ella.