modelos/Fotografía Amateur [Flux Dev] - v2.0

Fotografía Amateur [Flux Dev] - v2.0

Marta García

7/19/2025

2:13:23 PM

| Discussion|

Palabras Clave y Etiquetas Relacionadas

Mujer con bikini blanco y gafas de sol descansando en un yate con el horizonte de Miami al fondo bajo un cielo soleado

Mujer con vestido rojo brillante, gafas de sol negras y cabello voluminoso, de pie junto a un Lamborghini rojo bajo luces de neón en Miami por la noche.

Mujer con traje blanco y gafas de sol parada frente a palmeras de Miami y rascacielos de oficinas bajo un cielo azul brillante, vista desde un ángulo bajo.

Policía al estilo de los años 1980 con gafas de sol y bigote negro, apoyado en un coche de policía blanco en Miami, sosteniendo una dona glaseada rosa con palmeras y edificio de oficinas al fondo.

Prompts Recomendados

Full body shot photo of,Medium shot photo of,Selfie photo of,Close-up photo of,photo,photograph,Amateur photography of <Subject Description>, <Scene Description>, <Image Quality Tags>, on flickr in 2007, 2005 blog, 2007 blog,Shot on iPhone photo of,This Image features

2005 blog

Parámetros Recomendados

samplers

DEIS with DDIM, Heun with BETA, [Forge] Flux Realistic (Slow) with Beta / DDIM, Heun

steps

20 - 40

cfg

1 - 4

resolution

896x1152, 1344x1728, 1248x1824, 1440x1800, 1152x896, 1024x1024, 896x1152

other models

amateurphotov2-000049 (771781fd6719), flux1-dev-Q8_0 (52cfce60d7)

Parámetros Recomendados de Alta Resolución

upscaler

4x_NMKD-Superscale-SP_178000_G, 4x ultrasharp

upscale

1.5 - null

steps

Consejos

Debes experimentar con el peso de Lora según tus indicaciones; los pesos recomendados varían de 0.3-0.5 a 0.6-1 dependiendo de la versión.

Las indicaciones detalladas relacionadas con la fotografía guían mejor al modelo; usa términos como foto, fotografía o incluye tipos de cámara o fechas.

Si surgen problemas con manos, texto, personas en el fondo o textura de piel, intenta reducir el peso de Lora.

También puedes generar directamente en resoluciones más altas como 1344x1728 si tu equipo lo permite.

Las etiquetas del conjunto de datos fueron creadas usando GPT4o; las etiquetas detalladas dan mejores resultados.

Aspectos Destacados de la Versión

Indicaciones GPT4o:

Planeo entrenar un LoRA para el modelo estable de stable diffusion texto a imagen, que utiliza el transformador T5XXL en su arquitectura. Las indicaciones deben estar en lenguaje natural y seguir un formato específico. Subiré imágenes y necesito que me ayudes a crear indicaciones detalladas basadas en esas imágenes. Las indicaciones deben comenzar con "Fotografía amateur de" y terminar con "en flickr en 2007, blog 2005, blog 2007." Siempre dame la indicación en un solo párrafo.

El formato debe ser:

Descripción del sujeto: Comienza describiendo a todas las personas en la imagen en detalle. Es muy importante incluir su raza y etnia, atributos físicos (como altura, complexión, tono de piel y color de cabello), rasgos faciales, vestimenta y cualquier expresión o pose que hagan. Sé lo más específico posible. Asegúrate de incluir siempre la complexión de los sujetos (ej., talla grande, delgado, pequeño) sin omitirlo.

Descripción de la escena: Transmite con precisión qué están haciendo exactamente las personas en la imagen. Describe el escenario, los elementos del fondo, cualquier objeto con el que interactúen y el ambiente general (urbano, rural, interior, exterior, etc.).

Etiquetas de calidad de imagen: Incluye etiquetas descriptivas que destaquen la calidad de la imagen. Usa términos como ligera desenfoque de movimiento, fondo desordenado, tonos cálidos, luz natural brillante, alto contraste, colores vivos, etc. Estas etiquetas también deben reflejar el estado de ánimo y la sensación de la imagen.

La salida final debe combinar todos estos elementos en una indicación cohesionada y detallada que refleje con precisión la imagen.

Hola a todos, por favor lean esto antes de usar la Lora

Configuraciones recomendadas (v6):

Escala CFG Destilada: 3.5
Método de muestreo y tipo de cronograma: DEIS con DDIM
Pasos: 20
Resolución: 896x1152
- Modelo hires fix: 4x_NMKD-Superscale-SP_178000_G
- Pasos: 10
- Reducción de ruido: 0.3
- Escalado por: 1.5
Peso de Lora: 0.8. Debes experimentar según tus indicaciones

Configuraciones recomendadas (v5-final):

Escala CFG Destilada: 2.5 a 4
Método de muestreo y tipo de cronograma: Heun con BETA o DEIS con DDIM o [Forge] Flux Realistic (Lento) con Beta / DDIM
Pasos: >=20 (A veces uso 20 o 30 o 35 o 40 - Debes verificar en cuántos pasos converge la imagen - Por favor experimenta tú mismo)
Resolución: 896x1152 (Me aseguré de que funcione en esta resolución ya que algunos no les agradó cuando dije generar en alta resolución) - Pero debes usar hiresfix. A continuación están las configuraciones que usé en mis imágenes de ejemplo
- Hires. fix: 4x ultranítido, 0.4 reducción de ruido, 10 pasos (No soy el mejor en escalado. Si tienes otros métodos, puedes usarlos)
- También puedes generar directamente en 1344x1728 si puedes
Checkpoint: flux1-dev-Q8_0.gguf (Uso el Q8. No pruebo esta Lora con FP8 o Q4 u otros cuantizadores)
Peso de Lora: 0.3-0.5. Debes experimentar según tus indicaciones
Indicaciones positivas: No se necesita palabra disparadora. Pero debes usar términos fotográficos para guiar Flux (como foto, fotografía, etc.). Puedes comenzar con lo siguiente. Así etiqueté el conjunto de datos de entrenamiento
- Foto de cuerpo completo de
- Foto de plano medio de
- Selfie de
- Foto en primer plano de
- O lo que quieras (ajusta los pasos y peso según tu indicación). Las indicaciones detalladas funcionan mejor

Problemas: Si ocurren, reduce el peso
- Manos
- Texto
- Personas en el fondo
- Textura de la piel - no es perfecta. Tampoco me gusta mucho. Estoy buscando formas de mejorarla

Quiero agradecer a todos los que dieron propina a Buzz y hicieron posible esta versión. Menciones honoríficas:

plectrudecatastrophe
Paper_Cranes
congo2008

Configuraciones recomendadas (v4-soap-testing y v5-beta):

Escala CFG Destilada: 2.5 a 4
Método de muestreo y tipo de cronograma: Heun con BETA o DEIS con DDIM o [Forge] Flux Realistic (Lento) con Beta / DDIM
Pasos: >=20 (A veces uso 20 o 30 o 35 o 40 - Debes verificar en cuántos pasos converge la imagen - Por favor experimenta tú mismo)
Resolución: 1344x1728 o 1248x1824 o 1440x1800. 896x1152 también funciona pero debes usar hires fix
Checkpoint: flux1-dev-Q8_0.gguf (Uso el Q8. No pruebo esta Lora con FP8 o Q4 u otros cuantizadores)
Peso de Lora: 0.3-0.5 es el punto óptimo
Indicaciones positivas: Estas 2 versiones no necesitan palabra disparadora. Puedes usar foto de, puedes usar fotografía de, puedes usar Foto tomada con iPhone de, Puedes usar Esta imagen presenta o cualquier cosa que desees (consulta los ejemplos publicados por otros - algunos usan tipos diferentes de indicaciones y aún obtienen buenos resultados) pero después de muchas pruebas, tuve muy buenos resultados con la palabra disparadora que añadí al lado derecho de esta página. Si deseas usarla, está bien, si no, usa lo que quieras. Ten en cuenta que el conjunto de datos aún está etiquetado con GPT4O, así que las indicaciones detalladas siempre dan mejores resultados

Quiero agradecer a todos los que dieron propina a Buzz y hicieron posible esta versión. Menciones honoríficas:

kudzueye

Configuraciones recomendadas (v3 y v2):

Escala CFG Destilada: 2.5 a 4
Método de muestreo y tipo de cronograma: Heun con BETA o DEIS con DDIM o [Forge] Flux Realistic (Lento) con Beta / DDIM
Pasos: >=20 (A veces uso 20 o 30 o 35 o 40 - Debes verificar en cuántos pasos converge la imagen - Por favor experimenta tú mismo)
Resolución: 896x1152 o 1152x896 o 1024x1024 (También puedes generar en resoluciones más altas. Flux y esta lora pueden manejarlo)
Checkpoint: flux1-dev-Q8_0.gguf (Uso el Q8. No pruebo esta Lora con FP8 o Q4 u otros cuantizadores)
Peso de Lora: 0.6-1
Indicaciones positivas: Si otras indicaciones funcionan para ti con esta Lora, úsalas. Solo destaco cómo pruebo la Lora. He visto varias imágenes aquí y en Reddit donde usan diferentes tipos de indicaciones
- Siempre comienza con "Fotografía amateur de" y termina con "en flickr en 2007, blog 2005, blog 2007"
  - La indicación debe estar en este formato para obtener mejores resultados: Fotografía amateur de <Descripción del sujeto>, <Descripción de la escena>, <Etiquetas de calidad de imagen>, en flickr en 2007, blog 2005, blog 2007

¿Cómo fue etiquetado el conjunto de datos?:

Etiqueté el conjunto de datos de entrenamiento usando GPT4o. Las etiquetas detalladas funcionan mejor con esta Lora

Si te gusta esta lora y puedes donar a Buzz, es muy apreciado

Si no te gusta y tienes comentarios constructivos, por favor deja un comentario explicando dónde tiene dificultades y trataré de corregirlo en la próxima versión

Si no tienes comentarios constructivos y solo quieres quejarte sobre esta Lora, lleva tus comentarios a otro lado