modelos/HelloWorld XL de LEOSAM - HelloWorld XL 5.0 GPT4V

HelloWorld XL de LEOSAM - HelloWorld XL 5.0 GPT4V

Marta García

7/26/2025

1:39:12 PM

| Discussion|

Palabras Clave y Etiquetas Relacionadas

Diosa cyborg caminando sobre la superficie de un pequeño planeta al atardecer, llevando una bolsa plástica translúcida de neón con una atmósfera de nubes cósmicas azules en el fondo

Princesa beduina con capucha y cabello rubio sostiene una orbe Pokeball translúcida y brillante en un prado iluminado por el sol al atardecer, rodeada de luz dorada y neblina atmosférica.

Una caballera sin rostro con capucha y armadura medieval detallada está de pie en un prado gris y brumoso sosteniendo un orbe rojo y blanco brillante, con una antigua fuente de piedra y colinas rocosas al fondo.

Retrato fotorrealista en primer plano de una mujer sonriente con cabello cubriendo sus ojos, con iluminación cinematográfica, sombras suaves y neblina atmosférica.

Retrato de una joven de pie en un lago vistiendo un vestido de cuello alto azul claro con detalle de abertura, iluminación natural suave y un fondo desenfocado de agua y árboles.

Prompts Recomendados

studio light,sharp focus,high-end fashion photoshoot,product introduction photo,popular Korean makeup,aegyo sal,Sharp High-Quality Photo,medium format photo,Mamiya photography,analog film,Medium Portrait with Soft Light,real-life image,refined editorial photograph,raw photo,real photo,Scanned Photo,film still,film grain texture,analog photography aesthetic

Prompts Negativos Recomendados

bad hand,bad anatomy,worst quality,ai generated images,low quality,average quality,jpeg artifacts,blurry,poorly drawn,ugly

(worst quality, low resolution, bad hands), distorted, twisted, watermark

Parámetros Recomendados

samplers

DPM++ 2M Karras, Euler a, Restart

steps

6 - 40

cfg

1 - 10

resolution

1024x1024, 832x1248, 896x1152, 1248x832, 1360x768, 1152x896, 832x1260, 900x1200

Parámetros Recomendados de Alta Resolución

upscaler

ESRGAN 4x, 8x_NMKD-Faces_160000_G, ESRGAN_4x

upscale

1.5

steps

8 - 21

denoising strength

0.2 - 0.3

Consejos

Añade la palabra clave 'leogirl' al usar HelloWorld 1.0 para disparar efectos fiables del entrenamiento.

Usa el plugin 'adetailer' para corregir problemas en retratos lejanos, especialmente para cuerpos completos.

Para mejores detalles faciales en imágenes cuerpo completo, realiza reparación hires 1.5x con intensidad alrededor de 0.3.

Usa prompts en lenguaje natural para mejorar la calidad de salida con modelos SDXL.

Evita tonos cálidos no deseados usando prompts como 'luz de estudio' y 'enfoque nítido'.

Las imágenes cuerpo completo pueden tener escenas más amplias y detalles faciales menos nítidos a 1024; usa prompts de composición o adetailer para mejorar.

El modelo incluye conceptos diversos como surrealismo, boudoir, máscaras, origami, mechas, animales y texturas de película.

Aspectos Destacados de la Versión

HelloWorld 5.0 es la actualización más importante de la serie HelloWorld, etiquetada con GPT-4v, con afinaciones significativas en ciencia ficción, animales, arquitectura e ilustración.

Las pruebas comparativas muestran mejoras en esta versión:

1. Poses y composiciones de personajes más variadas y dinámicas, creando imágenes visualmente atractivas;

2. El conjunto de datos de filmografía ha sido entrenado extensamente. Mientras que la textura de film era débil en versiones 2.0 a 4.0, muchos fans extrañaban el estilo leogirl de la versión 1.0. Por ello, esta actualización fortalece específicamente la textura de film sin sacrificar otras cualidades fotográficas. La textura de film se puede activar con frases como textura de grano de película y estética de fotografía analógica;

3. Mayor expresividad en temas como ciencia ficción, thriller y animales, con mechas y otros con sensación más diseñada. Animales como el gato de Pallas, leopardo de las nieves, panda rojo, panda gigante, tigre, gatos y perros domésticos son más realistas;

4. Gracias a la etiquetación GPT, la adherencia al prompt y precisión conceptual mejoraron aún más.

Sin embargo, los inconvenientes de esta versión incluyen:

1. Al ser una actualización grande, la tasa de errores en extremidades puede aumentar ligeramente, fenómeno normal al salir de zona de confort hacia nuevas optimizaciones. Versiones anteriores sometieron extensas pruebas de extremidades; la nueva tuvo menos tiempo para ello. Aun así, la precisión en extremidades supera a la versión 1.0 y seguiré mejorando en actualizaciones futuras.

2. Debido al reforzado grano de película, aunque la etiquetación GPT es muy precisa, puede existir un tono cálido por defecto en imágenes. Sin embargo, con prompts como luz de estudio o enfoque nítido se pueden generar imágenes de calidad de estudio HD, y bien usados, los tonos de piel y atractivo visual superan versiones anteriores.

3. Esta versión incluye más imágenes de personajes cuerpo completo para mejorar el efecto, por lo que el modelo puede generar escenas más amplias si no se dirige composición específica. Detalles faciales a 1024 resolución pueden ser menos nítidos que en planos medios o primeros planos. Esto se puede mejorar usando prompts como adetailer y fix hires 1.5x a intensidad 0.3, o especificando composición para evitar cuerpo completo.

4. Al agregar pocos datasets ilustrativos de alta calidad, algunos prompts con estilos animados pueden crear imágenes animadas. Si preocupa, ajuste prompts.

Estas son las principales actualizaciones. Entrenar un modelo SDXL grande es desafiante y con cerca de diez mil imágenes el costo por etiquetado y entrenamiento supera 300 USD por modelo. ¡Invito a todos a usar el modelo y aprecio cualquier retroalimentación! Si gusta el modelo, agradecería que compartieran.

Patrocinadores del Creador

🖥️Prueba el código abierto GPT4V-Image-Captioner con instalación de un clic y funciones como precompresión y etiquetado de imágenes.

Usa la versión plugin webui para integración sencilla.

🖥️Bienvenidos a probar el código abierto GPT4V-Image-Captioner, desarrollado por mi amigo y yo. Ofrece instalación con un clic e integra múltiples funciones como precompresión de imágenes, etiquetado de imágenes y estadísticas de etiquetas. Recientemente, también lanzamos la versión plugin webui de esta herramienta, ¡todos están invitados a usarla!

🌍欢迎加入QQ群 "兔狲·AIGC梦工北厂"，群号：780132897 ；"兔狲·AIGC梦工南厂"，群号：835297318（入群答案：兔狲）。Telegram群聊“兔狲的SDXL百老汇”，链接：https://t.me/+KkflmfLTAdwzMzI1

📖Actualización HelloWorld 7.0 - 13 de junio de 2024

Resumen en una frase: HelloWorld 7.0 es una versión optimizada iterativamente, con el mejor rendimiento corporal de toda la serie, y una ampliación y riqueza de detalles en el concepto.

Detalles de la actualización:

Mediante la adición de imágenes negativas para entrenamiento, fortalecimiento del entrenamiento de poses y optimización del modelo clip, se ha mejorado la precisión de extremidades y manos comparado con versiones anteriores. Las palabras recomendadas para prompt negativo son: "mano mala, mala anatomía, peor calidad, imágenes generadas por IA, baja calidad, calidad media".
Se extrajo el LoRA fine-tuneado del modelo oficial SPO e incorporó en HelloWorld 7.0. SPO es una mejora adicional del método DPO. El modelo base SPO ofrece mejor rendimiento que el DPO XL y el SDXL base original. El SPO LoRA puede mejorar detalles, contraste y embellece las imágenes. Gracias al equipo técnico detrás de SPO.
Se amplió el alcance conceptual del conjunto de entrenamiento, optimizando y reduciendo el conjunto total (el ajuste fino de conjuntos muy grandes es costoso y la renta de H800 últimamente es difícil, no se puede permitir tiempo local de entrenamiento). Ahora el conjunto total tiene 20,821 imágenes. La distribución de resoluciones es la siguiente, se recomienda usar varias resoluciones con más imágenes para output:
```
(832, 1248) - Conteo: 7128
(896, 1152) - Conteo: 6250
(1248, 832) - Conteo: 2402
(1024, 1024) - Conteo: 1639
(1360, 768) - Conteo: 928
(1152, 896) - Conteo: 870
(768, 1360) - Conteo: 432
(960, 1088) - Conteo: 506
(992, 1056) - Conteo: 162
(1088, 960) - Conteo: 140
(704, 1472) - Conteo: 120
(1056, 992) - Conteo: 122
(1472, 704) - Conteo: 115
(1632, 640) - Conteo: 75
(640, 1632) - Conteo: 12
```
Se usó GPT4O para reetiquetar todos los conjuntos. Esta vez se usó un etiquetado estructurado con estructura específica: "descripción resumen en una frase + múltiples etiquetas de elementos imagen + inspirado en XXX + palabras descriptivas de calidad estética", con cinco niveles para calidad estética: peor calidad, baja calidad, calidad media, mejor calidad y obra maestra. Ejemplo típico:
```
arte conceptual mostrando una mano humana envuelta en cintas rojas y beige, aislada sobre fondo liso claro, estilo realista, esquema de color minimalista, texturas suaves, estética alargada y surrealista, inspirado en obras surrealistas de Salvador Dalí, obra maestra
```

La "Lista de Palabras Etiquetadas de Alta Frecuencia" y la "Lista de Estilos Artísticos de Alta Frecuencia" involucradas en el Inspirado en XXX para la versión HelloWorld 7.0 solo estarán disponibles para usuarios con licencia comercial. Socios que hayan comprado autorización de la serie HelloWorld XL anteriormente, por favor contáctenme si falta algo para obtenerla gratis.

Los usuarios pueden consultar la Lista de Palabras Etiquetadas de Alta Frecuencia para HelloWorld 6.0. Además, he proporcionado en la galería más de 150 imágenes de ejemplos de alta calidad de HelloWorld 7.0 como referencia para la salida de todos. Crear modelos no es fácil, ¡gracias a los jugadores por su comprensión y tolerancia!

📖Actualización HelloWorld 6.0 - 20 de abril de 2024

LEOSAM HelloWorld 6.0 Lista Top 250 de Palabras Etiquetadas de Alta Frecuencia

Gracias por la paciencia. He estado buscando trabajo recientemente, lo cual causó retrasos en las actualizaciones de HelloWorld. Los principales cambios en la versión 6.0 son:

HelloWorld 6.0 es una mejora iterativa basada en la versión 5.0. Según mis pruebas, el realismo no varía significativamente respecto a la 5.0. La ventaja principal está en una cobertura más amplia de conceptos en el conjunto de entrenamiento. Según retroalimentación, se han mejorado diversos temas: surrealismo, boudoir, fotos grupales, máscaras, origami, renders 3D, autos, dragones y fotografía de maternidad. Algunos ejemplos están en las ilustraciones.
Se incluyen intencionalmente imágenes de baja calidad para potenciar respuesta a prompts negativos. Se recomienda usar en los negativos: "baja calidad, artefactos jpeg, borroso, mal dibujado, feo, peor calidad".
El cuerpo principal del conjunto HelloWorld 6.0 usa etiquetado GPT4v. Para imágenes que GPT4v no etiqueta se usa cogVQA guiado por blip2-opt-6.7b. El estilo de etiquetado de estos modelos multimodales difiere mucho del WD1.4 tradicional. Para facilitar disparadores más precisos, compilé las 250 palabras de alta frecuencia del set. Puede consultarlas en este documento.

Finalmente, aunque SD3 está próximo a lanzarse, seguiré actualizando a HelloWorld XL 7.0 buscando mejoras mayores ahí.

📖2024.2.22 Lanzamiento de "HW5.0_Euler_a_Lightning"

Este modelo es una versión acelerada de ejecución del modelo base HelloWorld SDXL, que incorpora tecnologías SDXL-Lightning. Equipado con el muestreador Euler a y CFG 1, puede generar imágenes en 6-8 pasos, triplicando la velocidad respecto a la versión original SDXL. Además, comparado con versiones LCM o Turbo, sus resultados de imagen son superiores.

Parámetros recomendados para generación:

Muestreador: Euler a (Importante: el modelo está adaptado específicamente a Euler a, otros muestreadores pueden no rendir igual)

Escala CFG: 1

Pasos de muestreo: 8 pasos (aceptables 6~8 pasos)

Algoritmo Hires: ESRGAN 4x / 8x_NMKD-Faces_160000_G

Factor de escalado Hires: 1.5x

Pasos Hires: 8 pasos

Fuerza de desruido Hires: 0.3

📖2024.2.11 Lanzamiento de "HelloWorld 5.0 GPT4V"

HelloWorld 5.0 es la actualización más importante en la historia de la serie HelloWorld, etiquetada con GPT-4v, con afinaciones significativas en ciencia ficción, animales, arquitectura e ilustración.

Las pruebas comparativas muestran mejoras en esta versión:

1. Poses y composiciones de personajes más variadas y dinámicas, creando imágenes visualmente atractivas;

4. Gracias a la etiquetación GPT, la adherencia al prompt y precisión conceptual mejoraron aún más.

Sin embargo, los inconvenientes de esta versión incluyen:

3. Esta versión incluye más imágenes de personajes cuerpo completo para mejorar el efecto, por lo que el modelo puede generar escenas más amplias si no se dirige composición específica. Detalles faciales a 1024 resolución pueden ser menos nítidos que en planos medios o primeros planos. Esto se puede mejorar con adetailer y fix hires 1.5x a intensidad 0.3, o evitando generación de cuerpo completo con prompts.

4. Al agregar pocos datasets ilustrativos de alta calidad, algunos prompts con estilos animados pueden crear imágenes animadas. Si preocupa, ajuste prompts.

Estas son las principales actualizaciones. Entrenar modelo base SDXL es desafiante y con cerca de diez mil imágenes el costo por etiquetado y entrenamiento supera 300 USD por modelo. ¡Invito a todos a usar el modelo y agradezco cualquier retroalimentación! Si gusta el modelo, agradecería mucho que lo difundieran.

📖2024.1.31 Lanzamiento "HelloWorld 4.0"

HelloWorld 4.0 es una versión de transición progresiva del etiquetado con blip+clip a GPT4V. Inicialmente entrené un modelo solo con etiquetado GPT4V y luego lo fusioné con una gran proporción de HelloWorld 3.2 y 0.05 de Juggernaut XL (para ajustar tono de piel). La nueva versión mejora cumplimiento del prompt y cobertura conceptual respecto a 3.2.

El nuevo conjunto de etiquetado GPT4V ha duplicado desde 4000 imágenes de la serie helloworld3 a 8000 imágenes, cubriendo retratos, animales, arquitectura, naturaleza, comida, ilustraciones y más. Sin embargo, la versión pura GPT4V tuvo problema de sobreajuste, atribuido preliminarmente a la duplicación de imágenes. Un siguiente paso iterativo es incluir la mayor variedad posible de conceptos no retratos asegurando suficiente entrenamiento de retratos. Actualmente se usa fusión de versiones vieja y nueva para asegurar transición suave y que las ventajas del etiquetado GPT4V se noten más en versiones 5 y 6.

📖2024.1.5 Lanzamiento "HelloWorld 3.2"

La versión 3.2 es una iteración optimizada con DPO, y respecto a la 3.0 hay optimizaciones en tono de piel y precisión de extremidades, pero no muy significativas. Por eso es 3.2 y no 4.0.

📖2023.12.15 Lanzamiento "HelloWorld 3.0"

La nueva versión amplió el conjunto de entrenamiento, mejorando la capacidad del modelo para expresar distintos estilos artísticos, incluyendo ciencia ficción y arte.
Integró un LoCon de mejora de calidad propio ( creado con tecnología slider) para mejorar textura y aliviar distorsiones en dedos y extremidades.

📖2023.11.17 Lanzamiento "HelloWorld 2.0"

Gracias a todos por la paciencia. Después de superar varios desafíos, la versión HelloWorld 2.0 está lista para presentarse en un estado satisfactorio. Las diferencias principales con HelloWorld 1.0 son:

HelloWorld 2.0 ya no requiere palabras clave y sus resultados son comparables en calidad a la versión 1.0 con ellas. La palabra clave 'leogirl' en 1.0 estaba fuertemente asociada a asiáticos del este. Tras quitarla, palabras como '1girl' todavía suelen generar retratos asiáticos si no se especifica raza, pero ahora se puede especificar con palabras como nacionalidad, color de piel, etc. Por ejemplo, el efecto de disparo para palabras como 'chino', 'ruso', 'iraní', 'jamaicano', 'keniano', 'piel oscura' o 'piel clara' están listados.
También puedes obtener estilos diversos escribiendo nombres de personas de distintos países y géneros en el prompt, como Han Meimei (China), Sophie Martin (Francia), Priya Patel (India), Fatima Al-Hassan (Árabe), Wanjiru Mwangi (Kenia). Los prompts son ejemplos, existen muchos y puedes explorar y compartir.
HelloWorld 2.0 equilibró calidad/color y ofrece más opciones de estilo. La 1.0 con 'leogirl' producía imágenes con fuerte textura de film. HelloWorld 2.0 ya no está atada a eso y se puede personalizar con prompts relacionados con calidad. Algunos prompts que funcionan bien incluyen:
sesión de fotos alta moda, foto presentación producto, maquillaje popular coreano, aegyo sal, Foto nítida de alta calidad, luz de estudio, foto formato medio, fotografía Mamiya, película analógica, Retrato medio con luz suave, imagen real, fotografía editorial refinada, foto cruda, foto real, foto escaneada, fotograma de película
El efecto de color de esos prompts es como sigue:
El conjunto de HelloWorld 2.0 aumentó significativamente la proporción de fotos cuerpo completo para mejorar efectos SDXL en retratos a cuerpo completo y vistas lejanas. Aunque mejor que 1.0, se recomienda usar 'adetailer' para generar cuerpos completos. Para usuarios con suficiente VRAM (24g), se recomienda reparación hires 1.5x para mejorar detalles faciales.

📖2023.8.29 Lanzamiento "HelloWorld" modelo base SDXL

Recordatorio especial: Al usar el modelo HelloWorld 1.0, recuerda incluir la palabra clave "leogirl".

Diferente del modelo base SD1.5 “MoonFilm”, “HelloWorld” es una serie nueva realista base SDXL. Para que más usuarios lo descubran, mantuve el link del Moonfilm original. Puede verse como una continuación espiritual de Moonfilm en la nueva plataforma SDXL; HelloWorld busca algo más que solo realismo y calidad tipo película en retratos. Gracias a la mayor información y comprensión textual de SDXL respecto a SD1.5, HelloWorld aspira a representar virtualmente todas las cosas, construyendo un mundo fotográfico virtual.

El modelo base realista SD1.5 está maduro y difícilmente mejora. A menos que haya un avance para SD1.5, la serie Moonfilm & MoonMix dejará de actualizarse. Mi energía principal se enfocará en HelloWorld SDXL grande. La versión 1.0 ya está disponible y la 2.0 se desarrolla urgentemente para actualización en septiembre.

Como modelo SDXL nuevo, HelloWorld tiene tres diferencias con SD1.5 tradicionales:

A diferencia de bases SD1.5, que no usan palabra clave, recuerda usar "leogirl" en HelloWorld 1.0 para disparar efecto de conjunto estable.
Soporta output directo a resolución 1024*1024, sin necesidad de ampliación. Calidad de retrato cercano es igual o mejor a SD1.5, aunque retratos lejanos presentan fallas que se corrigen con ADetailer.
SDXL facilita outputs con prompts en lenguaje natural sencillo. Se recomienda probar más prompts en lenguaje natural para mejores fotos realistas IA.

Tras varias pruebas, parámetros recomendados de dibujo son:

Pasos ≥ 25
Muestreador: DPM++ 2M Karras
Escala CFG: 10
Tamaño ≥ 1024x1024
ADetailer: activo

Todos son bienvenidos a probar HelloWorld y aportar retroalimentación. ¡Sus opiniones son vitales para próximas mejoras!

Declaración de Derechos de Autor:

La serie de modelos HelloWorld ("el Modelo") ha sido creada por mí ("el Propietario") con la ayuda de la plataforma LiblibAI. La republicación del Modelo en plataformas distintas de LiblibAI y Civitai no está autorizada por el Propietario.

El Propietario permite uso de imágenes generadas por el Modelo para fines educativos o informativos no comerciales sin costo, con la condición de que:

- Los usuarios cumplan leyes aplicables y no infrinjan derechos del Modelo ni terceros.

- La atribución de imágenes sea claramente "creado por el modelo base HelloWorld de LEOSAM".

Para cualquier uso comercial se requiere acuerdo previo de licencia comercial con el Propietario. Para consultas sobre licencias comerciales y personalización, contacte al Propietario desde la información en su página principal.

El desarrollo y distribución gratuita del modelo SDXL es un gran esfuerzo. El Propietario se compromete a actualizaciones gratuitas continuas para usuarios individuales como muestra de gratitud a la comunidad open-source. Colaboraciones comerciales son vitales para avance y mejora del Modelo. El Propietario agradece a cada usuario por comprensión y apoyo.

El uso no autorizado puede violar leyes y acarrear consecuencias legales. El Propietario tiene derechos exclusivos para interpretar esta declaración, regida por leyes vigentes.