LEOSAM's HelloWorld XL - HelloWorld XL 5.0 GPT4V
Palavras-chave e Tags Relacionadas
Prompts Recomendados
studio light,sharp focus,high-end fashion photoshoot,product introduction photo,popular Korean makeup,aegyo sal,Sharp High-Quality Photo,medium format photo,Mamiya photography,analog film,Medium Portrait with Soft Light,real-life image,refined editorial photograph,raw photo,real photo,Scanned Photo,film still,film grain texture,analog photography aesthetic
Prompts Negativos Recomendados
bad hand,bad anatomy,worst quality,ai generated images,low quality,average quality,jpeg artifacts,blurry,poorly drawn,ugly
(worst quality, low resolution, bad hands), distorted, twisted, watermark
Parâmetros Recomendados
samplers
steps
cfg
resolution
Parâmetros Recomendados para Alta Resolução
upscaler
upscale
steps
denoising strength
Dicas
Adicione a palavra-chave 'leogirl' ao usar o HelloWorld 1.0 para disparos estáveis do efeito de treinamento.
Use o plugin 'adetailer' para corrigir problemas em retratos distantes, especialmente fotos de corpo inteiro.
Para melhores detalhes faciais em imagens de corpo inteiro, realize reparo em alta resolução 1.5x com intensidade em torno de 0.3.
Use prompts em linguagem natural para melhorar a qualidade da saída com modelos SDXL.
Evite tom quente indesejado usando prompts como 'luz de estúdio' e 'foco nítido'.
Imagens corpo inteiro podem apresentar cenas mais amplas e detalhes faciais menos nítidos em resolução 1024; use prompts de composição ou adetailer para melhorias.
O modelo inclui conceitos diversos como surrealismo, boudoir, máscaras, origami, mechas, animais e texturas de filme.
Destaques da Versão
HelloWorld 5.0 é a atualização mais substancial na história da série HelloWorld, etiquetada com GPT-4v, e passou por ajustes significativos em campos como ficção científica, animais, arquitetura e ilustração.
Testes comparativos mostram melhorias nesta versão, incluindo:
1. Poses de personagens e composições de imagem mais variadas e dinâmicas, criando imagens visualmente envolventes;
2. O conjunto de dados de filme recebeu treinamento extensivo. Enquanto a textura de filme era fraca das versões 2.0 a 4.0, muitos fãs sentiram falta do estilo leogirl da versão 1.0. Portanto, esta atualização fortaleceu especificamente a textura de filme sem comprometer outras qualidades fotográficas. A textura de filme pode ser ativada por frases como textura de grão de filme e estética de fotografia analógica;
3. Expressividade aprimorada em temas como ficção científica, thriller e animais, com mechas e outros assuntos com sensação mais projetada. Animais como gato-de-pallas, leopardo-das-neves, panda-vermelho, panda-gigante, tigre, e gatos e cães domésticos estão mais realistas;
4. Graças à etiquetagem GPT, a adesão ao prompt e a precisão conceitual foram ainda mais aprimoradas.
Entretanto, as desvantagens desta versão incluem:
1. Como este é um ajuste fino substancial, a taxa de erro para membros e similares pode aumentar levemente, um fenômeno normal ao sair da zona de conforto para áreas novas de otimização relativa. Versões anteriores passaram por extensos testes para aprimoramentos de membros, enquanto a nova versão teve tempo limitado para tais melhorias. Todavia, a precisão dos membros nesta versão é ao menos superior à da versão 1.0, e continuarei fazendo melhorias em atualizações futuras.
2. Devido à textura de filme reforçada, mesmo com etiquetagem GPT a mais precisa possível, pode haver um tom quente padrão inevitável nas imagens. Porém, você pode usar prompts como luz de estúdio ou foco nítido para produzir imagens de qualidade de estúdio em alta definição, e com uso adequado de prompts a saída pode ter tons de pele e apelo visual melhores do que versões anteriores.
3. Esta versão inclui mais imagens de personagens corpo inteiro para reforçar o efeito corpo inteiro, então o modelo pode produzir cenas mais amplas do que antes se não for direcionada composição específica do personagem. Atualmente, os detalhes faciais em fotos corpo inteiro na resolução 1024 podem ser menos nítidos comparados a fotos meio corpo ou close-up. Todavia, isso pode ser melhorado usando prompts como adetailer e ajuste hires 1.5x com intensidade 0.3, ou especificando composição para evitar gerar imagens corpo inteiro.
4. Como um pequeno conjunto de dados ilustrativos de alta qualidade foi adicionado, há chance de prompts relacionados a estilos animados gerarem imagens animadas. Se isso for um problema para você, ajuste seus prompts de acordo.
Estas são as principais atualizações desta versão. Treinar o modelo grande SDXL é desafiador, e quando o conjunto de treinamento se aproxima de dez mil imagens, o custo de etiquetagem e treinamento para cada modelo ultrapassa 300 USD. Convido todos a usar o modelo e agradeço qualquer retorno! Se achar este modelo satisfatório, ficarei imensamente grato se puder ajudar a divulgá-lo.
Patrocinadores do Criador
🖥️Experimente o open-source GPT4V-Image-Captioner com instalação com um clique e funcionalidades como pré-compressão e tagging de imagens.
Use a versão plugin webui para fácil integração.
🖥️Bem-vindo para experimentar o open-source GPT4V-Image-Captioner, desenvolvido por mim e meu amigo. Oferece instalação com um clique e vem integrado com múltiplas funcionalidades, incluindo pré-compressão de imagem, tagging de imagem e estatísticas de tags. Recentemente, lançamos também a versão plugin webui desta ferramenta, todos são bem-vindos para usar!
🌍Bem-vindo a se juntar ao grupo QQ "兔狲·AIGC梦工北厂", número do grupo: 780132897 ;"兔狲·AIGC梦工南厂", número do grupo: 835297318 (resposta para entrada: 兔狲). Telegram chat “兔狲的SDXL百老汇”, link:https://t.me/+KkflmfLTAdwzMzI1
📖Atualização HelloWorld 7.0 - 13 de junho de 2024
Resumo da atualização em uma frase: HelloWorld 7.0 é uma versão otimizada iterativamente, com o melhor desempenho corporal em toda a série, e abrangência e riqueza de detalhes conceituais ainda mais aprimoradas.
Detalhes da atualização:
Adicionando imagens negativas para treinamento, fortalecendo o treinamento de poses e otimizando o modelo clip, a precisão dos membros e mãos do modelo foi melhorada em comparação com versões anteriores. As palavras recomendadas para prompt negativo são: "bad hand, bad anatomy, worst quality, ai generated images, low quality, average quality".
Extraímos a LoRA ajustada do modelo oficial SPO e a incorporamos ao HelloWorld 7.0. SPO é uma melhoria adicional do método DPO. O modelo base SPO é usado para desempenho melhor do que o modelo base DPO XL e o modelo base SDXL original. A SPO LoRA pode melhorar detalhes e contraste da imagem e embelezar as imagens. Agradecimentos à equipe técnica por trás da SPO.
Continuamos expandindo o escopo conceitual do conjunto de treinamento, mas otimizamos e simplificamos o conjunto de dados (o ajuste fino de grandes conjuntos de treinamento é muito caro, e alugar o H800 tem sido difícil recentemente, tornando inviável o tempo de treinamento local). O conjunto total atual tem 20.821 imagens. A distribuição das resoluções do conjunto de treino está como segue, recomendando o uso de várias resoluções com maior número de imagens para a saída:
(832, 1248) - Contagem: 7128 (896, 1152) - Contagem: 6250 (1248, 832) - Contagem: 2402 (1024, 1024) - Contagem: 1639 (1360, 768) - Contagem: 928 (1152, 896) - Contagem: 870 (768, 1360) - Contagem: 432 (960, 1088) - Contagem: 506 (992, 1056) - Contagem: 162 (1088, 960) - Contagem: 140 (704, 1472) - Contagem: 120 (1056, 992) - Contagem: 122 (1472, 704) - Contagem: 115 (1632, 640) - Contagem: 75 (640, 1632) - Contagem: 12Usamos GPT4O para re-rotular todos os datasets. Desta vez, foi adotado um método de rotulagem estruturada, com a estrutura específica sendo: "descrição resumo em uma frase + múltiplas tags de elementos da imagem + inspirado por XXX + palavras descritivas de qualidade estética", onde as palavras de qualidade estética são divididas em cinco níveis: pior qualidade, baixa qualidade, qualidade média, melhor qualidade e obra-prima. Um exemplo típico de rotulagem é o seguinte:
arte conceitual apresentando uma mão humana envolta em fitas vermelhas e bege, isolada contra um fundo claro simples, estilo realista, esquema de cores minimalista, texturas suaves, estética alongada e surreal, inspirado nas obras surrealistas de salvador dalí, obra-prima
A "Lista de Palavras de Tagueamento de Alta Frequência" e a "Lista de Estilos de Arte de Alta Frequência" envolvidas no "Inspirado por XXX" da versão HelloWorld 7.0 serão fornecidas somente a usuários com licença comercial. Parceiros que compraram autorização da série Helloworld XL anteriormente, por favor, entre em contato comigo para obter gratuitamente caso haja alguma omissão.
Os usuários podem consultar a Lista de Palavras de Tagueamento de Alta Frequência do HelloWorld 6.0. Além disso, forneci mais de 150 imagens exemplares de alta qualidade do HelloWorld 7.0 na galeria, que podem servir como referência para a saída de todos. Criar modelo não é fácil, agradeço a compreensão e tolerância dos usuários!
📖Atualização HelloWorld 6.0 - 20 de abril de 2024
LEOSAM HelloWorld 6.0 Top 250 Lista de Palavras de Tagueamento de Alta Frequência
Obrigado pela paciência. Eu estava procurando emprego recentemente, o que causou alguns atrasos nas atualizações do HelloWorld. Eis as principais atualizações na versão 6.0:
O HelloWorld 6.0 é uma melhoria iterativa baseada na versão 5.0. Segundo meus próprios testes, o efeito de realismo não difere significativamente da versão 5.0. A principal vantagem da versão 6.0 está na sua cobertura mais ampla de conceitos no conjunto de treinamento. Segundo feedbacks, houve aprimoramentos em vários temas, incluindo surrealismo, boudoir, fotos em grupo, máscaras, origami, renderizações 3D, carros, dragões e fotografia de maternidade. Alguns exemplos estão nas ilustrações.
O HelloWorld 6.0 inclui intencionalmente algumas imagens de baixa qualidade no treinamento para melhorar a resposta do modelo a prompts negativos. É recomendado usar os seguintes termos em prompts negativos: "low quality, jpeg artifacts, blurry, poorly drawn, ugly, worst quality".
O corpo principal do conjunto de treino HelloWorld 6.0 emprega tagging GPT4v. Para imagens que o GPT4v não consegue taguear, é utilizado o cogVQA guiado por blip2-opt-6.7b. O estilo de linguagem dessas tags multimodais difere bastante daquele do tagger tradicional WD1.4. Para facilitar a ativação mais precisa de diferentes conceitos no conjunto de treinamento, compilaram as 250 palavras de tagueamento de alta frequência do conjunto HelloWorld 6.0. Você pode consultar essas palavras em este documento.
Finalmente, apesar do lançamento iminente do SD3, continuarei atualizando para HelloWorld XL 7.0, esperando alcançar melhorias maiores na versão 7.0!
📖2024.2.22 Apresentando "HW5.0_Euler_a_Lightning"
Este modelo é uma versão acelerada do modelo base HelloWorld SDXL, incorporando as tecnologias SDXL-Lightning. Equipado com o sampler Eular a e CFG 1, é capaz de gerar imagens em 6-8 passos, três vezes mais rápido que a versão original do SDXL. Além disso, comparativamente, os resultados de imagem são superiores aos das versões LCM ou Turbo.
Os parâmetros recomendados para gerar imagens com este modelo são:
Sampler: Euler a (Importante! O modelo é especificamente adaptado para Euler a, outros samplers podem não apresentar resultados tão bons)
Escala CFG: 1
Passos de amostragem: 8 passos (6~8 passos são aceitáveis)
Algoritmo Hires: ESRGAN 4x / 8x_NMKD-Faces_160000_G
Fator de ampliação Hires: 1.5x
Passos Hires: 8 passos
Força de redução de ruído Hires: 0.3
📖2024.2.11 Apresentando "HelloWorld 5.0 GPT4V"
HelloWorld 5.0 é a atualização mais substancial da história da série HelloWorld, etiquetada com GPT-4v, e passou por ajustes significativos em áreas como ficção científica, animais, arquitetura e ilustrações.
Testes comparativos mostram melhorias nesta versão que incluem:
1. Poses de personagens e composições de imagem mais variadas e dinâmicas, criando imagens visualmente envolventes;
2. O conjunto de dados de filme foi extensivamente treinado. Enquanto a textura de filme era fraca das versões 2.0 a 4.0, muitos fãs sentiram falta do estilo leogirl da versão 1.0. Portanto, esta atualização fortaleceu especificamente a textura de filme sem comprometer outras qualidades fotográficas. A textura de filme pode ser ativada por frases como textura de grão de filme e estética de fotografia analógica;
3. Expressividade aprimorada em temas como ficção científica, thriller e animais, com mechas e outros assuntos com sensação mais projetada. Animais como gato-de-pallas, leopardo-das-neves, panda-vermelho, panda-gigante, tigre, e gatos e cães domésticos estão mais realistas;
4. Graças à etiquetagem GPT, a aderência ao prompt e a precisão conceitual foram ainda mais aprimoradas.
Entretanto, as desvantagens desta versão incluem:
1. Como este é um ajuste fino substancial, a taxa de erro para membros e similares pode aumentar levemente, fenômeno normal ao sair de uma zona de conforto para novas áreas de otimização relativa. Versões anteriores passaram por extensos testes de membros para melhorias, enquanto a nova versão teve tempo limitado para tais aprimoramentos. Entretanto, a precisão dos membros nesta versão é ao menos maior que na versão 1.0, e continuarei a fazer melhorias em atualizações futuras.
2. Devido à textura de filme reforçada, mesmo que a etiquetagem GPT seja a mais precisa possível, pode haver um tom quente padrão inevitável nas imagens. Entretanto, você pode usar prompts como luz de estúdio ou foco nítido para produzir imagens com qualidade de estúdio em alta definição, e com o uso adequado dos prompts, a saída pode ter tons de pele e apelo visual melhores do que versões anteriores.
3. Esta versão inclui mais imagens de personagens de corpo inteiro para melhorar o efeito de corpo inteiro, então o modelo pode produzir cenas mais amplas do que antes se não for direcionada uma composição específica do personagem. Atualmente, os detalhes faciais em fotos de corpo inteiro em resolução 1024 podem ser menos nítidos comparados a fotos de meio corpo ou close-up. Entretanto, isso pode ser melhorado com adetailer e um ajuste hires 1.5x com intensidade 0.3, ou usando prompts especificando composição para evitar gerar imagens de corpo inteiro.
4. Como um pequeno conjunto de dados de ilustração de alta qualidade foi adicionado, há chances de prompts relacionados a estilos animados gerarem imagens animadas. Se isso for problema para você, ajuste seus prompts conforme necessário.
Estas são as principais atualizações desta versão. Treinar o modelo grande SDXL é desafiador, e quando o conjunto de treino se aproxima de dez mil imagens, o custo para etiquetagem e treinamento por modelo ultrapassa 300 USD. Recebo todos para usar o modelo e agradeço qualquer feedback! Se você achar este modelo satisfatório, ficarei imensamente grato se puder ajudar a divulgá-lo.
📖2024.1.31 Apresentando "HelloWorld 4.0"
O HelloWorld 4.0 é uma versão progressiva de transição do tagging com blip+clip para tagging com GPT4V. Inicialmente treinei um modelo puro de tagging GPT4V, depois o misturei com uma grande proporção da versão HelloWorld 3.2 e 0.05 de proporção do Juggernaut XL (para ajustar o tom de pele). A nova versão mostrou melhorias em conformidade com prompt e cobertura de conceitos em relação à versão 3.2.
O novo conjunto de treinamento de tagging GPT4V dobrou de 4000 imagens da série helloworld3 para 8000 imagens, abrangendo não só retratos mas também animais, arquitetura, natureza, comida, ilustrações e mais. Contudo, a versão pura GPT4V enfrentou problema de overfitting, preliminarmente atribuído à duplicação do número de imagens. Um dos próximos passos na otimização iterativa é descobrir como incluir o máximo possível de conceitos não retrato garantindo treino suficiente em retratos. Nesta fase, foi usada uma fusão das versões nova e antiga para ajuste fino, assegurando uma transição suave, então as vantagens do conjunto ampliado e do tagging GPT4V ainda são pouco perceptíveis. Essas vantagens se tornarão mais evidentes nas seguintes gerações 5 e 6 do modelo.
📖2024.1.5 Apresentando "HelloWorld 3.2"
A versão 3.2 é uma iteração otimizada com tecnologia DPO, e comparada à versão 3.0, apresenta otimizações no tom de pele e precisão dos membros, embora as melhorias não sejam significativas. Por isso esta versão foi marcada como 3.2 em vez de 4.0.
📖2023.12.15 Apresentando "HelloWorld 3.0"
A nova versão ampliou o conjunto de treinamento, reforçando a capacidade do modelo de expressar em diferentes estilos artísticos, incluindo ficção científica e arte.
Integrado um LoCon criado por mim para aprimoramento de qualidade (feita com tecnologia slider), para melhorar textura da imagem e aliviar problemas de distorção em dedos e membros.
📖2023.11.17 Apresentando "HelloWorld 2.0"
Obrigado a todos pela paciência. Após superar diversos desafios, a versão HelloWorld 2.0 está finalmente pronta para ser apresentada num estado com o qual estou satisfeito. As principais diferenças entre HelloWorld 2.0 e 1.0 são:
O HelloWorld 2.0 não requer mais palavras-chave, e os resultados são comparáveis em qualidade à versão 1.0 com palavras-chave.. A palavra-chave 'leogirl' na 1.0 estava fortemente associada a asiáticos do leste. Após a remoção das palavras-chave, palavras como '1girl' ainda provavelmente gerarão retratos asiáticos do leste quando a raça não for especificada, mas agora pode-se especificar raça usando palavras-chave como nacionalidade, cor de pele, etc. Por exemplo, os efeitos de gatilho para palavras como 'Chinês', 'Russo', 'Iraniano', 'Jamaicano', 'Queniano', 'pele escura', 'pele clara' etc. são listados abaixo.

Você também pode obter diferentes estilos de personagens escrevendo nomes de pessoas de diferentes países e gêneros no prompt, como Han Meimei (China), Sophie Martin (França), Priya Patel (Índia), Fatima Al-Hassan (Árabe), Wanjiru Mwangi (Quênia). Os prompts acima são apenas exemplos, existem muitos prompts e maneiras de jogar, fique à vontade para explorar e compartilhar.

O HelloWorld 2.0 equilibrou qualidade/cor e oferece mais opções de estilo. A versão 1.0, quando usada com 'leogirl', provavelmente produziria imagens com forte textura de filme. O HelloWorld 2.0 não está mais atrelado a textura de filme e pode ser customizado com alguns prompts relacionados a qualidade. Alguns prompts que foram testados e funcionam bem incluem:
sessão de fotos de moda de alto nível, foto de introdução de produto, maquiagem coreana popular, aegyo sal, Foto Nítida de Alta Qualidade, luz de estúdio, foto em médio formato, fotografia Mamiya, filme analógico, Retrato Médio com Luz Suave, imagem da vida real, fotografia editorial refinada, foto raw, foto real, foto escaneada, frame de filme
Os efeitos de cor desses prompts são os seguintes:

O conjunto de treino para HelloWorld 2.0 aumentou significativamente a proporção de fotos de corpo inteiro para melhorar os efeitos do SDXL na geração de retratos corpo inteiro e em visão distante. Embora tenha melhorado em relação à versão 1.0, ainda é fortemente recomendado usar "adetailer" no processo de geração de fotos corpo inteiro. Além disso, para usuários com memória de vídeo suficiente (24g), recomenda-se fazer reparo em alta resolução 1.5x na imagem, o que pode melhorar significativamente os detalhes faciais.
📖2023.8.29 Apresentando o "HelloWorld" Modelo Base SDXL
Lembrete especial: Ao usar o modelo HelloWorld 1.0, lembre-se de adicionar a palavra-chave "leogirl".
Diferente do modelo base SD1.5 “MoonFilm”, “HelloWorld” é uma nova série realista de modelos base SDXL. Para permitir que mais usuários descubram o HelloWorld, eu mantive o link original do modelo Moonfilm. Pode ser visto como uma continuação espiritual do Moonfilm na nova plataforma SDXL, mas o HelloWorld busca mais do que apenas realismo e qualidade estilo filme em retratos. Graças à quantidade muito superior de informações e capacidade de compreensão textual do SDXL em comparação ao SD1.5, HelloWorld é um modelo base que busca representar realisticamente todas as coisas, ou em outras palavras, pretendo construir gradualmente um mundo de fotografia virtual usando o HelloWorld.
O modelo base realista do SD1.5 já está bastante maduro e dificilmente terá melhorias significativas no desempenho. A menos que haja alguma tecnologia revolucionária para a plataforma SD1.5, a série Moonfilm & MoonMix basicamente não terá mais atualizações. Dedico minha principal energia ao desenvolvimento do modelo grande HelloWorld SDXL. A versão 1.0 já está disponível para download, e a versão 2.0 está em desenvolvimento urgente, prevista para atualização no início de setembro.
Como um novo modelo SDXL, existem três diferenças entre HelloWorld e os modelos tradicionais SD1.5:
Diferente dos modelos base SD1.5, que tipicamente não incluem palavras-chave, lembre-se de usar a palavra-chave "leogirl" ao usar o HelloWorld 1.0. Isso garante que o modelo SDXL ative o efeito do conjunto de treino de forma mais estável.
O modelo HelloWorld suporta saída direta em resolução 1024*1024 pixels, eliminando a necessidade de magnificação de alta resolução. A qualidade do retrato close-up direto não é inferior à versão SD1.5, mas ainda há falhas na saída direta de retratos distantes. Portanto, sugere-se usar o plugin ADetailer, que pode corrigir efetivamente problemas de rostos distantes.
O SDXL agora permite saída mais fácil usando prompts de linguagem natural simples. Recomenda-se tentar mais prompts de linguagem natural, que resultarão em melhores imagens de fotos realistas por IA.
Após várias rodadas de testes, as configurações sugeridas de parâmetros para desenho são:
Passos ≥ 25
Sampler: DPM++ 2M Karras
Escala CFG: 10
Tamanho ≥ 1024x1024
ADetailer: ligado
Todos são bem-vindos a testar o HelloWorld e fornecer muitos feedbacks. Suas opiniões valiosas são muito importantes para os próximos passos de melhoria do modelo!
Declaração de Direitos Autorais:
A série de modelos HelloWorld (doravante "o Modelo") foi criada por mim (doravante "o Proprietário") com assistência da plataforma LiblibAI. A republicação do Modelo em plataformas fora da LiblibAI e Civitai não é autorizada pelo Proprietário.
O Proprietário permite o uso de imagens geradas pelo Modelo para fins educacionais ou informativos não comerciais gratuitamente, sob condição de que:
- Usuários cumpram as leis aplicáveis e não violem os direitos do Modelo ou de terceiros.
- A autoria das imagens seja claramente declarada como "criada pelo modelo base HelloWorld de LEOSAM".
Para qualquer forma de uso comercial, é necessário acordo prévio de licença comercial com o Proprietário. Para consultas relacionadas a licenciamento comercial e personalização do modelo, entre em contato com o Proprietário via informações disponíveis na página principal do Proprietário.
O desenvolvimento e a distribuição gratuita do modelo SDXL representam esforços significativos. O Proprietário promete atualizações contínuas e gratuitas do modelo HelloWorld para entusiastas individuais como forma de agradecimento pela contribuição da comunidade ao desenvolvimento open-source. Colaborações comerciais são vitais para o avanço e refinamento do Modelo. O Proprietário agradece a compreensão e suporte de todos os usuários.
Uso não autorizado pode violar leis aplicáveis e acarretar consequências legais. O Proprietário mantém direitos exclusivos para interpretar esta declaração, que é regida pelas leis e regulamentos vigentes.
Detalhes do Modelo
Tipo de modelo
Modelo base
Versão do modelo
Hash do modelo
Criador
Discussão
Por favor, faça log in para deixar um comentário.
