Uma garota sem rosto com cabelo preto longo e manto preto com padrões quadriculados está sobre um piano gigante, sorrindo maliciosamente, enquanto um lobo preto caminha pela paisagem de areia quadriculada abaixo.

Prompts Recomendados

masterpiece

Prompts Negativos Recomendados

worst quality,low quality,watermark

worst quality, low quality, watermark

Parâmetros Recomendados

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 1376x832, 1280x800, 1200x1920, 832x1216, 1216x832

vae

sdxl_vae.safetensors

Parâmetros Recomendados para Alta Resolução

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.5 - 0.65

Dicas

Tags de artista/estilo devem estar em um chunk CLIP separado ou no fim do prompt com token BREAK para melhor aderência ao prompt.

Use apenas 4 tags de qualidade: 'masterpiece' e 'best quality' para positivo, 'low quality' e 'worst quality' para negativos.

Evite metatags como 'lowres'; elas foram removidas e não afetam os resultados.

Para a versão vpred, use valores CFG mais baixos (3 a 5).

Metatags relacionadas a brilho, contraste e cor (ex: 'low brightness', 'high saturation') melhoram a qualidade de saída e funcionam em ambas as versões epsilon e vpred.

Use texto natural combinado com tags booru e mantenha prompts curtos e claros para melhores resultados.

Estilos de artistas múltiplos podem ser combinados com pesos de prompt e feitiços.

Destaques da Versão

Vpred para v0.8

Patrocinadores do Criador

Apoie o modelo e os autores via o Repositório Huggingface e participe do Servidor Discord. Doações aceitas em BTC, ETH/USDT, XMR ou tempo de GPU (A100+). Veja detalhes na página.

Re-treinamento aprofundado de Illustrious para alcançar a melhor aderência ao prompt, conhecimento e desempenho de ponta.

Grandes sonhos se tornam realidade

O número da versão é apenas um índice da última liberação final atual, não uma fração do treinamento planejado.

Repositório HF

Afinamento em larga escala usando cluster GPU com um conjunto de dados de ~13M imagens (~4M com legendas em texto natural)

  • Conhecimento amplo e atualizado sobre personagens, conceitos, estilos, cultura e assuntos relacionados

  • A melhor aderência ao prompt entre modelos anime SDXL no momento do lançamento

  • Resolveu problemas principais com bleeding de tags e vieses, comuns ao Illustrious, NoobAi e outros checkpoints

  • Excelente estética e conhecimento em uma ampla variedade de estilos (mais de 50.000 artistas (exemplos), incluindo centenas de conjuntos de dados únicos selecionados de galerias privadas, inclusive recebidos dos próprios artistas)

  • Alta flexibilidade e variedade sem comprometer a estabilidade

  • Sem mais marcas d'água incômodas em estilos populares graças a um conjunto de dados limpo

  • Cores vibrantes e gradientes suaves sem traços de queima, gama completa mesmo na versão epsilon

  • Treinamento puro partindo do Illustrious v0.1 sem envolver checkpoints de terceiros, Loras, tweakers, etc.

Também há alguns problemas e mudanças em relação à versão anterior, por favor, leia o manual.

Corte do conjunto de dados - final de abril de 2025.

Recursos e prompting:

Alteração importante:

Ao fazer prompts com estilos de artistas, especialmente misturando vários, as tags deles DEVEM ESTAR em um chunk CLIP separado. Apenas adicione BREAK depois (para A1111 e derivados), use o nó de concatenação de condicionamento (para Comfy) ou pelo menos coloque-as no final do prompt. Caso contrário, é provável uma degradação significativa dos resultados.

Básico:

O checkpoint funciona tanto com prompts curtos e simples quanto longos e complexos. Contudo, se houver contradições ou coisas estranhas – diferente dos outros, elas não serão ignoradas, afetando a saída. Sem guias, nem salvaguardas, nem lobotomia.

Basta informar o que deseja ver e não incluir o que não deve aparecer na imagem. Se quiser uma visão de cima – não inclua teto no positivo; se quiser um ângulo cortado com a cabeça fora do quadro – não faça descrições detalhadas das feições do rosto, etc. Simples, mas às vezes as pessoas esquecem disso.

A versão 0.8 tem compreensão avançada de prompts em texto natural. Isso não significa que você é obrigado a usá-la, usar apenas tags é completamente válido, especialmente porque a compreensão de combinações de tags também foi aprimorada.

Não espere desempenho igual ao do Flux ou outros modelos baseados em codificadores de texto T5 ou LLM. O tamanho total do checkpoint SDXL é menor que apenas aquele codificador de texto, além disso, o illustrious-v0.1, usado como base, esqueceu muitas coisas gerais do sdxl-base vanilla.

Mesmo no estado atual, funciona muito melhor, permite fazer coisas novas normalmente impossíveis sem orientação externa, além de facilitar edições manuais, inpainting, etc.

Para alcançar o melhor desempenho, mexa nos chunks CLIP. No SDXL, o prompt é separado em chunks de 75 (77 incluindo BOS e EOS) tokens, que são processados pelo CLIP separadamente e depois concatenados e usados como condições para o unet.

Se quiser especificar características do personagem/objeto e separá-las do resto do prompt, assegure-se de que estejam no mesmo chunk e, opcionalmente, separe com BREAK. Isso não resolverá completamente o problema da mistura de traços, mas pode reduzir, melhorando a compreensão geral, já que os codificadores de texto do RouWei conseguem processar a sequência toda, não apenas conceitos individuais, melhor que outros.

O conjunto de dados contém apenas tags no estilo booru e expressões em texto natural. Apesar de conter parte furries, fotos reais, mídia ocidental etc., todas as legendas foram convertidas para o estilo clássico booru para evitar vários problemas de mistura de sistemas. Portanto, tags e621 não são entendidas corretamente.

Parâmetros de amostragem:

  • ~1 megapixel para txt2img, qualquer AR com resolução múltipla de 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 passos.

  • CFG: para versão epsilon 4..9 (7 é o melhor), para versão vpred, 3..5

  • A multiplicação de sigmas pode melhorar um pouco os resultados, samplers CFG++ funcionam bem. LCM/PCM/DMD/… e samplers exóticos não testados.

  • Alguns schedulers não funcionam bem.

  • Highresfix - latente x1,5 + denoise 0.6 ou qualquer gan + denoise 0.3..0.55.

  • Para a versão vpred CFG mais baixo 3..5 é necessário!

Para a versão vpred, CFG mais baixo 3..5 é necessário!

Classificação de qualidade:

Apenas 4 tags de qualidade:

masterpiece, best quality

para o positivo e

low quality, worst quality

para o negativo.

Nada mais. Na verdade, você pode até omitir o positivo e reduzir o negativo apenas para low quality, pois isso pode afetar o estilo básico e composição.

Metatags como lowres foram removidas e não funcionam, melhor não usá-las. Imagens de baixa resolução foram removidas ou ampliadas e limpas com DAT dependendo da importância.

Prompt negativo:

worst quality, low quality, watermark

É só isso, não precisa de "rusty trombone", "farting on prey" e outros. Não coloque tags como greyscale, monochrome no negativo a menos que entenda o que está fazendo. Tags extras para brilho/cores/contraste abaixo podem ser usadas.

Estilos de artista:

Grades com exemplos, lista/wildcard (também encontrados nos "dados de treinamento").

Usado com "by " é obrigatório. Não funcionará corretamente sem isso.

"by " é um metatoken para estilos para evitar mistura/misinterpretação com tags/personagens de nome parecido ou próximo. Isso permite melhores resultados para estilos e evita flutuações aleatórias de estilo que você pode observar em outros checkpoints.

Múltiplos dão resultados muito interessantes, podem ser controlados com pesos de prompt e feitiços.

VOCÊ DEVE ADICIONAR BREAK após as tags de artista/estilo (para A1111) ou concatenação de condicionamento (para Comfy) ou colocá-las no final do seu prompt.

Por exemplo:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Estilos gerais:

2.5d, anime screencap, linha grossa, esboço, cgi, pintura digital, cores chapadas, sombreamento suave, minimalista, estilo tinta, estilo óleo, estilo pastel

Estilos de tags booru:

anos 1950 (estilo), anos 1960 (estilo), anos 1970 (estilo), anos 1980 (estilo), anos 1990 (estilo), anos 2000 (estilo), animificação, art nouveau, pinup (estilo), toon (estilo), quadrinhos ocidentais (estilo), nihonga, shikishi, minimalismo, paródia de arte fina

e tudo do grupo citado.

Pode ser usado em combinações (incluindo com artistas), com pesos, tanto em prompts positivos quanto negativos.

Personagens:

Use tags booru de nome completo e formatação correta, como karin_(blue_archive) -> karin \(blue archive\), use tags de pele para melhor reprodução, ex: karin \(bunny\) \(blue archive\). Extensão de autocomplete pode ser muito útil.

A maioria dos personagens é reconhecida apenas pela tag booru, mas é mais preciso descrever as características básicas. Aqui você pode facilmente trocar a roupa da sua waifu/husbendo só pelo prompt, sem sofrer com vazamentos típicos de traços básicos.

Texto natural:

Use em combinação com tags booru, funciona muito bem. Use texto natural apenas depois de digitar estilos e tags de qualidade. Use só tags booru se preferir, a escolha é sua. Para melhor desempenho, cuide dos chunks de 75 tokens do CLIP.

Cerca de 4M de imagens no conjunto têm legendas de texto natural híbridas, criadas por Claude, GPT, Gemini, ToriiGate, depois reformatadas, limpas e combinadas com tags em variações para aumento de dados.

Diferente de legendas típicas, estas contêm nomes de personagens, o que é muito útil. Melhor manter descrições curtas, limpas e convenientes. Evite não usar textos longos e vagos como

Uma entidade feminina misteriosamente encantadora de essência indeterminada porém juvenil, cujo rosto celestial irradia a luminância etérea de mil estrelas moribundas, abençoada com mechas que caem como rios dourados da mitologia antiga, talvez estilizada de forma reminiscente das tendências da moda contemporânea embora não necessariamente aderindo a algum paradigma estético específico. Seus olhos, poços de profundidade e matiz insondáveis, brilham com a sabedoria de milênios enquanto mantêm uma qualidade inocente que desafia as restrições temporais...

Para legendagem, você pode usar ToriiGate no modo curto.

Não espere que seja tão bom quanto Flux e outros, ele se esforça bastante e após várias tentativas você geralmente obtém o que quer, mas não é tão estável e detalhado.

Sim

censura de cauda, segurando própria cauda, abraçando própria cauda, segurando cauda de outra, pegar cauda, cauda erguida, cauda abaixada, orelhas baixas, mão na própria orelha, cauda em volta da perna, cauda em volta do pênis, tailjob, cauda por cima da roupa, cauda por baixo da roupa, levantado pela cauda, mordida na cauda, penetração de cauda (incluindo indicação específica de vaginal/anal), masturbação com cauda, segurando com cauda, calcinha na cauda, sutiã na cauda, foco na cauda, apresentando própria cauda...

(significado booru, não e621) e muitos outros com texto natural. A maioria funciona perfeitamente, alguns requerem muitas tentativas.

Brilho/cores/contraste:

Você pode usar metatags extras para controlá-los:

baixo brilho, alto brilho, baixa saturação, alta saturação, baixa gama, alta gama, cores nítidas, cores suaves, hdr, sdr

Exemplo

Funcionam tanto na versão epsilon quanto na vpred e funcionam muito bem.

A versão epsilon depende demais delas. Sem baixo brilho ou baixa gama ou faixa limitada (no negativo) pode ser difícil alcançar preto real 0,0,0, o mesmo vale para branco.

Tanto as versões epsilon quanto vpred têm verdadeiro zsnr, gama completa de cores e brilho sem defeitos comuns observados. Mas se comportam diferente, experimente.

Versão Vpred

Principal coisa que precisa saber - abaixe seu CFG de 7 para 5 (ou menos). Fora isso, o uso é similar com vantagens.

Parece que a partir da v0.7 o vpred funciona perfeitamente agora. Não deve sofrer ignorância de tags próximas às bordas dos chunks de 75 tokens como no nai. É mais difícil conseguir imagens queimadas - mesmo no cfg7 normalmente fica super saturado mas com gradientes suaves, que pode ser útil para alguns estilos. Ele pode gerar qualquer coisa de (0,0,0) até (255,255,255). As metatags de brilho mencionadas acima são úteis para prompts fáceis/relaxados, expressões em texto natural também funcionam. Para conseguir imagens mais escuras - coloque high brightness no negativo e/ou use tags low brightness, low gamma. Se não gostar de pele muito clara em fundo escuro e quiser reduzir contraste (ou ao contrário, aumentar o efeito) - use hdr/sdr no negativo/positivo.

Foi reportado que em casos raros, alguns prompts apresentam queda de contraste. Parece que outros modelos vpred têm esse comportamento, adicionar um "separador" perto da borda do chunk de 75 tokens corrige. Mas com 0.7 não encontrei isso pessoalmente.

Para rodar a versão vpred você precisará de uma build dev do A1111, Comfy (com loader node especial), Forge ou Reforge. Use os mesmos parâmetros (Euler a, cfg 3..5, 20..28 passos) da versão epsilon. Não precisa usar Cfg rescale, mas pode tentar, cfg++ funciona ótimo.

Modelo base:

O modelo aqui tem um polimento pequeno no unet após o treinamento principal para melhorar detalhes pequenos, aumentar resolução e outros. Entretanto, você também pode se interessar pelo RouWei-Base, que às vezes funciona melhor em prompts complexos apesar de pequenos erros nos detalhes. Também existe em FP32, por exemplo para usar nós de codificador de texto fp32 no Comfy, mesclar ou afinar.

Está disponível no repositório Huggingface

Problemas conhecidos:

Claro que existem:

  • Tags de artistas e estilos devem ser separadas em um chunk diferente do prompt principal ou vir por último

  • Pode haver algum viés posicional ou combinacional em casos raros, mas ainda não é claro.

  • Há queixas sobre alguns estilos gerais.

  • A versão epsilon depende demais de metatags de brilho, às vezes você precisará usá-las para conseguir a variação desejada.

  • Alguns estilos/personagens recém adicionados podem não ser tão bons e distintos quanto deveriam.

  • Para serem descobertos

Pedidos para artistas/personagens em futuros modelos estão abertos. Se encontrar artista/personagem/conceito com desempenho fraco, impreciso ou marca d'água forte - por favor reporte, vamos adicioná-los explicitamente. Siga para novas versões.

JUNTE-SE AO SERVIDOR DISCORD

Licença:

Mesma do illustrious. Sinta-se livre para usar em merges, finetunes, etc., mas por favor deixe um link ou menção, é obrigatório.

Como foi feito

Considerarei fazer um relatório ou algo do tipo mais tarde. Com certeza.

Resumidamente, 98% do trabalho está relacionado a preparação do conjunto de dados. Ao invés de depender cegamente no loss-weighting baseado na frequência de tags do paper do nai, foi usada uma implementação guiada customizada de loss-weighting junto com um collator assíncrono para balanceamento. Ztsnr (ou próximo dele) com previsão Epsilon foi conseguido usando aumento no scheduler de ruído.

Computação gasta - mais de 8k horas de H100 (além de pesquisa e tentativas falhas)

Agradecimentos:

Primeiramente, quero agradecer a todos que apoiam open source, desenvolvem e melhoram o código. Obrigado aos autores do illustrious por liberar o modelo, obrigado à equipe NoobAI por serem pioneiros em fine tuning aberto em tal escala, compartilhando experiência, levantando e resolvendo problemas antes ignorados.

Pessoal:

Artistas que preferem anonimato por compartilharem obras privadas; Algumas pessoas anônimas - doações, código, legendas, etc.; Soviet Cat - patrocínio GPU; Sv1. - acesso llm, legendagem, código; K. - código de treino; Bakariso - datasets, testes, conselhos, informações internas; NeuroSenko - doações, testes, código; LOL2024 - muitos conjuntos de dados únicos; T.,[] - datasets, testes, conselhos; rred, dga, Fi., ello - doações; TekeshiX - datasets. E outros irmãos que ajudaram. Amo vocês ❤️.

Claro, obrigado a todos que deram feedback e pedidos, é muito valioso.

Se eu esqueci de mencionar alguém, por favor avise.

Doações

Se quiser apoiar - compartilhe meus modelos, deixe feedback, faça uma imagem fofa com garota kemonomimi. E claro, apoie os artistas originais.

IA é meu hobby, gasto dinheiro com isso e não peço doações. Porém, virou um empreendimento grande e caro. Considere apoiar para acelerar novos treinamentos e pesquisas.

(Só tenha em mente que posso gastar com álcool ou garotas cosplay)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

se puder oferecer tempo gpu (a100+) - me mande mensagem.

Anterior
Colorful Chaos Cracks and Drops XL - v1.0
Próximo
Estilo de Arte Psychedelic Vibes - (Treinado Dreambooth - SDXL LoRA) - v1.0

Detalhes do Modelo

Tipo de modelo

Checkpoint

Modelo base

Illustrious

Versão do modelo

v0.8.0 vpred

Hash do modelo

1a40b1babc

Discussão

Por favor, faça log in para deixar um comentário.

Imagens por RouWei - v0.8.0 vpred

Imagens com anime

Imagens com modelo base

Imagens com ilustre