modelos/RouWei - v0.8.0 epsilon

RouWei - v0.8.0 epsilon

12/11/2025

12:58:31 PM

Palavras-chave e Tags Relacionadas

anime,modelo base,checkpoint,ilustre,illustrious v0.8,ajuste fino em grande escala,minthybasis,aderência ao prompt,rouwei,rouwei-0.8,sdxl anime model,stable diffusion,v0.8.0 epsilon

Ilustração detalhada em estilo de tinta de uma coruja com olhos brancos, focando nas penas intrincadas e arte de linha.

Prompts Recomendados

masterpiece

Prompts Negativos Recomendados

worst quality,low quality,watermark

worst quality, low quality, watermark

Parâmetros Recomendados

samplers

Euler_a, Euler a

steps

20 - 28

cfg

4 - 9

resolution

1024x1024, 1216x832, 800x1280, 1216x832, 832x1216, 1024x1024

vae

sdxl_vae.safetensors

Parâmetros Recomendados para Alta Resolução

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.55 - 0.7

Dicas

Ao usar estilos de artista nos prompts, as tags devem estar em um chunk CLIP separado—adicione BREAK para A1111 e derivados, use concatenação de condicionamento para Comfy, ou coloque-as no final para evitar degradação da qualidade.

Solicite o que deseja ver e evite solicitar elementos indesejados; o modelo respeita prompts contraditórios e complexos sem guias ou proteções.

Use apenas quatro tags de qualidade: positivas "masterpiece, best quality" e negativas "low quality, worst quality"; meta tags como "lowres" foram removidas e são ineficazes.

Para melhor controle de brilho e cor, use meta tags como baixo/alto brilho, saturação, gamma, cores vivas/suaves, hdr e sdr.

Para a versão vpred, baixe o CFG para 3-5 e use os mesmos parâmetros de amostragem; ela produz gradientes suaves e pode atingir a gama completa de cores.

Use tags booru com nome completo para personagens com formatação adequada para melhorar a precisão.

Evite prompts longos e verbosos em texto natural; descrições curtas e limpas funcionam melhor para entrada de texto natural.

Destaques da Versão

Atualização principal

Patrocinadores do Criador

Confira o modelo Illustrious v0.8 no Huggingface

Junte-se ao servidor Discord para atualizações e suporte

Re-treinamento aprofundado do Illustrious para alcançar a melhor aderência ao prompt, conhecimento e desempenho de ponta.

Grandes sonhos se tornam realidade

O número da versão é apenas um índice do lançamento final atual, não uma fração do treinamento planejado.

Repositório HF

Ajuste em grande escala usando cluster GPU com um conjunto de dados de ~13M imagens (~4M com legendas de texto natural)

Conhecimento atual e vasto sobre personagens, conceitos, estilos, cultura e assuntos relacionados
A melhor aderência ao prompt entre os modelos SDXL anime no momento do lançamento
Resolução dos principais problemas de mistura de tags e vieses, comuns em Illustrious, NoobAi e outros checkpoints
Excelente estética e conhecimento em uma ampla variedade de estilos (mais de 50.000 artistas (exemplos), incluindo centenas de conjuntos de dados exclusivos selecionados de galerias privadas, incluindo os recebidos diretamente dos artistas)
Alta flexibilidade e variedade sem comprometer a estabilidade
Sem marcas d'água incômodas para estilos populares graças ao conjunto de dados limpo
Cores vibrantes e gradientes suaves sem vestígios de queima, gama completa mesmo com epsilon
Treinamento puro a partir do Illustrious v0.1 sem envolver checkpoints, Loras, tweakers de terceiros, etc.

Também existem alguns problemas e mudanças em comparação com a versão anterior, por favor leia o manual.

Corte do conjunto de dados - final de abril de 2025.

Características e prompting:

Mudança importante:

Quando estiver usando estilos de artista em prompts, especialmente misturando vários, as tags DELES DEVEM ESTAR em um chunk CLIP separado. Basta adicionar BREAK após isso (para A1111 e derivados), usar nó de concatenação de condicionamento (para Comfy) ou pelo menos colocá-las no final do prompt. Caso contrário, é provável haver degradação significativa dos resultados.

Básico:

O checkpoint funciona tanto com prompts curtos-simples quanto longos-complexos. No entanto, se houver coisas contraditórias ou estranhas - diferente de outros, elas não serão ignoradas afetando a saída. Sem guias, sem proteções, sem lobotomia.

Basta pedir o que deseja ver e não solicitar o que não deve estar na imagem. Se quiser uma vista de cima - não coloque teto como positivo, se quiser um corte com a cabeça fora do quadro - não faça descrição detalhada das características faciais do personagem, e assim por diante. Simples, mas às vezes as pessoas esquecem disso.

A versão 0.8 vem com entendimento avançado de prompts de texto natural. Isso não significa que você é obrigado a usá-lo, usar só tags - também está ótimo, especialmente porque a compreensão das combinações de tags também foi aprimorada.

Não espere que performe como Flux ou outros modelos baseados em T5 ou codificadores de texto LLM. O tamanho total do checkpoint SDXL é menor que apenas esse codificador de texto, além do Illustrious-v0.1 base, que esqueceu muita coisa geral do vanilla sdxl-base.

No entanto, mesmo no estado atual, funciona muito melhor, permite fazer coisas novas geralmente impossíveis sem orientação externa, além de tornar mais conveniente a edição manual, inpainting, etc.

Para alcançar o melhor desempenho, você deve acompanhar os chunks CLIP. No SDXL o prompt é separado em chunks de 75 (77 incluindo BOS e EOS) tokens, processados pelo CLIP separadamente, e só então concatenados e usados como condição para o unet.

Se quiser especificar características para personagem/objeto e separá-las das outras partes do prompt - certifique-se que estão no mesmo chunk e, opcionalmente, separe com BREAK. Isso não resolve completamente o problema da mistura de traços, mas pode reduzi-lo, melhorando o entendimento geral, já que os codificadores de texto no RouWei conseguem processar melhor toda a sequência, não conceitos individuais, que outros.

O conjunto de dados contém apenas tags estilo booru e expressões naturais de texto. Apesar de conter partes com furries, fotos da vida real, mídia ocidental etc., todas as legendas foram convertidas para o estilo clássico booru para evitar vários problemas de mistura de sistemas diferentes. Tags e621, portanto, não serão entendidas corretamente.

Parâmetros de amostragem:

~1 megapixel para txt2img, qualquer AR com resolução múltipla de 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 passos.
CFG: para versão epsilon 4..9 (7 é o melhor), para versão vpred, 3..5
Multiplicação dos sigmas pode melhorar um pouco os resultados, samplers CFG++ funcionam bem. LCM/PCM/DMD/... e samplers exóticos não testados.
Alguns schedulers não funcionam bem.
Highresfix - x1.5 latent + denoise 0.6 ou qualquer gan + denoise 0.3..0.55.
Para versão vpred CFG mais baixo 3..5 é necessário!

Para a versão vpred CFG mais baixo 3..5 é necessário!

Classificação de qualidade:

Apenas 4 tags de qualidade:

masterpiece, best quality

para positivo e

low quality, worst quality

para negativo.

Nada mais. Na verdade, você pode até omitir o positivo e reduzir o negativo para low quality somente, pois podem afetar o estilo básico e composição.

Meta tags como lowres foram removidas e não funcionam, é melhor não usá-las. Imagens de baixa resolução foram removidas ou melhoradas via upscale e limpeza com DAT, dependendo de sua importância.

Prompt negativo:

worst quality, low quality, watermark

É só isso, não precisa de "rusty trombone", "farting on prey" e outros. Não use tags como greyscale, monochrome no negativo a menos que entenda o que está fazendo. Pode usar tags extras para brilho/cores/contraste abaixo.

Estilos de artistas:

Grades com exemplos, lista/coringa (também disponível em "dados de treinamento").

Usado com "by " é obrigatório. Não funcionará corretamente sem isso.

"by " é um meta-token para estilos para evitar confusão/interpretar mal tags/personagens com nomes semelhantes ou próximos. Isso permite melhores resultados para estilos e evita flutuações aleatórias de estilo que podem ocorrer em outros checkpoints.

Múltiplos "by " geram resultados muito interessantes, podem ser controlados com pesos e feitiços de prompt.

VOCÊ DEVE ADICIONAR `BREAK` após as tags de artistas/estilos (para A1111) ou concat conditioning (para Comfy) ou colocá-las no final do prompt.

Por exemplo:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Estilos gerais:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Estilos de tags booru:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

e tudo do grupo.

Pode ser usado em combinações (também com artistas), com pesos, tanto em prompts positivos quanto negativos.

Personagens:

Use tag booru com nome completo e formatação correta, como karin_(blue_archive) -> karin \(blue archive\), use tags de pele para melhor reprodução, como karin \(bunny\) \(blue archive\). Extensão autocomplete pode ser muito útil.

A maioria dos personagens é reconhecida apenas pela tag booru, mas será mais preciso se descrever características básicas deles. Aqui você pode facilmente trocar a roupa da sua waifu/husbendo apenas com o prompt sem sofrer com vazamentos típicos de características básicas.

Texto natural:

Use em combinação com tags booru, funciona muito bem. Use apenas texto natural após as tags de estilos e qualidade. Use só tags booru se preferir, fica a seu critério. Para melhor desempenho, acompanhe os chunks de 75 tokens do CLIP.

Cerca de 4M de imagens no conjunto de dados têm legendas híbridas de texto natural, feitas por Claude, GPT, Gemini, ToriiGate, depois refinadas, limpas e combinadas com tags em várias variações para aumento.

Diferente de legendas típicas, essas contêm nomes de personagens, o que é muito útil. É melhor manter descrições limpas, curtas e convenientes. Evite descrições longas e confusas como

Uma entidade feminina misteriosamente encantadora de essência indefinida porém jovial, cujo rosto celestial brilha com a luz etérea de mil estrelas morrendo, abençoada com cabelos que caem como rios dourados da mitologia antiga, talvez estilo inspirado em tendências contemporâneas embora não aderindo a nenhum paradigma estético específico. Seus olhos, poços de profundidade e tonalidade insondáveis, cintilam com a sabedoria de milênios mas mantêm uma qualidade inocente que desafia as limitações temporais...

Para legendagem, você pode usar ToriiGate no modo curto.

E não espere que seja tão bom quanto Flux e outros, ele se esforça muito e depois de várias tentativas geralmente você consegue o que quer, mas não é tão estável nem detalhado.

Ah sim

censura de cauda, segurando própria cauda, abraçando própria cauda, segurando cauda de outro, agarramento de cauda, cauda levantada, cauda para baixo, orelhas para baixo, mão na própria orelha, cauda ao redor da própria perna, cauda ao redor do pênis, tailjob, cauda através das roupas, cauda sob roupas, levantado pela cauda, morder cauda, penetração por cauda (incluindo indicação específica vaginal/anal), masturbação com a cauda, segurando com a cauda, calcinha na cauda, sutiã na cauda, foco na cauda, apresentando a própria cauda...

(significado booru, não e621) e muitos outros com texto natural. A maioria funciona perfeitamente, alguns requerem várias tentativas.

Brilho/cores/contraste:

Você pode usar meta tags extras para controlar:

baixo brilho, alto brilho, baixa saturação, alta saturação, baixo gamma, alto gamma, cores vivas, cores suaves, hdr, sdr

Exemplo

Funcionam tanto na versão epsilon quanto na vpred, e funcionam muito bem.

A versão epsilon depende demais delas. Sem baixo brilho ou baixo gamma ou faixa limitada (no negativo) pode ser difícil alcançar um preto verdadeiro 0,0,0, o mesmo muitas vezes ocorre com o branco.

Tanto as versões epsilon quanto vpred têm algo como verdadeiro zsnr, gama completa de cores e brilho sem falhas comuns observadas. Mas se comportam de forma diferente, experimente.

Versão Vpred

O principal que você precisa saber - baixe seu CFG de 7 para 5 (ou menos). Caso contrário, o uso é similar com vantagens.

Parece que, a partir da v0.7, o vpred funciona perfeitamente agora. Não sofre de ignorar tags próximas às bordas dos chunks de 75 tokens como o nai. É mais difícil obter imagens queimadas - mesmo no cfg7 geralmente fica só sobresaturado com gradientes suaves, o que pode ser útil para alguns estilos. Sim, pode gerar qualquer valor de (0,0,0) a (255,255,255). As meta tags de brilho descritas acima serão bastante úteis para prompts mais fáceis/rápidos, expressões de texto natural também funcionam. Para obter a imagem mais escura - use high brightness no negativo e/ou tags low brightness, low gamma. Se não gostar de pele muito clara sobre fundo escuro e quiser reduzir contraste (ou, ao contrário, reforçar o efeito) - use hdr/sdr no negativo/positivo.

Foi reportado que em casos raros alguns prompts causam queda no contraste. Parece que outros modelos vpred têm comportamento parecido com esses prompts, adicionar um "separador" próximo à borda do chunk de 75 tokens resolve isso. No entanto, com a 0.7 eu mesmo não encontrei esse problema.

Para executar a versão vpred você precisará da versão dev do A1111, Comfy (com nó loader especial), Forge ou Reforge. Use os mesmos parâmetros (Euler a, cfg 3..5, 20..28 passos) como na epsilon. Não precisa usar Cfg rescale, mas pode tentar, cfg++ funciona muito bem.

Modelo base:

O modelo aqui tem um polimento pequeno no unet após o treinamento principal para melhorar pequenos detalhes, aumentar resolução, etc. Porém, você também pode se interessar pelo RouWei-Base, que às vezes pode performar melhor em prompts complexos apesar de ter pequenos erros em detalhes menores. Também está disponível em FP32, por exemplo, se quiser usar nós de codificador de texto fp32 no Comfy, fazer merge ou ajuste fino.

Está disponível em repositório Huggingface

Problemas conhecidos:

Claro que existem:

Tags de artistas e estilo devem estar separadas em um chunk diferente do prompt principal ou ficar bem no final
Pode haver algum viés posicional ou combinacional em casos raros, mas ainda não está claro.
Algumas reclamações sobre poucos estilos gerais.
A versão epsilon depende demais das meta tags de brilho, às vezes é necessário usá-las para obter a mudança desejada.
Alguns estilos/personagens recém-adicionados podem não ser tão bons e distintos quanto merecem.
A ser descoberto

Solicitações para artistas/personagens em futuros modelos estão abertas. Se achar artista/personagem/conceito que performa mal, impreciso ou tem marca d'água forte - por favor reporte, adicionaremos explicitamente. Acompanhe para novas versões.

ENTRE NO SERVIDOR DISCORD

Licença:

Mesma do illustrious. Fique à vontade para usar em seus merges, ajustes, etc., mas por favor deixe um link ou menção, é obrigatório.

Como foi feito

Considerarei fazer um relatório ou algo parecido depois. Com certeza.

Em resumo, 98% do trabalho está relacionado à preparação do conjunto de dados. Em vez de confiar cegamente no loss-weighting baseado na frequência de tags do paper nai, foi usada uma implementação personalizada de loss-weighting guiada junto com um collator assíncrono para balanceamento. Ztsnr (ou próximo) com predição Epsilon foi alcançado usando aumento com scheduler de ruído.

Computação gasta - mais de 8 mil horas em H100 (além de pesquisas e tentativas falhas)

Agradecimentos:

Antes de tudo gostaria de agradecer a todos que apoiam o código aberto, desenvolvem e melhoram o código. Obrigado aos autores do illustrious por liberar o modelo, obrigado à equipe NoobAI por serem pioneiros no ajuste fino aberto em grande escala, compartilhando experiência, levantando e resolvendo problemas antes despercebidos.

Pessoal:

Artistas que preferem anonimato por compartilhar trabalhos privados; Algumas pessoas anônimas - doações, código, legendas, etc., Soviet Cat - patrocínio GPU; Sv1. - acesso llm, legendagem, código; K. - código treinamento; Bakariso - datasets, testes, conselhos, insights; NeuroSenko - doações, testes, código; LOL2024 - muitos datasets únicos; T.,[] - datasets, testes, conselhos; rred, dga, Fi., ello - doações; TekeshiX - datasets. E outros irmãos que ajudaram. Amo vocês ❤️.

E claro, todos que deram feedback e fizeram pedidos, é muito valioso.

Se esqueci de mencionar alguém, por favor me avise.

Doações

Se quiser apoiar - compartilhe meus modelos, deixe feedback, faça uma imagem fofa com uma menina kemonomimi. E claro, apoie os artistas originais.

IA é meu hobby, gasto dinheiro nela e não peço doações. Porém, virou um empreendimento grande e caro. Considere apoiar para acelerar novos treinamentos e pesquisas.

(Só lembre que posso gastar com álcool ou cosplay girls)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

se puder oferecer tempo de gpu (a100+) - me envie mensagem.

Colaborador

João Silva

Olá! Sou o João Silva. Especialista em curadoria visual, utilizo minha experiência em fotografia para aprimorar cada criação de IA exibida na galeria.

ADD Transluminescent! - V1

Vessels Style SDXL - v1.0

Usar este modelo