modelos/RouWei - v0.7 vpred

RouWei - v0.7 vpred

João Silva

9/24/2025

1:34:57 AM

| Discussion

Palavras-chave e Tags Relacionadas

anime,modelo base,checkpoint,ilustre,aderência ao prompt

Retrato detalhado de um gato furry branco com olhos vermelhos adornado com joias intricadas com gemas azuis e vermelhas, em um fundo preto.

Retrato de uma garota de cabelo ruivo com orelhas de animal e olhos verdes usando brincos e um colar, com tema escuro e estilo pictórico

Prompts Recomendados

masterpiece, best quality, 1girl

Prompts Negativos Recomendados

worst quality,low quality,watermark

worst quality, low quality

Parâmetros Recomendados

samplers

Euler_a, CFG++, Euler Ancestral CFG++, Euler CFG++, Euler a

steps

20 - 28

cfg

1.4 - 9

resolution

1024x1024, 1216x832, 832x1216, 1344x800, 1216x832, 896x1152, 800x1280

vae

sdxl_vae.safetensors

Parâmetros Recomendados para Alta Resolução

upscaler

Latent

upscale

1.5

steps

15 - 22

denoising strength

0.6 - 0.7

Dicas

As tags de artista/estilo DEVEM estar em um bloco CLIP separado ou colocadas no final do prompt, separadas por BREAK (para A1111) ou concatenação de condicionamento (para Comfy) para evitar degradação significativa.

Use apenas quatro tags de qualidade: masterpiece, best quality (positivo) e low quality, worst quality (negativo). Evite outras meta-tags como lowres.

Para a versão vpred, diminua o CFG para 3..5 para melhores resultados.

Use tags de brilho/meta para controlar brilho, saturação, gama e contraste para melhor fidelidade de cor.

Ao misturar estilos de artistas, use o prefixo "by " para evitar problemas de mistura de estilos.

Mantenha os prompts limpos e concisos; evite descrições em linguagem natural muito longas ou confusas.

Destaques da Versão

Versão Vpred

Patrocinadores do Criador

Baixe Illustrious v0.8 no Huggingface

Junte-se ao servidor Discord para suporte e atualizações

Re-treinamento aprofundado do Illustrious para alcançar a melhor aderência a prompts, conhecimento e desempenho de ponta.

Grandes sonhos se realizam

O número da versão é apenas um índice da versão final atual, não uma fração do treinamento planejado.

Repositório HF

Ajuste em larga escala usando cluster de GPU com um conjunto de dados de ~13M imagens (~4M com legendas em texto natural)

Conhecimento novo e amplo sobre personagens, conceitos, estilos, cultura e temas relacionados
A melhor aderência a prompts entre modelos de anime SDXL na data de lançamento
Resolução dos principais problemas de vazamento e vieses em tags, comuns ao Illustrious, NoobAi e outros checkpoints
Estética excelente e amplo conhecimento em uma vasta gama de estilos (mais de 50.000 artistas (exemplos), incluindo centenas de datasets exclusivos selecionados de galerias privadas, inclusive de artistas)
Alta flexibilidade e variedade sem comprometer a estabilidade
Fim das marcas d'água irritantes para estilos populares graças a um conjunto de dados limpo
Cores vibrantes e gradientes suaves sem vestígios de queima, faixa completa mesmo com epsilon
Treinamento puro a partir do Illustrious v0.1 sem envolvimento de checkpoints terceirizados, Loras, ajustes, etc.

Também existem algumas questões e mudanças comparadas à versão anterior, por favor leia o manual.

Data limite do conjunto de dados - final de abril de 2025.

Recursos e prompts:

Mudança importante:

Ao usar estilos de artistas, especialmente misturando vários, as tags DELES DEVEM ESTAR em um bloco CLIP separado. Adicione BREAK após elas (para A1111 e derivados), use concatenação de condicionamento (para Comfy) ou pelo menos coloque-as no final do prompt. Caso contrário, a qualidade do resultado pode se degradar significativamente.

Básico:

O checkpoint funciona tanto com prompts curtos e simples quanto longos e complexos. No entanto, se houver coisas contraditórias ou estranhas - diferente de outros modelos, elas não serão ignoradas impactando o resultado. Sem guias ou limitações.

Basta descrever o que quer ver e não incluir o que não deve aparecer na imagem. Se quiser uma vista de cima - não inclua teto em positivo; se quiser um corte da imagem com a cabeça fora do quadro - não faça uma descrição detalhada dos traços faciais, e assim por diante. Simples, embora às vezes as pessoas esqueçam disso.

A versão 0.8 traz entendimento avançado dos prompts em texto natural. Não é obrigatório usar, usar apenas tags é totalmente válido, especialmente porque a compreensão da combinação de tags também foi melhorada.

Não espere desempenho semelhante ao Flux ou outros modelos baseados em T5 ou codificadores de texto LLM. O tamanho total do checkpoint SDXL é menor que apenas esse codificador de texto, e além disso o illustrious-v0.1 usado como base esqueceu muita coisa do vanilla sdxl-base.

Porém, mesmo no estado atual, funciona bem melhor, permite novas possibilidades geralmente impossíveis sem orientação externa, além de tornar a edição manual, inpainting etc. mais convenientes.

Para melhor desempenho, acompanhe os blocos CLIP. No SDXL o prompt é separado em blocos de 75 (77 incluindo BOS e EOS) tokens, processados pelo CLIP separadamente, e então concatenados para compor as condições para o unet.

Se quiser especificar características para personagem/objeto e separá-las do resto do prompt, assegure-se que estejam no mesmo bloco e, opcionalmente, separe com BREAK. Isso não elimina totalmente a mistura de traços, mas reduz melhorando o entendimento geral, já que os codificadores de texto do RouWei processam a sequência inteira, não só conceitos individuais, melhor que outros.

O conjunto de dados contém somente tags estilo booru e expressões em texto natural. Apesar de conter furries, fotos da vida real, mídia ocidental, etc., todas as legendas foram convertidas para o estilo clássico booru para evitar problemas da mistura de diferentes sistemas. Tags do e621 não serão interpretadas corretamente.

Parâmetros de amostragem:

~1 megapixel para txt2img, qualquer AR com resolução múltipla de 32 (1024x1024, 1056x, 1152x, 1216x832,...). Euler_a, 20..28 passos.
CFG: para versão epsilon 4..9 (7 é o melhor), para versão vpred, 3..5
Multiplicação de sigmas pode melhorar um pouco os resultados, amostradores CFG++ funcionam bem. LCM/PCM/DMD/... e amostradores exóticos não testados.
Alguns schedulers não funcionam bem.
Highresfix - x1.5 latente + denoise 0.6 ou qualquer gan + denoise 0.3..0.55.
Para versão vpred é necessário CFG mais baixo 3..5!

Para a versão vpred, é necessário CFG mais baixo 3..5!

Classificação de qualidade:

Apenas 4 tags de qualidade:

masterpiece, best quality

para positivo e

low quality, worst quality

para negativo.

Nada mais. Na verdade você pode até omitir positivo e reduzir negativo para low quality somente, já que afetam estilo básico e composição.

Meta tags como lowres foram removidas e não funcionam, é melhor não as usar. Imagens de baixa resolução foram removidas ou melhoradas com DAT dependendo da importância.

Prompt negativo:

worst quality, low quality, watermark

Isso é tudo, sem necessidade de "rusty trombone", "farting on prey" e outros. Não use tags como greyscale, monochrome no negativo a menos que saiba o que está fazendo. Tags extras para brilho/cores/contraste podem ser usadas abaixo.

Estilos de artistas:

Grades com exemplos, lista/wildcard (também encontrado em "dados de treino").

Usar com "by " é obrigatório. Não funcionará corretamente sem ele.

"by " é um meta-token para estilos para evitar mistura ou interpretação errada com tags/personagens de nomes similares ou próximos. Isso permite melhores resultados para estilos e evita flutuações aleatórias vistas em outros checkpoints.

Multiplicar dá resultados muito interessantes, pode ser controlado com pesos e feitiços no prompt.

VOCÊ DEVE ADICIONAR `BREAK` após as tags de artistas/estilos (para A1111) ou concatenação de condicionamento (para Comfy) ou colocá-las no final do prompt.

Por exemplo:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

Estilos gerais:

2.5d, anime screencap, lápis grosso, esboço, cgi, pintura digital, cores chapadas, sombreamento suave, minimalista, estilo tinta, estilo óleo, estilo pastel

Estilos de tags booru:

1950s (estilo), 1960s (estilo), 1970s (estilo), 1980s (estilo), 1990s (estilo), 2000s (estilo), animificação, art nouveau, pinup (estilo), toon (estilo), quadrinhos ocidentais (estilo), nihonga, shikishi, minimalismo, paródia de arte fina

e tudo do grupo.

Pode ser usado em combinações (com artistas também), com pesos, tanto em prompts positivos quanto negativos.

Personagens:

Use tags booru com nome completo e formatação correta, como karin_(blue_archive) -> karin \(blue archive\), use tags de pele para melhor reprodução, tipo karin \(bunny\) \(blue archive\). A extensão de autocompletar é muito útil.

A maioria dos personagens é reconhecida só pela tag booru, mas será mais preciso se descrever traços básicos. Aqui você pode alterar a roupa da sua waifu/husbendo apenas com o prompt sem sofrer vazamentos típicos de traços básicos.

Texto natural:

Use em combinação com tags booru, funciona muito bem. Use só texto natural após digitar estilos e tags de qualidade. Use somente tags booru se preferir, fica a seu critério. Para melhor desempenho, acompanhe os blocos de 75 tokens do CLIP.

Cerca de 4M imagens do conjunto de dados tinham legendas híbridas em texto natural, feitas por Claude, GPT, Gemini, ToriiGate, depois reformuladas, limpas e combinadas com tags em várias formas para aumento de dados.

Diferente de legendas típicas, estas contêm nomes de personagens, o que é muito útil. Melhor manter descrição limpa, curta e conveniente. É melhor não usar descrições longas e confusas como

Uma entidade feminina misteriosamente encantadora de essência juvenil indeterminada, cujo rosto celestial irradia a luminiscência etérea de mil estrelas moribundas, abençoada com cabelos que caem como rios dourados da mitologia antiga, talvez estilizados de modo semelhante às tendências de moda contemporâneas embora não seguindo nenhum paradigma estético específico. Seus olhos, poços de profundidade e cor insondáveis, brilham com a sabedoria de milênios porém mantêm uma qualidade inocente que desafia as limitações temporais...

Para legendagem você pode usar ToriiGate em modo curto.

E não espere que seja tão bom quanto Flux e outros, ele se esforça bastante e após várias tentativas você geralmente consegue o que quer, mas não é tão estável e detalhado.

Sim

censura de cauda, segurando própria cauda, abraçando própria cauda, segurando cauda de outro, agarrando cauda, cauda levantada, cauda para baixo, orelhas para baixo, mão na própria orelha, cauda ao redor da própria perna, cauda ao redor do pênis, tailjob, cauda através das roupas, cauda sob as roupas, levantado pela cauda, mordendo a cauda, penetração da cauda (incluindo indicação específica vaginal/anal), masturbação com cauda, segurando com cauda, calcinha na cauda, sutiã na cauda, foco na cauda, apresentando própria cauda...

(no sentido booru, não e621) e muitos outros com texto natural. A maioria funciona perfeitamente, alguns requerem muitas tentativas.

Brilho/cores/contraste:

Você pode usar meta-tags extras para controlar:

baixo brilho, alto brilho, baixa saturação, alta saturação, baixo gama, alto gama, cores vibrantes, cores suaves, hdr, sdr

Exemplo

Funcionam tanto na versão epsilon quanto na vpred e funcionam muito bem.

A versão epsilon depende muito delas. Sem baixo brilho ou baixo gama ou faixa limitada (no negativo) pode ser difícil alcançar preto verdadeiro 0,0,0; o mesmo acontece com branco.

Ambas versões epsilon e vpred têm verdadeiro zsnr, gama total de cores e brilho sem defeitos comuns observados. Mas se comportam diferente, experimente.

Versão Vpred

A principal coisa que você precisa saber - diminua seu CFG de 7 para 5 (ou menos). Caso contrário, o uso é similar, com vantagens.

Parece que a partir do v0.7 o vpred funciona perfeitamente agora. Não deve ignorar tags próximas das bordas dos blocos de 75 tokens como no nai. É mais difícil gerar imagens queimadas - mesmo no cfg7 geralmente só fica super saturado mas com gradientes suaves, o que pode ser útil para alguns estilos. Sim, pode gerar qualquer coisa de (0,0,0) a (255,255,255). As meta-tags de brilho descritas acima serão úteis para prompting mais fácil/preguiçoso, expressões em texto natural também funcionam. Para imagem mais escura coloque alto brilho no negativo e/ou use tags baixo brilho, baixo gama. Se não gostar da pele muito clara em fundo escuro e quiser reduzir contraste (ou ao contrário, realçá-lo) use hdr/sdr negativo/positivo.

Foi reportado que em casos raros com alguns prompts cai o contraste. Parece que outros modelos vpred têm esse comportamento com tais prompts, adicionar um "separador" perto da borda do bloco de 75 tokens resolve. Porém com 0.7 eu não encontrei isso.

Para rodar a versão vpred você precisará da build dev do A1111, Comfy (com loader node especial), Forge ou Reforge. Use os mesmos parâmetros (Euler a, cfg 3..5, 20..28 passos) da epsilon. Não precisa usar CFG rescale, mas pode tentar, CFG++ funciona ótimo.

Modelo base:

O modelo aqui tem pequeno polimento no unet após o treinamento principal para melhorar detalhes pequenos, aumentar resolução e outros. Porém, você também pode se interessar pelo RouWei-Base, que às vezes performa melhor em prompts complexos apesar de ter pequenos erros em detalhes. Também disponível em FP32, por exemplo se quiser usar nós de codificador de texto fp32 no Comfy, mesclar ou ajustar.

Está disponível em repositório Huggingface

Problemas conhecidos:

Claro que existem:

Tags de artistas e estilos devem estar separadas do prompt principal ou vir no final
Pode haver algum viés posicional ou combinacional em casos raros, mas ainda não está claro.
Há algumas reclamações sobre poucos estilos gerais.
A versão epsilon depende muito das meta-tags de brilho, às vezes será necessário usá-las para obter a mudança desejada.
Alguns estilos/personagens recém adicionados podem não ser tão bons e distintos quanto deveriam
Para ser descoberto

Pedidos para artistas/personagens em futuros modelos estão abertos. Se encontrar algum artista/personagem/conceito que funcione mal, impreciso ou com marca d'água forte - por favor reporte, adicionaremos explicitamente. Acompanhe para novas versões.

JUNTE-SE AO SERVIDOR DISCORD

Licença:

Igual ao illustrious. Sinta-se livre para usar em merges, ajustes, etc., mas por favor deixe o link ou menção, é obrigatório

Como foi feito

Considerarei fazer um relatório ou algo assim depois. Com certeza.

Em resumo, 98% do trabalho está relacionado à preparação do dataset. Ao invés de confiar cegamente em perda ponderada baseada na frequência das tags do paper nai, foi usada uma implementação customizada de perda ponderada guiada junto com collator assíncrono para balanceamento. Ztsnr (ou próximo) com predição Epsilon foi alcançado usando aumento de ruído pelo scheduler.

Computação gasta - mais de 8k horas em H100 (além de pesquisa e tentativas fracassadas)

Agradecimentos:

Antes de tudo quero agradecer todos que apoiam open source, desenvolvem e melhoram código. Obrigado aos autores do illustrious por lançar o modelo, agradeço à equipe NoobAI por serem pioneiros em fine-tuning aberto nessa escala, compartilhando experiência, levantando e resolvendo problemas antes despercebidos.

Pessoal:

Artistas desejam permanecer anônimos por compartilhar obras privadas; algumas pessoas anônimas - doações, código, legendas, etc.; Soviet Cat - patrocínio GPU; Sv1. - acesso llm, legendagem, código; K. - código de treinamento; Bakariso - datasets, testes, conselhos, insights; NeuroSenko - doações, testes, código; LOL2024 - muitos datasets únicos; T.,[] - datasets, testes, conselhos; rred, dga, Fi., ello - doações; TekeshiX - datasets. E outros irmãos que ajudaram. Amo vocês ❤️.

Claro, todos que deram feedback e pedidos, muito valioso.

Se esqueci de alguém, por favor notifique.

Doações

Se quiser apoiar - compartilhe meus modelos, deixe feedback, faça uma imagem fofa com kemonomimi-girl. E claro, apoie os artistas originais.

IA é meu hobby, gasto dinheiro nisso e não peço doações. Porém se tornou um projeto grande e caro. Considere apoiar para acelerar novos treinamentos e pesquisas.

(Só lembre que posso desperdiçar em álcool ou cosplay girls)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

se puder oferecer tempo de gpu (a100+) - mensagem privada.

Colaborador

João Silva

Olá! Sou o João Silva. Especialista em curadoria visual, utilizo minha experiência em fotografia para aprimorar cada criação de IA exibida na galeria.

Retratos de Quietude - v1.0

(PD/IL)"I Need Buzz!" Sign - Illustrious (Best ver)

Usar este modelo