O Experimento Araminta (SDXL+Flux) - Fv5
Prompts Negativos Recomendados
big boobs, ((watermark)), censored, low-res, low quality, dull, overcooked, artefacts, JPEG artefacts, poor quality, deformed, missing limb, extra limb
Parâmetros Recomendados
samplers
steps
cfg
Dicas
Use DPM++ 2/3M SDE com os samplers Karras ou Exponential e 25+ passos com CFG em torno de 5-7 para melhores resultados com SDXL.
Tente DPM++ SDE Karras com menos passos (ex. 12) e CFG mais alto (8-11) para estilizações alternativas.
Samplers Euler Ancestral / Normal produzem resultados menos detalhados que podem ser desejáveis com o modelo Fv6 para reduzir ruído.
O CLIP Skip padrão é 2, mas testar 1 pode melhorar a aderência ao prompt, e 3-4 pode melhorar o foco nos conceitos.
Para modelos Flux, samplers como DPM++ 2M beta ou sgm_uniform são preferidos.
As configurações de CFG influenciam muito a qualidade da imagem; CFG baixo (1.5-2.5) evita efeito de pele plástica em fotos, enquanto estilos de ilustração podem exigir CFG mais alto (3-6+).
CFG ou passos inadequados frequentemente causam imagens borradas ou malformadas, e ajustes podem ser necessários dependendo do estilo.
Destaques da Versão
Baseado no Fv4 com uma fusão com algumas versões anteriores dos meus modelos, bem como BigLove_XL2 para avançar ainda mais o realismo.
O resultado é que o Fv5 é minha versão mais fotorealista até agora, com imagens mais precisas e sutis comparadas ao F4, mas conforme o realismo é ampliado, o modelo fica menos capaz de produzir imagens estilizadas, especialmente ilustrações: uma nova versão da série G virá em breve para esses casos :)
Para as configurações, DPM++ 2/3M SDE / Karras ou Exponential são sempre boas escolhas com 25+ passos e CFG entre 5-7. Mas DPM++ SDE / Karras com menos passos (ex. 12) e CFG maior (8-11) vale a pena tentar. O padrão CLIP SKIP de 2 também é uma boa opção, mas usar 1 ou 3-4 também vale testar.
Patrocinadores do Criador
Se você gosta da minha contribuição para esta comunidade, sinta-se à vontade para me comprar um café: quanto mais cafeína eu tomar, mais modelos posso criar 😅
Se você gosta da minha contribuição para esta comunidade, sinta-se à vontade para me comprar um café: quanto mais cafeína eu tomar, mais modelos posso criar 😅
Galeria de comparação aqui: Fv6-Fv5 e comparação de ilustrações NSFW entre Gv1-Cv6-Fv2.

Modelo SOTA atual no meu experimento:
Modelo base SDXL: Gv4 é o modelo mais equilibrado que permite imagens realistas e estilizadas NSFW e SFW. Estética melhor que o Fv6, mas menos fotorealista.
Modelo fotorealista SDXL (SFW e NSFW): Fv6 é o caminho para hiper-realismo, incluindo imagens NSFW realistas, mas carece bastante das capacidades de estilização do Gv4.
Ilustração SDXL : Gv4 (SFW e NSFW). Cv6 ainda vale a pena tentar se você não gosta de imagens NSFW.
Modelo Flux: Flux1-A1
Configurações de geração de imagem para modelos SDXL
DPM++ 2/3M SDE / Karras ou Exponential são sempre uma boa aposta com 25+ passos e CFG em torno de 5-7. Mas DPM++ SDE / Karras com menos passos (ex. 12) e CFG maior (8-11) vale a pena tentar, assim como Euler Ancestral / Normal para um resultado com menos detalhes que também pode ser interessante com um modelo como Fv6 para obter algo menos "ruidoso".
O padrão CLIP Skip de 2 também é uma boa escolha, mas usar 1 ou 3-4 também é válido: 1 enfatiza mais a aderência ao prompt e 3-4 às vezes oferece um resultado melhor do que o padrão, focando mais nos "conceitos".
Configurações de geração de imagem para modelos Flux
Minhas configurações preferidas são DPM++ 2M / beta ou sgm_uniform ou DDEIS / normal para sampler/ scheduler, beta resultando em uma imagem mais forte e vívida. Para uma imagem mais sutil, Euler / simple ou beta parecem boas opções.
O CFG parece ter um enorme impacto na imagem final e ser muito sensível a pequenas variações.
Para fotos, o CFG deve permanecer baixo (1.5-2.5) para evitar efeito de pele plástica.
Para arte fina e ilustração, é mais complicado pois depende do meio. Para estilos "brutos" (pintura, aquarela etc.), o CFG deve ficar baixo na faixa de 1.5-2.5, mas para estilo anime ou quadrinhos, o CFG geralmente precisa ser aumentado para atingir o estilo desejado (3-6 ou mais).
Se a imagem estiver bagunçada/malformada ou borrada, geralmente é porque o CFG/passos não estão adequados para essa imagem, mas nem sempre é fácil saber se devem ser aumentados ou diminuídos (pelo menos para mim 😊).
Com certeza há bastante a aprender sobre o comportamento do Flux que é bem diferente do SDXL e precisaremos nos adaptar.
Fluxo de trabalho
Todas as minhas imagens são carregadas com o workflow ComfyUI embutido que infelizmente é incompatível com o processamento do CivitAI e geralmente o prompt não pode ser recuperado. Você pode, no entanto, baixar a imagem PNG original com o workflow incluído clicando no ícone "DOWNLOAD" no visualizador de imagens.
Por que eu tento publicar principalmente imagens direto do meu modelo com talvez um pouco de Lora (meu ou algum aprimorador de detalhes), também uso às vezes Controlnet para obter composições melhores e mais detalhadas com mais facilidade: neste caso a imagem fonte obviamente não está no workflow, mas acho que você ainda pode usar a imagem que publico como fonte se quiser fazer uma variação :)
Passado
A partir da série E, os modelos evoluem às vezes fundindo-se com outros modelos (graças a outros contribuidores!), mas principalmente via treinamento no meu próprio conjunto de dados: um conjunto modesto (~2000 imagens atualmente), mas tento compensar de alguma forma com qualidade e originalidade.
A partir do Fv1, incluí muitas imagens sintéticas que criei usando versões anteriores: trabalhando muito com o prompt e retocando quando necessário no Photoshop para ter um conjunto de dados que contém muitas imagens originais.
A ideia central por trás deste modelo era criar uma ferramenta versátil mesclando alguns dos melhores modelos existentes que combinam com meu gosto pessoal (fotografia e arte fantástica para simplificar). Meus objetivos principais eram:
Fotorealismo: A capacidade de produzir imagens impressionantemente realistas tanto de pessoas quanto de objetos/natureza.
Flexibilidade: A capacidade de criar imagens altamente estilizadas, permitindo expressão artística através de vários estilos e combinações de artistas. Sou de uma geração mais antiga e venho da Europa, então "estilo" para mim não significa "anime kawaii japonês com peitos" ou "desenho da DC Comics com muitos super-heróis e mulheres loiras voluptuosas", mas mais de um universo de Frank Frazetta, Milo Manara, Boris Vallejo, H.R.Giger, Wojtek Siudmak e mestres da arte fantástica: com certeza há peitos envolvidos, mas o estilo é um pouco diferente :P
Como não gosto de ser limitado na minha exploração do corpo humano, a ideia também é ter um modelo NSFW razoavelmente capaz. Contudo, devido à natureza das imagens de treinamento disponíveis nos conjuntos de dados, NSFW geralmente vem com um forte viés para fotos pornográficas ou anime pornográfico japonês e impacta a flexibilidade (tipicamente assim que você usa a palavra "sexy" no seu prompt, precisa ponderar o estilo). Portanto, este ponto NÃO é prioridade para o modelo base, mas é enfatizado no modelo NSFW.
Detalhes do Modelo
Tipo de modelo
Modelo base
Versão do modelo
Hash do modelo
Criador
Discussão
Por favor, faça log in para deixar um comentário.
