modelos/Old Consistency V32 Lora [FLUX1.D/PDXL] - Feminine v1.1 - e500 PDXL

Old Consistency V32 Lora [FLUX1.D/PDXL] - Feminine v1.1 - e500 PDXL

|
9/11/2025
|
1:59:52 AM
| Discussion|
0
Uma jovem com cabelo castanho, olhos verdes e óculos redondos sem aro usando uma camisa branca e gravata azul sentada em uma cadeira de escritório preta com expressão envergonhada.
Close-up de uma garota de anime com cabelo preto e olhos castanhos vestindo topo tradicional japonês branco com decote profundo e hakama preto, em pé à beira de um lago.

Prompts Recomendados

a woman sitting on a chair in a kitchen, from side, from above, cowboy shot, 1girl, sitting, from side, blue hair, green eyes

a super hero woman flying in the sky throwing a boulder, there is a severely powerful glowing menacing aura around her, realistic, 1girl, from below, blue latex bodysuit, black choker, black fingernails, black lips, black eyes, purple hair

a woman eating at a restaurant, from above, from behind, all fours, ass, thong

score_9, score_8_up, score_7_up, score_6_up, BREAK 1girl, solo, mature female, yellow eyes, red hair

Prompts Negativos Recomendados

greyscale, monochrome, multiple views

Parâmetros Recomendados

samplers

Euler, Euler a

steps

1 - 30

cfg

1 - 5

clip skip

2

resolution

512x512, 768x768, 816x816, 1024x1024, 1216x1216, 512x768, 768x1024, 768x768, 1024x1024

vae

sdxl_vae.safetensors

other models

9-autismmixSDXL_autismmixPony (821aa5537f), 10-animeConfettiComrade_v2 (14c3c10fe2), everclearPNYByZovya_v2VAE (4ce224f573), 10-ponyRealism_alpha (ecd0d8a468)

Parâmetros Recomendados para Alta Resolução

upscaler

Latent

upscale

1.25

denoising strength

0.7 - 0.74

Dicas

Use múltiplos loopbacks para melhorar a fidelidade e consistência da imagem.

Mantenha prompts padrão e ordem lógica para evitar aberrações.

Use tags principais de pose e ângulo de visão como 'from front', 'from side', 'from above' para melhorar a precisão da pose.

Evite usar poses sexuais até que estejam devidamente refinadas.

Experimente várias tags de traços para cabelo, olhos, cores de roupas e materiais.

A ordem de carregamento afeta os resultados ao mesclar com outros modelos e LoRAs.

Modo seguro é ativado por padrão com opções para desbloquear conteúdos questionáveis e explícitos.

Use o sistema de tags de pose e diretiva para obter melhor controle sobre posicionamento de personagens e ângulos de câmera.

Destaques da Versão

Checagens de estabilidade;

conceito - imagens/testadas

corpo inteiro - 48/48

cowboy shot - 48/48

retrato - 48/48

close-up - 48/48

**************************************

  • Próxima iteração terá uma camada singular induzindo subgrupo de pose para olhos, marcada com ângulos de pose e incluindo mais imagens de olhos para variações de ângulo para solidificar o efeito. A cor direta dos olhos provavelmente não é necessária, a forma parece ser crucial conforme pesquisas.

olhos vermelhos - 39/48

  • corpo inteiro - 6/12

  • cowboy shot - 9/12

  • retrato - 12/12

  • close-up - 12/12

olhos azuis - 48/48

  • todas poses - 12/12

olhos verdes - 48/48

  • todas poses -12/12

olhos amarelos - 42/48

  • corpo inteiro - 6/12 - incerto por que é instável.

olhos aqua - 48/48

  • todas poses

olhos roxos - 48/48

  • todas poses

látex - 36/48

  • close-up - 5/12

  • retrato - 7/12 - requer imagens de retrato e close-up

  • cowboy shot - 12/12

  • corpo inteiro - 12/12

lingerie - 36/48

  • close-up - 7/12

  • retrato - 4/12 ? por quê? - requer imagens diretas de retrato e close-up de rosto

  • cowboy shot - 11/12

  • corpo inteiro - 12/12

casual - 48/48

  • todas poses - 12/12

biquíni - 48/48

  • todas poses - 12/12

vestido - 16/48

  • nenhuma pose bateu com o vestido correto, a menos que indicado com tags adicionais -> necessidade de marcar vestidos mais especificamente

A estabilidade da saída foi consideravelmente maior do que o esperado com uma série de tags úteis já embutidas no pony, incluindo;

  • <color> cabelo

  • <color> roupas

  • tamanho dos seios <size>

  • mulher <mature>

  • <color> brincos

  • <color> olhos

  • objeto <blurry>

  • área <background>

Há muitos potenciais de tags úteis aqui, então devem ser explorados como fiz.

Sucessos na sobreposição;

  • olhos vermelhos -> olhos azuis;

    • [olhos vermelhos:0.5], [olhos azuis:0.5] -> sobreposição ocasional, instável.

    • olhos vermelhos, olhos azuis -> sobreposição menos consistente

    • olhos vermelhos E olhos azuis -> sobreposição mais consistente, mais pesquisas necessárias

    • a maioria dos olhos enfrenta na verdade o mesmo problema, onde o modelo impõe muita cor dos olhos sobre a forma deles, então o experimento de camada dos olhos será interrompido e implementado baseado no experimento de manchas antes.

  • vestido -> látex

    • vestido, fenda lateral, vestido cocktail, látex, roupa de látex -> forma um traje baseado em múltiplas partes das camadas. A consistência é instável, mas o resultado é promissor.

  • látex -> vestido

    • látex, roupa de látex, vestido, fenda lateral -> forma um objeto mais vestido, que parece estar sobrepondo lacunas do vestido mais do que se usar o vestido primeiro. Isso indica que o treino do vestido está sobreajustado para a tarefa e precisa de reavaliação.

  • látex -> biquíni

    • látex, roupa de látex, biquíni -> forma leggings de látex misturadas com biquíni, o que sugere sobreajuste.

Acredito ter uma solução para o sobreposição de roupas, e junto com ela, soluções para olhos, cor de pele e mais. A maior parte da consistência deve vir da técnica de manchas.

Patrocinadores do Criador

Confira o Modelo Illustrious para capacidades complementares.

Use o fluxo ComfyUI para geração de imagens aprimorada e experimente loopings.

Explore o poderoso Modelo Flux como a base da IA.

Apoie NovelAI para sinergia superior na geração de histórias e imagens.

Créditos a Black Forest Labs pela criação do modelo Flux.

Melhore o fluxo de trabalho de marcação com TagGUI.

Configuração de treinamento feita com AIToolkit.

Inspirado e rival do PonyDiffusion.

PDXL + ILLUSTRIOUS TRAIN V3.34:

  • Illustrious não é um desdobramento do PDXL, é diferente e muito bom. Experimente se tiver a chance.

  • https://civitai.com/models/803213

  • Treinei uma versão do Simulacrum especificamente para ele.

V3-2 Em vez de V3.22:

  • O objetivo da v3.22 acabou mudando e me perdi no labirinto dos testes flux e descobrindo novos mecanismos. Depois que aprendi e determinei que sei o suficiente sobre como fixar sujeitos, como marcar e como o próprio flux entende a marcação; posso realmente construir uma versão 3 adequada.

  • Obrigado a todos que suportaram meu ciclo de aprendizado e experimentação. Foi uma montanha-russa legítima de testes, falhas e alguns verdadeiros sucessos. Sei o que pode ser feito, como fazer, e tenho uma metodologia para abordar e iterar sobre o que aprendi para criar o que quero criar. O processo não é perfeito e será refinado conforme avanço, então será uma questão de entendimento e desenvolvimento iterativo, não importa o que eu construa. Estou confiante o suficiente para dizer que encontrei e atravessei o primeiro grande declive do efeito Dunning-Kruger e que posso começar a aprender e ensinar informações úteis após os experimentos, enquanto tento o melhor para processar e entender as informações de forma útil para usuários básicos e avançados.

  • Determinei que minha abordagem original para a V4 é viável, mas o processo que eu usava não é válido como pensei originalmente enquanto aprendia iterativamente os sistemas. Mais aspectos aprendidos e mais falhas para aprender, para desenvolver o terreno preparado para os sucessos que virão.

  • Versionamento baseado em diretivas.

    • Planejo introduzir TRÊS treinamentos principais por versão e uma versão "vanilla" nd singular.

    • Usarei treinamentos baseados em diretivas gerais não só para o sistema principal, mas também para imagens temáticas principais específicas para disseminar todos os aspectos temáticos pretendidos no sistema.

    • A parte técnica do processo de marcação será única e difícil de entender para quem não está familiarizado com a razão por trás do que estou fazendo no sistema, então as imagens e marcações provavelmente serão altamente confusas se quiser detalhes específicos.

    • O sistema de marcação simplista permanecerá por si só e continuará plenamente capaz de produzir os resultados necessários quando necessário.

    • A versão "nd" ou "no directive" para cada lançamento garantirá que as diferenças de teste e resultados sejam similares, como o pássaro na mina; é hora de ir quando o pássaro para de cantar. Provavelmente esses modelos irmãos poderão ser mesclados e normalizados para reutilização e mistura de conceitos que podem ou não ter funcionado devido à diretiva usada.

  • A fixação em personagens INDIVIDUAIS é agora o objetivo mais importante para este modelo. Haverá apenas um personagem fixado e a resolução para esse personagem será escalada para uma proporção descendente e ascendente correspondente aos parâmetros corretos de formatação do treinamento FLUX.

Os problemas da V3.2 foram menos pronunciados do que eu pensei:

  • A maior parte da preocupação com o resultado baseava-se em informações ausentes que planejo corrigir ao longo do tempo. É apenas uma questão de desenvolvimento iterativo.

  • Dito isso, a versão treinada da 3.21 está atualmente em testes e será lançada em breve. Ela tem capacidade aprimorada de controle de pose e um foco alterado usando uma diretiva de câmera relativamente longa.

  • O resultado mostrou boa compatibilidade com a maioria das loras que testei e até funciona com algumas loras muito rígidas que não parecem ser manobradas ou rotacionadas com a v32 atual.

  • Tem boa compatibilidade com Flux Unchained, múltiplos modelos de personagem, modelos de rosto, modelos humanos, etc. A maioria do sistema não sobrepõe ou quebra outros sistemas até agora, o que é bom.

Problemas da V3.2 para resolver:

  • Há algumas questões de consistência com algumas poses e ângulos. Também há alguma contaminação cruzada com várias outras loras quando usam as tags "from side", "from behind", "from above" e "from below". Vou usar novas tags como uma espécie de unidade de verificação e treinar uma LORA totalmente separada para garantir fidelidade no controle de câmera no futuro.

  • Parece funcionar bem principalmente para anime, mas quando loras entram em jogo, há problemas.

  • Tags de combinação para a versão 3.21;

    • Há alguns testes base que preciso executar para garantir que a câmera funcione corretamente baseado no posicionamento, então vou testar tags como:

      • um sujeito visto de frente por cima

      • um sujeito visto de lado pela frente enquanto por cima

      • um sujeito visto de trás por cima enquanto na frente

      • um sujeito visto de lado por cima enquanto atrás

    • e outras tags similares no base flux_dev, para garantir que o que construí posicionará corretamente a câmera e a fidelidade da imagem não será perdida no processo.

    • Pelo que entendi, o sistema treina profundidades enormes se usar opções genéricas como essas. Mais testes são necessários para ter certeza.

    • Tags como "grabbing from behind", "sex from behind" provavelmente não cooperarão com tags "behind", então usarei as tags "rear".

    • "from side", "from behind", "straight-on", "facing the viewer" e tudo diretamente ligado a algum safebooru, danbooru, gelbooru específico de personagem, rotações de posicionamento não serão treinados. Será totalmente baseado em VISUALIZAR um personagem, ao invés de INTERAGIR com ele.

    • Também não queremos braços em POV na maioria das vezes, então será necessário muito teste para garantir que a marcação não gere braços, pernas, troncos acidentalmente e fique fixada no sujeito individual em questão.

Algumas das poses, francamente, não funcionaram:

  • Há um sistema de combinação de tags em jogo aqui que simplesmente não fez seu trabalho, então será necessário um novo conjunto de combinações para controlar o personagem corretamente.

  • As pernas estão deformadas ou não existem.

  • Os braços podem estar deformados ou mal posicionados.

  • Os pés estão faltando.

  • O tronco superior aparece demais com muita frequência. <<< overfitted

  • O tronco inferior não mostra roupas corretamente.

  • O pescoço não exibe adereços corretos como cachecóis, toalhas, gargantilhas, colares, etc.

  • Os mamilos e genitais estão um caos absoluto. Precisa haver uma pasta adequada com suas variações para um controlador NSFW apropriado neste caso.

  • NAI deve ser especificamente ajustado por estilo e refinado como estilo.

  • Opções de roupas geram tipos de corpo com mais frequência do que deveriam.

  • A classificação explícita é quase impossível de acessar às vezes, outras vezes explode como um trem de carga.

  • Não há imagens com questão suficiente para ponderar, e o sistema de marcação explícita também deveria ser marcado com questionável para garantir que a informação questionável seja acessada.

  • Alguns personagens de anime aparecem com perspectiva ruim, o que é ruim considerando que o objetivo é ter perspectiva associativa correta.

  • Posição de quatro apoios é bastante sólida, mas definitivamente tem problemas de perspectiva. Não parece tratar personagens de anime como 3d com frequência suficiente, então os ambientes ao redor das imagens precisam de mais fidelidade.

  • Posição de quatro apoios não funciona em uma formação sem muitos ajustes.

  • Ajoelhado não funciona em uma formação sem muitos ajustes.

  • Formações e grupos parecem ter uma formatação única para flux e isso merece investigação adicional. Quase como habilitar um loop interno para cada uma das iterações.

Houve alguns sucessos:

  • A fidelidade base não sofreu para a maioria das imagens.

  • Muitas novas poses FUNCIONAM, mesmo que às vezes sejam estranhas.

  • O estilo anime foi alterado de uma forma única NAI com um toque de realismo.

  • Múltiplos personagens podem ser posicionados, embora de forma estranha às vezes.

  • Ficar em qualquer ângulo tem fidelidade e qualidade de imagem absolutamente fantásticas com o estilo NAI.

  • V3.3 terá que esperar.

Roteiro V3.3:

Atualizei os recursos no final deste documento e separei a documentação antiga em um artigo próprio para arquivamento.

Com o resultado agora refletindo melhor minha visão, posso mudar o foco para o próximo passo da lista; Sobreposições.

V3.3 vai introduzir o que chamo de etiquetas offset queimadas de alta alfa, que vão facilitar coisas como fazer quadrinhos, interfaces de jogos, sobreposições, barras de saúde, displays, etc.

Teoricamente, você pode criar seus próprios jogos falsos em consistency se eu fizer uma sobreposição correta com as queimaduras certas.

Isso vai estabelecer a base para impor personagens em qualquer posição a partir de qualquer profundidade da cena, mas isso vem depois.

Já é possível criar spritesheets de forma justa, então vou explorar o sistema de tags embutido nos próximos dias para testar todos esses subsistemas usando um pouco de esforço no prompting e poder computacional. Há alta probabilidade de já existir algo assim e só precisar ser descoberto.

Objetivos V4:

  • Se tudo correr bem, o sistema inteiro deve estar pronto para capacidade total de produção incluindo modificação de imagem, edição de vídeo, edição 3d, e muito mais que simplesmente não consigo compreender ainda.

  • v33 sobreposições

    • Isso é um pouco equivocado, pois é mais uma estrutura de definição de cena para a próxima estrutura

    • Este será o que tomará menos e mais tempo ao mesmo tempo e tenho alguns experimentos com alfa para fazer funcionar, mas tenho certeza que sobreposição será uma opção não só para exibir mensagens, mas também para controle de cena devido a maneira como a profundidade funciona.

  • v34 imposição de personagens, planejamento de valor de rotação e ajustes cuidadosos de pontos de vista:

    • Garantir que certos personagens existam e sigam diretivas é um objetivo primário, pois às vezes simplesmente não seguem.

    • Será implementada uma valoração completa baseada em números para rotação usando pitch/yaw/roll em graus. Não será perfeito pois não tenho as habilidades matemáticas, nem os conjuntos de imagens nem as habilidades em software 3d para fazer isso, mas será um bom começo e espero que se conecte ao que o FLUX já possui.

  • v35 controladores de cena

    • Pontos de interação complexos em cenas, controle de câmera, foco, profundidade e mais que permitem construção completa de cena junto com os personagens posicionados nelas.

    • Pense nisso como uma versão 3d do controlador de sobreposição, mas em esteróides se quiser.

  • v36 controladores de iluminação

    • Mudanças de iluminação segmentadas e controladas por cena que afetam todos os personagens, objetos e criações contidos.

    • Cada luz será posicionada e gerada com base em regras específicas definidas no unreal usando múltiplos tipos de iluminação, fontes, cores, etc.

    • Teoricamente o FLUX deve preencher as lacunas.

  • v37 tipos de corpo e personalização corporal

    • Com a introdução dos tipos básicos de corpo, quero introduzir uma criação de tipo corporal mais complexa que inclui, mas não se limita a coisas como:

    • corrigir poses que não funcionam corretamente

    • adicionar uma série de poses adicionais

    • cabelo mais complexo:

      • interação do cabelo com objetos, cabelo cortado, cabelo danificado, cabelo descolorido, cabelo multicolorido, cabelo preso, perucas, etc

    • olhos mais complexos:

      • olhos de vários tipos, abertos, fechados, semicerrados, etc

    • expressões faciais de vários tipos:

      • feliz, triste, :o, sem olhos, rosto simples, sem rosto, etc

    • tipos de orelhas:

      • pontudas, arredondadas, sem orelhas, etc

    • cores de pele de vários tipos:

      • clara, vermelha, azul, verde, branca, cinza, prata, preta, preta intensa, marrom claro, marrom, marrom escuro e mais.

      • Vou tentar evitar temas sensíveis aqui pois as pessoas realmente se importam bastante com cor de pele, mas quero apenas uma variedade de cores como as roupas.

    • controladores de tamanho para braço, perna, tronco superior, cintura, quadris, pescoço e cabeça:

      • bíceps, ombro, cotovelo, punho, mãos, dedos, etc com ajustes para comprimento, largura e circunferência.

      • clavícula e quaisquer tags do tronco que existam

      • cintura e quaisquer tags da cintura que existam

      • generalizações e especificidades de tamanho corporal baseadas em um gradiente de 1 a 10, em vez de algum sistema pré-definido usado em qualquer booru

  • v38 roupas e personalização de roupas

    • Quase 200 roupas, cada uma com seus próprios parâmetros personalizados.

  • v39 500 personagens de videogames, anime e mangá amostrados a partir de dados de alta fidelidade

    • quinhentos cigaret- err... Quer dizer... Muitos personagens. Sim. Definitivamente não uma quantidade absurdamente grande de personagens baseados em memes sem ligação racional a design ou arquétipo de personagem.

    • Depois disso você pode construir qualquer coisa ou treinar qualquer personagem.

  • Aumento maciço de fidelidade e qualidade:

    • incluindo dezenas de milhares de imagens de várias fontes de anime de alta qualidade, modelos 3d e semi-realismo fotográfico para sobrepor e treinar esta versão particularmente refinada do flux em uma submissão estilística que se encaixe dentro dos parâmetros.

    • cada imagem será avaliada em fidelidade e marcada dentro de uma proporção de score_1 a score_10 de maneira similar ao pony, mas terei minha própria abordagem única dependendo de quão bem ou mal funcionar.

Lançamento V3.2 - 4k passos:

  • Este não é para crianças, com certeza. Este é um modelo base SFW/QUESTIONÁVEL/NSFW que pode ser treinado para qualquer coisa.

  • Também NÃO foi construído para ser um criador de conteúdo adulto, mas pode ser com o prompt certo. Faz parte do pacote quando você habilita comportamentos por ensinar certas coisas à IA, você ganha bagagens. As imagens são aproximadamente 33% cada atualmente, mais ou menos. É ponderado PARA conteúdo seguro, similar ao funcionamento do NAI.

  • Tenho uma postura firme de habilitar e ensinar informações para que o indivíduo decida o que fazer com elas. Ensinar uma IA sem censura a várias coisas usando um grau controlado e cuidadoso acredito ser saudável para a progressão e crescimento da IA para um entendimento de alta fidelidade, assim como saudável para quem gera imagens DA IA não precisar ver pesadelos 24/7.

  • Esta coisa mostra uma promessa além de tudo que já vi por uma larga margem.

  • Use minha carga de trabalho ComfyUI. Está anexada a todas as imagens abaixo.

  • Modo seguro ativado por padrão:

    • questionável < desbloqueia mais traços aleatórios questionáveis

    • explícito < desbloqueia coisas divertidas para aparecer aleatoriamente

  • Tags de ativação de perspectiva: tente misturar; from front, side view, etc

    • from front, front view,

    • from side, side view,

    • from behind, rear view,

    • from above, above view,

    • from below, below view,

  • Poses principais adicionadas e aprimoradas:

    • all fours

    • kneeling

    • squatting

    • standing

    • bent over

    • leaning

    • lying

    • upside-down

    • on stomach

    • on back

    • arm placements

    • leg placements

    • head tilts

    • head directions

    • eye directions

    • eye placement

    • eye color solidity

    • hair color solidity

    • breast size

    • ass size

    • waist size

  • uma grande variedade de opções de roupas

  • uma grande variedade de opções de personagens

  • uma grande variedade de expressões faciais

  • posições sexuais ainda em grande desenvolvimento e eu realmente recomendo evitar usá-las até que sejam devidamente refinadas. Elas estão MUITO além da minha capacidade no momento e não tenho energia para determinar a rota a seguir.

  • O criador de poses, criador de ângulos, configuração de situação, imponedor de conceito e estrutura de interpolação já estão prontos e treinarei mais versões.

  • Aproveite.

Roteiro V3.2:

  • 25/08/2024 5:16 - Identifiquei que o processo funcionou e o sistema é funcional além das expectativas. A IA desenvolveu comportamentos emergentes que posicionam personagens de forma exponencialmente mais poderosa do que o previsto. Os testes começaram e o resultado parece fantástico.

    • Resoluções finais: 512, 640, 768, 832, 1024, 1216

  • 25/08/2024 15h - Tudo está devidamente marcado e as poses preparadas. O verdadeiro treinamento começa agora e o processo envolverá múltiplos testes multidimensionais, testes de contagem lr, checagem de passos e muito mais para avaliar o candidato correto para o lançamento v32.

  • 25/08/2024 4h - A primeira versão da v32 mostrou deformidade mínima por volta do passo 1400 e então deformidade grave perto do passo 2200, o que indica que a marcação preguiçosa WD14 falhou. Marcações manuais virão. Vai ser uma manhã interessante.

  • 24/08/2024 noite - Está em modo de cozimento agora.

  • Suspeito que este não funcione. Auto-marquei tudo e excluí os ângulos de pose por enquanto. Vou ver o que o wd14 pode fazer sozinho. Depois do treinamento, seja ele bem-sucedido ou não, vou restaurar os ângulos de pose originais e a ordem de marcação estabelecida. Vamos ver como funciona agora com todos os dados intencionais agrupados e os casos de uso densos.

  • Com 4000 imagens suspeito que vai levar um tempo para cachear os latentes, mas com a atenção dedicada às bonecas e corpos do "caso de uso", deve acabar ficando bom pelo menos.

  • 24/08/2024 meio-dia -

  • Estamos afiados.

  • Tudo está formatado para ter implicações de sombras no fundo, o que ajuda o flux a gerar imagens baseadas em superfícies e locais. Tudo é construído para poses faltantes que o flux não consegue manejar. Tudo é construído para focar nos sujeitos que podem ser multiplicativamente sobrepostos em múltiplos locais.

  • Tenho focado no posicionamento correto dos braços e garantindo que braços marcados que se sobrepõem construam braços do ponto A ao B.

  • 24/08/2024 manhã - Aparentemente há alguns problemas com braços também, mas está tudo bem, vou colocar isso na lista. Obrigado por apontar, certamente há alguma contaminação cruzada que precisa ser resolvida. Uso um sistema específico de loopback no comfyui que não está presente no sistema do site, então talvez eu precise desabilitar a geração no local para esta versão.

  • 23/08/2024 - Estou com cerca de 340 novas imagens anime detalhadas com poses quase uniformes, identificadores pitch/yaw/roll para garantir solidez, mudanças de coloração, diferenciação de tamanho com seios, cabelo e bumbum. Faltam 554 imagens. A V3.2 será fortemente dedicada a anime, depois planejo usar imagens de pony para produzir realismo sintético suficiente para criar elementos necessários de realismo também. A menos que o flux permita isso após o treinamento, caso em que usarei o flux.Isso DEVE garantir fidelidade e separação de classificação pose a pose, especialmente porque tenho uma nova metodologia de usar as palavras-chave "from" e "view". Teoricamente deve funcionar quase idêntico ao controle de pose do NovelAI quando estiver pronto, que é basicamente meu objetivo. Os personagens e a diferenciação entre eles é uma história totalmente diferente, claro.

  • Tudo deve estar perfeitamente ordenado e alinhado, senão simplesmente não adicionará o contexto necessário na taxa necessária para afetar o modelo base o bastante para ser útil.

  • Por design, o SEGURO será o padrão, então o sistema inteiro será construído ponderado para seguro, com a habilidade de ativar NSFW.

  • Treinarei múltiplas iterações desta LORA específica para garantir que a diferenciação entre os dois possa permanecer rigorosa, permitindo que o público NSFW também seja atendido com a versão mais NSFW.

  • Minha esperança é que, quando treinado; eu possa despejar um conjunto de dados escolhido de 50.000 imagens no sistema e ele criará algo mágico. Algo potencialmente no mesmo nível de poder do pony para qualquer coisa que o coração desejar. Então posso descansar sabendo que o universo está grato. Depois disso vocês provavelmente podem despejar qualquer coisa nele e ele vai criar o que quiserem devido ao poder inato do flux com a espinha da consistência.

  • Planejo liberar os dados de treinamento para o conjunto inicial completo de imagens da consistência v3.2 quando estiver organizado, treinado, testado e pronto. Vou liberar os dados v3 neste final de semana quando tiver tempo.

  • Identifiquei uma série de inconsistências de pose, principalmente com a palavra-chave "lying" acoplada às palavras-chave de ângulo. Vou testar cada combinação e reforçar a consistência final antes de avançar para a próxima fase; as escolhas básicas de roupa, mudanças de roupas e derivativos baseados nas poses que funcionam e que não funcionam. Sem mencionar que preciso incluir informações mais detalhadas para os elementos questionáveis e NSFW depois também. Vocês podem imaginar o que são esses após a próxima versão.

  • Até lá, preciso garantir que as poses realmente funcionem conforme as diretivas, então criarei novas palavras-chave de combinação intencionais, reforçando a contagem total de poses para mais imagens por pose, mais imagens por ângulo, e mais ângulos por situação. Também criarei uma série de dados que funcionam como espaços reservados para criar situações e imagens mais complexas, mas o flux realmente não precisa de muitas, então farei isso conforme avanço. Também incluirei uma série de tags "base" que definirão padrões para certas coisas ao atingirem pontos de falha para outras coisas. Isso deve ajudar um pouco com a consistência.

Documentação V3:

  • Testado principalmente no FLUX.1 Dev e4m3fn em fp8, então o checkpoint preparado para merge refletirá esse valor quando o upload for concluído. https://civitai.com/models/670244/consistency-v3-flux1d-fp8t5vae

  • Roda no modelo base FLUX.1 Dev, mas funcionará em outros modelos, merges e com outras loras. Os resultados serão mistos. Experimente a ordem de carregamento, pois os valores do modelo mudam em sequência em graus variados.

  • Isso é nada menos que uma espinha para o FLUX. Ele fortalece tags úteis muito semelhantes ao danbooru, para estabelecer controle e assistência de câmera que facilita muito criar personagens personalizáveis em situações que o FLUX provavelmente PODE FAZER, mas que exigem muito mais esforço para fazer por padrão.

  • Recomendo MUITO rodar múltiplos loopbacks para garantir fidelidade da imagem. Consistência melhora qualidade e fidelidade ao longo de múltiplas iterações.

  • Forte foco no indivíduo. No entanto, devido à forma como estruturei as resoluções, pode lidar com MUITAS pessoas em situações similares. As loras que causam mudanças imediatas na tela sem contexto geralmente são totalmente inúteis, pois geralmente não contribuem para o contexto. Loras mais específicas para adicionar TRAÇOS a pessoas ou criar interações contextuais entre pessoas parecem funcionar bem. Roupas funcionam, tipos de cabelo funcionam, controle de gênero funciona. A maioria das loras que testei funcionam, mas existem algumas que não fazem nada.

  • Não é um merge. Não é combinação de loras. Esta lora foi criada usando dados sintéticos gerados por NAI e AutismPDXL ao longo de um ano. O conjunto de imagens é bastante complexo e as imagens escolhidas para criar essa não foram fáceis de selecionar. Exigiu muito tentativa e erro. Muito mesmo.

  • Há uma SÉRIE de tags principais introduzidas com esta lora. Ela adiciona toda uma espinha ao FLUX que ele simplesmente não tem por padrão. O padrão de ativação é complexo, mas se você construir seu personagem parecido com o NAI, vai parecer similar a como o NAI cria personagens.

  • O potencial e poder deste modelo não devem ser subestimados. É uma lora absolutamente poderosa e seu potencial está além do meu alcance.

  • Ainda pode produzir aberrações se não for tratado com cuidado. Se usar prompts padrão e uma ordem lógica, deve construir arte bonita em pouco tempo.

  • Resoluções: 512, 768, 816, 1024, 1216

  • Passos sugeridos: 16

  • Guia FLUX: 4 ou 3-5 se for teimoso, 15+ se for muito teimoso

  • CFG: 1

  • Executei 2 loopbacks. O primeiro foi upscale 1.05x e denoise entre 0.72-0.88, e o segundo foi denoise 0.8 quase nunca alterado, dependendo de quantos traços quero introduzir ou remover.

BANCO DE TAGS PRINCIPAIS:

  • anime - converte o estilo de poses, personagens, roupas, rostos, etc em anime

  • realistic - converte o estilo para realista

  • from front - vista frontal de uma pessoa, situação com ombros alinhados, voltados para o espectador, com o centro de massa do tronco voltado para o espectador.

  • from side - vista lateral de uma pessoa, ombro vertical voltado para o espectador, ou seja, os ombros são verticais e o personagem está de lado

  • from behind - vista diretamente de trás da pessoa

  • straight-on - vista com ângulo vertical direto, para ângulo plano horizontal

  • from above - inclinação entre 45 a 90 graus olhando para baixo para o indivíduo

  • from below - inclinação entre 45 a 90 graus olhando para cima para o indivíduo

  • face - imagem focada nos detalhes do rosto, útil para incluir detalhes do rosto especialmente se forem persistentes

  • full body - vista de corpo inteiro do indivíduo, útil para poses mais complexas

  • cowboy shot - tag padrão cowboy shot, funciona bem com anime, menos com realismo

  • looking at viewer, looking to the side, looking ahead

  • facing to the side, facing the viewer, facing away

  • looking back, looking forward

tags misturadas criam resultados mistos, mas com saídas variadas

  • from side, straight-on - câmera horizontal apontada para o lado do indivíduo ou indivíduos

  • from front, from above - inclinação de 45 graus olhando para baixo da câmera acima à frente

  • from side, from above - inclinação de 45 graus olhando para baixo da câmera acima ao lado

  • from behind, from above - inclinação de 45 graus olhando para baixo da câmera acima atrás

  • from front, from below

  • from front, from above

  • from front, straight-on

  • from front, from side, from above

  • from front from side, from below

  • from front from side, straight-on

  • from behind, from side, from above

  • from behind, from side, from below

  • from behind, from side, straight-on

  • from side, from behind, from above

  • from side, from behind, from below

  • from side, from behind, straight-on

Essas tags podem parecer similares, mas a ordem frequentemente cria resultados muito distintos. Usar a tag from behind antes da from side, por exemplo, pesa o sistema para o lado de trás em vez do lado, mas você frequentemente verá o tronco superior torcendo e o corpo angulando 45 graus para qualquer lado.

O resultado é misto, mas definitivamente utilizável.

Traços, coloração, roupas, etc também funcionam

  • cabelo vermelho, cabelo azul, cabelo verde, cabelo branco, cabelo preto, cabelo dourado, cabelo prata, cabelo loiro, cabelo castanho, cabelo roxo, cabelo rosa, cabelo aqua

  • olhos vermelhos, olhos azuis, olhos verdes, olhos brancos, olhos pretos, olhos dourados, olhos prateados, olhos amarelos, olhos castanhos, olhos roxos, olhos rosas, olhos aqua

  • roupa de látex vermelha, azul, verde, preta, branca, dourada, prateada, amarela, marrom, roxa

  • biquíni vermelho, azul, verde, preto, branco, amarelo, marrom, roxo, rosa

  • vestido vermelho, azul, verde, preto, branco, amarelo, marrom, rosa, roxo

  • saias, camisas, vestidos, colares, trajes completos

  • múltiplos materiais; látex, metálico, jeans, algodão, etc

poses podem ou não funcionar bem com a câmera, podem necessitar ajustes

  • all fours

  • kneeling

  • lying

  • lying, on back

  • lying, on side

  • lying, upside down

  • kneeling, from behind

  • kneeling, from front

  • kneeling, from side

  • squatting

  • squatting, from behind

  • squatting, from front

  • squatting, from side

controlar pernas e tal pode ser muito exigente, então experimente um pouco

  • legs

  • legs together

  • legs apart

  • legs spread

  • feet together

  • feet apart

  • centenas de outras tags usadas e incluídas, milhões de combinações potenciais

Use-as em conjunto antes de quaisquer especificadores de traços pessoais, mas depois do prompt para o flux em si.

CRIANDO PROMPTS:

Apenas faça. Digite qualquer coisa e veja o que acontece. O FLUX já tem muita informação, então use as poses etc para aprimorar suas imagens.

Exemplo:

  • uma mulher sentada em uma cadeira na cozinha, from side, from above, cowboy shot, 1girl, sitting, from side, cabelo azul, olhos verdes

  • uma super-heroína voando no céu jogando uma pedra, há uma aura ameaçadora brilhante e poderosa ao redor dela, realista, 1girl, from below, roupa de látex azul, colar preto, unhas pretas, lábios pretos, olhos pretos, cabelo roxo

  • uma mulher comendo em um restaurante, from above, from behind, all fours, bumbum, tanga

  • Funcionou. Geralmente funciona.

Legitimamente, isso deve lidar com a maioria das loucuras, mas certamente estará fora do meu escopo compreensivo. Tentei mitigar o caos e incluir tags suficientes de pose para fazer funcionar, então tente manter-se nas mais centrais e úteis.

Mais de 430 tentativas falhas separadas para criar isto, finalmente levou a uma série de teorias bem-sucedidas. Farei um relatório completo das informações necessárias e provavelmente liberarei os dados de treinamento usados neste final de semana. Foi um processo longo e difícil. Espero que gostem todos.

Documentação V2:

Na noite passada eu estava muito cansado, então não terminei de compilar a escrita completa e os achados. Espere ela assim que possível, provavelmente durante o dia enquanto estiver no trabalho estarei rodando testes e marcando valores.

Introdução ao Treinamento Flux:

  • Anterioremente, o PDXL requeria apenas um pequeno conjunto de imagens com tags danbooru para produzir resultados finos comparáveis ao NAI. Menos imagens era uma força pois reduzia o potencial, nesse caso menos imagens não funcionaram. Precisa de algo, mais. Mais fogo com mais poder.

  • O modelo tem muito ali, mas as diferenças entre os vários dados aprendidos têm variância consideravelmente maior do que esperado inicialmente. Mais variância significa mais potenciais, e não conseguia entender por que funcionaria com essa alta variância.

  • Após uma pesquisa descobri que o modelo é tão poderoso POR CAUSA DISSO. Ele pode produzir imagens "DIRECIONADAS" baseado na profundidade, onde a imagem é segmentada e sobreposta a outra usando o ruído de outra imagem como guia. Isso me fez pensar, como posso treinar >>ISSO<< sem destruir os detalhes principais do modelo. Primeiro pensei em fazer isso com redimensionamento, mas lembrei do bucketing. Então isso leva à primeira parte aqui.

  • Basicamente entrei nisso às cegas, configurando baseado em sugestões e determinando resultados baseados no que vi. É um processo lento, então estive pesquisando e lendo artigos paralelamente para acelerar. Se tivesse capacidade mental faria tudo de uma vez, mas sou só uma pessoa e tenho trabalho. Joguei tudo que podia no processo. Se tivesse mais tempo faria 50 dessas simultâneas, mas realmente não tenho tempo para configurar. Eu poderia pagar, mas não poderia configurar.

  • Usei o que achava melhor baseado na minha experiência com SD1.5, SDXL, e treinamentos PDXL lora. Funcionou razoavelmente, mas há algo claramente errado e entrarei em detalhes.

Formatação de Treinamento:

  • Fiz alguns testes.

  • Teste 1 - 750 imagens aleatórias da minha amostra danbooru:

    • LR UNET - 4e-4

      • Notei que a maioria dos outros elementos não importavam muito e podiam ficar no padrão, exceto atenção ao bucketing de resolução.

    • Somente 1024x1024, recorte centralizado

    • Entre 2k-12k passos

    • Escolhi 750 imagens aleatórias de uma das pools de tags danbooru uniformes

    • Rodei o moat tagger nelas e acrescentei as tags ao arquivo, garantindo que não sobrescrevessem

    • O resultado não foi promissor. O caos era esperado. Introdução de novos elementos humanos como genitais foi ou acerto ou perde, ou simplesmente não existia a maior parte do tempo. Está em linha com o que vi em outras descobertas.

    • Não esperava que o modelo inteiro sofresse, pois as tags geralmente não se sobrepunham.

    • Rodei o teste duas vezes e tenho duas loras inúteis com cerca de 12k passos cada. Testes de 1k a 8k mostraram quase nada útil para desvio em direção a qualquer objetivo, mesmo observando os picos e vales das pools de tags.

    • Há algo mais aqui. Algo que perdi, e que não acho ser humanista ou descrição clip. Há algo... mais.

    • Perto deste ponto de falha fiz uma descoberta. Este sistema de profundidade é interpolativo e baseado em dois prompts completamente diferentes e desviantes. Esses dois prompts são na verdade interpolativos e cooperativos. Como determina isso não sei, mas vou ler os artigos para entender a matemática envolvida.

  • Teste 2 - 10 imagens:

    • LR UNET - 0.001 <<< LR muito poderoso

    • 256x256, 512x512, 768x768, 1024x1024

    • Os passos iniciais mostravam desvios, similar ao quanto queimava nos testes SD3. Não era bom. O bleeding começou perto do passo 500. Foi basicamente inútil no passo 1000. Sei que basicamente usei repeat aqui, mas parecia um bom experimento para falhar.

    • Desvios são extremamente danosos aqui. Introduz um novo elemento de contexto e depois o transforma em uma máquina de snacks. Substitui elementos das pessoas por quase nada útil ou por artefatos queimados similar a um inpaint mal configurado. Foi interessante ver o quão resistente o FLUX é e ainda assim funciona. Esse teste mostrou a resiliência do FLUX e foi realmente forte contra minhas tentativas.

    • Foi uma falha, requer testes adicionais com configurações diferentes.

  • Teste 3 - 500 imagens de pose:

    • LR UNET - 4e-4 <<< Isso deveria ser dividido por 4 e receber o dobro dos passos.

    • Bucketing completo - 256x256, 256x316, etc. Deixei livre e dei muitas imagens de vários tamanhos para bucketing. Foi um resultado inesperado.

    • O resultado é LITERALMENTE o núcleo deste modelo de consistência, tamanho foi o poder do resultado. Parece ter causado um pouco mais de dano do que pensei, mas foi bastante significativo.

    • Algo a notar; Anime geralmente não usa profundidade de campo. Este modelo parece AMAR profundidade de campo e blur para diferenciar profundidade. É necessário aplicar algum tipo de depth controlnet a essas imagens para garantir variação de profundidade, mas não sei como fazer isso facilmente. Treinar mapas de profundidade junto com mapas normais pode funcionar, mas pode destruir o modelo devido à falta de prompting negativo.

    • Mais testes necessários. Mais dados de treinamento necessários. Mais informações necessárias.

  • Teste 4 - pacote de consistência de 5000:

    • LR UNET - 4e-4 <<< Isso deve ser dividido por 40 e receber 20x passos, mais ou menos. Treinar algo assim no núcleo do modelo não é simples nem rápido. A matemática atual não é boa para garantir que o núcleo não quebre, por isso rodei isso e liberei os achados iniciais.

    • Escrevi uma seção inteira aqui mais uma subsequente e ia chegar à seção de achados, mas cliquei para trás no mouse e removeu tudo, então vou reescrever depois.

As grandes falhas:

  • A taxa de aprendizado estava MUITO ALTA para meus loras iniciais de 12k passos. Todo o sistema é baseado em aprendizado por gradiente sim, mas a taxa que ensinei foi ALTA DEMAIS para reter a informação sem quebrar o modelo. Simplificando, não os queimei, re treinei o modelo para fazer o que queria. O problema é que eu não sabia o que queria, então todo sistema baseava-se em coisas não direcionadas e sem profundidade de gradiente. Logo, estava fadado a falhar, mais passos ou não.

  • O ESTILO para FLUX não é o que as pessoas pensam que é baseado em PDXL e SD1.5. O sistema de gradiente estiliza sim, mas a estrutura toda sofre muito quando tenta impor INFORMAÇÃO DEMAIS rapidamente. É ALTAMENTE destrutivo comparado às loras PDXL que eram mais conjuntos de imposição. Elas aumentavam o que já existia muito mais do que treinar informações completamente novas.

Achados Críticos:

  • ALFA, ALFA, e MAIS ALFA<<<< Este sistema roda fortemente em gradientes alfa, não é brincadeira. Tudo DEVE ser tratado especificamente para lidar com gradientes alfa baseados em detalhes fotográficos. Distância, profundidade, proporção, rotação, offset, etc são peças integrais ao modelo e para criar um estilizador composicional adequado tudo precisa de mais que um único prompt.

  • TUDO deve ser descrito corretamente. Marcação simples danbooru é essencialmente estilo. Você força o sistema a reconhecer o estilo que quer implementar, então não pode impor conceitos novos sem incluir as tags adequadas de alocação de conceito. Senão o vinculador de estilo e conceito falha e dá lixo como saída. Lixo entra, lixo sai.

  • Treinamento de pose é ALTAMENTE potente usando grandes quantidades de informação de poses. O sistema JÁ reconhece a maioria das tags, só não sabemos quais ainda. Treinar poses para vincular o que EXISTE ao que VOCÊ QUER usando tags específicas será muito potente para organizar tags e afinar.

Documentação de Passos;

v2 - 5572 imagens -> 92 poses -> 4000 passos FLUX

  • O objetivo original de levar NAI ao SDXL agora foi aplicado ao FLUX também. Acompanhe as versões futuras.

  • Testes de estabilidade requeridos, até agora mostra capacidade distinta além do que o PDXL pode lidar. Precisa de treinamento adicional, mas é bem mais poderoso do que o esperado para essa baixa contagem de passos.

  • Acredito que a primeira camada de treinamento de pose usa cerca de 500 imagens, mais ou menos, então essa é a que mais pesa. Os dados completos serão liberados no HuggingFace quando juntar um conjunto organizado e a contagem. Não quero liberar imagens incorretas ou lixo que peguei.

Continue lendo aqui:

https://civitai.com/articles/6983/consistency-v1-2-pdxl-references-and-documentation-archive

Referências Importantes:

Eu não fumo, mas o FLUX precisa às vezes.

ComfyUI

  • Um fluxo de trabalho e assistente de geração de imagens. Usei principalmente os nodes básicos do ComfyUI, mas uso outros para experimentar e salvar.

Flux

  • Um modelo de IA poderoso e difícil de entender com enorme potencial.

NovelAI

  • Sem eles, eu nunca teria pensado em fazer isso. Um grande agradecimento a toda a equipe do NAI pelo trabalho árduo e pela potência monstruosa do gerador de imagens, junto com seu incrível assistente de escrita. Joguem dinheiro para eles.

Black Forest Labs

  • Criaram o Flux e merecem grande parte do crédito pela flexibilidade do modelo. Eu só estou refinando e direcionando o que é quase um leviatã para seu destino.

TagGUI

  • Um assistente de tags poderoso e potente. Quase escrevi o meu próprio até encontrar esta maravilha.

AIToolkit

  • Usei para treinar minhas versões Flux. É um pouco sensível e meio difícil, mas funciona bem em vários sistemas e faz o trabalho.

PonyDiffusion

  • Não posso esquecer o rival no campo de batalha. A besta é um monstro absoluto gerando imagens com enorme campo de gradiente, uma ferramenta valiosa para pesquisa e aprendizado, e grande inspiração para esta direção e progresso.

Anterior
Envy Starlight XL Olhos Lindos 01 - v1.0
Próximo
Illustrij - v14

Detalhes do Modelo

Tipo de modelo

LORA

Modelo base

Pony

Versão do modelo

Feminine v1.1 - e500 PDXL

Hash do modelo

3d81d2c150

Discussão

Por favor, faça log in para deixar um comentário.

Imagens por Old Consistency V32 Lora [FLUX1.D/PDXL] - Feminine v1.1 - e500 PDXL

Imagens com anime

Imagens com colorido

Imagens com conteúdo adulto

Imagens com estilo

Imagens com mulher