Fotografia Amadora [Flux Dev] - v2.0
Palavras-chave e Tags Relacionadas
Prompts Recomendados
Full body shot photo of,Medium shot photo of,Selfie photo of,Close-up photo of,photo,photograph,Amateur photography of <Subject Description>, <Scene Description>, <Image Quality Tags>, on flickr in 2007, 2005 blog, 2007 blog,Shot on iPhone photo of,This Image features
2005 blog
Parâmetros Recomendados
samplers
steps
cfg
resolution
other models
Parâmetros Recomendados para Alta Resolução
upscaler
upscale
steps
Dicas
Você deve experimentar o Peso da Lora baseado em seus prompts; pesos recomendados variam de 0.3-0.5 a 0.6-1 dependendo da versão.
Prompts detalhados relacionados a fotografia guiam melhor o modelo; use termos como foto, fotografia, ou inclua tipos de câmera ou datas.
Se surgirem problemas com mãos, texto, pessoas no fundo ou textura da pele, tente reduzir o peso da Lora.
Você também pode gerar diretamente em resoluções mais altas como 1344x1728 se seu equipamento permitir.
Legendas do conjunto de dados foram criadas usando GPT4o; legendas detalhadas dão os melhores resultados.
Destaques da Versão
Prompt GPT4o:
Estou planejando treinar um LoRA para o modelo Stable Diffusion texto-para-imagem, que usa o transformador T5XXL em sua arquitetura. Os prompts devem estar em linguagem natural e seguir um formato específico. Vou enviar imagens e preciso que me ajude a criar prompts detalhados baseados nessas imagens. Os prompts devem começar com "Fotografia amadora de" e terminar com "no flickr em 2007, blog de 2005, blog de 2007." Sempre me forneça o prompt em um único parágrafo.O formato deve ser:Descrição do Sujeito: Comece descrevendo todas as pessoas na imagem em detalhe. É muito importante incluir raça e etnia, atributos físicos (como altura, estrutura, tom de pele e cor do cabelo), características faciais, roupa e quaisquer expressões ou poses que estejam fazendo. Seja o mais específico possível. Sempre inclua a estrutura dos sujeitos (ex.: plus size, magro, pequeno), sem deixar de lado.Descrição da Cena: Transmita com precisão o que exatamente as pessoas estão fazendo na foto. Descreva o cenário, elementos do fundo, quaisquer objetos com os quais estejam interagindo e o ambiente geral (urbano, rural, interior, exterior, etc.).Tags de Qualidade da Imagem: Inclua tags descritivas que destacam a qualidade da imagem. Use termos como leve desfoque de movimento, fundo confuso, tons quentes, luz natural brilhante, alto contraste, cores vivas, etc. Essas tags também devem refletir o humor e a sensação da imagem.O resultado final deve combinar todos esses elementos em um prompt detalhado e coeso que reflita com precisão a imagem.Olá a todos, por favor leiam isto antes de usar a Lora
Configurações Recomendadas (v6):
Escala CFG Destilada: 3.5
Método de amostragem e tipo de cronograma: DEIS com DDIM
Passos: 20
Resolução: 896x1152
Modelo hires fix: 4x_NMKD-Superscale-SP_178000_G
Passos: 10
Denoise: 0.3
Upscale por: 1.5
Peso da Lora: 0.8. Você deve experimentar baseado em seus prompts
Configurações Recomendadas (v5-final):
Escala CFG Destilada: 2.5 a 4
Método de amostragem e tipo de cronograma: Heun com BETA ou DEIS com DDIM ou [Forge] Flux Realistic (Lento) com Beta / DDIM
Passos: >=20 (Às vezes uso 20, 30, 35 ou 40 - Você deve verificar em quantos passos a imagem converge - Portanto, experimente por conta própria)
Resolução: 896x1152 (Garanti que funciona nesta resolução já que alguns de vocês não gostaram quando sugeri gerar em resoluções altas) - Mas você precisa usar hiresfix. Abaixo estão as configurações que usei nos meus exemplos
Hires. fix: 4x ultrasharp, denoise 0.4, 10 passos (Não sou o melhor em upscale. Se você tem outros métodos de upscale, pode usar)
Você também pode gerar diretamente em 1344x1728 se puder
Checkpoint: flux1-dev-Q8_0.gguf (Uso o Q8. Não testo esta Lora com FP8 ou Q4 ou outros quants)
Peso da Lora: 0.3-0.5. Você deve experimentar baseado em seus prompts
Prompt Positivo: Não é necessário palavra de gatilho. Mas você deve usar alguns termos fotográficos para guiar o Flux (como foto, fotografia etc.). Você pode começar com os abaixo. É assim que etiquetei o conjunto de dados de treinamento
Foto de corpo inteiro de
Foto em plano médio de
Selfie de
Foto em close-up de
Ou o que quiser (ajuste os passos, peso baseado no seu prompt). Prompts detalhados ainda funcionam melhor
Problemas: Se acontecer, por favor reduza o peso
Mãos
Texto
Pessoas no fundo
Textura da pele - não é perfeita. Também não gosto disso. Estou tentando encontrar maneiras de melhorar
Gostaria de agradecer a todos que deram gorjetas ao Buzz e tornaram esta versão possível. Menções honrosas:
plectrudecatastrophe
Paper_Cranes
congo2008
Configurações Recomendadas (v4-soap-testing e v5-beta):
Escala CFG Destilada: 2.5 a 4
Método de amostragem e tipo de cronograma: Heun com BETA ou DEIS com DDIM ou [Forge] Flux Realistic (Lento) com Beta / DDIM
Passos: >=20 (Às vezes uso 20, 30, 35 ou 40 - Você deve verificar em quantos passos a imagem converge - Portanto, experimente por conta própria)
Resolução: 1344x1728 ou 1248x1824 ou 1440x1800. 896x1152 também funciona, mas é preciso usar hires fix
Checkpoint: flux1-dev-Q8_0.gguf (Uso o Q8. Não testo esta Lora com FP8 ou Q4 ou outros quants)
Peso da Lora: 0.3-0.5 é o ponto ideal
Prompt Positivo: Essas 2 versões não precisam de palavra de gatilho. Você pode usar foto de, pode usar fotografia de, pode usar Shot on iPhone photo of, pode usar This Image features ou qualquer coisa que quiser (veja os exemplos postados por outros - alguns usam tipos diferentes de prompts e ainda têm bons resultados) mas após muitos testes, tive muito bons resultados com a palavra de gatilho que adicionei no lado direito desta página. Se quiser usar, pode, se não, use o que desejar. Tenha em mente que o conjunto de dados ainda é legendado usando GPT4O, então prompts detalhados sempre dão os melhores resultados
Gostaria de agradecer a todos que deram gorjetas ao Buzz e tornaram esta versão possível. Menções honrosas:
kudzueye
Configurações Recomendadas (v3 e v2):
Escala CFG Destilada: 2.5 a 4
Método de amostragem e tipo de cronograma: Heun com BETA ou DEIS com DDIM ou [Forge] Flux Realistic (Lento) com Beta / DDIM
Passos: >=20 (Às vezes uso 20, 30, 35 ou 40 - Você deve verificar em quantos passos a imagem converge - Portanto, experimente por conta própria)
Resolução: 896x1152 ou 1152x896 ou 1024x1024 (Você pode gerar em resoluções mais altas também. Flux e esta lora conseguem lidar)
Checkpoint: flux1-dev-Q8_0.gguf (Uso o Q8. Não testo esta Lora com FP8 ou Q4 ou outros quants)
Peso da Lora: 0.6-1
Prompt Positivo: Se outros prompts funcionam para você com esta Lora, apenas use-os. Estou apenas destacando como testo a Lora. Vi várias imagens aqui e no Reddit onde pessoas usam diferentes tipos de prompts
Sempre comece com "Fotografia amadora de" e termine com "no flickr em 2007, blog de 2005, blog de 2007"
O prompt deve estar neste formato para obter os melhores resultados: Fotografia amadora de <Descrição do Sujeito>, <Descrição da Cena>, <Tags de Qualidade da Imagem>, no flickr em 2007, blog de 2005, blog de 2007
Como foi legendado o Conjunto de Dados?:
Eu legendava o conjunto de dados de treinamento usando GPT4o. Legendas detalhadas funcionam melhor com esta Lora
Se você gosta desta lora e pode doar para Buzz, será muito apreciado
Se você não gosta e tem feedback construtivo, por favor deixe um comentário explicando onde está com dificuldades e tentarei corrigir na próxima versão
Se não tem nenhum feedback construtivo e só quer reclamar desta Lora, leve seus comentários para outro lugar
Detalhes do Modelo
Tipo de modelo
Modelo base
Versão do modelo
Hash do modelo
Palavras treinadas
Criador
Discussão
Por favor, faça log in para deixar um comentário.






