modelos/Fotografia Amadora [Flux Dev] - v2.0

Fotografia Amadora [Flux Dev] - v2.0

João Silva

7/19/2025

2:25:49 PM

| Discussion|

Palavras-chave e Tags Relacionadas

Mulher de biquíni branco e óculos de sol relaxando em um iate com o horizonte de Miami ao fundo sob um céu ensolarado

Mulher em vestido vermelho brilhante com óculos escuros pretos e cabelo volumoso, em pé ao lado de um Lamborghini vermelho sob luzes de neon em Miami à noite.

Mulher vestindo terno branco e óculos escuros em frente a palmeiras de Miami e arranha-céus de escritórios sob um céu azul claro, vista de um ângulo baixo.

Policial no estilo dos anos 1980 usando óculos escuros e bigode preto, encostado em um carro de polícia branco em Miami, segurando um donut com cobertura rosa com palmeiras e prédio de escritórios ao fundo.

Prompts Recomendados

Full body shot photo of,Medium shot photo of,Selfie photo of,Close-up photo of,photo,photograph,Amateur photography of <Subject Description>, <Scene Description>, <Image Quality Tags>, on flickr in 2007, 2005 blog, 2007 blog,Shot on iPhone photo of,This Image features

2005 blog

Parâmetros Recomendados

samplers

DEIS with DDIM, Heun with BETA, [Forge] Flux Realistic (Slow) with Beta / DDIM, Heun

steps

20 - 40

cfg

1 - 4

resolution

896x1152, 1344x1728, 1248x1824, 1440x1800, 1152x896, 1024x1024, 896x1152

other models

amateurphotov2-000049 (771781fd6719), flux1-dev-Q8_0 (52cfce60d7)

Parâmetros Recomendados para Alta Resolução

upscaler

4x_NMKD-Superscale-SP_178000_G, 4x ultrasharp

upscale

1.5 - null

steps

Dicas

Você deve experimentar o Peso da Lora baseado em seus prompts; pesos recomendados variam de 0.3-0.5 a 0.6-1 dependendo da versão.

Prompts detalhados relacionados a fotografia guiam melhor o modelo; use termos como foto, fotografia, ou inclua tipos de câmera ou datas.

Se surgirem problemas com mãos, texto, pessoas no fundo ou textura da pele, tente reduzir o peso da Lora.

Você também pode gerar diretamente em resoluções mais altas como 1344x1728 se seu equipamento permitir.

Legendas do conjunto de dados foram criadas usando GPT4o; legendas detalhadas dão os melhores resultados.

Destaques da Versão

Prompt GPT4o:

Estou planejando treinar um LoRA para o modelo Stable Diffusion texto-para-imagem, que usa o transformador T5XXL em sua arquitetura. Os prompts devem estar em linguagem natural e seguir um formato específico. Vou enviar imagens e preciso que me ajude a criar prompts detalhados baseados nessas imagens. Os prompts devem começar com "Fotografia amadora de" e terminar com "no flickr em 2007, blog de 2005, blog de 2007." Sempre me forneça o prompt em um único parágrafo.

O formato deve ser:

Descrição do Sujeito: Comece descrevendo todas as pessoas na imagem em detalhe. É muito importante incluir raça e etnia, atributos físicos (como altura, estrutura, tom de pele e cor do cabelo), características faciais, roupa e quaisquer expressões ou poses que estejam fazendo. Seja o mais específico possível. Sempre inclua a estrutura dos sujeitos (ex.: plus size, magro, pequeno), sem deixar de lado.

Descrição da Cena: Transmita com precisão o que exatamente as pessoas estão fazendo na foto. Descreva o cenário, elementos do fundo, quaisquer objetos com os quais estejam interagindo e o ambiente geral (urbano, rural, interior, exterior, etc.).

Tags de Qualidade da Imagem: Inclua tags descritivas que destacam a qualidade da imagem. Use termos como leve desfoque de movimento, fundo confuso, tons quentes, luz natural brilhante, alto contraste, cores vivas, etc. Essas tags também devem refletir o humor e a sensação da imagem.

O resultado final deve combinar todos esses elementos em um prompt detalhado e coeso que reflita com precisão a imagem.

Olá a todos, por favor leiam isto antes de usar a Lora

Configurações Recomendadas (v6):

Escala CFG Destilada: 3.5
Método de amostragem e tipo de cronograma: DEIS com DDIM
Passos: 20
Resolução: 896x1152
- Modelo hires fix: 4x_NMKD-Superscale-SP_178000_G
- Passos: 10
- Denoise: 0.3
- Upscale por: 1.5
Peso da Lora: 0.8. Você deve experimentar baseado em seus prompts

Configurações Recomendadas (v5-final):

Escala CFG Destilada: 2.5 a 4
Método de amostragem e tipo de cronograma: Heun com BETA ou DEIS com DDIM ou [Forge] Flux Realistic (Lento) com Beta / DDIM
Passos: >=20 (Às vezes uso 20, 30, 35 ou 40 - Você deve verificar em quantos passos a imagem converge - Portanto, experimente por conta própria)
Resolução: 896x1152 (Garanti que funciona nesta resolução já que alguns de vocês não gostaram quando sugeri gerar em resoluções altas) - Mas você precisa usar hiresfix. Abaixo estão as configurações que usei nos meus exemplos
- Hires. fix: 4x ultrasharp, denoise 0.4, 10 passos (Não sou o melhor em upscale. Se você tem outros métodos de upscale, pode usar)
- Você também pode gerar diretamente em 1344x1728 se puder
Checkpoint: flux1-dev-Q8_0.gguf (Uso o Q8. Não testo esta Lora com FP8 ou Q4 ou outros quants)
Peso da Lora: 0.3-0.5. Você deve experimentar baseado em seus prompts
Prompt Positivo: Não é necessário palavra de gatilho. Mas você deve usar alguns termos fotográficos para guiar o Flux (como foto, fotografia etc.). Você pode começar com os abaixo. É assim que etiquetei o conjunto de dados de treinamento
- Foto de corpo inteiro de
- Foto em plano médio de
- Selfie de
- Foto em close-up de
- Ou o que quiser (ajuste os passos, peso baseado no seu prompt). Prompts detalhados ainda funcionam melhor

Problemas: Se acontecer, por favor reduza o peso
- Mãos
- Texto
- Pessoas no fundo
- Textura da pele - não é perfeita. Também não gosto disso. Estou tentando encontrar maneiras de melhorar

Gostaria de agradecer a todos que deram gorjetas ao Buzz e tornaram esta versão possível. Menções honrosas:

plectrudecatastrophe
Paper_Cranes
congo2008

Configurações Recomendadas (v4-soap-testing e v5-beta):

Escala CFG Destilada: 2.5 a 4
Método de amostragem e tipo de cronograma: Heun com BETA ou DEIS com DDIM ou [Forge] Flux Realistic (Lento) com Beta / DDIM
Passos: >=20 (Às vezes uso 20, 30, 35 ou 40 - Você deve verificar em quantos passos a imagem converge - Portanto, experimente por conta própria)
Resolução: 1344x1728 ou 1248x1824 ou 1440x1800. 896x1152 também funciona, mas é preciso usar hires fix
Checkpoint: flux1-dev-Q8_0.gguf (Uso o Q8. Não testo esta Lora com FP8 ou Q4 ou outros quants)
Peso da Lora: 0.3-0.5 é o ponto ideal
Prompt Positivo: Essas 2 versões não precisam de palavra de gatilho. Você pode usar foto de, pode usar fotografia de, pode usar Shot on iPhone photo of, pode usar This Image features ou qualquer coisa que quiser (veja os exemplos postados por outros - alguns usam tipos diferentes de prompts e ainda têm bons resultados) mas após muitos testes, tive muito bons resultados com a palavra de gatilho que adicionei no lado direito desta página. Se quiser usar, pode, se não, use o que desejar. Tenha em mente que o conjunto de dados ainda é legendado usando GPT4O, então prompts detalhados sempre dão os melhores resultados

Gostaria de agradecer a todos que deram gorjetas ao Buzz e tornaram esta versão possível. Menções honrosas:

kudzueye

Configurações Recomendadas (v3 e v2):

Escala CFG Destilada: 2.5 a 4
Método de amostragem e tipo de cronograma: Heun com BETA ou DEIS com DDIM ou [Forge] Flux Realistic (Lento) com Beta / DDIM
Passos: >=20 (Às vezes uso 20, 30, 35 ou 40 - Você deve verificar em quantos passos a imagem converge - Portanto, experimente por conta própria)
Resolução: 896x1152 ou 1152x896 ou 1024x1024 (Você pode gerar em resoluções mais altas também. Flux e esta lora conseguem lidar)
Checkpoint: flux1-dev-Q8_0.gguf (Uso o Q8. Não testo esta Lora com FP8 ou Q4 ou outros quants)
Peso da Lora: 0.6-1
Prompt Positivo: Se outros prompts funcionam para você com esta Lora, apenas use-os. Estou apenas destacando como testo a Lora. Vi várias imagens aqui e no Reddit onde pessoas usam diferentes tipos de prompts
- Sempre comece com "Fotografia amadora de" e termine com "no flickr em 2007, blog de 2005, blog de 2007"
  - O prompt deve estar neste formato para obter os melhores resultados: Fotografia amadora de <Descrição do Sujeito>, <Descrição da Cena>, <Tags de Qualidade da Imagem>, no flickr em 2007, blog de 2005, blog de 2007

Como foi legendado o Conjunto de Dados?:

Eu legendava o conjunto de dados de treinamento usando GPT4o. Legendas detalhadas funcionam melhor com esta Lora

Se você gosta desta lora e pode doar para Buzz, será muito apreciado

Se você não gosta e tem feedback construtivo, por favor deixe um comentário explicando onde está com dificuldades e tentarei corrigir na próxima versão

Se não tem nenhum feedback construtivo e só quer reclamar desta Lora, leve seus comentários para outro lugar

Colaborador

João Silva

Olá! Sou o João Silva. Especialista em curadoria visual, utilizo minha experiência em fotografia para aprimorar cada criação de IA exibida na galeria.

chromeBot retrato de robôs/ciborgues - v0.1

Retratos Detalhados do Vagante | FLUX - v1.0

Usar este modelo