modelos/GPT-image-1 da OpenAI - 4o Image Gen 1

GPT-image-1 da OpenAI - 4o Image Gen 1

7/2/2025

1:30:17 AM

Palavras-chave e Tags Relacionadas

4o image gen 1,modelo base,checkpoint,geração de imagem gpt-4o,modelo de geração de imagem,aprendizado em contexto,seguimento de instruções,geração multi-turno,openai,openai's gpt-image-1,renderização de texto,theally,comunicação visual

Quadrinho de quatro painéis mostrando uma mulher de cabelo azul acusando um axolote triste de não ser arte real, apontando em vez disso para uma banana colada com fita, um ventilador de caixa e uma estátua na Times Square, com o axolote chorando e concordando.

Coragem, o Cão Covarde fazendo sua expressão icônica de grito contra um fundo vibrante e turbulento inspirado na pintura O Grito de Edvard Munch.

Cena colorida de criaturas alienígenas enfileiradas em um caminhão de sorvete futurista rosa com uma cobertura amarela em estilo de livro infantil com cores psicodélicas CMYK e linha clara.

Uma android steampunk feminina com superfícies de latão envelhecido e cobre em estilo de retrato pintado a óleo, exibindo uma expressão surpresa de olhos arregalados contra um fundo escuro e texturizado.

Silhueta de um lutador de karate realizando um chute no ar diante de um sol vermelho marcante, retratado com pinceladas de respingos de tinta no estilo japonês minimalista sumi-e.

Recorte de papelão 3D do Pyramid Head arrastando uma grande lâmina, criando uma fissura com luz laranja brilhante e mãos assustadoras, sobre uma mesa de madeira com um cenário em miniatura da cidade de Silent Hill e uma placa.

Diorama tridimensional de caverna Minecraft em papelão apresentando minérios realistas, inimigos em camadas incluindo creeper, slime, esqueleto e enderman, iluminado por pequenas tochas.

Silhueta de um tiefling rogue wizard segurando um orbe brilhante, em um ambiente pós-apocalíptico dessaturado com iluminação suave e estruturas em ruínas.

Pintura a óleo hiper-realista de uma heroína gótica-punk com cabelo preto espigado, olhos de esmeralda e desafio brincalhão, usando pulseiras de couro e meias arrastão.

Um sushi em forma de pinguim fofo, feito de arroz, alga nori, fatias de salmão e pedaços amarelos de ovo, apresentado em uma tábua de madeira.

Obra de arte surreal que retrata cinco figuras estilizadas com penteados únicos e roupas com padrões marcantes contra um fundo de floresta fantasiosa e sombria.

Pintura a óleo de fantasia sombria apresentando uma criatura eldritch com forma esquelética e tentáculos pairando de forma ameaçadora sobre dois adultos assustados, um homem e uma mulher.

Dicas

Use a geração multi-turno do GPT-4o para refinar imagens através de conversas naturais para iterações de design consistentes.

Aproveite a habilidade do GPT-4o de mesclar símbolos precisos com imagens para melhorar a comunicação visual.

Utilize o aprendizado em contexto carregando imagens para informar e aprimorar novas gerações de imagens.

Consulte o guia para usar o GPT Image 1 para dicas adicionais de uso.

Patrocinadores do Criador

Originalmente detalhado em - https://openai.com/index/introducing-4o-image-generation/

Atualização 08/05: Lançamos um seletor de qualidade e ajustamos os preços! Agora imagens de qualidade Média custam 100 Buzz ⚡

Confira nosso Guia para usar o GPT Image 1!

Originalmente detalhado em - https://openai.com/index/introducing-4o-image-generation/

Atualização 08/05: Lançamos um seletor de qualidade e ajustamos os preços! Agora imagens de qualidade Média custam 100 Buzz ⚡

Confira nosso Guia para usar o GPT Image 1!

Geração de imagem útil

Desde as primeiras pinturas rupestres até infográficos modernos, os humanos usam imagens visuais para comunicar, persuadir e analisar — não apenas para decorar. Os modelos generativos atuais podem criar cenas surreais e impressionantes, mas têm dificuldade com imagens básicas que as pessoas usam para compartilhar e criar informações. De logotipos a diagramas, as imagens podem transmitir significado preciso quando amplificadas com símbolos que se referem a uma linguagem e experiência compartilhadas.

A geração de imagem GPT‑4o se destaca na renderização exata de texto, seguimento preciso dos prompts e aproveitamento da base de conhecimento inerente ao 4o e do contexto do chat — incluindo transformação de imagens carregadas ou uso delas como inspiração visual. Essas capacidades facilitam a criação da imagem exatamente como você imagina, ajudando a comunicar mais efetivamente através de imagens e avançando a geração de imagens para uma ferramenta prática com precisão e potência.

Capacidades aprimoradas

Treinamos nossos modelos na distribuição conjunta de imagens e textos online, aprendendo não apenas como as imagens se relacionam com a linguagem, mas como se relacionam entre si. Combinado com pós-treinamento agressivo, o modelo resultante possui fluência visual surpreendente, capaz de gerar imagens úteis, consistentes e conscientes do contexto.

Renderização de texto

Uma imagem vale mais que mil palavras, mas às vezes gerar algumas palavras no lugar certo pode elevar o significado de uma imagem. A habilidade do 4o de mesclar símbolos precisos com imagens transforma a geração de imagem em uma ferramenta para comunicação visual.

Geração multi-turno

Como a geração de imagens é nativa do GPT‑4o, você pode refinar imagens através de conversas naturais. O GPT‑4o pode construir sobre imagens e texto no contexto do chat, garantindo consistência ao longo do processo. Por exemplo, se você estiver desenhando um personagem de videogame, a aparência do personagem permanece coerente em várias iterações enquanto você refina e experimenta.

Seguimento de instruções

A geração de imagens do GPT‑4o segue prompts detalhados com atenção cuidadosa. Enquanto outros sistemas têm dificuldades com cerca de 5-8 objetos, o GPT‑4o pode lidar com até 10-20 objetos diferentes. A ligação mais estreita dos objetos com seus traços e relações permite melhor controle.

Aprendizado em contexto

O GPT‑4o pode analisar e aprender a partir de imagens enviadas pelo usuário, integrando seus detalhes perfeitamente ao contexto para informar a geração de imagens.

Segurança

Em conformidade com nossa Especificação do Modelo, buscamos maximizar a liberdade criativa apoiando casos de uso valiosos como desenvolvimento de jogos, exploração histórica e educação — enquanto mantemos padrões rígidos de segurança. Ao mesmo tempo, é sempre crucial bloquear solicitações que violem esses padrões. Abaixo estão avaliações de áreas de risco adicionais onde trabalhamos para viabilizar conteúdo seguro e de alta utilidade e apoiar expressão criativa mais ampla para os usuários.

Proveniência via C2PA e busca reversível interna
Todas as imagens geradas possuem metadados C2PA⁠, que identificam a imagem como proveniente do GPT‑4o, para proporcionar transparência. Também criamos uma ferramenta de busca interna que usa atributos técnicos das gerações para ajudar a verificar se o conteúdo veio do nosso modelo.

Bloqueando conteúdos inadequados
Continuamos a bloquear solicitações de imagens geradas que possam violar nossas políticas de conteúdo, como materiais de abuso sexual infantil e deepfakes sexuais. Quando imagens de pessoas reais estão no contexto, temos restrições aumentadas sobre que tipo de imagens podem ser criadas, com salvaguardas particularmente robustas em torno de nudez e violência gráfica. Como em qualquer lançamento, a segurança é um trabalho contínuo e uma área constante de investimento. Conforme aprendemos mais sobre o uso real deste modelo, ajustaremos nossas políticas conforme necessário.

Para mais informações sobre nossa abordagem, visite o adendo para geração de imagem do GPT‑4o⁠.

Usando raciocínio para impulsionar a segurança
Semelhante ao nosso trabalho de alinhamento deliberativo⁠, treinamos um LLM de raciocínio para trabalhar diretamente com especificações de segurança humanas e interpretáveis. Usamos esse LLM de raciocínio durante o desenvolvimento para ajudar a identificar e resolver ambiguidades em nossas políticas. Juntamente com nossos avanços multimodais e técnicas de segurança já desenvolvidas para ChatGPT e Sora, isso nos permite moderar⁠ tanto o texto de entrada quanto imagens de saída segundo nossas políticas.

Colaborador

João Silva

Olá! Sou o João Silva. Especialista em curadoria visual, utilizo minha experiência em fotografia para aprimorar cada criação de IA exibida na galeria.

"Delicate Balance" Estilo Semi-realista [Flux.1 D] por AutoPastel - V1

Plant Milk 🌿 - Pacote de Modelos - Walnut

Usar este modelo