modelos/GPT-image-1 da OpenAI - 4o Image Gen 1

GPT-image-1 da OpenAI - 4o Image Gen 1

7/2/2025

1:30:17 AM

Palavras-chave e Tags Relacionadas

4o image gen 1,modelo base,checkpoint,geração de imagem gpt-4o,modelo de geração de imagem,aprendizado em contexto,seguimento de instruções,geração multi-turno,openai,openai's gpt-image-1,renderização de texto,theally,comunicação visual

Uma figura escura usando uma máscara de gás e um moletom laranja flamejante empunha uma katana infundida com estrelas brilhantes, contra um fundo vibrante de cidade apocalíptica em chamas em estilo spray paint com efeitos de desfoque de movimento.

Retrato de um homem louva-a-deus de regata sentado no sofá, bebendo cerveja, esfregando suas pernas cruzadas para criar notas musicais brilhantes.

Um personagem com tema de brócolis parecido com Shrek está ao lado de uma cabana folhosa em um pântano luxuriante de brócolis cercado por árvores e plantas verdes.

Uma silhueta humana sombria e escura com olhos brilhantes e rosto gritando abrindo o peito, revelando inúmeras aranhas saindo sob um poste de luz.

Um homem vestido extravagantemente com um terno verde e cartola está de braços abertos sorrindo dentro de uma estufa cheia de árvores e plantas que lembram brócolis abstratos, com texto amarelo dizendo 'Bem-vindo ao Broccoliarium!'

Uma cobra realista de flor de cerejeira com o corpo coberto por flores rosas de flor de cerejeira, olhos neon violeta brilhantes, enrolada na base de uma cerejeira escura em meio a folhas de outono.

Quadrinho de dois painéis intitulado Sistema de Avaliação do Civitai apresentando um pinguim fofo usando um laptop felizmente e um robô azul preocupado rotulado Civita olhando para a tela de um computador.

Uma representação digital vibrante de um veado laranja com grandes galhos segurando quatro pássaros astronautas coloridos, em um fundo cósmico azul profundo cheio de estrelas e galáxias.

Um caçador de demônios de olhos selvagens, barba rosa e grandes chifres curvos com olhos verdes brilhantes agacha-se em uma floresta escura, segurando um favo de mel coberto de mel pegajoso pingando.

Dicas

Use a geração multi-turno do GPT-4o para refinar imagens através de conversas naturais para iterações de design consistentes.

Aproveite a habilidade do GPT-4o de mesclar símbolos precisos com imagens para melhorar a comunicação visual.

Utilize o aprendizado em contexto carregando imagens para informar e aprimorar novas gerações de imagens.

Consulte o guia para usar o GPT Image 1 para dicas adicionais de uso.

Patrocinadores do Criador

Originalmente detalhado em - https://openai.com/index/introducing-4o-image-generation/

Atualização 08/05: Lançamos um seletor de qualidade e ajustamos os preços! Agora imagens de qualidade Média custam 100 Buzz ⚡

Confira nosso Guia para usar o GPT Image 1!

Originalmente detalhado em - https://openai.com/index/introducing-4o-image-generation/

Atualização 08/05: Lançamos um seletor de qualidade e ajustamos os preços! Agora imagens de qualidade Média custam 100 Buzz ⚡

Confira nosso Guia para usar o GPT Image 1!

Geração de imagem útil

Desde as primeiras pinturas rupestres até infográficos modernos, os humanos usam imagens visuais para comunicar, persuadir e analisar — não apenas para decorar. Os modelos generativos atuais podem criar cenas surreais e impressionantes, mas têm dificuldade com imagens básicas que as pessoas usam para compartilhar e criar informações. De logotipos a diagramas, as imagens podem transmitir significado preciso quando amplificadas com símbolos que se referem a uma linguagem e experiência compartilhadas.

A geração de imagem GPT‑4o se destaca na renderização exata de texto, seguimento preciso dos prompts e aproveitamento da base de conhecimento inerente ao 4o e do contexto do chat — incluindo transformação de imagens carregadas ou uso delas como inspiração visual. Essas capacidades facilitam a criação da imagem exatamente como você imagina, ajudando a comunicar mais efetivamente através de imagens e avançando a geração de imagens para uma ferramenta prática com precisão e potência.

Capacidades aprimoradas

Treinamos nossos modelos na distribuição conjunta de imagens e textos online, aprendendo não apenas como as imagens se relacionam com a linguagem, mas como se relacionam entre si. Combinado com pós-treinamento agressivo, o modelo resultante possui fluência visual surpreendente, capaz de gerar imagens úteis, consistentes e conscientes do contexto.

Renderização de texto

Uma imagem vale mais que mil palavras, mas às vezes gerar algumas palavras no lugar certo pode elevar o significado de uma imagem. A habilidade do 4o de mesclar símbolos precisos com imagens transforma a geração de imagem em uma ferramenta para comunicação visual.

Geração multi-turno

Como a geração de imagens é nativa do GPT‑4o, você pode refinar imagens através de conversas naturais. O GPT‑4o pode construir sobre imagens e texto no contexto do chat, garantindo consistência ao longo do processo. Por exemplo, se você estiver desenhando um personagem de videogame, a aparência do personagem permanece coerente em várias iterações enquanto você refina e experimenta.

Seguimento de instruções

A geração de imagens do GPT‑4o segue prompts detalhados com atenção cuidadosa. Enquanto outros sistemas têm dificuldades com cerca de 5-8 objetos, o GPT‑4o pode lidar com até 10-20 objetos diferentes. A ligação mais estreita dos objetos com seus traços e relações permite melhor controle.

Aprendizado em contexto

O GPT‑4o pode analisar e aprender a partir de imagens enviadas pelo usuário, integrando seus detalhes perfeitamente ao contexto para informar a geração de imagens.

Segurança

Em conformidade com nossa Especificação do Modelo, buscamos maximizar a liberdade criativa apoiando casos de uso valiosos como desenvolvimento de jogos, exploração histórica e educação — enquanto mantemos padrões rígidos de segurança. Ao mesmo tempo, é sempre crucial bloquear solicitações que violem esses padrões. Abaixo estão avaliações de áreas de risco adicionais onde trabalhamos para viabilizar conteúdo seguro e de alta utilidade e apoiar expressão criativa mais ampla para os usuários.

Proveniência via C2PA e busca reversível interna
Todas as imagens geradas possuem metadados C2PA⁠, que identificam a imagem como proveniente do GPT‑4o, para proporcionar transparência. Também criamos uma ferramenta de busca interna que usa atributos técnicos das gerações para ajudar a verificar se o conteúdo veio do nosso modelo.

Bloqueando conteúdos inadequados
Continuamos a bloquear solicitações de imagens geradas que possam violar nossas políticas de conteúdo, como materiais de abuso sexual infantil e deepfakes sexuais. Quando imagens de pessoas reais estão no contexto, temos restrições aumentadas sobre que tipo de imagens podem ser criadas, com salvaguardas particularmente robustas em torno de nudez e violência gráfica. Como em qualquer lançamento, a segurança é um trabalho contínuo e uma área constante de investimento. Conforme aprendemos mais sobre o uso real deste modelo, ajustaremos nossas políticas conforme necessário.

Para mais informações sobre nossa abordagem, visite o adendo para geração de imagem do GPT‑4o⁠.

Usando raciocínio para impulsionar a segurança
Semelhante ao nosso trabalho de alinhamento deliberativo⁠, treinamos um LLM de raciocínio para trabalhar diretamente com especificações de segurança humanas e interpretáveis. Usamos esse LLM de raciocínio durante o desenvolvimento para ajudar a identificar e resolver ambiguidades em nossas políticas. Juntamente com nossos avanços multimodais e técnicas de segurança já desenvolvidas para ChatGPT e Sora, isso nos permite moderar⁠ tanto o texto de entrada quanto imagens de saída segundo nossas políticas.

Colaborador

João Silva

Olá! Sou o João Silva. Especialista em curadoria visual, utilizo minha experiência em fotografia para aprimorar cada criação de IA exibida na galeria.

"Delicate Balance" Estilo Semi-realista [Flux.1 D] por AutoPastel - V1

Plant Milk 🌿 - Pacote de Modelos - Walnut

Usar este modelo