GPT-image-1 da OpenAI - 4o Image Gen 1
Dicas
Use a geração multi-turno do GPT-4o para refinar imagens através de conversas naturais para iterações de design consistentes.
Aproveite a habilidade do GPT-4o de mesclar símbolos precisos com imagens para melhorar a comunicação visual.
Utilize o aprendizado em contexto carregando imagens para informar e aprimorar novas gerações de imagens.
Consulte o guia para usar o GPT Image 1 para dicas adicionais de uso.
Patrocinadores do Criador
Originalmente detalhado em - https://openai.com/index/introducing-4o-image-generation/
Atualização 08/05: Lançamos um seletor de qualidade e ajustamos os preços! Agora imagens de qualidade Média custam 100 Buzz ⚡
Confira nosso Guia para usar o GPT Image 1!
Originalmente detalhado em - https://openai.com/index/introducing-4o-image-generation/
Atualização 08/05: Lançamos um seletor de qualidade e ajustamos os preços! Agora imagens de qualidade Média custam 100 Buzz ⚡
Confira nosso Guia para usar o GPT Image 1!
Geração de imagem útil
Desde as primeiras pinturas rupestres até infográficos modernos, os humanos usam imagens visuais para comunicar, persuadir e analisar — não apenas para decorar. Os modelos generativos atuais podem criar cenas surreais e impressionantes, mas têm dificuldade com imagens básicas que as pessoas usam para compartilhar e criar informações. De logotipos a diagramas, as imagens podem transmitir significado preciso quando amplificadas com símbolos que se referem a uma linguagem e experiência compartilhadas.
A geração de imagem GPT‑4o se destaca na renderização exata de texto, seguimento preciso dos prompts e aproveitamento da base de conhecimento inerente ao 4o e do contexto do chat — incluindo transformação de imagens carregadas ou uso delas como inspiração visual. Essas capacidades facilitam a criação da imagem exatamente como você imagina, ajudando a comunicar mais efetivamente através de imagens e avançando a geração de imagens para uma ferramenta prática com precisão e potência.
Capacidades aprimoradas
Treinamos nossos modelos na distribuição conjunta de imagens e textos online, aprendendo não apenas como as imagens se relacionam com a linguagem, mas como se relacionam entre si. Combinado com pós-treinamento agressivo, o modelo resultante possui fluência visual surpreendente, capaz de gerar imagens úteis, consistentes e conscientes do contexto.
Renderização de texto
Uma imagem vale mais que mil palavras, mas às vezes gerar algumas palavras no lugar certo pode elevar o significado de uma imagem. A habilidade do 4o de mesclar símbolos precisos com imagens transforma a geração de imagem em uma ferramenta para comunicação visual.
Geração multi-turno
Como a geração de imagens é nativa do GPT‑4o, você pode refinar imagens através de conversas naturais. O GPT‑4o pode construir sobre imagens e texto no contexto do chat, garantindo consistência ao longo do processo. Por exemplo, se você estiver desenhando um personagem de videogame, a aparência do personagem permanece coerente em várias iterações enquanto você refina e experimenta.
Seguimento de instruções
A geração de imagens do GPT‑4o segue prompts detalhados com atenção cuidadosa. Enquanto outros sistemas têm dificuldades com cerca de 5-8 objetos, o GPT‑4o pode lidar com até 10-20 objetos diferentes. A ligação mais estreita dos objetos com seus traços e relações permite melhor controle.
Aprendizado em contexto
O GPT‑4o pode analisar e aprender a partir de imagens enviadas pelo usuário, integrando seus detalhes perfeitamente ao contexto para informar a geração de imagens.
Segurança
Em conformidade com nossa Especificação do Modelo, buscamos maximizar a liberdade criativa apoiando casos de uso valiosos como desenvolvimento de jogos, exploração histórica e educação — enquanto mantemos padrões rígidos de segurança. Ao mesmo tempo, é sempre crucial bloquear solicitações que violem esses padrões. Abaixo estão avaliações de áreas de risco adicionais onde trabalhamos para viabilizar conteúdo seguro e de alta utilidade e apoiar expressão criativa mais ampla para os usuários.
Proveniência via C2PA e busca reversível interna
Todas as imagens geradas possuem metadados C2PA, que identificam a imagem como proveniente do GPT‑4o, para proporcionar transparência. Também criamos uma ferramenta de busca interna que usa atributos técnicos das gerações para ajudar a verificar se o conteúdo veio do nosso modelo.
Bloqueando conteúdos inadequados
Continuamos a bloquear solicitações de imagens geradas que possam violar nossas políticas de conteúdo, como materiais de abuso sexual infantil e deepfakes sexuais. Quando imagens de pessoas reais estão no contexto, temos restrições aumentadas sobre que tipo de imagens podem ser criadas, com salvaguardas particularmente robustas em torno de nudez e violência gráfica. Como em qualquer lançamento, a segurança é um trabalho contínuo e uma área constante de investimento. Conforme aprendemos mais sobre o uso real deste modelo, ajustaremos nossas políticas conforme necessário.
Para mais informações sobre nossa abordagem, visite o adendo para geração de imagem do GPT‑4o.
Usando raciocínio para impulsionar a segurança
Semelhante ao nosso trabalho de alinhamento deliberativo, treinamos um LLM de raciocínio para trabalhar diretamente com especificações de segurança humanas e interpretáveis. Usamos esse LLM de raciocínio durante o desenvolvimento para ajudar a identificar e resolver ambiguidades em nossas políticas. Juntamente com nossos avanços multimodais e técnicas de segurança já desenvolvidas para ChatGPT e Sora, isso nos permite moderar tanto o texto de entrada quanto imagens de saída segundo nossas políticas.
Detalhes do Modelo
Tipo de modelo
Modelo base
Versão do modelo
Hash do modelo
Criador
Discussão
Por favor, faça log in para deixar um comentário.
