modèles/GPT-image-1 de OpenAI - 4o Image Gen 1

GPT-image-1 de OpenAI - 4o Image Gen 1

7/2/2025

1:03:38 AM

Mots-clés et tags associés

4o image gen 1,modèle de base,point de contrôle,génération d'image gpt-4o,modèle de génération d'image,apprentissage en contexte,suivi des instructions,génération multi-tours,openai,openai's gpt-image-1,rendu de texte,theally,communication visuelle

Silhouette du Petit Chaperon Rouge en cape rouge fuyant un Grand Méchant Loup terrifiant et ombragé au milieu d'une forêt brumeuse avec des lanternes en cuivre suspendues brillant en bleu.

Un héros éprouvé pousse contre une barrière magique lumineuse, peinant dans une salle sombre en ruines. Derrière la barrière, un sorcier Lich spectral et la femme inconsciente du héros sont visibles.

Bande dessinée en quatre cases montrant une femme aux cheveux bleus accusant un axolotl triste de ne pas être un art véritable, pointant à la place une banane scotchée, un ventilateur sur pied et une statue à Times Square, avec l'axolotl pleurant et étant d'accord.

Courage le Chien Peureux faisant son expression iconique de cri contre un fond vibrant et tourbillonnant inspiré par le tableau Le Cri d'Edvard Munch.

Scène colorée de créatures extraterrestres alignées devant un camion de glace futuriste rose avec un auvent jaune dans un style de livre d'images avec des couleurs CMJN psychédéliques et un travail de ligne claire.

Une androïde steampunk féminine avec des surfaces en laiton vieilli et cuivre dans un style de portrait pictural à l'huile, montrant une expression étonnée aux yeux écarquillés sur un fond sombre et texturé.

Silhouette d'un combattant de karaté effectuant un coup de pied en plein vol devant un soleil rouge audacieux, représentée avec des traits de pinceau éclaboussés en style japonais minimaliste sumi-e.

Découpe en carton 3D de Pyramid Head traînant une grande lame, créant une fissure avec une lumière orange brillante et des mains hantées, sur une table en bois avec un décor miniature de la ville brumeuse de Silent Hill et un panneau.

Diorama tridimensionnel en carton représentant une grotte Minecraft avec des minerais réalistes, des ennemis en couches incluant creeper, slime, squelette et enderman, éclairés par de petites torches.

Silhouette d'un tiefling rogue wizard tenant une sphère lumineuse, debout dans un environnement post-apocalyptique désaturé avec un éclairage tamisé et des structures en ruine.

Peinture à l'huile hyperréaliste d'une héroïne gothique-punk aux cheveux noirs épicés, yeux émeraude et défi joueur, portant des bracelets en cuir et des bas résille.

Un sushi en forme de pingouin mignon fabriqué avec du riz, des algues nori, des tranches de saumon et des morceaux jaunes d'œuf, présenté sur une planche en bois.

Conseils

Utilisez la génération multi-tours de GPT-4o pour affiner les images via une conversation naturelle afin d'obtenir des itérations de design cohérentes.

Exploitez la capacité de GPT-4o à mêler des symboles précis avec des images pour améliorer la communication visuelle.

Utilisez l'apprentissage en contexte en téléchargeant des images pour informer et améliorer les nouvelles générations d'images.

Référez-vous au guide d'utilisation de GPT Image 1 pour des conseils supplémentaires.

Sponsors du créateur

Initialement détaillé sur - https://openai.com/index/introducing-4o-image-generation/

Mise à jour 8/05 : Nous avons publié un sélecteur de qualité et ajusté les tarifs ! Maintenant, les images de qualité moyenne coûtent 100 Buzz ⚡

Consultez notre guide d'utilisation de GPT Image 1 !

Initialement détaillé sur - https://openai.com/index/introducing-4o-image-generation/

Mise à jour 8/05 : Nous avons publié un sélecteur de qualité et ajusté les tarifs ! Maintenant, les images de qualité moyenne coûtent 100 Buzz ⚡

Consultez notre guide d'utilisation de GPT Image 1 !

Génération d'images utile

Des premières peintures pariétales aux infographies modernes, les humains ont utilisé les images visuelles pour communiquer, persuader et analyser - pas seulement pour décorer. Les modèles génératifs d'aujourd'hui peuvent créer des scènes surréalistes et à couper le souffle, mais éprouvent des difficultés avec les images fonctionnelles que les gens utilisent pour partager et créer de l'information. Des logos aux diagrammes, les images peuvent transmettre un sens précis lorsqu'elles sont augmentées de symboles se référant à un langage et une expérience partagés.

La génération d'images GPT‑4o excelle dans la restitution précise du texte, le respect exact des consignes, et l’exploitation de la base de connaissances inhérente à 4o ainsi que du contexte de chat — incluant la transformation d'images téléchargées ou leur utilisation comme source d'inspiration visuelle. Ces capacités facilitent la création exacte de l'image que vous imaginez, vous aidant à communiquer plus efficacement à travers des visuels et faisant progresser la génération d'images vers un outil pratique alliant précision et puissance.

Capacités améliorées

Nous avons entraîné nos modèles sur la distribution conjointe d'images et de textes en ligne, apprenant non seulement comment les images se rapportent au langage, mais aussi comment elles se rapportent les unes aux autres. Combiné à un post-entraînement intensif, le modèle résultant possède une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et conscientes du contexte.

Restitution de texte

Une image vaut mille mots, mais parfois générer quelques mots au bon endroit peut renforcer le sens d'une image. La capacité de 4o à mêler des symboles précis avec des images transforme la génération d'images en un outil de communication visuelle.

Génération multi-tours

Parce que la génération d'images est désormais native à GPT‑4o, vous pouvez affiner les images via des conversations naturelles. GPT‑4o peut s'appuyer sur des images et du texte dans le contexte du chat, assurant une cohérence tout au long. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage demeure cohérente au fil de plusieurs itérations quand vous affinez et expérimentez.

Respect des instructions

La génération d'images de GPT‑4o suit des consignes détaillées avec une grande attention. Alors que d'autres systèmes ont du mal avec environ 5 à 8 objets, GPT‑4o peut gérer jusqu'à 10-20 objets différents. L'attachement plus serré des objets à leurs caractéristiques et relations permet un meilleur contrôle.

Apprentissage en contexte

GPT‑4o peut analyser et apprendre à partir des images téléchargées par l'utilisateur, intégrant parfaitement leurs détails dans son contexte pour informer la génération d'images.

Sécurité

Conformément à notre spécification de modèle, nous visons à maximiser la liberté créative en soutenant des cas d'utilisation précieux comme le développement de jeux, l'exploration historique et l'éducation — tout en maintenant des normes de sécurité strictes. Dans le même temps, il reste primordial de bloquer les demandes qui violent ces normes. Voici les évaluations des domaines de risque supplémentaires où nous travaillons pour permettre un contenu sûr, utile et soutenir une expression créative plus large pour les utilisateurs.

Provenance via C2PA et recherche réversible interne
Toutes les images générées sont accompagnées de métadonnées C2PA, qui identifieront une image comme provenant de GPT‑4o, pour assurer la transparence. Nous avons également créé un outil de recherche interne qui utilise les attributs techniques des générations pour aider à vérifier si un contenu provient de notre modèle.

Blocage des contenus illicites
Nous continuons de bloquer les demandes d'images générées susceptibles de violer nos politiques de contenu, telles que les matériels d'abus sexuel sur mineurs et les deepfakes sexuels. Lorsque des images de personnes réelles sont dans le contexte, nous avons des restrictions renforcées sur le type d'images pouvant être créées, avec des protections particulièrement strictes concernant la nudité et la violence graphique. Comme pour tout lancement, la sécurité n'est jamais terminée, c’est plutôt un domaine d'investissement permanent. Au fur et à mesure que nous en apprendrons davantage sur l'utilisation réelle de ce modèle, nous ajusterons nos politiques en conséquence.

Pour en savoir plus sur notre approche, consultez l'addendum à la carte système GPT‑4o sur la génération d'images.

Utiliser le raisonnement pour renforcer la sécurité
Similaire à notre travail sur l'alignement délibératif, nous avons entraîné un LLM de raisonnement pour travailler directement à partir de spécifications de sécurité écrites par des humains et interprétables. Nous avons utilisé ce LLM de raisonnement lors du développement pour nous aider à identifier et résoudre les ambiguïtés dans nos politiques. Avec nos avancées multimodales et les techniques de sécurité existantes développées pour ChatGPT et Sora, cela nous permet de modérer à la fois le texte en entrée et les images en sortie conformément à nos politiques.

Contributeur

Camille Dubois

Bonjour ! Je m’appelle Camille Dubois. Passionnée d’art visuel, j’orchestre des galeries numériques pour révéler toute la poésie des images générées par l’IA.

"Delicate Balance" Style semi-réaliste [Flux.1 D] par AutoPastel - V1

Plant Milk 🌿 - Suite de modèles - Walnut

Utiliser ce modèle