modèles/GPT-image-1 de OpenAI - 4o Image Gen 1

GPT-image-1 de OpenAI - 4o Image Gen 1

7/2/2025

1:03:38 AM

Mots-clés et tags associés

4o image gen 1,modèle de base,point de contrôle,génération d'image gpt-4o,modèle de génération d'image,apprentissage en contexte,suivi des instructions,génération multi-tours,openai,openai's gpt-image-1,rendu de texte,theally,communication visuelle

A dark figure wearing a gas mask and a blazing orange hoodie wields a katana infused with glowing stars, set against a vibrant spray paint style apocalyptic burning city background with motion blur effects.

Portrait d'un homme sauterelle en débardeur assis sur un canapé, buvant une bière, frottant ses jambes croisées pour créer des notes de musique lumineuses.

Un personnage sur le thème du brocoli ressemblant à Shrek se tient à côté d'une cabane feuillue dans un marais de brocoli luxuriant entouré d'arbres et de plantes vertes.

Une silhouette humaine sombre et ombreuse aux yeux brillants et au visage hurlant ouvre sa poitrine, révélant de nombreuses araignées qui en sortent sous un réverbère.

Un homme vêtu de manière flamboyante avec un costume vert et un haut-de-forme, les bras largement ouverts et souriant dans une serre remplie d'arbres et de plantes ressemblant à du brocoli abstrait, avec un texte jaune disant « Bienvenue au Broccoliarium ! »

Un serpent fleur de cerisier réaliste avec un corps couvert de fleurs roses de cerisier en fleurs, des yeux violet néon lumineux, enroulé à la base d'un cerisier sombre au milieu des feuilles d'automne.

Bande dessinée en deux cases intitulée Système de notation de Civitai avec un pingouin mignon utilisant un ordinateur portable joyeusement et un robot bleu inquiet nommé Civita regardant un écran d'ordinateur.

Une représentation numérique vibrante d'un cerf orange avec de grands bois tenant quatre oiseaux astronautes colorés, sur un fond cosmique bleu profond rempli d'étoiles et de galaxies.

Un chasseur de démons aux yeux sauvages avec une barbe rose et de grandes cornes enroulées, des yeux verts lumineux, accroupi dans une forêt sombre, tenant un rayon de miel dégoulinant couvert de miel collant.

Conseils

Utilisez la génération multi-tours de GPT-4o pour affiner les images via une conversation naturelle afin d'obtenir des itérations de design cohérentes.

Exploitez la capacité de GPT-4o à mêler des symboles précis avec des images pour améliorer la communication visuelle.

Utilisez l'apprentissage en contexte en téléchargeant des images pour informer et améliorer les nouvelles générations d'images.

Référez-vous au guide d'utilisation de GPT Image 1 pour des conseils supplémentaires.

Sponsors du créateur

Initialement détaillé sur - https://openai.com/index/introducing-4o-image-generation/

Mise à jour 8/05 : Nous avons publié un sélecteur de qualité et ajusté les tarifs ! Maintenant, les images de qualité moyenne coûtent 100 Buzz ⚡

Consultez notre guide d'utilisation de GPT Image 1 !

Initialement détaillé sur - https://openai.com/index/introducing-4o-image-generation/

Mise à jour 8/05 : Nous avons publié un sélecteur de qualité et ajusté les tarifs ! Maintenant, les images de qualité moyenne coûtent 100 Buzz ⚡

Consultez notre guide d'utilisation de GPT Image 1 !

Génération d'images utile

Des premières peintures pariétales aux infographies modernes, les humains ont utilisé les images visuelles pour communiquer, persuader et analyser - pas seulement pour décorer. Les modèles génératifs d'aujourd'hui peuvent créer des scènes surréalistes et à couper le souffle, mais éprouvent des difficultés avec les images fonctionnelles que les gens utilisent pour partager et créer de l'information. Des logos aux diagrammes, les images peuvent transmettre un sens précis lorsqu'elles sont augmentées de symboles se référant à un langage et une expérience partagés.

La génération d'images GPT‑4o excelle dans la restitution précise du texte, le respect exact des consignes, et l’exploitation de la base de connaissances inhérente à 4o ainsi que du contexte de chat — incluant la transformation d'images téléchargées ou leur utilisation comme source d'inspiration visuelle. Ces capacités facilitent la création exacte de l'image que vous imaginez, vous aidant à communiquer plus efficacement à travers des visuels et faisant progresser la génération d'images vers un outil pratique alliant précision et puissance.

Capacités améliorées

Nous avons entraîné nos modèles sur la distribution conjointe d'images et de textes en ligne, apprenant non seulement comment les images se rapportent au langage, mais aussi comment elles se rapportent les unes aux autres. Combiné à un post-entraînement intensif, le modèle résultant possède une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et conscientes du contexte.

Restitution de texte

Une image vaut mille mots, mais parfois générer quelques mots au bon endroit peut renforcer le sens d'une image. La capacité de 4o à mêler des symboles précis avec des images transforme la génération d'images en un outil de communication visuelle.

Génération multi-tours

Parce que la génération d'images est désormais native à GPT‑4o, vous pouvez affiner les images via des conversations naturelles. GPT‑4o peut s'appuyer sur des images et du texte dans le contexte du chat, assurant une cohérence tout au long. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage demeure cohérente au fil de plusieurs itérations quand vous affinez et expérimentez.

Respect des instructions

La génération d'images de GPT‑4o suit des consignes détaillées avec une grande attention. Alors que d'autres systèmes ont du mal avec environ 5 à 8 objets, GPT‑4o peut gérer jusqu'à 10-20 objets différents. L'attachement plus serré des objets à leurs caractéristiques et relations permet un meilleur contrôle.

Apprentissage en contexte

GPT‑4o peut analyser et apprendre à partir des images téléchargées par l'utilisateur, intégrant parfaitement leurs détails dans son contexte pour informer la génération d'images.

Sécurité

Conformément à notre spécification de modèle, nous visons à maximiser la liberté créative en soutenant des cas d'utilisation précieux comme le développement de jeux, l'exploration historique et l'éducation — tout en maintenant des normes de sécurité strictes. Dans le même temps, il reste primordial de bloquer les demandes qui violent ces normes. Voici les évaluations des domaines de risque supplémentaires où nous travaillons pour permettre un contenu sûr, utile et soutenir une expression créative plus large pour les utilisateurs.

Provenance via C2PA et recherche réversible interne
Toutes les images générées sont accompagnées de métadonnées C2PA, qui identifieront une image comme provenant de GPT‑4o, pour assurer la transparence. Nous avons également créé un outil de recherche interne qui utilise les attributs techniques des générations pour aider à vérifier si un contenu provient de notre modèle.

Blocage des contenus illicites
Nous continuons de bloquer les demandes d'images générées susceptibles de violer nos politiques de contenu, telles que les matériels d'abus sexuel sur mineurs et les deepfakes sexuels. Lorsque des images de personnes réelles sont dans le contexte, nous avons des restrictions renforcées sur le type d'images pouvant être créées, avec des protections particulièrement strictes concernant la nudité et la violence graphique. Comme pour tout lancement, la sécurité n'est jamais terminée, c’est plutôt un domaine d'investissement permanent. Au fur et à mesure que nous en apprendrons davantage sur l'utilisation réelle de ce modèle, nous ajusterons nos politiques en conséquence.

Pour en savoir plus sur notre approche, consultez l'addendum à la carte système GPT‑4o sur la génération d'images.

Utiliser le raisonnement pour renforcer la sécurité
Similaire à notre travail sur l'alignement délibératif, nous avons entraîné un LLM de raisonnement pour travailler directement à partir de spécifications de sécurité écrites par des humains et interprétables. Nous avons utilisé ce LLM de raisonnement lors du développement pour nous aider à identifier et résoudre les ambiguïtés dans nos politiques. Avec nos avancées multimodales et les techniques de sécurité existantes développées pour ChatGPT et Sora, cela nous permet de modérer à la fois le texte en entrée et les images en sortie conformément à nos politiques.

Contributeur

Camille Dubois

Bonjour ! Je m’appelle Camille Dubois. Passionnée d’art visuel, j’orchestre des galeries numériques pour révéler toute la poésie des images générées par l’IA.

"Delicate Balance" Style semi-réaliste [Flux.1 D] par AutoPastel - V1

Plant Milk 🌿 - Suite de modèles - Walnut

Utiliser ce modèle