GPT-image-1 de OpenAI - 4o Image Gen 1
Conseils
Utilisez la génération multi-tours de GPT-4o pour affiner les images via une conversation naturelle afin d'obtenir des itérations de design cohérentes.
Exploitez la capacité de GPT-4o à mêler des symboles précis avec des images pour améliorer la communication visuelle.
Utilisez l'apprentissage en contexte en téléchargeant des images pour informer et améliorer les nouvelles générations d'images.
Référez-vous au guide d'utilisation de GPT Image 1 pour des conseils supplémentaires.
Sponsors du créateur
Initialement détaillé sur - https://openai.com/index/introducing-4o-image-generation/
Mise à jour 8/05 : Nous avons publié un sélecteur de qualité et ajusté les tarifs ! Maintenant, les images de qualité moyenne coûtent 100 Buzz ⚡
Consultez notre guide d'utilisation de GPT Image 1 !
Initialement détaillé sur - https://openai.com/index/introducing-4o-image-generation/
Mise à jour 8/05 : Nous avons publié un sélecteur de qualité et ajusté les tarifs ! Maintenant, les images de qualité moyenne coûtent 100 Buzz ⚡
Consultez notre guide d'utilisation de GPT Image 1 !
Génération d'images utile
Des premières peintures pariétales aux infographies modernes, les humains ont utilisé les images visuelles pour communiquer, persuader et analyser - pas seulement pour décorer. Les modèles génératifs d'aujourd'hui peuvent créer des scènes surréalistes et à couper le souffle, mais éprouvent des difficultés avec les images fonctionnelles que les gens utilisent pour partager et créer de l'information. Des logos aux diagrammes, les images peuvent transmettre un sens précis lorsqu'elles sont augmentées de symboles se référant à un langage et une expérience partagés.
La génération d'images GPT‑4o excelle dans la restitution précise du texte, le respect exact des consignes, et l’exploitation de la base de connaissances inhérente à 4o ainsi que du contexte de chat — incluant la transformation d'images téléchargées ou leur utilisation comme source d'inspiration visuelle. Ces capacités facilitent la création exacte de l'image que vous imaginez, vous aidant à communiquer plus efficacement à travers des visuels et faisant progresser la génération d'images vers un outil pratique alliant précision et puissance.
Capacités améliorées
Nous avons entraîné nos modèles sur la distribution conjointe d'images et de textes en ligne, apprenant non seulement comment les images se rapportent au langage, mais aussi comment elles se rapportent les unes aux autres. Combiné à un post-entraînement intensif, le modèle résultant possède une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et conscientes du contexte.
Restitution de texte
Une image vaut mille mots, mais parfois générer quelques mots au bon endroit peut renforcer le sens d'une image. La capacité de 4o à mêler des symboles précis avec des images transforme la génération d'images en un outil de communication visuelle.
Génération multi-tours
Parce que la génération d'images est désormais native à GPT‑4o, vous pouvez affiner les images via des conversations naturelles. GPT‑4o peut s'appuyer sur des images et du texte dans le contexte du chat, assurant une cohérence tout au long. Par exemple, si vous concevez un personnage de jeu vidéo, l'apparence du personnage demeure cohérente au fil de plusieurs itérations quand vous affinez et expérimentez.
Respect des instructions
La génération d'images de GPT‑4o suit des consignes détaillées avec une grande attention. Alors que d'autres systèmes ont du mal avec environ 5 à 8 objets, GPT‑4o peut gérer jusqu'à 10-20 objets différents. L'attachement plus serré des objets à leurs caractéristiques et relations permet un meilleur contrôle.
Apprentissage en contexte
GPT‑4o peut analyser et apprendre à partir des images téléchargées par l'utilisateur, intégrant parfaitement leurs détails dans son contexte pour informer la génération d'images.
Sécurité
Conformément à notre spécification de modèle, nous visons à maximiser la liberté créative en soutenant des cas d'utilisation précieux comme le développement de jeux, l'exploration historique et l'éducation — tout en maintenant des normes de sécurité strictes. Dans le même temps, il reste primordial de bloquer les demandes qui violent ces normes. Voici les évaluations des domaines de risque supplémentaires où nous travaillons pour permettre un contenu sûr, utile et soutenir une expression créative plus large pour les utilisateurs.
Provenance via C2PA et recherche réversible interne
Toutes les images générées sont accompagnées de métadonnées C2PA, qui identifieront une image comme provenant de GPT‑4o, pour assurer la transparence. Nous avons également créé un outil de recherche interne qui utilise les attributs techniques des générations pour aider à vérifier si un contenu provient de notre modèle.
Blocage des contenus illicites
Nous continuons de bloquer les demandes d'images générées susceptibles de violer nos politiques de contenu, telles que les matériels d'abus sexuel sur mineurs et les deepfakes sexuels. Lorsque des images de personnes réelles sont dans le contexte, nous avons des restrictions renforcées sur le type d'images pouvant être créées, avec des protections particulièrement strictes concernant la nudité et la violence graphique. Comme pour tout lancement, la sécurité n'est jamais terminée, c’est plutôt un domaine d'investissement permanent. Au fur et à mesure que nous en apprendrons davantage sur l'utilisation réelle de ce modèle, nous ajusterons nos politiques en conséquence.
Pour en savoir plus sur notre approche, consultez l'addendum à la carte système GPT‑4o sur la génération d'images.
Utiliser le raisonnement pour renforcer la sécurité
Similaire à notre travail sur l'alignement délibératif, nous avons entraîné un LLM de raisonnement pour travailler directement à partir de spécifications de sécurité écrites par des humains et interprétables. Nous avons utilisé ce LLM de raisonnement lors du développement pour nous aider à identifier et résoudre les ambiguïtés dans nos politiques. Avec nos avancées multimodales et les techniques de sécurité existantes développées pour ChatGPT et Sora, cela nous permet de modérer à la fois le texte en entrée et les images en sortie conformément à nos politiques.
Détails du modèle
Type de modèle
Modèle de base
Version du modèle
Hash du modèle
Créateur
Discussion
Veuillez vous log in pour laisser un commentaire.
