OpenAIのGPT-image-1 - 4o Image Gen 1
ヒント
GPT-4oの多段階生成を活用し、自然な会話を通して画像を洗練し、一貫したデザイン反復を実現しましょう。
正確なシンボルとイメージの融合により、視覚的コミュニケーションを強化しましょう。
アップロードした画像によるコンテキスト内学習を利用して、新しい画像生成の質を向上させましょう。
追加の使用方法はGPT Image 1のガイドを参照してください。
クリエイタースポンサー
詳細は元の情報を参照 - https://openai.com/index/introducing-4o-image-generation/
5/8 更新: クオリティセレクターを公開し、価格を調整しました!ミディアム品質の画像は現在100 Buzz ⚡です。
使用ガイドはこちら GPT Image 1の使い方ガイドをご覧ください!
詳細は元の情報を参照 - https://openai.com/index/introducing-4o-image-generation/
5/8 更新: クオリティセレクターを公開し、価格を調整しました!ミディアム品質の画像は現在100 Buzz ⚡です。
使用ガイドはこちら GPT Image 1の使い方ガイドをご覧ください!
有用な画像生成
最初の洞窟壁画から現代のインフォグラフィックに至るまで、人類は視覚的イメージを使って伝達、説得、分析を行ってきました。ただの装飾だけでなく、ロゴや図解などのイメージは、共有された言語や経験に基づく記号で補強されると正確な意味を伝えます。今日の生成モデルはシュールで息をのむようなシーンを創り出せますが、情報を共有・作成するための実用的なイメージ制作は苦手です。
GPT‑4o画像生成は正確なテキスト表現、詳細なプロンプト遵守、4oの知識ベースやチャットコンテキストの活用(アップロード画像の変換や視覚的インスピレーションとしての利用を含む)に優れています。これにより、思い描くイメージを正確に作成し、視覚的コミュニケーションを強化し、画像生成を精度と性能を兼ね備えた実用的ツールへと進化させます。
改良された機能
オンライン画像と言語の結合分布でモデルを訓練し、画像と言語の関係だけでなく画像同士の関連も学習しました。積極的な後処理と組み合わせて、役立ち、一貫性があり文脈に応じた画像生成が可能な視覚的流暢さを持つモデルが完成しました。
テキストレンダリング
写真は千の言葉に値しますが、正しい場所に数語を生成するだけで画像の意味が高まることがあります。4oは精密なシンボルとイメージを融合し、画像生成を視覚的コミュニケーションのためのツールに変えます。
多段階生成
画像生成がGPT‑4oにネイティブに組み込まれたため、自然な会話を通じて画像を洗練できます。チャットの画像やテキストの文脈に基づいて一貫性を保ちます。例えば、ゲームキャラクターをデザインする際、複数の反復で外見が一貫していることを保証し、試行錯誤が容易になります。
指示遵守
GPT‑4oの画像生成は詳細なプロンプトに細かく従います。他のシステムが約5~8のオブジェクトで苦戦するのに対し、10~20の異なるオブジェクトを扱えます。オブジェクトの特性や関係性の結びつきが強いため制御が向上します。
コンテキスト内学習
GPT‑4oはユーザーがアップロードした画像を分析・学習し、その詳細を文脈に統合して画像生成に反映させます。
安全性
モデル仕様に沿って、ゲーム開発、歴史探求、教育などの貴重な利用ケースを支持しつつ創造の自由を最大化することを目指しています。同時に、これら基準に違反するリクエストを遮断することはますます重要です。以下は、より安全で高効率のコンテンツ提供と利用者の創造表現を広げるために取り組んでいる追加のリスク評価項目です。
C2PAおよび内部可逆検索による出所管理
生成された全画像にはC2PAメタデータが付与され、GPT‑4o由来であることを明示し透明性を提供します。技術的属性を用いる内部検索ツールも構築し、モデル由来のコンテンツか検証可能です。
悪質コンテンツのブロック
児童性的虐待資料や性的ディープフェイクなど、ポリシー違反の画像生成リクエストは引き続き遮断します。実在人物の画像が文脈にある場合は、裸体や過激な暴力に関して特に厳しい制限を設けています。安全対策は常に継続的な取り組みであり、リアルワールドの利用状況に応じてポリシーを調整します。
詳細は画像生成のGPT‑4oシステムカード追加資料をご覧ください。
安全性を支える推論
熟慮された整合性作業と同様に、人間の作成した明確な安全仕様に基づく推論LLMを訓練しました。開発中にこの推論LLMがポリシーの曖昧さを特定・解決するのに役立ちました。マルチモーダル技術およびChatGPTやSora用の既存安全対策と組み合わせて、入力テキストと出力画像の両方をポリシーに基づきモデレート可能にしています。