模型/OpenAI 的 GPT-image-1 - 4o 圖像生成 1

OpenAI 的 GPT-image-1 - 4o 圖像生成 1

陳嘉欣 (Chan Ka-yan)

7/2/2025

1:25:22 AM

| Discussion|

提示

利用 GPT-4o 的多輪生成，通過自然對話完善圖像，達到設計一致性。

發揮 GPT-4o 將精確符號與圖像融合的能力，加強視覺溝通。

透過上傳圖像利用上下文學習，提升生成新圖像的效果。

參考 GPT Image 1 使用指南，獲取更多使用技巧。

創作者贊助

最初詳述於 - https://openai.com/index/introducing-4o-image-generation/

更新 5/8：我們發布了 質量選擇器 並調整了價格！現在中等質量的圖片費用為 100 Buzz ⚡

查看我們的 GPT Image 1 使用指南！

最初詳述於 - https://openai.com/index/introducing-4o-image-generation/

更新 5/8：我們發布了 質量選擇器 並調整了價格！現在中等質量的圖片費用為 100 Buzz ⚡

查看我們的 GPT Image 1 使用指南！

實用的圖片生成

從最初的洞穴壁畫到現代資訊圖表，人類一直利用視覺圖像來溝通、說服和分析，而非僅僅裝飾。當今的生成模型能創造超現實且令人驚嘆的場景，但在人們用於分享及創造信息的日常圖像方面仍有不足。從標誌到圖表，圖像能通過輔以符號來傳達精確意義，而這些符號反映了共享的語言與經驗。

GPT‑4o 圖像生成擅長準確渲染文本、精確執行提示，並利用 4o 固有的知識庫和聊天上下文——包括轉換上傳的圖像或用它們作為視覺靈感。這些能力使創建你想像中的圖像變得更容易，幫助你通過視覺更有效地溝通，並促進圖像生成成為具備精確度和力量的實用工具。

提升能力

我們的模型在聯合的線上圖像與文本分佈上訓練，不僅學習圖像與語言的關係，還學會圖像之間的關聯。結合積極的後期訓練，所產生的模型具備驚人的視覺流暢度，能生成實用、一致且具上下文感知的圖像。

文本渲染

一幅圖片勝過千言萬語，但有時在合適的位置生成幾個詞，能提升圖像的意義。4o 將精確符號與圖像融合，使圖像生成成為視覺溝通的工具。

多輪生成

因為圖像生成現在是 GPT‑4o 的原生功能，你可透過自然對話來完善圖像。GPT‑4o 能利用聊天上下文中的圖像與文本進行持續構建，確保一致性。例如，設計遊戲角色時，角色的外觀會在多次迭代中保持連貫，幫助你細化和嘗試不同設計。

指令遵循

GPT‑4o 的圖像生成能細緻跟隨詳細提示。其他系統難以處理約 5-8 個物件，而 GPT‑4o 可處理 10-20 個不同物體。物體與其特徵和關係的更緊密關聯，提供了更好的控制能力。

上下文學習

GPT‑4o 能分析並從用戶上傳的圖像學習，無縫整合其細節到上下文中，以指導圖像生成。

安全性

根據我們的模型規範，我們旨在通過支持遊戲開發、歷史探索和教育等有價值的用例，最大化創作自由，同時維持嚴格的安全標準。阻擋違反這些標準的請求同樣重要。以下是我們正在努力支持用戶更安全、高效內容以及更廣泛創意表達的額外風險領域評估。

通過 C2PA 和內部可逆搜索確保來源
所有生成的圖片皆附有 C2PA 元數據，標示該圖像來自 GPT‑4o，以提供透明度。我們亦建立了使用生成技術特徵的內部搜索工具，以協助驗證內容是否來自我們的模型。

阻擋不良內容
我們持續阻擋可能違反內容政策的圖像生成請求，如兒童性虐待材料和性別深偽。當圖像具有真實人物上下文時，我們對可生成的影像類型有更嚴格限制，尤其針對裸露和血腥暴力設有強力防護。安全永遠是一個持續投入的領域，隨著對模型實際使用情況的了解，我們會相應調整政策。

欲了解詳細方法，請訪問圖像生成 GPT‑4o 系統卡附錄。

利用推理驅動安全
類似於我們的深思熟慮的對齊工作，我們訓練了一個推理大型語言模型，直接根據人工撰寫且可解釋的安全規範運作。開發期間，我們使用此推理模型協助識別和解決政策的模糊點。結合我們的多模態進展和針對 ChatGPT 和 Sora 開發的現有安全技術，這使我們能夠審核輸入文本與輸出圖像以符合政策。