OpenAI 的 GPT-image-1 - 4o 圖像生成 1
提示
利用 GPT-4o 的多輪生成,通過自然對話完善圖像,達到設計一致性。
發揮 GPT-4o 將精確符號與圖像融合的能力,加強視覺溝通。
透過上傳圖像利用上下文學習,提升生成新圖像的效果。
參考 GPT Image 1 使用指南,獲取更多使用技巧。
創作者贊助
最初詳述於 - https://openai.com/index/introducing-4o-image-generation/
更新 5/8:我們發布了 質量選擇器 並調整了價格!現在中等質量的圖片費用為 100 Buzz ⚡
查看我們的 GPT Image 1 使用指南!
最初詳述於 - https://openai.com/index/introducing-4o-image-generation/
更新 5/8:我們發布了 質量選擇器 並調整了價格!現在中等質量的圖片費用為 100 Buzz ⚡
查看我們的 GPT Image 1 使用指南!
實用的圖片生成
從最初的洞穴壁畫到現代資訊圖表,人類一直利用視覺圖像來溝通、說服和分析,而非僅僅裝飾。當今的生成模型能創造超現實且令人驚嘆的場景,但在人們用於分享及創造信息的日常圖像方面仍有不足。從標誌到圖表,圖像能通過輔以符號來傳達精確意義,而這些符號反映了共享的語言與經驗。
GPT‑4o 圖像生成擅長準確渲染文本、精確執行提示,並利用 4o 固有的知識庫和聊天上下文——包括轉換上傳的圖像或用它們作為視覺靈感。這些能力使創建你想像中的圖像變得更容易,幫助你通過視覺更有效地溝通,並促進圖像生成成為具備精確度和力量的實用工具。
提升能力
我們的模型在聯合的線上圖像與文本分佈上訓練,不僅學習圖像與語言的關係,還學會圖像之間的關聯。結合積極的後期訓練,所產生的模型具備驚人的視覺流暢度,能生成實用、一致且具上下文感知的圖像。
文本渲染
一幅圖片勝過千言萬語,但有時在合適的位置生成幾個詞,能提升圖像的意義。4o 將精確符號與圖像融合,使圖像生成成為視覺溝通的工具。
多輪生成
因為圖像生成現在是 GPT‑4o 的原生功能,你可透過自然對話來完善圖像。GPT‑4o 能利用聊天上下文中的圖像與文本進行持續構建,確保一致性。例如,設計遊戲角色時,角色的外觀會在多次迭代中保持連貫,幫助你細化和嘗試不同設計。
指令遵循
GPT‑4o 的圖像生成能細緻跟隨詳細提示。其他系統難以處理約 5-8 個物件,而 GPT‑4o 可處理 10-20 個不同物體。物體與其特徵和關係的更緊密關聯,提供了更好的控制能力。
上下文學習
GPT‑4o 能分析並從用戶上傳的圖像學習,無縫整合其細節到上下文中,以指導圖像生成。
安全性
根據我們的模型規範,我們旨在通過支持遊戲開發、歷史探索和教育等有價值的用例,最大化創作自由,同時維持嚴格的安全標準。阻擋違反這些標準的請求同樣重要。以下是我們正在努力支持用戶更安全、高效內容以及更廣泛創意表達的額外風險領域評估。
通過 C2PA 和內部可逆搜索確保來源
所有生成的圖片皆附有 C2PA 元數據,標示該圖像來自 GPT‑4o,以提供透明度。我們亦建立了使用生成技術特徵的內部搜索工具,以協助驗證內容是否來自我們的模型。
阻擋不良內容
我們持續阻擋可能違反內容政策的圖像生成請求,如兒童性虐待材料和性別深偽。當圖像具有真實人物上下文時,我們對可生成的影像類型有更嚴格限制,尤其針對裸露和血腥暴力設有強力防護。安全永遠是一個持續投入的領域,隨著對模型實際使用情況的了解,我們會相應調整政策。
欲了解詳細方法,請訪問圖像生成 GPT‑4o 系統卡附錄。
利用推理驅動安全
類似於我們的 深思熟慮的對齊工作,我們訓練了一個推理大型語言模型,直接根據人工撰寫且可解釋的安全規範運作。開發期間,我們使用此推理模型協助識別和解決政策的模糊點。結合我們的多模態進展和針對 ChatGPT 和 Sora 開發的現有安全技術,這使我們能夠 審核輸入文本與輸出圖像以符合政策。
