모델/OpenAI의 GPT-image-1 - 4o Image Gen 1

OpenAI의 GPT-image-1 - 4o Image Gen 1

김지훈 (Kim Ji-hoon)

7/2/2025

1:21:16 AM

| Discussion|

팁

GPT-4o의 다중 턴 생성을 활용해 자연스러운 대화로 이미지를 다듬어 일관된 디자인 반복을 달성하세요.

정밀한 기호와 이미지를 결합하는 GPT-4o의 능력을 활용해 시각적 소통을 강화하세요.

컨텍스트 학습을 이용해 이미지를 업로드하여 새로운 이미지 생성에 반영하세요.

추가 사용 팁은 GPT Image 1 사용 가이드를 참고하세요.

크리에이터 스폰서

원문 자세한 내용 - https://openai.com/index/introducing-4o-image-generation/

5월 8일 업데이트: 품질 선택기가 출시되었고 가격이 조정되었습니다! 이제 중간 품질 이미지가 100 Buzz ⚡입니다.

우리의 GPT Image 1 사용 가이드를 확인하세요!

원문 자세한 내용 - https://openai.com/index/introducing-4o-image-generation/

5월 8일 업데이트: 품질 선택기가 출시되었고 가격이 조정되었습니다! 이제 중간 품질 이미지 비용이 100 Buzz ⚡입니다.

우리의 GPT Image 1 사용 가이드를 확인하세요!

유용한 이미지 생성

최초 동굴벽화부터 현대 정보그래픽까지, 인간은 꾸미기뿐만 아니라 소통, 설득, 분석을 위해 시각적 이미지를 사용해 왔습니다. 오늘날 생성 모델은 초현실적이고 숨막히는 장면을 창조할 수 있지만, 사람들이 정보를 공유하고 만드는 데 사용하는 주력 이미지를 만드는 데는 어려움을 겪습니다. 로고부터 다이어그램까지, 이미지는 공유된 언어와 경험을 참조하는 기호로 보강될 때 정확한 의미를 전달할 수 있습니다.

GPT‑4o 이미지 생성은 정확한 텍스트 렌더링, 정밀한 프롬프트 준수, 그리고 4o의 고유 지식 기반과 채팅 컨텍스트 활용(업로드된 이미지 변환 또는 시각적 영감 활용 포함)에 뛰어납니다. 이 기능들은 정확히 원하는 이미지를 쉽게 만들 수 있게 하여 시각적 소통을 효과적으로 돕고, 이미지 생성을 정밀하고 강력한 실용 도구로 발전시킵니다.

향상된 기능

저희는 온라인 이미지와 텍스트의 결합 분포를 기반으로 모델을 훈련시켜, 이미지가 언어와 어떻게 연결되는지 뿐 아니라 서로 어떻게 연관되는지도 학습했습니다. 공격적인 후처리와 결합된 결과 모델은 놀라운 시각적 유창성을 자랑하며, 유용하고 일관성 있고 문맥 인지적인 이미지를 생성할 수 있습니다.

텍스트 렌더링

한 장의 그림이 천 마디 말을 대신하지만, 때때로 적절한 위치에 단 몇 단어를 생성하는 것이 이미지의 의미를 높입니다. 4o는 정밀한 기호와 이미지를 결합하는 능력으로 이미지 생성을 시각적 소통 도구로 변환합니다.

다중 턴 생성

이미지 생성이 이제 GPT‑4o에 내장되어 자연스러운 대화로 이미지를 다듬을 수 있습니다. GPT‑4o는 채팅 컨텍스트 내 이미지와 텍스트를 기반으로 작업하여 전 과정에서 일관성을 보장합니다. 예를 들어 비디오 게임 캐릭터를 디자인할 때 여러 반복에 걸쳐 캐릭터의 모습이 일관성을 유지하며 수정과 실험이 가능합니다.

지시 준수

GPT‑4o의 이미지 생성은 상세한 프롬프트를 세심하게 따릅니다. 타 시스템이 약 5-8개의 객체를 다루는 데 어려움을 겪는 반면, GPT‑4o는 최대 10-20개의 다양한 객체를 처리할 수 있습니다. 객체와 그 특성 및 관계의 결속력이 더 강해져 더 나은 제어가 가능합니다.

문맥 학습

GPT‑4o는 사용자가 업로드한 이미지를 분석하고 학습하여, 이미지 생성에 필요한 문맥에 세밀하게 통합할 수 있습니다.

안전성

모델 사양에 따라 게임 개발, 역사 탐험, 교육과 같은 가치 있는 사용 사례를 지원하면서 창의적 자유를 극대화하는 동시에 강력한 안전 기준을 유지하는 것을 목표로 합니다. 동시에 해당 기준을 위반하는 요청을 차단하는 것도 여전히 중요합니다. 아래는 안전하고 고효율 콘텐츠를 가능하게 하며 사용자들의 창의적 표현을 지원하기 위해 작업 중인 추가 위험 영역 평가입니다.

C2PA 및 내부 역검색을 통한 출처 확인
생성된 모든 이미지는 GPT‑4o 출처를 표시하는 C2PA 메타데이터와 함께 제공되어 투명성을 보장합니다. 또한 생성의 기술적 속성을 활용하여 모델에서 생성된 콘텐츠인지 확인하는 내부 검색 도구도 구축했습니다.

부적절한 콘텐츠 차단
아동 성착취물과 성적 딥페이크 등 콘텐츠 정책을 위반할 수 있는 이미지 생성 요청을 계속 차단하고 있습니다. 실존 인물이 포함된 이미지의 경우 누드 및 폭력 표현에 대해 특히 엄격한 제한을 적용합니다. 출시 초기라 안전이 완성된 상태가 아니며, 실제 사용 사례를 학습하며 정책을 지속적으로 조정할 것입니다.

자세한 접근법은 이미지 생성 GPT‑4o 시스템 카드 보충 문서를 참고하세요.

안전을 위한 추론 기술 활용
저희는 심사숙고 정렬 작업과 유사하게, 인간 작성 및 해석 가능한 안전 지침에서 직접 작동하는 추론 LLM을 훈련했습니다. 이 추론 LLM을 개발 과정에 활용하여 정책상의 모호함을 식별하고 해결하는 데 도움을 받았습니다. 멀티모달 발전과 ChatGPT 및 Sora에 적용된 기존 안전 기술과 함께 이를 통해 입력 텍스트와 출력 이미지를 정책에 맞게 검열할 수 있습니다.