modele/GPT-image-1 OpenAI - 4o Image Gen 1

GPT-image-1 OpenAI - 4o Image Gen 1

7/2/2025

1:07:37 AM

Powiązane słowa kluczowe i tagi

4o image gen 1,model bazowy,checkpoint,generowanie obrazu gpt-4o,model generowania obrazu,uczenie kontekstowe,podążanie za instrukcjami,generacja wieloetapowa,openai,openai's gpt-image-1,renderowanie tekstu,theally,komunikacja wizualna

Ciemna postać w masce gazowej i płonącym pomarańczowym kapturze dzierży katanę nasyconą świecącymi gwiazdami, na tle apokaliptycznego, kolorowego stylu sprayu miasta w ogniu z efektami rozmycia ruchu.

Portret mężczyzny konika polnego w tank topie siedzącego na kanapie, pijącego piwo, pocierającego skrzyżowane nogi, aby tworzyć świecące nuty muzyczne.

Postać w klimacie brokuła przypominająca Shreka stoi obok liściastej chaty w bujnym bagnie brokułowym otoczona zielonymi drzewami i roślinami.

Ciemna, cienista sylwetka postaci ludzkiej ze świecącymi oczami i krzyczącą twarzą otwierająca klatkę piersiową, z której wydobywa się mnóstwo pająków pod latarnią uliczną.

Efektownie ubrany mężczyzna w zielonym garniturze i cylindrze stoi z szeroko rozłożonymi rękami, uśmiechając się, w szklarni pełnej drzew i roślin przypominających abstrakcyjne brokuły, z żółtym napisem „Witamy w Broccoliarium!”

Realistyczny wąż z kwiatów wiśni z ciałem pokrytym różowymi kwiatami wiśni, świecącymi neonowymi fioletowymi oczami, zwinięty u podstawy ciemnego drzewa wiśni wśród jesiennych liści.

Dwupanelowy komiks zatytułowany System oceniania Civitai z uroczym pingwinem szczęśliwie korzystającym z laptopa i zmartwionym niebieskim robotem oznaczonym jako Civita patrzącym na ekran komputera.

Żywe cyfrowe przedstawienie pomarańczowego jelenia z dużym porożem trzymającego cztery kolorowe astronautyczne ptaki na tle głębokiego niebieskiego kosmicznego nieba pełnego gwiazd i galaktyk.

Szalony łowca demonów z różową brodą, dużymi zakręconymi rogami i świecącymi zielonymi oczami kuca w ciemnym lesie, trzymając kapiący plaster miodu pokryty kleistym miodem.

Wskazówki

Używaj wieloetapowego generowania GPT-4o, aby dopracowywać obrazy przez naturalną rozmowę dla spójnych iteracji projektów.

Wykorzystaj zdolność GPT-4o do łączenia precyzyjnych symboli z obrazami, aby poprawić komunikację wizualną.

Korzystaj z uczenia kontekstowego, przesyłając obrazy, aby informować i ulepszać nowe generacje obrazów.

Skorzystaj z przewodnika po korzystaniu z GPT Image 1, aby uzyskać dodatkowe wskazówki dotyczące użycia.

Sponsorzy twórcy

Pierwotny opis dostępny pod adresem - https://openai.com/index/introducing-4o-image-generation/

Aktualizacja 5/8: Udostępniliśmy wybór jakości oraz zmieniliśmy ceny! Teraz obrazy średniej jakości kosztują 100 Buzz ⚡

Sprawdź nasz Przewodnik po korzystaniu z GPT Image 1!

Pierwotny opis dostępny pod adresem - https://openai.com/index/introducing-4o-image-generation/

Aktualizacja 5/8: Udostępniliśmy wybór jakości oraz zmieniliśmy ceny! Teraz obrazy średniej jakości kosztują 100 Buzz ⚡

Sprawdź nasz Przewodnik po korzystaniu z GPT Image 1!

Przydatne generowanie obrazów

Od pierwszych malowideł jaskiniowych po nowoczesne infografiki, ludzie używają obrazów wizualnych do komunikacji, przekonywania i analizy — nie tylko do ozdabiania. Dzisiejsze modele generatywne potrafią tworzyć surrealistyczne, zapierające dech w piersiach sceny, ale mają trudności z typowymi obrazami, które ludzie wykorzystują do dzielenia się informacjami i tworzenia treści. Od logotypów po diagramy, obrazy mogą przekazywać precyzyjne znaczenie, gdy są uzupełnione symbolami odnoszącymi się do wspólnego języka i doświadczenia.

Generowanie obrazów GPT‑4o wyróżnia się dokładnym odwzorowaniem tekstu, precyzyjnym podążaniem za promptami oraz wykorzystaniem bazy wiedzy 4o i kontekstu czatu — w tym przekształcaniem przesłanych obrazów lub używaniem ich jako wizualnej inspiracji. Te możliwości ułatwiają tworzenie obrazu dokładnie takiego, jaki masz na myśli, pomagając skuteczniej komunikować się za pomocą wizualizacji i rozwijając generowanie obrazów jako praktyczne narzędzie o precyzji i mocy.

Ulepszone możliwości

Nasze modele zostały wytrenowane na wspólnym rozkładzie obrazów online i tekstu, ucząc się nie tylko, jak obrazy odnoszą się do języka, ale także jak odnoszą się do siebie nawzajem. Połączone z agresywnym post-treningiem, uzyskany model ma zaskakującą biegłość wizualną, zdolny do generowania obrazów użytecznych, spójnych i świadomych kontekstu.

Odwzorowanie tekstu

Obraz wart jest tysiąca słów, ale czasem wygenerowanie kilku słów w odpowiednim miejscu może wzbogacić znaczenie obrazu. Zdolność 4o do łączenia precyzyjnych symboli z obrazami zamienia generowanie obrazów w narzędzie komunikacji wizualnej.

Wieloetapowe generowanie

Dzięki temu, że generowanie obrazów jest teraz natywne dla GPT‑4o, możesz dopracowywać obrazy poprzez naturalną rozmowę. GPT‑4o może rozwijać obrazy i tekst w kontekście czatu, zapewniając spójność w całym procesie. Na przykład, jeśli projektujesz postać do gry wideo, wygląd postaci pozostaje spójny podczas wielu iteracji, kiedy ją dopracowujesz i eksperymentujesz.

Realizowanie instrukcji

Generowanie obrazów GPT‑4o podąża za szczegółowymi promptami z dbałością o szczegóły. Podczas gdy inne systemy mają trudności z około 5-8 obiektami, GPT‑4o radzi sobie z aż 10-20 różnymi obiektami. Ścisłe powiązanie obiektów z ich cechami i relacjami umożliwia lepszą kontrolę.

Uczenie kontekstowe

GPT‑4o potrafi analizować i uczyć się na podstawie przesłanych przez użytkownika obrazów, płynnie integrując ich detale w swoim kontekście, aby wspierać generowanie nowych obrazów.

Bezpieczeństwo

Zgodnie z naszym Modelem Spec, dążymy do maksymalizacji wolności twórczej, wspierając cenne przypadki użycia, takie jak rozwój gier, eksploracja historyczna i edukacja — przy jednoczesnym utrzymaniu wysokich standardów bezpieczeństwa. Równocześnie wciąż bardzo ważne jest blokowanie żądań naruszających te standardy. Poniżej znajdują się oceny dodatkowych obszarów ryzyka, gdzie pracujemy nad zapewnieniem bezpiecznej, funkcjonalnej treści oraz wsparciem dla szerszej kreatywności użytkowników.

Pochodzenie dzięki C2PA i wewnętrzne odwracalne wyszukiwanie
Wszystkie generowane obrazy zawierają metadane C2PA, które identyfikują obraz jako pochodzący z GPT‑4o, zapewniając przejrzystość. Stworzyliśmy również wewnętrzne narzędzie do wyszukiwania, które wykorzystuje techniczne cechy generowań, aby pomóc zweryfikować, czy treść pochodzi z naszego modelu.

Blokowanie niepożądanych treści
Kontynuujemy blokowanie żądań generowania obrazów, które mogą naruszać nasze polityki treści, takie jak materiały z wykorzystywaniem seksualnym dzieci czy seksualne deepfake'i. Gdy w kontekście znajdują się obrazy prawdziwych osób, stosujemy zaostrzone restrykcje dotyczące rodzaju obrazów, które można tworzyć, ze szczególnie silnymi zabezpieczeniami dotyczącymi nagości i drastycznej przemocy. Tak jak przy każdym wdrożeniu, bezpieczeństwo nie jest stanem końcowym, lecz ciągłym obszarem inwestycji. W miarę zdobywania wiedzy o rzeczywistym wykorzystaniu modelu dostosujemy nasze zasady.

Więcej o naszym podejściu można znaleźć w dodatku do karty systemowej GPT‑4o generowania obrazów⁠.

Wykorzystanie rozumowania do wspierania bezpieczeństwa
Podobnie jak w pracy nad deliberatywnym dostrojeniem⁠, wytrenowaliśmy model LLM do rozumowania, który działa bezpośrednio na podstawie specyfikacji bezpieczeństwa napisanych i interpretowalnych przez ludzi. Wykorzystaliśmy ten model rozumowania podczas rozwoju, aby pomóc identyfikować i rozwiązywać niejasności w naszych zasadach. W połączeniu z naszymi multimodalnymi postępami i istniejącymi technikami bezpieczeństwa opracowanymi dla ChatGPT i Sora, umożliwia to moderatowanie⁠ zarówno tekstu wejściowego, jak i obrazów wyjściowych względem naszych zasad.

Współtwórca

Zofia Nowak

Cześć! Nazywam się Zofia Nowak. Łączę pasję do fotografii z technologią, by prezentować najbardziej inspirujące obrazy tworzone przez sztuczną inteligencję.

Poprzedni

"Delicate Balance" Styl Półrealistyczny [Flux.1 D] autorstwa AutoPastel - V1

Następny

Plant Milk 🌿 - Zestaw modeli - Walnut

Użyj tego modelu