modele/GPT-image-1 OpenAI - 4o Image Gen 1

GPT-image-1 OpenAI - 4o Image Gen 1

Zofia Nowak

7/2/2025

1:07:37 AM

| Discussion

Powiązane słowa kluczowe i tagi

model bazowy,checkpoint,model generowania obrazu,theally

Sylwetka Czerwonego Kapturka w czerwonym płaszczu uciekającego przed cienistą, przerażającą sylwetką Złego Wilka pośród mglistych lasów z wiszącymi miedzianymi latarniami świecącymi niebieskim światłem.

Komiks czteropanelowy pokazujący kobietę z niebieskimi włosami oskarżającą smutnego axolotla o brak bycia prawdziwą sztuką, wskazującą zamiast tego na banana przyklejonego taśmą, wiatrak i rzeźbę w Times Square, podczas gdy axolotl płacze i zgadza się.

Courage the Cowardly Dog wykonujący ikoniczne wyrażenie krzyku na tle wirujących, żywych kolorów inspirowanych obrazem Edvarda Muncha The Scream.

Kolorowa scena obcych stworzeń ustawionych w kolejce przy futurystycznej różowej lodziarni z żółtym markizem w stylu książki z psychodelicznymi kolorami CMYK i wyraźnym lineworkiem.

Kobiecy android steampunk z postarzałymi powierzchniami z mosiądzu i miedzi w malarskim stylu portretu olejnego, ukazujący szeroko otwarte, zdumione oczy na ciemnym, teksturowanym tle.

Sylwetka karateki wykonującego kopnięcie w powietrzu na tle wyrazistego czerwonego słońca, przedstawiona za pomocą pociągnięć pędzla z plamami atramentu w minimalistycznym japońskim stylu sumi-e.

3D kartonowa figurka Pyramid Head ciągnąca dużą klingę, tworzącą szczelinę ze świecącym pomarańczowym światłem i nawiedzającymi rękami, na drewnianym stole z miniaturowym modelem mglistego miasteczka Silent Hill i tabliczką.

Trójwymiarowa diorama jaskini Minecraft z kartonu, przedstawiająca realistyczne rudy, warstwowe wrogów w tym creeper, slime, szkielet i enderman, oświetlona małymi pochodniami.

Sylwetka tieflinga rogue wizard trzymającego świecącą kulę, stojącego w odkolorowanym postapokaliptycznym otoczeniu z przytłumionym oświetleniem i zrujnowanymi budowlami.

Hiperrealistyczny obraz olejny gothic-punkowej bohaterki z kolczastymi czarnymi włosami, szmaragdowymi oczami i figlarnym wyrazem buntu, noszącej skórzane opaski na nadgarstkach i pończochy kabaretki.

Urocze sushi w kształcie pingwina wykonane z ryżu, nori, plasterków łososia i żółtych kawałków jajka, podane na drewnianej desce.

Surrealistyczne dzieło przedstawiające pięć stylizowanych postaci z unikalnymi fryzurami i uderzającymi wzorzystymi strojami na tle ciemnego, kapryśnego lasu.

Wskazówki

Używaj wieloetapowego generowania GPT-4o, aby dopracowywać obrazy przez naturalną rozmowę dla spójnych iteracji projektów.

Wykorzystaj zdolność GPT-4o do łączenia precyzyjnych symboli z obrazami, aby poprawić komunikację wizualną.

Korzystaj z uczenia kontekstowego, przesyłając obrazy, aby informować i ulepszać nowe generacje obrazów.

Skorzystaj z przewodnika po korzystaniu z GPT Image 1, aby uzyskać dodatkowe wskazówki dotyczące użycia.

Sponsorzy twórcy

Pierwotny opis dostępny pod adresem - https://openai.com/index/introducing-4o-image-generation/

Aktualizacja 5/8: Udostępniliśmy wybór jakości oraz zmieniliśmy ceny! Teraz obrazy średniej jakości kosztują 100 Buzz ⚡

Sprawdź nasz Przewodnik po korzystaniu z GPT Image 1!

Pierwotny opis dostępny pod adresem - https://openai.com/index/introducing-4o-image-generation/

Aktualizacja 5/8: Udostępniliśmy wybór jakości oraz zmieniliśmy ceny! Teraz obrazy średniej jakości kosztują 100 Buzz ⚡

Sprawdź nasz Przewodnik po korzystaniu z GPT Image 1!

Przydatne generowanie obrazów

Od pierwszych malowideł jaskiniowych po nowoczesne infografiki, ludzie używają obrazów wizualnych do komunikacji, przekonywania i analizy — nie tylko do ozdabiania. Dzisiejsze modele generatywne potrafią tworzyć surrealistyczne, zapierające dech w piersiach sceny, ale mają trudności z typowymi obrazami, które ludzie wykorzystują do dzielenia się informacjami i tworzenia treści. Od logotypów po diagramy, obrazy mogą przekazywać precyzyjne znaczenie, gdy są uzupełnione symbolami odnoszącymi się do wspólnego języka i doświadczenia.

Generowanie obrazów GPT‑4o wyróżnia się dokładnym odwzorowaniem tekstu, precyzyjnym podążaniem za promptami oraz wykorzystaniem bazy wiedzy 4o i kontekstu czatu — w tym przekształcaniem przesłanych obrazów lub używaniem ich jako wizualnej inspiracji. Te możliwości ułatwiają tworzenie obrazu dokładnie takiego, jaki masz na myśli, pomagając skuteczniej komunikować się za pomocą wizualizacji i rozwijając generowanie obrazów jako praktyczne narzędzie o precyzji i mocy.

Ulepszone możliwości

Nasze modele zostały wytrenowane na wspólnym rozkładzie obrazów online i tekstu, ucząc się nie tylko, jak obrazy odnoszą się do języka, ale także jak odnoszą się do siebie nawzajem. Połączone z agresywnym post-treningiem, uzyskany model ma zaskakującą biegłość wizualną, zdolny do generowania obrazów użytecznych, spójnych i świadomych kontekstu.

Odwzorowanie tekstu

Obraz wart jest tysiąca słów, ale czasem wygenerowanie kilku słów w odpowiednim miejscu może wzbogacić znaczenie obrazu. Zdolność 4o do łączenia precyzyjnych symboli z obrazami zamienia generowanie obrazów w narzędzie komunikacji wizualnej.

Wieloetapowe generowanie

Dzięki temu, że generowanie obrazów jest teraz natywne dla GPT‑4o, możesz dopracowywać obrazy poprzez naturalną rozmowę. GPT‑4o może rozwijać obrazy i tekst w kontekście czatu, zapewniając spójność w całym procesie. Na przykład, jeśli projektujesz postać do gry wideo, wygląd postaci pozostaje spójny podczas wielu iteracji, kiedy ją dopracowujesz i eksperymentujesz.

Realizowanie instrukcji

Generowanie obrazów GPT‑4o podąża za szczegółowymi promptami z dbałością o szczegóły. Podczas gdy inne systemy mają trudności z około 5-8 obiektami, GPT‑4o radzi sobie z aż 10-20 różnymi obiektami. Ścisłe powiązanie obiektów z ich cechami i relacjami umożliwia lepszą kontrolę.

Uczenie kontekstowe

GPT‑4o potrafi analizować i uczyć się na podstawie przesłanych przez użytkownika obrazów, płynnie integrując ich detale w swoim kontekście, aby wspierać generowanie nowych obrazów.

Bezpieczeństwo

Zgodnie z naszym Modelem Spec, dążymy do maksymalizacji wolności twórczej, wspierając cenne przypadki użycia, takie jak rozwój gier, eksploracja historyczna i edukacja — przy jednoczesnym utrzymaniu wysokich standardów bezpieczeństwa. Równocześnie wciąż bardzo ważne jest blokowanie żądań naruszających te standardy. Poniżej znajdują się oceny dodatkowych obszarów ryzyka, gdzie pracujemy nad zapewnieniem bezpiecznej, funkcjonalnej treści oraz wsparciem dla szerszej kreatywności użytkowników.

Pochodzenie dzięki C2PA i wewnętrzne odwracalne wyszukiwanie
Wszystkie generowane obrazy zawierają metadane C2PA, które identyfikują obraz jako pochodzący z GPT‑4o, zapewniając przejrzystość. Stworzyliśmy również wewnętrzne narzędzie do wyszukiwania, które wykorzystuje techniczne cechy generowań, aby pomóc zweryfikować, czy treść pochodzi z naszego modelu.

Blokowanie niepożądanych treści
Kontynuujemy blokowanie żądań generowania obrazów, które mogą naruszać nasze polityki treści, takie jak materiały z wykorzystywaniem seksualnym dzieci czy seksualne deepfake'i. Gdy w kontekście znajdują się obrazy prawdziwych osób, stosujemy zaostrzone restrykcje dotyczące rodzaju obrazów, które można tworzyć, ze szczególnie silnymi zabezpieczeniami dotyczącymi nagości i drastycznej przemocy. Tak jak przy każdym wdrożeniu, bezpieczeństwo nie jest stanem końcowym, lecz ciągłym obszarem inwestycji. W miarę zdobywania wiedzy o rzeczywistym wykorzystaniu modelu dostosujemy nasze zasady.

Więcej o naszym podejściu można znaleźć w dodatku do karty systemowej GPT‑4o generowania obrazów⁠.

Wykorzystanie rozumowania do wspierania bezpieczeństwa
Podobnie jak w pracy nad deliberatywnym dostrojeniem⁠, wytrenowaliśmy model LLM do rozumowania, który działa bezpośrednio na podstawie specyfikacji bezpieczeństwa napisanych i interpretowalnych przez ludzi. Wykorzystaliśmy ten model rozumowania podczas rozwoju, aby pomóc identyfikować i rozwiązywać niejasności w naszych zasadach. W połączeniu z naszymi multimodalnymi postępami i istniejącymi technikami bezpieczeństwa opracowanymi dla ChatGPT i Sora, umożliwia to moderatowanie⁠ zarówno tekstu wejściowego, jak i obrazów wyjściowych względem naszych zasad.

Współtwórca

Zofia Nowak

Cześć! Nazywam się Zofia Nowak. Łączę pasję do fotografii z technologią, by prezentować najbardziej inspirujące obrazy tworzone przez sztuczną inteligencję.

Poprzedni

"Delicate Balance" Styl Półrealistyczny [Flux.1 D] autorstwa AutoPastel - V1

Następny

Plant Milk 🌿 - Zestaw modeli - Walnut

Użyj tego modelu