GPT-image-1 OpenAI - 4o Image Gen 1
Wskazówki
Używaj wieloetapowego generowania GPT-4o, aby dopracowywać obrazy przez naturalną rozmowę dla spójnych iteracji projektów.
Wykorzystaj zdolność GPT-4o do łączenia precyzyjnych symboli z obrazami, aby poprawić komunikację wizualną.
Korzystaj z uczenia kontekstowego, przesyłając obrazy, aby informować i ulepszać nowe generacje obrazów.
Skorzystaj z przewodnika po korzystaniu z GPT Image 1, aby uzyskać dodatkowe wskazówki dotyczące użycia.
Sponsorzy twórcy
Pierwotny opis dostępny pod adresem - https://openai.com/index/introducing-4o-image-generation/
Aktualizacja 5/8: Udostępniliśmy wybór jakości oraz zmieniliśmy ceny! Teraz obrazy średniej jakości kosztują 100 Buzz ⚡
Sprawdź nasz Przewodnik po korzystaniu z GPT Image 1!
Pierwotny opis dostępny pod adresem - https://openai.com/index/introducing-4o-image-generation/
Aktualizacja 5/8: Udostępniliśmy wybór jakości oraz zmieniliśmy ceny! Teraz obrazy średniej jakości kosztują 100 Buzz ⚡
Sprawdź nasz Przewodnik po korzystaniu z GPT Image 1!
Przydatne generowanie obrazów
Od pierwszych malowideł jaskiniowych po nowoczesne infografiki, ludzie używają obrazów wizualnych do komunikacji, przekonywania i analizy — nie tylko do ozdabiania. Dzisiejsze modele generatywne potrafią tworzyć surrealistyczne, zapierające dech w piersiach sceny, ale mają trudności z typowymi obrazami, które ludzie wykorzystują do dzielenia się informacjami i tworzenia treści. Od logotypów po diagramy, obrazy mogą przekazywać precyzyjne znaczenie, gdy są uzupełnione symbolami odnoszącymi się do wspólnego języka i doświadczenia.
Generowanie obrazów GPT‑4o wyróżnia się dokładnym odwzorowaniem tekstu, precyzyjnym podążaniem za promptami oraz wykorzystaniem bazy wiedzy 4o i kontekstu czatu — w tym przekształcaniem przesłanych obrazów lub używaniem ich jako wizualnej inspiracji. Te możliwości ułatwiają tworzenie obrazu dokładnie takiego, jaki masz na myśli, pomagając skuteczniej komunikować się za pomocą wizualizacji i rozwijając generowanie obrazów jako praktyczne narzędzie o precyzji i mocy.
Ulepszone możliwości
Nasze modele zostały wytrenowane na wspólnym rozkładzie obrazów online i tekstu, ucząc się nie tylko, jak obrazy odnoszą się do języka, ale także jak odnoszą się do siebie nawzajem. Połączone z agresywnym post-treningiem, uzyskany model ma zaskakującą biegłość wizualną, zdolny do generowania obrazów użytecznych, spójnych i świadomych kontekstu.
Odwzorowanie tekstu
Obraz wart jest tysiąca słów, ale czasem wygenerowanie kilku słów w odpowiednim miejscu może wzbogacić znaczenie obrazu. Zdolność 4o do łączenia precyzyjnych symboli z obrazami zamienia generowanie obrazów w narzędzie komunikacji wizualnej.
Wieloetapowe generowanie
Dzięki temu, że generowanie obrazów jest teraz natywne dla GPT‑4o, możesz dopracowywać obrazy poprzez naturalną rozmowę. GPT‑4o może rozwijać obrazy i tekst w kontekście czatu, zapewniając spójność w całym procesie. Na przykład, jeśli projektujesz postać do gry wideo, wygląd postaci pozostaje spójny podczas wielu iteracji, kiedy ją dopracowujesz i eksperymentujesz.
Realizowanie instrukcji
Generowanie obrazów GPT‑4o podąża za szczegółowymi promptami z dbałością o szczegóły. Podczas gdy inne systemy mają trudności z około 5-8 obiektami, GPT‑4o radzi sobie z aż 10-20 różnymi obiektami. Ścisłe powiązanie obiektów z ich cechami i relacjami umożliwia lepszą kontrolę.
Uczenie kontekstowe
GPT‑4o potrafi analizować i uczyć się na podstawie przesłanych przez użytkownika obrazów, płynnie integrując ich detale w swoim kontekście, aby wspierać generowanie nowych obrazów.
Bezpieczeństwo
Zgodnie z naszym Modelem Spec, dążymy do maksymalizacji wolności twórczej, wspierając cenne przypadki użycia, takie jak rozwój gier, eksploracja historyczna i edukacja — przy jednoczesnym utrzymaniu wysokich standardów bezpieczeństwa. Równocześnie wciąż bardzo ważne jest blokowanie żądań naruszających te standardy. Poniżej znajdują się oceny dodatkowych obszarów ryzyka, gdzie pracujemy nad zapewnieniem bezpiecznej, funkcjonalnej treści oraz wsparciem dla szerszej kreatywności użytkowników.
Pochodzenie dzięki C2PA i wewnętrzne odwracalne wyszukiwanie
Wszystkie generowane obrazy zawierają metadane C2PA, które identyfikują obraz jako pochodzący z GPT‑4o, zapewniając przejrzystość. Stworzyliśmy również wewnętrzne narzędzie do wyszukiwania, które wykorzystuje techniczne cechy generowań, aby pomóc zweryfikować, czy treść pochodzi z naszego modelu.
Blokowanie niepożądanych treści
Kontynuujemy blokowanie żądań generowania obrazów, które mogą naruszać nasze polityki treści, takie jak materiały z wykorzystywaniem seksualnym dzieci czy seksualne deepfake'i. Gdy w kontekście znajdują się obrazy prawdziwych osób, stosujemy zaostrzone restrykcje dotyczące rodzaju obrazów, które można tworzyć, ze szczególnie silnymi zabezpieczeniami dotyczącymi nagości i drastycznej przemocy. Tak jak przy każdym wdrożeniu, bezpieczeństwo nie jest stanem końcowym, lecz ciągłym obszarem inwestycji. W miarę zdobywania wiedzy o rzeczywistym wykorzystaniu modelu dostosujemy nasze zasady.
Więcej o naszym podejściu można znaleźć w dodatku do karty systemowej GPT‑4o generowania obrazów.
Wykorzystanie rozumowania do wspierania bezpieczeństwa
Podobnie jak w pracy nad deliberatywnym dostrojeniem, wytrenowaliśmy model LLM do rozumowania, który działa bezpośrednio na podstawie specyfikacji bezpieczeństwa napisanych i interpretowalnych przez ludzi. Wykorzystaliśmy ten model rozumowania podczas rozwoju, aby pomóc identyfikować i rozwiązywać niejasności w naszych zasadach. W połączeniu z naszymi multimodalnymi postępami i istniejącymi technikami bezpieczeństwa opracowanymi dla ChatGPT i Sora, umożliwia to moderatowanie zarówno tekstu wejściowego, jak i obrazów wyjściowych względem naszych zasad.
Szczegóły modelu
Dyskusja
Proszę się log in, aby dodać komentarz.
