modelos/GPT-image-1 de OpenAI - 4o Image Gen 1

GPT-image-1 de OpenAI - 4o Image Gen 1

7/2/2025

1:16:38 AM

Palabras Clave y Etiquetas Relacionadas

4o generación de imagen 1,modelo base,punto de control,generación de imágenes gpt-4o,modelo de generación de imágenes,aprendizaje en contexto,seguimiento de instrucciones,generación multi-turno,openai,openai's gpt-image-1,renderizado de texto,theally,comunicación visual

Silueta de Caperucita Roja con capa roja corriendo de un Lobo Feroz sombrío y aterrador en un bosque brumoso con faroles de cobre colgantes que brillan azul.

Un héroe cansado de batalla empuja contra una barrera mágica brillante, luchando en un salón oscuro y en ruinas. Detrás de la barrera, se ven un mago Lich espectral y la esposa inconsciente del héroe.

Cómic de cuatro viñetas que muestra a una mujer de cabello azul acusando a un axolote triste de no ser arte real, señalando en cambio un plátano pegado con cinta, un ventilador de caja y una estatua en Times Square, con el axolote llorando y asintiendo.

Courage the Cowardly Dog haciendo su icónica expresión de grito contra un fondo vibrante y en remolino inspirado en la pintura The Scream de Edvard Munch.

Escena colorida de criaturas alienígenas alineadas en un camión de helados futurista rosa con un toldo amarillo en un estilo de libro de cuentos con colores psicodélicos CMYK y línea clara.

Una androide steampunk femenina con superficies de latón envejecido y cobre en un estilo de retrato pictórico al óleo, mostrando una expresión asombrada con ojos muy abiertos contra un fondo oscuro y texturizado.

Silueta de un peleador de karate realizando una patada en el aire frente a un sol rojo intenso, representado con pinceladas de salpicaduras de tinta en estilo sumi-e japonés minimalista.

Recorte de cartón 3D de Pyramid Head arrastrando una gran hoja, creando una fisura con luz naranja brillante y manos espectrales, sobre una mesa de madera con un fondo miniatura del pueblo de Silent Hill y un cartel.

Diorama tridimensional de cueva de Minecraft en cartón con minerales realistas, enemigos en capas que incluyen creeper, slime, esqueleto y enderman, iluminados por pequeñas antorchas.

Silueta de un mago pícaro tiefling sosteniendo un orbe brillante, de pie en un entorno post-apocalíptico desaturado con iluminación apagada y estructuras en ruinas.

Pintura al óleo hiperrealista de una heroína gótico-punk con cabello negro puntiagudo, ojos esmeralda y una mirada desafiante y juguetona, usando brazaletes de cuero y medias de red.

Un sushi en forma de pingüino hecho con arroz, alga nori, rodajas de salmón y piezas amarillas de huevo, presentado sobre una tabla de madera.

Consejos

Usa la generación de múltiples turnos de GPT-4o para refinar imágenes mediante conversación natural y obtener iteraciones de diseño coherentes.

Aprovecha la capacidad de GPT-4o para combinar símbolos precisos con imágenes para mejorar la comunicación visual.

Utiliza el aprendizaje en contexto cargando imágenes para informar y mejorar nuevas generaciones de imágenes.

Consulta la guía sobre el uso de GPT Image 1 para consejos adicionales.

Patrocinadores del Creador

Originalmente detallado en - https://openai.com/index/introducing-4o-image-generation/

Actualización 8/5: Hemos lanzado un selector de calidad y ajustado los precios! Ahora las imágenes de calidad Media cuestan 100 Buzz ⚡

Consulta nuestra Guía para usar GPT Image 1!

Originalmente detallado en - https://openai.com/index/introducing-4o-image-generation/

Actualización 8/5: Hemos lanzado un selector de calidad y ajustado los precios! Ahora las imágenes de calidad Media cuestan 100 Buzz ⚡

Consulta nuestra Guía para usar GPT Image 1!

Generación útil de imágenes

Desde las primeras pinturas en cuevas hasta las infografías modernas, los humanos han utilizado imágenes visuales para comunicar, persuadir y analizar, no solo para decorar. Los modelos generativos de hoy pueden conjurar escenas surrealistas e impresionantes, pero luchan con las imágenes básicas que las personas usan para compartir y crear información. Desde logotipos hasta diagramas, las imágenes pueden transmitir un significado preciso cuando se complementan con símbolos que hacen referencia a un lenguaje y experiencia compartidos.

La generación de imágenes GPT‑4o sobresale en la representación precisa del texto, el seguimiento exacto de indicaciones y el aprovechamiento de la base de conocimiento inherente a 4o y el contexto del chat, incluyendo la transformación de imágenes cargadas o su uso como inspiración visual. Estas capacidades facilitan la creación exacta de la imagen que imaginas, ayudándote a comunicarte más eficazmente a través de visuales y avanzando la generación de imágenes como una herramienta práctica con precisión y potencia.

Capacidades mejoradas

Entrenamos nuestros modelos en la distribución conjunta de imágenes y textos en línea, aprendiendo no solo cómo las imágenes se relacionan con el lenguaje, sino también cómo se relacionan entre sí. Combinado con un postentrenamiento agresivo, el modelo resultante tiene una fluidez visual sorprendente, capaz de generar imágenes útiles, consistentes y conscientes del contexto.

Representación de texto

Una imagen vale más que mil palabras, pero a veces generar unas pocas palabras en el lugar correcto puede realzar el significado de una imagen. La habilidad de 4o para mezclar símbolos precisos con imágenes convierte la generación de imágenes en una herramienta para la comunicación visual.

Generación de múltiples turnos

Debido a que la generación de imágenes ahora es nativa en GPT‑4o, puedes refinar imágenes mediante conversación natural. GPT‑4o puede construir sobre imágenes y texto en el contexto del chat, asegurando coherencia en todo momento. Por ejemplo, si diseñas un personaje de videojuego, la apariencia del personaje permanece coherente a lo largo de múltiples iteraciones mientras refinas y experimentas.

Seguimiento de instrucciones

La generación de imágenes GPT‑4o sigue indicaciones detalladas con atención al detalle. Mientras otros sistemas luchan con unos 5-8 objetos, GPT‑4o puede manejar hasta 10-20 objetos diferentes. La vinculación más estricta de objetos con sus rasgos y relaciones permite un mejor control.

Aprendizaje en contexto

GPT‑4o puede analizar y aprender de imágenes cargadas por el usuario, integrando sin problemas sus detalles en su contexto para informar la generación de imágenes.

Seguridad

En concordancia con nuestra Especificación del Modelo, buscamos maximizar la libertad creativa apoyando casos de uso valiosos como desarrollo de videojuegos, exploración histórica y educación, manteniendo al mismo tiempo altos estándares de seguridad. Al mismo tiempo, sigue siendo tan importante como siempre bloquear solicitudes que violen esos estándares. A continuación, evaluaciones de áreas de riesgo adicionales en las que trabajamos para permitir contenido seguro y de alta utilidad, y apoyar una expresión creativa más amplia para los usuarios.

Procedencia vía C2PA y búsqueda reversible interna
Todas las imágenes generadas incluyen metadatos C2PA, que identifican la imagen como proveniente de GPT‑4o para brindar transparencia. También hemos desarrollado una herramienta interna de búsqueda que usa atributos técnicos de las generaciones para ayudar a verificar si el contenido proviene de nuestro modelo.

Bloqueo de contenido inapropiado
Continuamos bloqueando solicitudes para imágenes generadas que puedan violar nuestras políticas de contenido, como material de abuso sexual infantil y deepfakes sexuales. Cuando hay imágenes de personas reales en contexto, tenemos restricciones estrictas sobre el tipo de imágenes que pueden crearse, con salvaguardas particularmente robustas en torno a desnudos y violencia gráfica. Como con cualquier lanzamiento, la seguridad nunca termina y es un área de inversión continua. A medida que aprendemos más sobre el uso real de este modelo, ajustaremos nuestras políticas en consecuencia.

Para más información sobre nuestro enfoque, visita el anexo a la tarjeta del sistema GPT‑4o⁠ de generación de imágenes.

Uso del razonamiento para potenciar la seguridad
Similar a nuestro trabajo de alineación deliberativa⁠, entrenamos un LLM de razonamiento para trabajar directamente con especificaciones de seguridad escritas e interpretables por humanos. Usamos este LLM de razonamiento durante el desarrollo para ayudarnos a identificar y resolver ambigüedades en nuestras políticas. Junto con nuestros avances multimodales y técnicas de seguridad existentes desarrolladas para ChatGPT y Sora, esto nos permite moderar⁠ tanto el texto de entrada como las imágenes de salida conforme a nuestras políticas.