La guía de prompts para GPT-Image-2: 15 técnicas probadas + el método por capas (2026)

Escribiste un prompt cuidadoso de 300 palabras, esperaste 30 segundos, y recibiste de vuelta una imagen cubierta de texto aleatorio sin sentido que no pediste. El color del fondo está completamente equivocado. El personaje tiene seis dedos. La borras y lo intentas de nuevo — la segunda es peor. ¿Te suena familiar? Esta guía está escrita exactamente para solucionar eso.

La mayoría de los tutoriales de GPT-Image-2 se leen como si el autor hubiera lanzado cinco prompts y diera por terminado el día. Basándonos en cientos de generaciones de la comunidad de usuarios tempranos, esto es lo que realmente separa el "resultado de producción listo para entregar" del "AI slop".

Vale la pena destacar de entrada: la vieja metodología de prompts está equivocada. El enfoque de apilar palabras clave que funcionaba en DALL-E 3 y Midjourney perjudica activamente tus resultados en GPT-Image-2. Este modelo tiene razonamiento incorporado — piensa antes de dibujar. Eso cambia fundamentalmente la forma en que hablas con él.

Si sigues encontrándote con resultados inestables, texto que aparece en lugares que no pediste, o ese extraño aspecto "siliconado" en los rostros, esta guía reconfigurará tu flujo de trabajo. Cada técnica aquí ha sido validada en muchas ejecuciones de la comunidad, y el artículo te dice no solo qué hacer sino por qué funciona específicamente para este modelo.

Lo único más importante que hay que entender

GPT-Image-2 no es un motor de coincidencia de palabras clave. Es un modelo de lenguaje natural con razonamiento de la serie O superpuesto. Eso significa:

Prefiere descripciones claras a listas de palabras clave
Planifica la composición antes de generar (en Thinking Mode)
Interpreta los prompts más literalmente que los modelos anteriores
Su renderizado de texto es tan bueno que añade texto que no pediste

Cada técnica que aparece a continuación se desprende de estos cuatro hechos.

Los cimientos: el método por capas

Esta es la técnica más impactante en la que la comunidad ha convergido. No escribas un prompt gigantesco. Construye la imagen en capas conversacionales.

Capa 1 — Composición: "A coffee shop interior, morning light streaming through floor-to-ceiling windows, a wooden counter in the foreground with pastries displayed."

Capa 1: solo composición — base sólida, todavía sin estilo

Capa 2 — Estilo: "Render this in warm editorial photography style, shallow depth of field, shot at eye level."

Capa 2: estilo aplicado — el ambiente fotográfico ya es coherente

Capa 3 — Tipografía: Add a chalkboard menu on the wall behind the counter with the text "Today's Special: Oat Milk Latte — $4.50" in handwritten chalk style.

Capa 3: tipografía del menú de pizarra renderizada con precisión en el lugar correcto

Capa 4 — Pulido de detalles: "Make the light warmer, more golden. Add a subtle steam rising from a coffee cup on the counter."

Capa 4: luz más cálida y un hilo de vapor — la escena cobra vida

Por qué funciona: la memoria conversacional de GPT-Image-2 significa que cada capa se construye sobre la anterior. Puedes inspeccionar y ajustar en cada etapa. Esto es mucho más controlable que tratar de especificarlo todo en un único prompt.

Las 15 técnicas

Cimientos: cómo controlar la calidad de la salida

Estas cuatro técnicas son la base de todo lo demás. Si solo tienes tiempo para cuatro, aprende estas.

Técnica 1: Mantén los prompts por debajo de 500 palabras — en serio

La API acepta hasta 32,000 tokens. Eso es un techo, no un objetivo. Las pruebas de la comunidad han confirmado que pasados unos pocos cientos de tokens, el modelo empieza a ignorar las instrucciones anteriores. El punto óptimo real: 100–300 palabras para Instant Mode, hasta 500 palabras para Thinking Mode.

Los usuarios tempranos reportaron que describir la misma escena con un prompt de 150 palabras frente a una versión de 600 producía resultados más consistentes y precisos con el más corto. La versión más larga renderizaba las instrucciones finales y descartaba silenciosamente las restricciones del comienzo.

Técnica 2: Pon el texto exacto entre comillas

Esta es la técnica número uno para el renderizado de texto. Cualquier copia que deba aparecer en la imagen va entre comillas:

Prompt débil: Create a sale banner that says 30 percent off spring collection.

Salida del prompt débil — texto borroso, fuentes aleatorias, diseño disperso

Prompt fuerte: Create a sale banner with the headline "30% OFF SPRING COLLECTION" centered on a pastel gradient background.

Salida del prompt fuerte — texto exacto, diseño centrado, fondo con gradiente

GPT-Image-2 alcanza alrededor del 99% de precisión a nivel de carácter, pero solo cuando sabe exactamente qué renderizar. Las descripciones vagas de texto producen salidas de texto vagas.

Técnica 3: Incluye siempre el negativo anti-texto

Esto no es opcional. El motor de texto de GPT-Image-2 es tan potente que genera texto en todas partes — etiquetas, marcas de agua, palabras sobre superficies aleatorias. Cada prompt necesita este sufijo:

"No extra text, no additional words, no random lettering, no watermarks, no labels unless specifically requested."

Las pruebas de la comunidad muestran que sin esta directiva, alrededor del 60% de las imágenes salían con texto extraño. Con ella, la tasa cayó por debajo del 10%.

Técnica 4: Usa Thinking Mode para texto o escenas con varios elementos

Instant Mode (3–5 segundos) está bien para imágenes simples de un solo sujeto. Pero para cualquiera de:

Texto que debe ser preciso
Más de 3 elementos distintos
Relaciones espaciales específicas
Contenido multilingüe

…cambia a Thinking Mode. El modelo dedicará entre 10 y 30 segundos a planificar la composición, verificar el conteo de objetos y comprobar las restricciones de texto, antes de generar. La diferencia de calidad es obvia.

Intermedio: control preciso sobre composición y estilo

Una vez dominados los cimientos, estas seis técnicas te llevan de "utilizable" a "controlado con precisión".

Técnica 5: Escribe los prompts como si describieras una fotografía, no una fantasía

GPT-Image-2 produce fotorrealismo por defecto. Apóyate en eso. En lugar de describir la escena que imaginas, describe lo que un fotógrafo vería a través del visor:

Prompt débil: A beautiful sunset over mountains with a person looking at it.

Prompt fuerte: A woman in a denim jacket photographed from behind, standing on a rocky ridge overlooking layered mountain ranges. Golden hour, warm directional light from the left. Shot at 85mm, f/2.8, shallow depth of field. The mountains fade into haze in the distance.

Los términos fotográficos son extremadamente eficaces: distancia focal, apertura, dirección de la luz, ángulo de toma (a la altura de los ojos, contrapicado, cenital) y textura de superficie se traducen todos en cambios significativos en la salida.

Técnica 6: Especifica explícitamente la posición del texto

No te limites a decir qué texto incluir — di dónde va:

Prompt débil: Add the company name and tagline.

Prompt fuerte: Place "AURORA COFFEE" in bold sans-serif at the top-center of the image. Below it, in smaller italic text: "Roasted Fresh Daily." Both in white against the dark background.

El modelo sigue las directivas espaciales: "top-left corner", "centered banner", "bottom-right watermark position", "along the left margin".

Técnica 7: No iteres más de 3 veces

Esta es la lección contraintuitiva que la comunidad aprendió por las malas. Varios usuarios tempranos documentaron la aparición de un evidente "patrón de ruido" tras 3 o más rondas de refinamiento, con sombras e iluminación que empezaban a degradarse. Cuanto más iteras, peor se pone.

Generación 1: lago de montaña al amanecer, composición equilibrada

Edición 3: kayak y aves añadidos, paleta ligeramente más fría

Edición 5: demasiados elementos apilados, estilo distorsionado, la imagen está "sobreprocesada"

La solución: si no estás cerca tras la tercera iteración, reinicia con un prompt revisado en lugar de seguir refinando. Tu cuarta edición será peor que una primera generación nueva con un mejor prompt.

Técnica 8: Usa edición táctica en lugar de regeneración completa

Cuando algo está mal en una imagen — un error tipográfico, un color, un elemento mal colocado — no regeneres todo. Usa la función de edición para seleccionar esa zona específica y arreglar solo esa parte.

En ChatGPT puedes usar el lazo o seleccionar la región problemática y describir el cambio: "Change this text to read 'OPENING HOURS' instead of 'OPENNING HOURS'." Esto preserva todo lo demás y evita el problema de la degradación por iteración.

Técnica 9: La estructura de prompt de seis elementos

Según la guía de prompts de OpenAI, todo prompt sólido para GPT-Image-2 cubre seis bloques constructivos. No necesitas los seis cada vez, pero tener una lista mental previene los prompts vagos:

Sujeto — ¿qué es? (un barista, un envase de producto, una interfaz de panel)
Acción — ¿qué está pasando? (haciendo arte latte, posado en un estante, mostrando analíticas)
Escena — ¿dónde? (detrás de una barra de mármol, en un supermercado moderno, en una pantalla de MacBook)
Composición — ¿cómo está encuadrado? (primer plano, plano abierto, flat lay cenital, ángulo de tres cuartos)
Iluminación — ¿cuál es la fuente de luz? (luz suave de ventana desde la izquierda, flash de estudio, golden hour)
Estilo — ¿qué estética? (fotografía editorial, ilustración vectorial plana, acuarela)

Salida de ejemplo con seis elementos — barista haciendo arte latte detrás de una barra de mármol, estilo editorial

Técnica 10: Deletrea las palabras difíciles letra por letra

Para nombres de marca, palabras poco comunes o términos no ingleses donde necesitas una ortografía perfecta:

Display the brand name "ZEITGEIST" (Z-E-I-T-G-E-I-S-T) in bold lettering across the top.

El deletreo letra por letra actúa como una pista de verificación para el modelo. Eleva la precisión en palabras difíciles de escribir de un ~95% a un ~99%.

Avanzado: consistencia y producción por lotes

Estas cinco técnicas son para usuarios que producen a escala o con requisitos estrictos de consistencia.

Técnica 11: Usa imágenes de referencia (hasta 16)

En modo edición, GPT-Image-2 acepta hasta 16 imágenes de referencia. Para trabajos donde la consistencia es clave, esto es transformador:

"Use Image 1 for the character's face, Image 2 for the outfit style, Image 3 for the color palette, and Image 4 for the background architecture."

Para trabajos de marca, sube tu guía de estilo, la paleta de colores y los activos existentes y deja que el modelo los iguale. Esto es mucho más eficaz que describir tu marca verbalmente.

Técnica 12: Fija primero la relación de aspecto, nunca recortes después

GPT-Image-2 soporta de forma nativa relaciones desde 3:1 hasta 1:3, incluyendo 16:9 y 9:16. Genera siempre con tu relación objetivo en lugar de generar en cuadrado y recortar.

Para campañas sociales multiplataforma: genera el hero a 1:1 para el feed de Instagram, luego pídele al modelo que lo adapte a 9:16 para Stories y a 16:9 para LinkedIn — todo en la misma conversación. Esto preserva la intención compositiva mejor que recortar.

Técnica 13: Contrarresta el sesgo por defecto hacia el fotorrealismo

Si quieres ilustración, dibujo animado o salida estilizada, debes especificarlo explícitamente. GPT-Image-2 se inclina hacia el fotorrealismo más que sus predecesores.

Añade anclas de estilo explícitas:

"Flat vector illustration with clean lines and limited color palette"
"Watercolor painting with visible brush strokes and paper texture"
"Pixel art in 16-bit retro game style, 64×64 pixel grid"
"Japanese manga panel with screen tones and speed lines"

Sin estas anclas, el modelo termina por defecto en "realista pero un poco demasiado pulido" — la estética que la comunidad llama "folleto de residencia de lujo".

Técnica 14: Prompts multi-imagen para storyboards

Una sola llamada puede devolver hasta 8 imágenes con estilo consistente. Estructura el prompt como una narrativa:

"Generate an 8-panel sequence showing: (1) A woman opening her front door to find a package. (2) Close-up of her hands opening the box. (3) She lifts out a pair of red headphones. (4) She puts them on. (5) Close-up of her face smiling with eyes closed, listening to music. (6) She dances in her living room. (7) She takes a selfie wearing the headphones. (8) Wide shot of her relaxed on the couch, still wearing them. Consistent character throughout — East Asian woman, late 20s, bob haircut, wearing a white t-shirt and jeans."

La estructura numerada ayuda al modelo a mantener el flujo narrativo y la consistencia del personaje a lo largo de los ocho fotogramas. Más ejemplos de prompts de calidad en la colección awesome-gpt-image.

Lo que aprendes en prompts, llévalo directamente a Pixo. Este tipo de salidas de storyboard multi-fotograma son especialmente útiles en una plataforma AI Video Agent como Pixo: introduces un guion en texto y un AI Agent lo descompone fotograma a fotograma, y cada uno puede generarse dentro de la plataforma con distintos modelos de imagen (GPT-Image-2, Nano Banana, Seedream y otros). ¿Necesitas vídeo? El mismo storyboard invoca modelos de vídeo como Seedance 2 para animar cada fotograma, con vista previa en línea de tiempo para revisar el conjunto. GPT-Image-2 genera los storyboards, Seedance 2 los convierte en vídeo — prueba esta combinación gratis en Pixo con créditos sin tarjeta de crédito.

Técnica 15: Usa un prompt de prueba como termómetro

Antes de gastar presupuesto de generación en un proyecto complejo, ejecuta un prompt de prueba rápido que ejercite la capacidad específica que necesitas:

Prueba de texto: A white card on a gray background with the text "The quick brown fox jumps over the lazy dog — 2026" in 12pt serif font.
Prueba de estilo: A single red apple on a wooden table, [your target style].
Prueba de diseño: A simple 2×2 grid with four colored squares: red top-left, blue top-right, green bottom-left, yellow bottom-right.

Si el prompt de prueba funciona, tu prompt complejo funcionará. Si la prueba falla, ajusta tu enfoque antes de desperdiciar 20 generaciones.

Los 3 errores que hunden la calidad de tu salida

Error 1: Sobre-prompting

Más detalle no equivale a mejor salida. Un prompt estructurado de 200 palabras le gana a uno exhaustivo de 800. El motor de razonamiento del modelo rellena valores por defecto sensatos — déjalo trabajar.

Error 2: Luchar contra las fortalezas del modelo

GPT-Image-2 es excelente para salidas densas en texto, estructuradas y de calidad de producción. No es el mejor para imágenes oníricas, atmosféricas o artísticas. Si has pasado horas tratando de sacarle arte conceptual al nivel de Midjourney, cambia de herramienta. La comparación completa entre modelos está en este artículo.

Error 3: Seguir iterando en lugar de reiniciar

Cuando la tercera edición no ha solucionado el problema, la cuarta tampoco lo hará. Cierra la conversación, revisa el prompt en función de lo que aprendiste y empieza de nuevo. El resultado de un reinicio superará en calidad a la iteración continuada.

Complemento práctico: ¿Quieres ver estas técnicas aplicadas a trabajo real de marketing? La prueba de campo en 7 escenarios recopila plantillas de prompts para carteles con texto, variantes publicitarias, infografías y otros escenarios de marketing comunes.

Preguntas frecuentes

P: ¿Necesito ChatGPT Plus para obtener buenos resultados? Sí. El nivel gratuito solo ofrece Instant Mode con 2–3 imágenes al día. Thinking Mode ofrece una precisión de texto y un manejo de composiciones complejas significativamente mejores, y requiere Plus ($20/mes) o superior.

P: ¿En qué se diferencia escribir prompts respecto a Midjourney? Midjourney prefiere descriptores apilados y palabras clave estéticas. GPT-Image-2 prefiere lenguaje natural estructurado. Escribe oraciones, no listas de palabras clave.

P: ¿Puedo reutilizar mis prompts de DALL-E 3 directamente? Sintácticamente sí, pero no obtendrás resultados óptimos. GPT-Image-2 interpreta de forma más literal y por defecto tira al fotorrealismo. Necesitarás añadir anclas de estilo y la directiva anti-texto.

P: ¿Cuál es la configuración de calidad correcta? Para cualquier cosa con texto, detalle fino o uso profesional: usa "high". "Standard" ahorra dinero pero produce texto pequeño borroso y pérdida de detalle en escenas complejas.

P: ¿Cómo mantengo a los personajes consistentes entre sesiones? Sube una imagen de referencia del personaje y descríbelo en detalle en cada prompt. Dentro de una misma sesión, el modelo mantiene la consistencia de forma natural. Entre sesiones, la imagen de referencia es indispensable.

Fuentes: