Руководство по промптам GPT-Image-2: 15 проверенных техник + метод слоёв (2026)
Руководство по промптам GPT-Image-2: 15 проверенных техник, включая метод слоёв, приёмы рендеринга текста и 3 фатальные ошибки. Дистиллировано из сотен генераций сообщества.

Вы аккуратно написали промпт на 300 слов, прождали 30 секунд и получили картинку, покрытую случайным мусорным текстом, который вы не запрашивали. Цвет фона совершенно не тот. У персонажа шесть пальцев. Вы удаляете её и пробуете снова — вторая получается ещё хуже. Знакомо? Это руководство написано именно для того, чтобы это исправить.
Большинство туториалов по GPT-Image-2 выглядят так, будто автор запустил пять промптов и на этом закончил. На основе сотен генераций в сообществе ранних пользователей здесь собрано то, что действительно отличает «готовый к продакшену результат» от «AI-мусора».
Стоит сразу обозначить: старая методология промптинга неверна. Подход с нагромождением ключевых слов, который работал на DALL-E 3 и Midjourney, в GPT-Image-2 активно работает против вас. В эту модель встроено рассуждение — она думает перед тем, как рисовать. Это фундаментально меняет то, как с ней нужно разговаривать.
Если вы постоянно получаете нестабильные результаты, текст, появляющийся в местах, где вы его не просили, или тот самый странный «силиконовый» вид лиц, это руководство перенастроит ваш рабочий процесс. Каждая техника здесь проверена на множестве запусков сообщества, и статья объясняет не только что делать, но и почему это работает именно для этой модели.
Самое важное, что нужно понять
GPT-Image-2 — это не движок сопоставления ключевых слов. Это модель естественного языка с надстройкой рассуждения серии O. Это означает:
- Она предпочитает чёткие описания, а не списки ключевых слов
- Она планирует композицию перед генерацией (в Thinking Mode)
- Она интерпретирует промпты буквальнее, чем предыдущие модели
- Её рендеринг текста настолько хорош, что она добавляет текст, который вы не просили
Каждая техника ниже вытекает из этих четырёх фактов.
Основа: метод слоёв
Это самая влиятельная техника, на которой сошлось сообщество. Не пишите один гигантский промпт. Стройте изображение разговорными слоями.
Слой 1 — Композиция: "A coffee shop interior, morning light streaming through floor-to-ceiling windows, a wooden counter in the foreground with pastries displayed."

Слой 2 — Стиль: "Render this in warm editorial photography style, shallow depth of field, shot at eye level."

Слой 3 — Типографика: Add a chalkboard menu on the wall behind the counter with the text "Today's Special: Oat Milk Latte — $4.50" in handwritten chalk style.

Слой 4 — Доводка деталей: "Make the light warmer, more golden. Add a subtle steam rising from a coffee cup on the counter."

Почему это работает: разговорная память GPT-Image-2 означает, что каждый слой строится на предыдущем. Вы можете проверять и корректировать на каждом этапе. Это куда более управляемо, чем пытаться задать всё в одном промпте.
15 техник
Основы: как контролировать качество вывода
Эти четыре техники — фундамент всего остального. Если у вас есть время только на четыре, изучите эти.
Техника 1: держите промпты короче 500 слов — серьёзно
API принимает до 32 000 токенов. Это потолок, а не цель. Тестирование сообщества подтвердило, что после нескольких сотен токенов модель начинает игнорировать ранние инструкции. Реальная золотая середина: 100–300 слов для Instant Mode, до 500 слов для Thinking Mode.
Ранние пользователи сообщали, что описание одной и той же сцены промптом в 150 слов против версии в 600 слов давало более согласованные и точные результаты у короткой. Длинная версия отрисовывала более поздние инструкции и тихо отбрасывала ограничения из начала.
Техника 2: точный текст помещайте в кавычки
Это техника номер один для рендеринга текста. Любой копирайт, который должен появиться в изображении, помещается в кавычки:
Слабый промпт: Create a sale banner that says 30 percent off spring collection.

Сильный промпт: Create a sale banner with the headline "30% OFF SPRING COLLECTION" centered on a pastel gradient background.

GPT-Image-2 даёт около 99% точности на уровне символов, но только когда точно знает, что отрисовывать. Размытые описания текста дают размытый текст на выходе.
Техника 3: всегда добавляйте антитекстовый негатив
Это не опционально. Текстовый движок GPT-Image-2 настолько силён, что он генерирует текст повсюду — этикетки, водяные знаки, слова на случайных поверхностях. Каждому промпту нужен этот суффикс:
"No extra text, no additional words, no random lettering, no watermarks, no labels unless specifically requested."
Тесты сообщества показывают, что без этой директивы около 60% изображений возвращались с лишним текстом. С ней доля падает ниже 10%.
Техника 4: используйте Thinking Mode для текста или сцен с несколькими элементами
Instant Mode (3–5 секунд) подходит для простых изображений с одним субъектом. Но для любого из:
- Текста, который должен быть точным
- Более чем 3 различных элементов
- Конкретных пространственных отношений
- Многоязычного контента
…переключайтесь на Thinking Mode. Модель потратит 10–30 секунд на планирование композиции, проверку количества объектов, проверку текстовых ограничений перед генерацией. Разница в качестве очевидна.
Средний уровень: точный контроль над композицией и стилем
Когда вы освоили основы, эти шесть техник переведут вас из «сносно» в «точно контролируемо».
Техника 5: пишите промпты так, словно описываете фотографию, а не фантазию
GPT-Image-2 по умолчанию выдаёт фотореализм. Опирайтесь на это. Вместо описания воображаемой сцены описывайте то, что фотограф увидит через видоискатель:
Слабый промпт: A beautiful sunset over mountains with a person looking at it.
Сильный промпт: A woman in a denim jacket photographed from behind, standing on a rocky ridge overlooking layered mountain ranges. Golden hour, warm directional light from the left. Shot at 85mm, f/2.8, shallow depth of field. The mountains fade into haze in the distance.
Фотографические термины крайне эффективны: фокусное расстояние, диафрагма, направление света, угол съёмки (на уровне глаз, нижний ракурс, сверху вниз) и фактура поверхности — всё это превращается в осмысленные изменения вывода.
Техника 6: явно задавайте позицию текста
Не просто говорите, какой текст включить — говорите, где он находится:
Слабый промпт: Add the company name and tagline.
Сильный промпт: Place "AURORA COFFEE" in bold sans-serif at the top-center of the image. Below it, in smaller italic text: "Roasted Fresh Daily." Both in white against the dark background.
Модель следует пространственным указаниям: «top-left corner», «centered banner», «bottom-right watermark position», «along the left margin».
Техника 7: не итерируйте больше 3 раз
Это контринтуитивный урок, который сообщество усвоило тяжёлой ценой. Несколько ранних пользователей задокументировали появление явного «шумового паттерна» после 3+ раундов доработки, при этом тени и освещение начинают деградировать. Чем больше итераций — тем хуже.



Решение: если после третьей итерации вы не близки к цели, начните заново с переработанным промптом, а не продолжайте дорабатывать. Ваше четвёртое редактирование будет хуже, чем свежая первая генерация с лучшим промптом.
Техника 8: используйте тактическое редактирование вместо полной регенерации
Когда что-то в изображении не так — опечатка, цвет, неверно расположенный элемент — не перегенерируйте всё заново. Используйте функцию редактирования, чтобы выделить конкретную область и исправить только её.
В ChatGPT можно лассо-выделить или отметить проблемный регион и описать изменение: "Change this text to read 'OPENING HOURS' instead of 'OPENNING HOURS'." Это сохраняет всё остальное и обходит проблему деградации при итерациях.
Техника 9: структура промпта из шести элементов
Согласно руководству по промптингу OpenAI, каждый качественный промпт для GPT-Image-2 покрывает шесть строительных блоков. Вам не нужны все шесть каждый раз, но мысленный чек-лист защищает от размытых промптов:
- Subject (Субъект) — что это? (бариста, упаковка продукта, интерфейс панели)
- Action (Действие) — что происходит? (наливает латте-арт, стоит на полке, отображает аналитику)
- Scene (Сцена) — где? (за мраморной стойкой, в современном продуктовом магазине, на экране MacBook)
- Composition (Композиция) — как кадрировано? (крупный план, общий план, верхний ракурс flat lay, угол три четверти)
- Lighting (Освещение) — какой источник света? (мягкий оконный свет слева, студийная вспышка, золотой час)
- Style (Стиль) — какая эстетика? (журнальная фотография, плоская векторная иллюстрация, акварель)

Техника 10: трудные слова прописывайте по буквам
Для названий брендов, редких слов или неанглийских терминов, где орфография абсолютно критична:
Display the brand name "ZEITGEIST" (Z-E-I-T-G-E-I-S-T) in bold lettering across the top.
Побуквенное написание работает как сигнал верификации для модели. Оно поднимает точность на трудных словах с ~95% до ~99%.
Продвинутый уровень: согласованность и пакетное производство
Эти пять техник — для пользователей, работающих в масштабе или с жёсткими требованиями к согласованности.
Техника 11: используйте референсные изображения (до 16)
В режиме редактирования GPT-Image-2 принимает до 16 референсных изображений. Для работы, где важна согласованность, это меняет правила игры:
"Use Image 1 for the character's face, Image 2 for the outfit style, Image 3 for the color palette, and Image 4 for the background architecture."
Для брендовой работы загрузите свой гайдлайн, цветовую палитру и существующие ассеты — и пусть модель подстраивается под них. Это куда эффективнее, чем описывать бренд словами.
Техника 12: фиксируйте соотношение сторон сразу, никогда не обрезайте после
GPT-Image-2 нативно поддерживает соотношения от 3:1 до 1:3, включая 16:9 и 9:16. Всегда генерируйте в целевом соотношении, а не делайте квадрат и затем кадрируйте.
Для мультиплатформенных социальных кампаний: сгенерируйте главный кадр в 1:1 для ленты Instagram, затем попросите модель адаптировать его в 9:16 для Stories и 16:9 для LinkedIn — всё в рамках одного диалога. Это сохраняет композиционный замысел лучше, чем кадрирование.
Техника 13: противодействуйте дефолту фотореализма
Если вам нужна иллюстрация, мультяшный или стилизованный вывод, это нужно явно указать. GPT-Image-2 склоняется к фотореализму сильнее, чем его предшественники.
Добавляйте явные стилевые якоря:
"Flat vector illustration with clean lines and limited color palette""Watercolor painting with visible brush strokes and paper texture""Pixel art in 16-bit retro game style, 64×64 pixel grid""Japanese manga panel with screen tones and speed lines"
Без таких якорей модель скатывается в «реалистично, но чуть слишком вылизано» — эстетика, которую сообщество называет «брошюра элитного дома престарелых».
Техника 14: мультиизображения для сторибордов
Один вызов может вернуть до 8 стилистически согласованных изображений. Структурируйте промпт как нарратив:
"Generate an 8-panel sequence showing: (1) A woman opening her front door to find a package. (2) Close-up of her hands opening the box. (3) She lifts out a pair of red headphones. (4) She puts them on. (5) Close-up of her face smiling with eyes closed, listening to music. (6) She dances in her living room. (7) She takes a selfie wearing the headphones. (8) Wide shot of her relaxed on the couch, still wearing them. Consistent character throughout — East Asian woman, late 20s, bob haircut, wearing a white t-shirt and jeans."
Нумерованная структура помогает модели поддерживать нарративный поток и согласованность персонажа во всех восьми кадрах. Больше качественных примеров промптов — в коллекции awesome-gpt-image.
Освоенные промпты — сразу применяйте в Pixo. Такой формат многокадровых сторибордов особенно мощно раскрывается в AI Video Agent платформе вроде Pixo: вы вводите текстовый сценарий, AI-агент разбивает его на покадровый сториборд, и для каждого кадра можно выбрать свою модель изображения (GPT-Image-2, Nano Banana, Seedream и др.) и сразу же сгенерировать кадр внутри платформы. Нужно видео? Тот же сториборд можно отдать видео-моделям — Seedance 2, Kling, Hailuo — чтобы оживить каждый кадр и увидеть итоговый монтаж в предпросмотре на таймлайне. GPT-Image-2 рисует сториборд, Seedance 2 превращает его в видео — попробуйте эту лучшую связку бесплатно в Pixo.
Техника 15: используйте тестовый промпт как проверку температуры
Прежде чем тратить генерационный бюджет на сложный проект, прогоните быстрый тестовый промпт, проверяющий конкретную нужную способность:
- Тест текста:
A white card on a gray background with the text "The quick brown fox jumps over the lazy dog — 2026" in 12pt serif font. - Тест стиля:
A single red apple on a wooden table, [your target style]. - Тест компоновки:
A simple 2×2 grid with four colored squares: red top-left, blue top-right, green bottom-left, yellow bottom-right.
Если тестовый промпт работает — ваш сложный промпт тоже сработает. Если тест провалился, скорректируйте подход прежде, чем потратить 20 генераций впустую.
3 ошибки, которые губят качество вывода
Ошибка 1: переусложнение промпта
Больше деталей не равно лучший вывод. Структурированный промпт на 200 слов бьёт всеохватный промпт на 800 слов. Движок рассуждения модели сам подставит разумные значения по умолчанию — позвольте ему это сделать.
Ошибка 2: борьба с сильными сторонами модели
GPT-Image-2 превосходен в текстонасыщенном, структурированном выводе продакшен-качества. Он не лучший для мечтательной, атмосферной, художественной образности. Если вы часами пытаетесь выжать из него концепт-арт уровня Midjourney — смените инструмент. Полное межмодельное сравнение — в этой статье.
Ошибка 3: продолжать итерировать вместо рестарта
Когда третье редактирование не исправило проблему, четвёртое тоже не исправит. Закройте диалог, перепишите промпт на основе того, что узнали, и начните заново. Результат рестарта по качеству превзойдёт продолжение итераций.
Практическое продолжение: Хотите увидеть эти техники в применении к реальной маркетинговой работе? Полевой тест на 7 сценариях собирает шаблоны промптов для текстовых постеров, рекламных вариантов, инфографики и других распространённых маркетинговых сценариев.
FAQ
В: Нужен ли ChatGPT Plus для хороших результатов? Да. Бесплатный тариф предлагает только Instant Mode на 2–3 изображения в день. Thinking Mode даёт значительно лучшую точность текста и обработку сложной композиции и требует Plus ($20/месяц) или выше.
В: Чем написание промптов отличается от Midjourney? Midjourney предпочитает нагромождение дескрипторов и эстетических ключевых слов. GPT-Image-2 предпочитает структурированный естественный язык. Пишите предложения, а не списки ключевых слов.
В: Можно ли напрямую переиспользовать мои промпты для DALL-E 3? Синтаксически — да, но оптимальных результатов не получите. GPT-Image-2 интерпретирует буквальнее и склоняется к фотореализму. Нужно добавлять стилевые якоря и антитекстовую директиву.
В: Какая правильная настройка качества? Для всего, что содержит текст, мелкие детали или предназначено для профессионального использования — берите «high». «Standard» экономит деньги, но даёт размытый мелкий текст и потерю деталей в сложных сценах.
В: Как сохранять персонажей согласованными между сессиями? Загрузите одно референсное изображение персонажа и подробно описывайте персонажа в каждом промпте. Внутри одной сессии модель сохраняет согласованность естественным образом. Между сессиями референсное изображение необходимо.
Источники:
- GPT Image Generation Models Prompting Guide — OpenAI Cookbook
- GPT Image 2 Prompting Guide and Examples — fal.ai
- GPT Image 2 Prompting Guide — PixelDojo
- 100 ChatGPT Image 2 Prompts That Actually Work — NoviAI
- awesome-gpt-image: Curated GPT Image 2 Prompts — GitHub
- The Ultimate GPT Image 2 Prompting Guide — Atlabs AI
- Introducing ChatGPT Images 2.0 — OpenAI Official Blog


