Руководство по промптам GPT-Image-2: 15 проверенных техник + метод слоёв (2026)

Вы аккуратно написали промпт на 300 слов, прождали 30 секунд и получили картинку, покрытую случайным мусорным текстом, который вы не запрашивали. Цвет фона совершенно не тот. У персонажа шесть пальцев. Вы удаляете её и пробуете снова — вторая получается ещё хуже. Знакомо? Это руководство написано именно для того, чтобы это исправить.

Большинство туториалов по GPT-Image-2 выглядят так, будто автор запустил пять промптов и на этом закончил. На основе сотен генераций в сообществе ранних пользователей здесь собрано то, что действительно отличает «готовый к продакшену результат» от «AI-мусора».

Стоит сразу обозначить: старая методология промптинга неверна. Подход с нагромождением ключевых слов, который работал на DALL-E 3 и Midjourney, в GPT-Image-2 активно работает против вас. В эту модель встроено рассуждение — она думает перед тем, как рисовать. Это фундаментально меняет то, как с ней нужно разговаривать.

Если вы постоянно получаете нестабильные результаты, текст, появляющийся в местах, где вы его не просили, или тот самый странный «силиконовый» вид лиц, это руководство перенастроит ваш рабочий процесс. Каждая техника здесь проверена на множестве запусков сообщества, и статья объясняет не только что делать, но и почему это работает именно для этой модели.

Самое важное, что нужно понять

GPT-Image-2 — это не движок сопоставления ключевых слов. Это модель естественного языка с надстройкой рассуждения серии O. Это означает:

Она предпочитает чёткие описания, а не списки ключевых слов
Она планирует композицию перед генерацией (в Thinking Mode)
Она интерпретирует промпты буквальнее, чем предыдущие модели
Её рендеринг текста настолько хорош, что она добавляет текст, который вы не просили

Каждая техника ниже вытекает из этих четырёх фактов.

Основа: метод слоёв

Это самая влиятельная техника, на которой сошлось сообщество. Не пишите один гигантский промпт. Стройте изображение разговорными слоями.

Слой 1 — Композиция: "A coffee shop interior, morning light streaming through floor-to-ceiling windows, a wooden counter in the foreground with pastries displayed."

Слой 1: только композиция — прочная основа, без стилизации

Слой 2 — Стиль: "Render this in warm editorial photography style, shallow depth of field, shot at eye level."

Слой 2: применён стиль — фотографическое настроение теперь связное

Слой 3 — Типографика: Add a chalkboard menu on the wall behind the counter with the text "Today's Special: Oat Milk Latte — $4.50" in handwritten chalk style.

Слой 3: меню на меловой доске с типографикой, аккуратно отрисованной в нужном месте

Слой 4 — Доводка деталей: "Make the light warmer, more golden. Add a subtle steam rising from a coffee cup on the counter."

Слой 4: тёплый свет и струйка пара — сцена оживает

Почему это работает: разговорная память GPT-Image-2 означает, что каждый слой строится на предыдущем. Вы можете проверять и корректировать на каждом этапе. Это куда более управляемо, чем пытаться задать всё в одном промпте.

15 техник

Основы: как контролировать качество вывода

Эти четыре техники — фундамент всего остального. Если у вас есть время только на четыре, изучите эти.

Техника 1: держите промпты короче 500 слов — серьёзно

API принимает до 32 000 токенов. Это потолок, а не цель. Тестирование сообщества подтвердило, что после нескольких сотен токенов модель начинает игнорировать ранние инструкции. Реальная золотая середина: 100–300 слов для Instant Mode, до 500 слов для Thinking Mode.

Ранние пользователи сообщали, что описание одной и той же сцены промптом в 150 слов против версии в 600 слов давало более согласованные и точные результаты у короткой. Длинная версия отрисовывала более поздние инструкции и тихо отбрасывала ограничения из начала.

Техника 2: точный текст помещайте в кавычки

Это техника номер один для рендеринга текста. Любой копирайт, который должен появиться в изображении, помещается в кавычки:

Слабый промпт: Create a sale banner that says 30 percent off spring collection.

Результат слабого промпта — размытый текст, случайные шрифты, разбросанная вёрстка

Сильный промпт: Create a sale banner with the headline "30% OFF SPRING COLLECTION" centered on a pastel gradient background.

Результат сильного промпта — точный текст, центрированная вёрстка, градиентный фон

GPT-Image-2 даёт около 99% точности на уровне символов, но только когда точно знает, что отрисовывать. Размытые описания текста дают размытый текст на выходе.

Техника 3: всегда добавляйте антитекстовый негатив

Это не опционально. Текстовый движок GPT-Image-2 настолько силён, что он генерирует текст повсюду — этикетки, водяные знаки, слова на случайных поверхностях. Каждому промпту нужен этот суффикс:

"No extra text, no additional words, no random lettering, no watermarks, no labels unless specifically requested."

Тесты сообщества показывают, что без этой директивы около 60% изображений возвращались с лишним текстом. С ней доля падает ниже 10%.

Техника 4: используйте Thinking Mode для текста или сцен с несколькими элементами

Instant Mode (3–5 секунд) подходит для простых изображений с одним субъектом. Но для любого из:

Текста, который должен быть точным
Более чем 3 различных элементов
Конкретных пространственных отношений
Многоязычного контента

…переключайтесь на Thinking Mode. Модель потратит 10–30 секунд на планирование композиции, проверку количества объектов, проверку текстовых ограничений перед генерацией. Разница в качестве очевидна.

Средний уровень: точный контроль над композицией и стилем

Когда вы освоили основы, эти шесть техник переведут вас из «сносно» в «точно контролируемо».

Техника 5: пишите промпты так, словно описываете фотографию, а не фантазию

GPT-Image-2 по умолчанию выдаёт фотореализм. Опирайтесь на это. Вместо описания воображаемой сцены описывайте то, что фотограф увидит через видоискатель:

Слабый промпт: A beautiful sunset over mountains with a person looking at it.

Сильный промпт: A woman in a denim jacket photographed from behind, standing on a rocky ridge overlooking layered mountain ranges. Golden hour, warm directional light from the left. Shot at 85mm, f/2.8, shallow depth of field. The mountains fade into haze in the distance.

Фотографические термины крайне эффективны: фокусное расстояние, диафрагма, направление света, угол съёмки (на уровне глаз, нижний ракурс, сверху вниз) и фактура поверхности — всё это превращается в осмысленные изменения вывода.

Техника 6: явно задавайте позицию текста

Не просто говорите, какой текст включить — говорите, где он находится:

Слабый промпт: Add the company name and tagline.

Сильный промпт: Place "AURORA COFFEE" in bold sans-serif at the top-center of the image. Below it, in smaller italic text: "Roasted Fresh Daily." Both in white against the dark background.

Модель следует пространственным указаниям: «top-left corner», «centered banner», «bottom-right watermark position», «along the left margin».

Техника 7: не итерируйте больше 3 раз

Это контринтуитивный урок, который сообщество усвоило тяжёлой ценой. Несколько ранних пользователей задокументировали появление явного «шумового паттерна» после 3+ раундов доработки, при этом тени и освещение начинают деградировать. Чем больше итераций — тем хуже.

Генерация 1: чистое горное озеро на рассвете, сбалансированная композиция

Правка 3: добавлены каяк и птицы, палитра слегка холоднее

Правка 5: слишком много элементов наложено, стиль искажён, изображение «переобработано»

Решение: если после третьей итерации вы не близки к цели, начните заново с переработанным промптом, а не продолжайте дорабатывать. Ваше четвёртое редактирование будет хуже, чем свежая первая генерация с лучшим промптом.

Техника 8: используйте тактическое редактирование вместо полной регенерации

Когда что-то в изображении не так — опечатка, цвет, неверно расположенный элемент — не перегенерируйте всё заново. Используйте функцию редактирования, чтобы выделить конкретную область и исправить только её.

В ChatGPT можно лассо-выделить или отметить проблемный регион и описать изменение: "Change this text to read 'OPENING HOURS' instead of 'OPENNING HOURS'." Это сохраняет всё остальное и обходит проблему деградации при итерациях.

Техника 9: структура промпта из шести элементов

Согласно руководству по промптингу OpenAI, каждый качественный промпт для GPT-Image-2 покрывает шесть строительных блоков. Вам не нужны все шесть каждый раз, но мысленный чек-лист защищает от размытых промптов:

Subject (Субъект) — что это? (бариста, упаковка продукта, интерфейс панели)
Action (Действие) — что происходит? (наливает латте-арт, стоит на полке, отображает аналитику)
Scene (Сцена) — где? (за мраморной стойкой, в современном продуктовом магазине, на экране MacBook)
Composition (Композиция) — как кадрировано? (крупный план, общий план, верхний ракурс flat lay, угол три четверти)
Lighting (Освещение) — какой источник света? (мягкий оконный свет слева, студийная вспышка, золотой час)
Style (Стиль) — какая эстетика? (журнальная фотография, плоская векторная иллюстрация, акварель)

Пример вывода с шестью элементами — бариста наливает латте-арт за мраморной стойкой, журнальный стиль

Техника 10: трудные слова прописывайте по буквам

Для названий брендов, редких слов или неанглийских терминов, где орфография абсолютно критична:

Display the brand name "ZEITGEIST" (Z-E-I-T-G-E-I-S-T) in bold lettering across the top.

Побуквенное написание работает как сигнал верификации для модели. Оно поднимает точность на трудных словах с ~95% до ~99%.

Продвинутый уровень: согласованность и пакетное производство

Эти пять техник — для пользователей, работающих в масштабе или с жёсткими требованиями к согласованности.

Техника 11: используйте референсные изображения (до 16)

В режиме редактирования GPT-Image-2 принимает до 16 референсных изображений. Для работы, где важна согласованность, это меняет правила игры:

"Use Image 1 for the character's face, Image 2 for the outfit style, Image 3 for the color palette, and Image 4 for the background architecture."

Для брендовой работы загрузите свой гайдлайн, цветовую палитру и существующие ассеты — и пусть модель подстраивается под них. Это куда эффективнее, чем описывать бренд словами.

Техника 12: фиксируйте соотношение сторон сразу, никогда не обрезайте после

GPT-Image-2 нативно поддерживает соотношения от 3:1 до 1:3, включая 16:9 и 9:16. Всегда генерируйте в целевом соотношении, а не делайте квадрат и затем кадрируйте.

Для мультиплатформенных социальных кампаний: сгенерируйте главный кадр в 1:1 для ленты Instagram, затем попросите модель адаптировать его в 9:16 для Stories и 16:9 для LinkedIn — всё в рамках одного диалога. Это сохраняет композиционный замысел лучше, чем кадрирование.

Техника 13: противодействуйте дефолту фотореализма

Если вам нужна иллюстрация, мультяшный или стилизованный вывод, это нужно явно указать. GPT-Image-2 склоняется к фотореализму сильнее, чем его предшественники.

Добавляйте явные стилевые якоря:

"Flat vector illustration with clean lines and limited color palette"
"Watercolor painting with visible brush strokes and paper texture"
"Pixel art in 16-bit retro game style, 64×64 pixel grid"
"Japanese manga panel with screen tones and speed lines"

Без таких якорей модель скатывается в «реалистично, но чуть слишком вылизано» — эстетика, которую сообщество называет «брошюра элитного дома престарелых».

Техника 14: мультиизображения для сторибордов

Один вызов может вернуть до 8 стилистически согласованных изображений. Структурируйте промпт как нарратив:

"Generate an 8-panel sequence showing: (1) A woman opening her front door to find a package. (2) Close-up of her hands opening the box. (3) She lifts out a pair of red headphones. (4) She puts them on. (5) Close-up of her face smiling with eyes closed, listening to music. (6) She dances in her living room. (7) She takes a selfie wearing the headphones. (8) Wide shot of her relaxed on the couch, still wearing them. Consistent character throughout — East Asian woman, late 20s, bob haircut, wearing a white t-shirt and jeans."

Нумерованная структура помогает модели поддерживать нарративный поток и согласованность персонажа во всех восьми кадрах. Больше качественных примеров промптов — в коллекции awesome-gpt-image.

Освоенные промпты — сразу применяйте в Pixo. Такой формат многокадровых сторибордов особенно мощно раскрывается в AI Video Agent платформе вроде Pixo: вы вводите текстовый сценарий, AI-агент разбивает его на покадровый сториборд, и для каждого кадра можно выбрать свою модель изображения (GPT-Image-2, Nano Banana, Seedream и др.) и сразу же сгенерировать кадр внутри платформы. Нужно видео? Тот же сториборд можно отдать видео-моделям — Seedance 2, Kling, Hailuo — чтобы оживить каждый кадр и увидеть итоговый монтаж в предпросмотре на таймлайне. GPT-Image-2 рисует сториборд, Seedance 2 превращает его в видео — попробуйте эту лучшую связку бесплатно в Pixo.

Техника 15: используйте тестовый промпт как проверку температуры

Прежде чем тратить генерационный бюджет на сложный проект, прогоните быстрый тестовый промпт, проверяющий конкретную нужную способность:

Тест текста: A white card on a gray background with the text "The quick brown fox jumps over the lazy dog — 2026" in 12pt serif font.
Тест стиля: A single red apple on a wooden table, [your target style].
Тест компоновки: A simple 2×2 grid with four colored squares: red top-left, blue top-right, green bottom-left, yellow bottom-right.

Если тестовый промпт работает — ваш сложный промпт тоже сработает. Если тест провалился, скорректируйте подход прежде, чем потратить 20 генераций впустую.

3 ошибки, которые губят качество вывода

Ошибка 1: переусложнение промпта

Больше деталей не равно лучший вывод. Структурированный промпт на 200 слов бьёт всеохватный промпт на 800 слов. Движок рассуждения модели сам подставит разумные значения по умолчанию — позвольте ему это сделать.

Ошибка 2: борьба с сильными сторонами модели

GPT-Image-2 превосходен в текстонасыщенном, структурированном выводе продакшен-качества. Он не лучший для мечтательной, атмосферной, художественной образности. Если вы часами пытаетесь выжать из него концепт-арт уровня Midjourney — смените инструмент. Полное межмодельное сравнение — в этой статье.

Ошибка 3: продолжать итерировать вместо рестарта

Когда третье редактирование не исправило проблему, четвёртое тоже не исправит. Закройте диалог, перепишите промпт на основе того, что узнали, и начните заново. Результат рестарта по качеству превзойдёт продолжение итераций.

Практическое продолжение: Хотите увидеть эти техники в применении к реальной маркетинговой работе? Полевой тест на 7 сценариях собирает шаблоны промптов для текстовых постеров, рекламных вариантов, инфографики и других распространённых маркетинговых сценариев.

FAQ

В: Нужен ли ChatGPT Plus для хороших результатов? Да. Бесплатный тариф предлагает только Instant Mode на 2–3 изображения в день. Thinking Mode даёт значительно лучшую точность текста и обработку сложной композиции и требует Plus ($20/месяц) или выше.

В: Чем написание промптов отличается от Midjourney? Midjourney предпочитает нагромождение дескрипторов и эстетических ключевых слов. GPT-Image-2 предпочитает структурированный естественный язык. Пишите предложения, а не списки ключевых слов.

В: Можно ли напрямую переиспользовать мои промпты для DALL-E 3? Синтаксически — да, но оптимальных результатов не получите. GPT-Image-2 интерпретирует буквальнее и склоняется к фотореализму. Нужно добавлять стилевые якоря и антитекстовую директиву.

В: Какая правильная настройка качества? Для всего, что содержит текст, мелкие детали или предназначено для профессионального использования — берите «high». «Standard» экономит деньги, но даёт размытый мелкий текст и потерю деталей в сложных сценах.

В: Как сохранять персонажей согласованными между сессиями? Загрузите одно референсное изображение персонажа и подробно описывайте персонажа в каждом промпте. Внутри одной сессии модель сохраняет согласованность естественным образом. Между сессиями референсное изображение необходимо.

Источники: