Skip to content
AI·Image Generation·GPT-Image-2·Prompts·Tutorial·

Руководство по промптам GPT-Image-2: 15 проверенных техник + метод слоёв (2026)

Руководство по промптам GPT-Image-2: 15 проверенных техник, включая метод слоёв, приёмы рендеринга текста и 3 фатальные ошибки. Дистиллировано из сотен генераций сообщества.

Pixo Team·12 min read·Также доступно на:English, 中文, Português, Français, 日本語, 한국어, Español, Tiếng Việt
Руководство по промптам GPT-Image-2: 15 проверенных техник + метод слоёв (2026)

Вы аккуратно написали промпт на 300 слов, прождали 30 секунд и получили картинку, покрытую случайным мусорным текстом, который вы не запрашивали. Цвет фона совершенно не тот. У персонажа шесть пальцев. Вы удаляете её и пробуете снова — вторая получается ещё хуже. Знакомо? Это руководство написано именно для того, чтобы это исправить.

Большинство туториалов по GPT-Image-2 выглядят так, будто автор запустил пять промптов и на этом закончил. На основе сотен генераций в сообществе ранних пользователей здесь собрано то, что действительно отличает «готовый к продакшену результат» от «AI-мусора».

Стоит сразу обозначить: старая методология промптинга неверна. Подход с нагромождением ключевых слов, который работал на DALL-E 3 и Midjourney, в GPT-Image-2 активно работает против вас. В эту модель встроено рассуждение — она думает перед тем, как рисовать. Это фундаментально меняет то, как с ней нужно разговаривать.

Если вы постоянно получаете нестабильные результаты, текст, появляющийся в местах, где вы его не просили, или тот самый странный «силиконовый» вид лиц, это руководство перенастроит ваш рабочий процесс. Каждая техника здесь проверена на множестве запусков сообщества, и статья объясняет не только что делать, но и почему это работает именно для этой модели.

Самое важное, что нужно понять

GPT-Image-2 — это не движок сопоставления ключевых слов. Это модель естественного языка с надстройкой рассуждения серии O. Это означает:

  • Она предпочитает чёткие описания, а не списки ключевых слов
  • Она планирует композицию перед генерацией (в Thinking Mode)
  • Она интерпретирует промпты буквальнее, чем предыдущие модели
  • Её рендеринг текста настолько хорош, что она добавляет текст, который вы не просили

Каждая техника ниже вытекает из этих четырёх фактов.

Основа: метод слоёв

Это самая влиятельная техника, на которой сошлось сообщество. Не пишите один гигантский промпт. Стройте изображение разговорными слоями.

Слой 1 — Композиция: "A coffee shop interior, morning light streaming through floor-to-ceiling windows, a wooden counter in the foreground with pastries displayed."

Слой 1: только композиция — прочная основа, без стилизации
Слой 1: только композиция — прочная основа, без стилизации

Слой 2 — Стиль: "Render this in warm editorial photography style, shallow depth of field, shot at eye level."

Слой 2: применён стиль — фотографическое настроение теперь связное
Слой 2: применён стиль — фотографическое настроение теперь связное

Слой 3 — Типографика: Add a chalkboard menu on the wall behind the counter with the text "Today's Special: Oat Milk Latte — $4.50" in handwritten chalk style.

Слой 3: меню на меловой доске с типографикой, аккуратно отрисованной в нужном месте
Слой 3: меню на меловой доске с типографикой, аккуратно отрисованной в нужном месте

Слой 4 — Доводка деталей: "Make the light warmer, more golden. Add a subtle steam rising from a coffee cup on the counter."

Слой 4: тёплый свет и струйка пара — сцена оживает
Слой 4: тёплый свет и струйка пара — сцена оживает

Почему это работает: разговорная память GPT-Image-2 означает, что каждый слой строится на предыдущем. Вы можете проверять и корректировать на каждом этапе. Это куда более управляемо, чем пытаться задать всё в одном промпте.

15 техник

Основы: как контролировать качество вывода

Эти четыре техники — фундамент всего остального. Если у вас есть время только на четыре, изучите эти.

Техника 1: держите промпты короче 500 слов — серьёзно

API принимает до 32 000 токенов. Это потолок, а не цель. Тестирование сообщества подтвердило, что после нескольких сотен токенов модель начинает игнорировать ранние инструкции. Реальная золотая середина: 100–300 слов для Instant Mode, до 500 слов для Thinking Mode.

Ранние пользователи сообщали, что описание одной и той же сцены промптом в 150 слов против версии в 600 слов давало более согласованные и точные результаты у короткой. Длинная версия отрисовывала более поздние инструкции и тихо отбрасывала ограничения из начала.

Техника 2: точный текст помещайте в кавычки

Это техника номер один для рендеринга текста. Любой копирайт, который должен появиться в изображении, помещается в кавычки:

Слабый промпт: Create a sale banner that says 30 percent off spring collection.

Результат слабого промпта — размытый текст, случайные шрифты, разбросанная вёрстка
Результат слабого промпта — размытый текст, случайные шрифты, разбросанная вёрстка

Сильный промпт: Create a sale banner with the headline "30% OFF SPRING COLLECTION" centered on a pastel gradient background.

Результат сильного промпта — точный текст, центрированная вёрстка, градиентный фон
Результат сильного промпта — точный текст, центрированная вёрстка, градиентный фон

GPT-Image-2 даёт около 99% точности на уровне символов, но только когда точно знает, что отрисовывать. Размытые описания текста дают размытый текст на выходе.

Техника 3: всегда добавляйте антитекстовый негатив

Это не опционально. Текстовый движок GPT-Image-2 настолько силён, что он генерирует текст повсюду — этикетки, водяные знаки, слова на случайных поверхностях. Каждому промпту нужен этот суффикс:

"No extra text, no additional words, no random lettering, no watermarks, no labels unless specifically requested."

Тесты сообщества показывают, что без этой директивы около 60% изображений возвращались с лишним текстом. С ней доля падает ниже 10%.

Техника 4: используйте Thinking Mode для текста или сцен с несколькими элементами

Instant Mode (3–5 секунд) подходит для простых изображений с одним субъектом. Но для любого из:

  • Текста, который должен быть точным
  • Более чем 3 различных элементов
  • Конкретных пространственных отношений
  • Многоязычного контента

…переключайтесь на Thinking Mode. Модель потратит 10–30 секунд на планирование композиции, проверку количества объектов, проверку текстовых ограничений перед генерацией. Разница в качестве очевидна.

Средний уровень: точный контроль над композицией и стилем

Когда вы освоили основы, эти шесть техник переведут вас из «сносно» в «точно контролируемо».

Техника 5: пишите промпты так, словно описываете фотографию, а не фантазию

GPT-Image-2 по умолчанию выдаёт фотореализм. Опирайтесь на это. Вместо описания воображаемой сцены описывайте то, что фотограф увидит через видоискатель:

Слабый промпт: A beautiful sunset over mountains with a person looking at it.

Сильный промпт: A woman in a denim jacket photographed from behind, standing on a rocky ridge overlooking layered mountain ranges. Golden hour, warm directional light from the left. Shot at 85mm, f/2.8, shallow depth of field. The mountains fade into haze in the distance.

Фотографические термины крайне эффективны: фокусное расстояние, диафрагма, направление света, угол съёмки (на уровне глаз, нижний ракурс, сверху вниз) и фактура поверхности — всё это превращается в осмысленные изменения вывода.

Техника 6: явно задавайте позицию текста

Не просто говорите, какой текст включить — говорите, где он находится:

Слабый промпт: Add the company name and tagline.

Сильный промпт: Place "AURORA COFFEE" in bold sans-serif at the top-center of the image. Below it, in smaller italic text: "Roasted Fresh Daily." Both in white against the dark background.

Модель следует пространственным указаниям: «top-left corner», «centered banner», «bottom-right watermark position», «along the left margin».

Техника 7: не итерируйте больше 3 раз

Это контринтуитивный урок, который сообщество усвоило тяжёлой ценой. Несколько ранних пользователей задокументировали появление явного «шумового паттерна» после 3+ раундов доработки, при этом тени и освещение начинают деградировать. Чем больше итераций — тем хуже.

Генерация 1: чистое горное озеро на рассвете, сбалансированная композиция
Генерация 1: чистое горное озеро на рассвете, сбалансированная композиция

Правка 3: добавлены каяк и птицы, палитра слегка холоднее
Правка 3: добавлены каяк и птицы, палитра слегка холоднее

Правка 5: слишком много элементов наложено, стиль искажён, изображение «переобработано»
Правка 5: слишком много элементов наложено, стиль искажён, изображение «переобработано»

Решение: если после третьей итерации вы не близки к цели, начните заново с переработанным промптом, а не продолжайте дорабатывать. Ваше четвёртое редактирование будет хуже, чем свежая первая генерация с лучшим промптом.

Техника 8: используйте тактическое редактирование вместо полной регенерации

Когда что-то в изображении не так — опечатка, цвет, неверно расположенный элемент — не перегенерируйте всё заново. Используйте функцию редактирования, чтобы выделить конкретную область и исправить только её.

В ChatGPT можно лассо-выделить или отметить проблемный регион и описать изменение: "Change this text to read 'OPENING HOURS' instead of 'OPENNING HOURS'." Это сохраняет всё остальное и обходит проблему деградации при итерациях.

Техника 9: структура промпта из шести элементов

Согласно руководству по промптингу OpenAI, каждый качественный промпт для GPT-Image-2 покрывает шесть строительных блоков. Вам не нужны все шесть каждый раз, но мысленный чек-лист защищает от размытых промптов:

  1. Subject (Субъект) — что это? (бариста, упаковка продукта, интерфейс панели)
  2. Action (Действие) — что происходит? (наливает латте-арт, стоит на полке, отображает аналитику)
  3. Scene (Сцена) — где? (за мраморной стойкой, в современном продуктовом магазине, на экране MacBook)
  4. Composition (Композиция) — как кадрировано? (крупный план, общий план, верхний ракурс flat lay, угол три четверти)
  5. Lighting (Освещение) — какой источник света? (мягкий оконный свет слева, студийная вспышка, золотой час)
  6. Style (Стиль) — какая эстетика? (журнальная фотография, плоская векторная иллюстрация, акварель)

Пример вывода с шестью элементами — бариста наливает латте-арт за мраморной стойкой, журнальный стиль
Пример вывода с шестью элементами — бариста наливает латте-арт за мраморной стойкой, журнальный стиль

Техника 10: трудные слова прописывайте по буквам

Для названий брендов, редких слов или неанглийских терминов, где орфография абсолютно критична:

Display the brand name "ZEITGEIST" (Z-E-I-T-G-E-I-S-T) in bold lettering across the top.

Побуквенное написание работает как сигнал верификации для модели. Оно поднимает точность на трудных словах с ~95% до ~99%.

Продвинутый уровень: согласованность и пакетное производство

Эти пять техник — для пользователей, работающих в масштабе или с жёсткими требованиями к согласованности.

Техника 11: используйте референсные изображения (до 16)

В режиме редактирования GPT-Image-2 принимает до 16 референсных изображений. Для работы, где важна согласованность, это меняет правила игры:

"Use Image 1 for the character's face, Image 2 for the outfit style, Image 3 for the color palette, and Image 4 for the background architecture."

Для брендовой работы загрузите свой гайдлайн, цветовую палитру и существующие ассеты — и пусть модель подстраивается под них. Это куда эффективнее, чем описывать бренд словами.

Техника 12: фиксируйте соотношение сторон сразу, никогда не обрезайте после

GPT-Image-2 нативно поддерживает соотношения от 3:1 до 1:3, включая 16:9 и 9:16. Всегда генерируйте в целевом соотношении, а не делайте квадрат и затем кадрируйте.

Для мультиплатформенных социальных кампаний: сгенерируйте главный кадр в 1:1 для ленты Instagram, затем попросите модель адаптировать его в 9:16 для Stories и 16:9 для LinkedIn — всё в рамках одного диалога. Это сохраняет композиционный замысел лучше, чем кадрирование.

Техника 13: противодействуйте дефолту фотореализма

Если вам нужна иллюстрация, мультяшный или стилизованный вывод, это нужно явно указать. GPT-Image-2 склоняется к фотореализму сильнее, чем его предшественники.

Добавляйте явные стилевые якоря:

  • "Flat vector illustration with clean lines and limited color palette"
  • "Watercolor painting with visible brush strokes and paper texture"
  • "Pixel art in 16-bit retro game style, 64×64 pixel grid"
  • "Japanese manga panel with screen tones and speed lines"

Без таких якорей модель скатывается в «реалистично, но чуть слишком вылизано» — эстетика, которую сообщество называет «брошюра элитного дома престарелых».

Техника 14: мультиизображения для сторибордов

Один вызов может вернуть до 8 стилистически согласованных изображений. Структурируйте промпт как нарратив:

"Generate an 8-panel sequence showing: (1) A woman opening her front door to find a package. (2) Close-up of her hands opening the box. (3) She lifts out a pair of red headphones. (4) She puts them on. (5) Close-up of her face smiling with eyes closed, listening to music. (6) She dances in her living room. (7) She takes a selfie wearing the headphones. (8) Wide shot of her relaxed on the couch, still wearing them. Consistent character throughout — East Asian woman, late 20s, bob haircut, wearing a white t-shirt and jeans."

Нумерованная структура помогает модели поддерживать нарративный поток и согласованность персонажа во всех восьми кадрах. Больше качественных примеров промптов — в коллекции awesome-gpt-image.

Освоенные промпты — сразу применяйте в Pixo. Такой формат многокадровых сторибордов особенно мощно раскрывается в AI Video Agent платформе вроде Pixo: вы вводите текстовый сценарий, AI-агент разбивает его на покадровый сториборд, и для каждого кадра можно выбрать свою модель изображения (GPT-Image-2, Nano Banana, Seedream и др.) и сразу же сгенерировать кадр внутри платформы. Нужно видео? Тот же сториборд можно отдать видео-моделям — Seedance 2, Kling, Hailuo — чтобы оживить каждый кадр и увидеть итоговый монтаж в предпросмотре на таймлайне. GPT-Image-2 рисует сториборд, Seedance 2 превращает его в видео — попробуйте эту лучшую связку бесплатно в Pixo.

Техника 15: используйте тестовый промпт как проверку температуры

Прежде чем тратить генерационный бюджет на сложный проект, прогоните быстрый тестовый промпт, проверяющий конкретную нужную способность:

  • Тест текста: A white card on a gray background with the text "The quick brown fox jumps over the lazy dog — 2026" in 12pt serif font.
  • Тест стиля: A single red apple on a wooden table, [your target style].
  • Тест компоновки: A simple 2×2 grid with four colored squares: red top-left, blue top-right, green bottom-left, yellow bottom-right.

Если тестовый промпт работает — ваш сложный промпт тоже сработает. Если тест провалился, скорректируйте подход прежде, чем потратить 20 генераций впустую.

3 ошибки, которые губят качество вывода

Ошибка 1: переусложнение промпта

Больше деталей не равно лучший вывод. Структурированный промпт на 200 слов бьёт всеохватный промпт на 800 слов. Движок рассуждения модели сам подставит разумные значения по умолчанию — позвольте ему это сделать.

Ошибка 2: борьба с сильными сторонами модели

GPT-Image-2 превосходен в текстонасыщенном, структурированном выводе продакшен-качества. Он не лучший для мечтательной, атмосферной, художественной образности. Если вы часами пытаетесь выжать из него концепт-арт уровня Midjourney — смените инструмент. Полное межмодельное сравнение — в этой статье.

Ошибка 3: продолжать итерировать вместо рестарта

Когда третье редактирование не исправило проблему, четвёртое тоже не исправит. Закройте диалог, перепишите промпт на основе того, что узнали, и начните заново. Результат рестарта по качеству превзойдёт продолжение итераций.

Практическое продолжение: Хотите увидеть эти техники в применении к реальной маркетинговой работе? Полевой тест на 7 сценариях собирает шаблоны промптов для текстовых постеров, рекламных вариантов, инфографики и других распространённых маркетинговых сценариев.

FAQ

В: Нужен ли ChatGPT Plus для хороших результатов? Да. Бесплатный тариф предлагает только Instant Mode на 2–3 изображения в день. Thinking Mode даёт значительно лучшую точность текста и обработку сложной композиции и требует Plus ($20/месяц) или выше.

В: Чем написание промптов отличается от Midjourney? Midjourney предпочитает нагромождение дескрипторов и эстетических ключевых слов. GPT-Image-2 предпочитает структурированный естественный язык. Пишите предложения, а не списки ключевых слов.

В: Можно ли напрямую переиспользовать мои промпты для DALL-E 3? Синтаксически — да, но оптимальных результатов не получите. GPT-Image-2 интерпретирует буквальнее и склоняется к фотореализму. Нужно добавлять стилевые якоря и антитекстовую директиву.

В: Какая правильная настройка качества? Для всего, что содержит текст, мелкие детали или предназначено для профессионального использования — берите «high». «Standard» экономит деньги, но даёт размытый мелкий текст и потерю деталей в сложных сценах.

В: Как сохранять персонажей согласованными между сессиями? Загрузите одно референсное изображение персонажа и подробно описывайте персонажа в каждом промпте. Внутри одной сессии модель сохраняет согласованность естественным образом. Между сессиями референсное изображение необходимо.


Источники: