GPT-Image-2 提示词指南：15 个实测技巧 + 分层提示法详解（2026）

你精心写了 300 字的提示词，等了 30 秒，结果图里多了一堆你没要的乱码文字。背景颜色完全不对。人物的手指又多了一根。你删掉重来，第二次更差了。听起来熟悉吗？这篇指南就是为了解决这些问题而写的。

大多数 GPT-Image-2 教程看起来像是作者跑了五个提示词就草草收场写出来的。根据社区中数百次生成的经验，早期使用者追踪了哪些有效、哪些失败，并总结出了区分"可用于生产的成品"和"AI 废图"的关键规律。

值得注意的是：旧的提示词方法论是错误的。在 DALL-E 3 和 Midjourney 上有效的关键词堆砌法，在 GPT-Image-2 上反而会适得其反。这个模型内置了推理能力 —— 它在绘制之前会先思考。这从根本上改变了你与它对话的方式。

如果你一直遇到结果不稳定、文字出现在不该出现的地方，或者人物有那种奇怪的"硅胶感"等问题，这篇指南会帮你修正工作流程。每一条技巧都经过社区用户的大量实测验证，本文不仅会告诉你该怎么做，还会解释为什么这样做对这个模型特别有效。

首先要理解的最重要一点

GPT-Image-2 不是一个关键词匹配引擎。它是一个基于自然语言的模型，并在其上叠加了 O 系列推理能力。这意味着：

它更青睐清晰的描述，而非关键词列表
它在生成前会先规划构图（在思考模式下）
它对提示词的解读比以往的模型更加字面化
它的文字渲染能力太强了 —— 会添加你没有要求的文字

以下所有技巧都源于这四个事实。

基础：分层提示法 (Layer Method)

这是社区公认的最具影响力的技巧。不要写一个庞大的提示词，而是用对话的方式逐层构建你的图像。

第一层 —— 构图： "A coffee shop interior, morning light streaming through floor-to-ceiling windows, a wooden counter in the foreground with pastries displayed."

第二层 —— 风格： "Render this in warm editorial photography style, shallow depth of field, shot at eye level."

第三层 —— 文字排版： Add a chalkboard menu on the wall behind the counter with the text "Today's Special: Oat Milk Latte — $4.50" in handwritten chalk style.

第四层 —— 细节优化： "Make the light warmer, more golden. Add a subtle steam rising from a coffee cup on the counter."

为什么这样有效：GPT-Image-2 的对话记忆功能意味着每一层都建立在上一层的基础之上。你可以在每个阶段进行检查和调整。这比试图在一个提示词中指定所有内容要可控得多。

15 条技巧

基础篇：控制输出质量的底层逻辑

以下 4 条技巧是所有后续技巧的基础。如果你只有时间学 4 条，学这 4 条。

技巧 1：提示词控制在 500 词以内 —— 真的

API 最多接受 32,000 个 token。那是上限，不是目标。社区测试已经证实，超过几百个 token 后，模型会开始忽略前面的指令。实际最佳区间是：即时模式 (Instant Mode) 100-300 词，思考模式 (Thinking Mode) 最多 500 词。

早期使用者的经验总结表明：用一个 150 词的提示词和一个 600 词的版本描述同一个场景，短版本生成了更一致、更准确的结果。长版本则渲染了后面的指令，悄悄丢弃了提示词开头的约束条件。

技巧 2：将精确文字放在引号内

这是文字渲染的第一技巧。任何必须出现在图片中的文案都要放在引号内：

弱提示词： Create a sale banner that says 30 percent off spring collection.

强提示词： Create a sale banner with the headline "30% OFF SPRING COLLECTION" centered on a pastel gradient background.

GPT-Image-2 能达到约 99% 的字符级准确率，但前提是它确切知道要渲染什么。模糊的文字描述会产生模糊的文字输出。

技巧 3：务必加入反文字负面提示词

这不是可选项。GPT-Image-2 的文字引擎太强大了，它会在到处生成文字 —— 标签、水印、随机出现在表面上的单词。每一条提示词都需要加上这个后缀：

"No extra text, no additional words, no random lettering, no watermarks, no labels unless specifically requested."

社区用户的大量实测表明，没有这个指令时，约 60% 的图片出现了多余文字。加上之后，这个比例降到了 10% 以下。

技巧 4：涉及文字或多个元素时使用思考模式 (Thinking Mode)

即时模式 (Instant Mode)（3-5 秒）适合简单的单一主题图像。但对于以下情况：

必须准确的文字
超过 3 个不同的元素
特定的空间关系
多语言内容

……请切换到思考模式 (Thinking Mode)。模型会花 10-30 秒来规划构图、验证物体数量、检查文字约束，然后再生成。质量差异非常明显。

进阶篇：精确控制构图与风格

掌握基础后，以下 6 条技巧帮你从"能用"提升到"精确控制"。

技巧 5：像描述照片一样写提示词，而非描述幻想

GPT-Image-2 默认输出照片级写实风格。顺应这个特性。与其描述你想象的画面，不如描述摄影师透过取景器会看到的场景：

弱提示词： A beautiful sunset over mountains with a person looking at it.

强提示词： A woman in a denim jacket photographed from behind, standing on a rocky ridge overlooking layered mountain ranges. Golden hour, warm directional light from the left. Shot at 85mm, f/2.8, shallow depth of field. The mountains fade into haze in the distance.

摄影术语非常有效：镜头焦距、光圈值、光线方向、拍摄角度（平视、仰拍、俯拍）以及表面质感，都会转化为有意义的输出变化。

技巧 6：明确指定文字位置

不要只说要包含什么文字，要明确说明它放在哪里：

弱提示词： Add the company name and tagline.

强提示词： Place "AURORA COFFEE" in bold sans-serif at the top-center of the image. Below it, in smaller italic text: "Roasted Fresh Daily." Both in white against the dark background.

模型会遵循空间指令："top-left corner"（左上角）、"centered banner"（居中横幅）、"bottom-right watermark position"（右下角水印位置）、"along the left margin"（沿左边距）。

技巧 7：迭代不超过 3 次

这是社区用惨痛教训学到的反直觉经验。多位社区用户记录到，经过 3 次以上的优化后，会出现明显的"噪声图案"，阴影和光照开始退化。迭代越多，效果越差。

解决方法：如果第三次迭代还不够接近目标，就用修改后的提示词重新开始，而不是继续在原图上优化。你的第四次编辑会比使用更好提示词的第一次生成还要差。

技巧 8：使用战术编辑 (Tactical Editing) 而非整体重新生成

当图片中有什么不对的地方 —— 拼写错误、颜色不对、元素位置不对 —— 不要重新生成整张图。使用编辑功能选中特定区域，只修复那个部分。

在 ChatGPT 中，你可以圈选或选中问题区域并描述修改："Change this text to read 'OPENING HOURS' instead of 'OPENNING HOURS'." 这会保留图片中的其他所有内容，避免迭代退化问题。

技巧 9：六要素提示词结构

根据 OpenAI 官方提示词指南，每个优质的 GPT-Image-2 提示词都涵盖六个构建模块。你不需要每次都用到全部六个，但有一个心理清单可以防止写出模糊的提示词：

主体 (Subject) —— 是什么？（一个咖啡师、一个产品包装、一个仪表盘界面）
动作 (Action) —— 在做什么？（拉花、摆在货架上、显示分析数据）
场景 (Scene) —— 在哪里？（大理石柜台后面、现代杂货店里、MacBook 屏幕上）
构图 (Composition) —— 怎么取景？（特写、全景、俯拍平铺、四分之三角度）
光线 (Lighting) —— 光源是什么？（左侧柔和的窗户光、影棚闪光灯、黄金时刻）
风格 (Style) —— 什么美学风格？（社论摄影、扁平矢量插画、水彩画）

技巧 10：逐字母拼出难拼单词

对于品牌名称、生僻词或非英语术语等你绝对需要正确拼写的内容：

Display the brand name "ZEITGEIST" (Z-E-I-T-G-E-I-S-T) in bold lettering across the top.

逐字母拼写为模型提供了一个验证提示。这能将难拼单词的准确率从约 95% 提升到约 99%。

高阶篇：一致性与批量生产

以下 5 条技巧面向需要大规模、高一致性产出的用户。

技巧 11：使用参考图片（最多 16 张）

在编辑模式下，GPT-Image-2 最多接受 16 张参考图片。这对保持一致性的工作来说是变革性的：

"Use Image 1 for the character's face, Image 2 for the outfit style, Image 3 for the color palette, and Image 4 for the background architecture."

做品牌相关工作时，上传你的风格指南、色板、现有素材，让模型来匹配。这比口头描述你的品牌要有效得多。

技巧 12：先确定宽高比，永远不要事后裁剪

GPT-Image-2 原生支持从 3:1 到 1:3 的比例生成，包括 16:9 和 9:16。始终以你的目标比例生成，而不是生成正方形后再裁剪。

对于多平台社交媒体活动：以 1:1 生成 Instagram 信息流的主图，然后让模型将其调整为 9:16 用于 Stories，16:9 用于 LinkedIn —— 全部在同一个对话中完成。这比裁剪更能保留构图意图。

技巧 13：对抗照片写实的默认倾向

如果你想要插画、卡通或风格化的输出，必须明确指定。GPT-Image-2 默认倾向照片写实风格的程度比它的前辈更强。

添加明确的风格锚点：

"Flat vector illustration with clean lines and limited color palette"
"Watercolor painting with visible brush strokes and paper texture"
"Pixel art in 16-bit retro game style, 64×64 pixel grid"
"Japanese manga panel with screen tones and speed lines"

没有这些锚点，模型会倾向于"写实但稍显完美过头" —— 社区戏称的"高端养老院宣传册"美学风格。

技巧 14：多图提示词用于故事板

单次调用最多可返回 8 张风格一致的图片。将提示词组织为叙事结构：

"Generate an 8-panel sequence showing: (1) A woman opening her front door to find a package. (2) Close-up of her hands opening the box. (3) She lifts out a pair of red headphones. (4) She puts them on. (5) Close-up of her face smiling with eyes closed, listening to music. (6) She dances in her living room. (7) She takes a selfie wearing the headphones. (8) Wide shot of her relaxed on the couch, still wearing them. Consistent character throughout — East Asian woman, late 20s, bob haircut, wearing a white t-shirt and jeans."

编号结构有助于模型在所有八帧中保持叙事流畅和角色一致性。更多优质提示词示例可参考 awesome-gpt-image 开源合集。

学到的提示词，下一步在 Pixo 里直接用起来。 这种多帧分镜的产出在 Pixo 这样的 AI Video Agent 平台上尤为有用 —— 输入文字脚本，AI Agent 自动拆解为逐帧分镜，每一帧可以选不同的图片模型（GPT-Image-2、Nano Banana、Seedream 等）直接在平台内生成。需要视频？同一个分镜板直接调用 Seedance 2 等视频模型把每帧动画化，并在时间线界面预览整体效果。GPT-Image-2 生成分镜，Seedance 2 生成视频 —— 在 Pixo 中免费体验这套最强组合。

技巧 15：用测试提示词做温度检测

在把生成预算花在复杂项目之前，先跑一个快速测试提示词，检验你需要的特定能力：

文字测试： A white card on a gray background with the text "The quick brown fox jumps over the lazy dog — 2026" in 12pt serif font.
风格测试： A single red apple on a wooden table, [your target style].
布局测试： A simple 2×2 grid with four colored squares: red top-left, blue top-right, green bottom-left, yellow bottom-right.

如果测试提示词有效，你的复杂提示词也会有效。如果测试失败了，在浪费 20 次生成之前先调整方法。

拖垮你出图效果的 3 个错误

错误 1：过度提示

更多细节不等于更好的输出。一个 200 词、结构清晰的提示词胜过一个 800 词、面面俱到的提示词。模型的推理引擎会自动填充合理的默认值 —— 让它去发挥。

错误 2：违背模型的优势

GPT-Image-2 擅长文字密集、结构化、生产级质量的输出。它并不是最擅长梦幻、氛围感、艺术性意象的。如果你花了好几个小时试图让它生成 Midjourney 水准的概念艺术图，换个工具吧。详细的横评在这篇文章。

错误 3：持续迭代而不重新开始

当第三次编辑没能解决问题时，第四次也不会。关掉对话，根据你学到的经验修改提示词，从头开始。重新开始的结果会比继续迭代的质量更高。

实战延伸： 想看看这些技巧在真实营销项目中怎么落地？7 大场景实测总结了文字海报、广告变体、信息图等典型场景的提示词模板。

常见问题

问：我需要 ChatGPT Plus 才能获得好效果吗？ 是的。免费版只提供即时模式 (Instant Mode)，每天 2-3 张图片。思考模式 (Thinking Mode) 能显著提升文字准确性和复杂构图效果，需要 Plus（$20/月）或更高级别的订阅。

问：GPT-Image-2 的提示词写法和 Midjourney 有什么不同？ Midjourney 偏好堆叠描述词和美学关键词。GPT-Image-2 偏好结构化的自然语言。写句子，不要写关键词列表。

问：我能直接用 DALL-E 3 的提示词吗？ 语法上可以用，但不会产生最佳效果。GPT-Image-2 的解读更加字面化，且默认偏向照片写实风格。你需要调整风格锚点并添加反文字指令。

问：最佳质量设置是什么？ 任何包含文字、精细细节或专业用途的内容，请使用 "high" 质量。"Standard" 可以省钱，但会导致小字模糊、复杂场景细节丢失。

问：如何在不同会话中保持角色一致性？ 上传一张角色参考图片，并在每条提示词中详细描述该角色。在单个会话内，模型会自然保持一致性。跨会话时，参考图片是必不可少的。

Sources: