Hướng dẫn viết prompt GPT-Image-2: 15 kỹ thuật thực chiến + Phương pháp phân lớp (2026)

Bạn viết một prompt cẩn thận 300 chữ, chờ 30 giây, rồi nhận lại một bức ảnh chi chít những dòng chữ vô nghĩa mà bạn không hề yêu cầu. Màu nền sai hoàn toàn. Nhân vật có sáu ngón tay. Bạn xóa và thử lại — lần thứ hai còn tệ hơn. Nghe quen thuộc không? Hướng dẫn này được viết để giải quyết đúng những vấn đề đó.

Hầu hết các bài hướng dẫn về GPT-Image-2 đều có vẻ như tác giả chỉ chạy năm prompt rồi gọi đó là xong. Dựa trên hàng trăm lần tạo ảnh trong cộng đồng người dùng đầu, đây là những gì thực sự phân biệt giữa "kết quả có thể đưa vào sản xuất" và "AI rác".

Cần nói thẳng từ đầu: phương pháp viết prompt cũ đã sai. Cách tiếp cận xếp chồng từ khóa từng hiệu quả với DALL-E 3 và Midjourney lại gây hại trên GPT-Image-2. Mô hình này đã được tích hợp khả năng suy luận — nó suy nghĩ trước khi vẽ. Điều đó thay đổi căn bản cách bạn trò chuyện với nó.

Nếu bạn liên tục gặp kết quả không ổn định, văn bản xuất hiện ở những chỗ không yêu cầu, hoặc khuôn mặt có vẻ "silicone" kỳ lạ, hướng dẫn này sẽ thiết lập lại quy trình của bạn. Mọi kỹ thuật ở đây đều đã được kiểm chứng qua nhiều lần chạy trong cộng đồng, và bài viết không chỉ cho bạn biết phải làm gì mà còn giải thích tại sao nó hoạt động đặc biệt tốt với mô hình này.

Điều quan trọng nhất cần hiểu

GPT-Image-2 không phải là một cỗ máy khớp từ khóa. Nó là một mô hình ngôn ngữ tự nhiên với khả năng suy luận dòng O phủ lên trên. Điều đó có nghĩa là:

Nó ưu tiên mô tả rõ ràng hơn danh sách từ khóa
Nó lập kế hoạch bố cục trước khi tạo ảnh (trong Thinking Mode)
Nó diễn giải prompt theo nghĩa đen hơn các mô hình trước
Khả năng render văn bản của nó tốt đến mức nó tự thêm văn bản bạn không yêu cầu

Mọi kỹ thuật bên dưới đều xuất phát từ bốn sự thật này.

Nền tảng: Phương pháp phân lớp

Đây là kỹ thuật có sức ảnh hưởng lớn nhất mà cộng đồng đã thống nhất. Đừng viết một prompt khổng lồ. Hãy xây dựng hình ảnh theo từng lớp đối thoại.

Lớp 1 — Bố cục: "A coffee shop interior, morning light streaming through floor-to-ceiling windows, a wooden counter in the foreground with pastries displayed."

Lớp 1: chỉ có bố cục — nền tảng vững, chưa có phong cách

Lớp 2 — Phong cách: "Render this in warm editorial photography style, shallow depth of field, shot at eye level."

Lớp 2: thêm phong cách — không khí ảnh nay đã thống nhất

Lớp 3 — Kiểu chữ: Add a chalkboard menu on the wall behind the counter with the text "Today's Special: Oat Milk Latte — $4.50" in handwritten chalk style.

Lớp 3: bảng phấn menu được render rõ nét, đúng vị trí

Lớp 4 — Tinh chỉnh chi tiết: "Make the light warmer, more golden. Add a subtle steam rising from a coffee cup on the counter."

Lớp 4: ánh sáng ấm hơn và làn khói nhẹ — khung cảnh trở nên sống động

Lý do hiệu quả: bộ nhớ hội thoại của GPT-Image-2 cho phép mỗi lớp xây dựng trên lớp trước. Bạn có thể kiểm tra và điều chỉnh ở mọi giai đoạn. Cách này dễ kiểm soát hơn nhiều so với việc cố nhồi tất cả vào một prompt.

15 kỹ thuật

Cơ bản: Cách kiểm soát chất lượng đầu ra

Bốn kỹ thuật này là nền tảng cho mọi thứ còn lại. Nếu bạn chỉ có thời gian học bốn cái, hãy học bốn cái này.

Kỹ thuật 1: Giữ prompt dưới 500 từ — thật đấy

API chấp nhận tối đa 32.000 token. Đó là trần, không phải mục tiêu. Các thử nghiệm cộng đồng đã xác nhận rằng vượt quá vài trăm token, mô hình bắt đầu bỏ qua các chỉ dẫn ở đầu. Khoảng tối ưu thực tế: 100–300 từ cho Instant Mode, tối đa 500 từ cho Thinking Mode.

Người dùng giai đoạn đầu báo cáo rằng khi mô tả cùng một cảnh bằng prompt 150 từ và phiên bản 600 từ, prompt ngắn cho ra kết quả nhất quán và chính xác hơn. Phiên bản dài render các chỉ dẫn về sau và lặng lẽ bỏ rơi các ràng buộc ở đầu.

Kỹ thuật 2: Đặt văn bản chính xác trong dấu ngoặc kép

Đây là kỹ thuật số một cho việc render văn bản. Mọi đoạn chữ phải xuất hiện trong ảnh đều phải đặt trong dấu ngoặc kép:

Prompt yếu: Create a sale banner that says 30 percent off spring collection.

Kết quả của prompt yếu — chữ mờ, font ngẫu nhiên, bố cục lộn xộn

Prompt mạnh: Create a sale banner with the headline "30% OFF SPRING COLLECTION" centered on a pastel gradient background.

Kết quả của prompt mạnh — chữ chính xác, bố cục căn giữa, nền chuyển màu

GPT-Image-2 đạt khoảng 99% độ chính xác ở cấp ký tự, nhưng chỉ khi nó biết chính xác cần render gì. Mô tả văn bản mơ hồ sẽ tạo ra kết quả văn bản mơ hồ.

Kỹ thuật 3: Luôn thêm prompt phủ định chống văn bản

Đây không phải là tùy chọn. Bộ máy văn bản của GPT-Image-2 mạnh đến mức nó sinh ra chữ ở khắp nơi — nhãn, watermark, từ ngữ trên các bề mặt ngẫu nhiên. Mọi prompt đều cần đoạn hậu tố này:

"No extra text, no additional words, no random lettering, no watermarks, no labels unless specifically requested."

Các thử nghiệm cộng đồng cho thấy nếu không có chỉ dẫn này, khoảng 60% ảnh trả về kèm chữ thừa. Có nó, tỷ lệ giảm xuống dưới 10%.

Kỹ thuật 4: Dùng Thinking Mode cho cảnh có chữ hoặc nhiều phần tử

Instant Mode (3–5 giây) ổn cho ảnh đơn giản với một chủ thể. Nhưng với bất kỳ trường hợp nào sau đây:

Văn bản phải chính xác
Hơn 3 phần tử khác nhau
Quan hệ không gian cụ thể
Nội dung đa ngôn ngữ

…hãy chuyển sang Thinking Mode. Mô hình sẽ dành 10–30 giây để lập kế hoạch bố cục, kiểm tra số lượng đối tượng, kiểm tra ràng buộc văn bản trước khi tạo ảnh. Khác biệt về chất lượng là rõ ràng.

Trung cấp: Kiểm soát chính xác bố cục và phong cách

Khi đã nắm vững phần cơ bản, sáu kỹ thuật này đưa bạn từ "dùng được" lên "kiểm soát chính xác".

Kỹ thuật 5: Viết prompt như đang mô tả một bức ảnh, không phải một mộng tưởng

GPT-Image-2 mặc định cho ra ảnh thực tế. Hãy tận dụng điều đó. Thay vì mô tả cảnh trong tưởng tượng, hãy mô tả những gì một nhiếp ảnh gia sẽ thấy qua ống ngắm:

Prompt yếu: A beautiful sunset over mountains with a person looking at it.

Prompt mạnh: A woman in a denim jacket photographed from behind, standing on a rocky ridge overlooking layered mountain ranges. Golden hour, warm directional light from the left. Shot at 85mm, f/2.8, shallow depth of field. The mountains fade into haze in the distance.

Các thuật ngữ nhiếp ảnh cực kỳ hiệu quả: tiêu cự, khẩu độ, hướng sáng, góc chụp (ngang tầm mắt, góc thấp, từ trên xuống) và kết cấu bề mặt đều chuyển hóa thành những thay đổi có ý nghĩa trong kết quả.

Kỹ thuật 6: Chỉ định vị trí văn bản một cách rõ ràng

Đừng chỉ nói cần đưa chữ gì vào — hãy nói chữ đặt ở đâu:

Prompt yếu: Add the company name and tagline.

Prompt mạnh: Place "AURORA COFFEE" in bold sans-serif at the top-center of the image. Below it, in smaller italic text: "Roasted Fresh Daily." Both in white against the dark background.

Mô hình tuân theo các chỉ dẫn không gian: "top-left corner", "centered banner", "bottom-right watermark position", "along the left margin".

Kỹ thuật 7: Đừng lặp lại quá 3 lần

Đây là bài học phản trực giác mà cộng đồng đã rút ra một cách đau đớn. Nhiều người dùng đầu đã ghi nhận sự xuất hiện của "mẫu nhiễu" rõ rệt sau 3 vòng tinh chỉnh trở lên, với bóng đổ và ánh sáng bắt đầu xuống cấp. Càng lặp lại nhiều, càng tệ.

Lần tạo 1: hồ núi vào bình minh trong trẻo, bố cục cân đối

Chỉnh sửa lần 3: thêm thuyền kayak và đàn chim, tông màu hơi lạnh hơn

Chỉnh sửa lần 5: quá nhiều phần tử chồng chéo, phong cách méo mó, ảnh bị "xử lý quá tay"

Cách khắc phục: nếu sau lần lặp thứ ba vẫn chưa đạt mục tiêu, hãy bắt đầu lại với prompt đã chỉnh sửa thay vì tiếp tục tinh chỉnh. Lần chỉnh sửa thứ tư của bạn sẽ tệ hơn lần tạo đầu tiên với một prompt tốt hơn.

Kỹ thuật 8: Dùng chỉnh sửa chiến thuật thay vì tạo lại toàn bộ

Khi có gì đó sai trong ảnh — lỗi chính tả, sai màu, phần tử đặt nhầm chỗ — đừng tạo lại cả bức ảnh. Hãy dùng tính năng chỉnh sửa để chọn vùng cụ thể và sửa duy nhất phần đó.

Trong ChatGPT bạn có thể khoanh vùng hoặc chọn khu vực có vấn đề và mô tả thay đổi: "Change this text to read 'OPENING HOURS' instead of 'OPENNING HOURS'." Cách này giữ nguyên mọi thứ khác và tránh được vấn đề xuống cấp do lặp lại.

Kỹ thuật 9: Cấu trúc prompt sáu yếu tố

Theo hướng dẫn prompt của OpenAI, mọi prompt GPT-Image-2 vững chắc đều bao quát sáu khối xây dựng. Bạn không cần đủ cả sáu mỗi lần, nhưng có một danh sách kiểm tra trong đầu sẽ ngăn ngừa các prompt mơ hồ:

Chủ thể — đó là gì? (một barista, một bao bì sản phẩm, một giao diện dashboard)
Hành động — đang làm gì? (đổ latte art, đặt trên kệ, hiển thị phân tích)
Bối cảnh — ở đâu? (sau quầy đá cẩm thạch, trong cửa hàng tạp hóa hiện đại, trên màn hình MacBook)
Bố cục — khung hình thế nào? (cận cảnh, toàn cảnh, từ trên xuống flat lay, góc ba phần tư)
Ánh sáng — nguồn sáng là gì? (ánh sáng cửa sổ dịu từ bên trái, đèn studio, golden hour)
Phong cách — thẩm mỹ kiểu gì? (editorial photography, flat vector illustration, watercolor)

Ví dụ kết quả sáu yếu tố — barista đổ latte art sau quầy đá cẩm thạch, phong cách editorial

Kỹ thuật 10: Đánh vần từng chữ với những từ khó

Với tên thương hiệu, từ hiếm, hoặc thuật ngữ phi tiếng Anh nơi bạn tuyệt đối cần đánh vần đúng:

Display the brand name "ZEITGEIST" (Z-E-I-T-G-E-I-S-T) in bold lettering across the top.

Việc đánh vần từng chữ đóng vai trò như một tín hiệu xác minh cho mô hình. Nó đẩy độ chính xác trên những từ khó đánh vần từ ~95% lên ~99%.

Nâng cao: Tính nhất quán và sản xuất hàng loạt

Năm kỹ thuật này dành cho người dùng sản xuất ở quy mô lớn hoặc có yêu cầu khắt khe về tính nhất quán.

Kỹ thuật 11: Dùng ảnh tham chiếu (tối đa 16)

Ở chế độ chỉnh sửa, GPT-Image-2 chấp nhận tối đa 16 ảnh tham chiếu. Với những công việc đòi hỏi tính nhất quán, đây là một bước ngoặt:

"Use Image 1 for the character's face, Image 2 for the outfit style, Image 3 for the color palette, and Image 4 for the background architecture."

Khi làm việc với thương hiệu, hãy tải lên style guide, bảng màu và các tài sản hiện có để mô hình khớp theo. Cách này hiệu quả hơn nhiều so với việc mô tả thương hiệu bằng lời.

Kỹ thuật 12: Chốt tỷ lệ khung hình ngay từ đầu, không bao giờ crop sau

GPT-Image-2 hỗ trợ nguyên bản các tỷ lệ từ 3:1 đến 1:3, bao gồm 16:9 và 9:16. Luôn tạo ảnh ở tỷ lệ mục tiêu thay vì tạo vuông rồi cắt.

Với chiến dịch mạng xã hội đa nền tảng: tạo ảnh chủ đạo ở 1:1 cho feed Instagram, sau đó yêu cầu mô hình điều chỉnh sang 9:16 cho Stories và 16:9 cho LinkedIn — tất cả trong cùng một cuộc hội thoại. Cách này giữ lại ý đồ bố cục tốt hơn so với việc cắt xén.

Kỹ thuật 13: Phản công xu hướng mặc định ảnh thực tế

Nếu bạn muốn minh họa, hoạt hình hay đầu ra cách điệu, bạn phải chỉ định rõ. GPT-Image-2 thiên về ảnh thực tế mạnh hơn các bậc tiền bối.

Thêm các neo phong cách rõ ràng:

"Flat vector illustration with clean lines and limited color palette"
"Watercolor painting with visible brush strokes and paper texture"
"Pixel art in 16-bit retro game style, 64×64 pixel grid"
"Japanese manga panel with screen tones and speed lines"

Không có những neo này, mô hình mặc định cho ra "thực tế nhưng quá chỉn chu" — phong cách thẩm mỹ mà cộng đồng gọi là "tờ rơi viện dưỡng lão hạng sang".

Kỹ thuật 14: Prompt nhiều ảnh cho storyboard

Một lần gọi có thể trả về tối đa 8 ảnh có phong cách nhất quán. Hãy cấu trúc prompt thành dạng tự sự:

"Generate an 8-panel sequence showing: (1) A woman opening her front door to find a package. (2) Close-up of her hands opening the box. (3) She lifts out a pair of red headphones. (4) She puts them on. (5) Close-up of her face smiling with eyes closed, listening to music. (6) She dances in her living room. (7) She takes a selfie wearing the headphones. (8) Wide shot of her relaxed on the couch, still wearing them. Consistent character throughout — East Asian woman, late 20s, bob haircut, wearing a white t-shirt and jeans."

Cấu trúc đánh số giúp mô hình duy trì mạch tự sự và tính nhất quán nhân vật xuyên suốt cả tám khung hình. Thêm nhiều ví dụ prompt chất lượng cao trong bộ sưu tập awesome-gpt-image.

Học được prompt rồi, đem dùng ngay trong Pixo. Loại đầu ra storyboard nhiều khung này đặc biệt hữu ích trên một nền tảng AI Video Agent như Pixo — đưa vào kịch bản chữ, AI Agent tự tách thành phân cảnh từng khung, mỗi khung có thể chọn mô hình ảnh khác nhau (GPT-Image-2, Nano Banana, Seedream...) để tạo trực tiếp trong nền tảng. Cần video? Cùng một storyboard có thể gọi các mô hình video như Seedance 2, Kling hay Hailuo để biến từng khung thành chuyển động, rồi xem trước tổ hợp trên timeline. GPT-Image-2 dựng phân cảnh, Seedance 2 dựng video — trải nghiệm bộ đôi mạnh nhất này miễn phí trong Pixo.

Kỹ thuật 15: Dùng prompt thử để đo "nhiệt độ"

Trước khi tiêu hao ngân sách tạo ảnh cho một dự án phức tạp, hãy chạy một prompt thử nhanh để kiểm tra đúng năng lực mà bạn cần:

Thử văn bản: A white card on a gray background with the text "The quick brown fox jumps over the lazy dog — 2026" in 12pt serif font.
Thử phong cách: A single red apple on a wooden table, [your target style].
Thử bố cục: A simple 2×2 grid with four colored squares: red top-left, blue top-right, green bottom-left, yellow bottom-right.

Nếu prompt thử hoạt động, prompt phức tạp của bạn cũng sẽ hoạt động. Nếu thử thất bại, hãy điều chỉnh cách tiếp cận trước khi lãng phí 20 lần tạo ảnh.

3 sai lầm kéo tụt chất lượng đầu ra

Sai lầm 1: Lạm dụng prompt

Càng nhiều chi tiết không có nghĩa là kết quả càng tốt. Một prompt 200 từ, có cấu trúc thắng một prompt 800 từ, đầy đủ mọi thứ. Bộ máy suy luận của mô hình sẽ tự lấp các giá trị mặc định hợp lý — hãy để nó làm.

Sai lầm 2: Đối đầu với điểm mạnh của mô hình

GPT-Image-2 xuất sắc ở đầu ra dày văn bản, có cấu trúc, chất lượng sản xuất. Nó không phải là lựa chọn tốt nhất cho hình ảnh mơ màng, giàu không khí, mang tính nghệ thuật. Nếu bạn đã mất hàng giờ cố ép nó tạo concept art chất lượng Midjourney, hãy đổi công cụ. So sánh đầy đủ giữa các mô hình có ở bài viết này.

Sai lầm 3: Tiếp tục lặp thay vì bắt đầu lại

Khi lần chỉnh sửa thứ ba chưa khắc phục được vấn đề, lần thứ tư cũng không. Hãy đóng cuộc hội thoại, sửa lại prompt dựa trên những gì bạn vừa học được và bắt đầu mới. Kết quả của việc bắt đầu lại sẽ vượt xa việc tiếp tục lặp về chất lượng.

Đồng hành thực hành: Muốn xem những kỹ thuật này được áp dụng vào công việc marketing thật? Bài thử nghiệm 7 kịch bản tổng hợp các mẫu prompt cho áp phích văn bản, biến thể quảng cáo, infographic và các kịch bản marketing phổ biến khác.

Câu hỏi thường gặp

Hỏi: Tôi có cần ChatGPT Plus để có kết quả tốt không? Có. Bản miễn phí chỉ cung cấp Instant Mode với 2–3 ảnh mỗi ngày. Thinking Mode mang lại độ chính xác văn bản và xử lý bố cục phức tạp tốt hơn đáng kể, và yêu cầu Plus (20 USD/tháng) trở lên.

Hỏi: Cách viết prompt khác Midjourney như thế nào? Midjourney ưa các mô tả xếp chồng và từ khóa thẩm mỹ. GPT-Image-2 ưa ngôn ngữ tự nhiên có cấu trúc. Hãy viết câu, không phải danh sách từ khóa.

Hỏi: Tôi có thể tái sử dụng prompt DALL-E 3 trực tiếp không? Về cú pháp thì được, nhưng bạn sẽ không có kết quả tối ưu. GPT-Image-2 diễn giải theo nghĩa đen hơn và mặc định thiên về ảnh thực tế. Bạn cần thêm các neo phong cách và chỉ dẫn chống văn bản.

Hỏi: Cài đặt chất lượng phù hợp là gì? Với bất kỳ thứ gì có văn bản, chi tiết tinh xảo hoặc dùng cho mục đích chuyên nghiệp: dùng "high". "Standard" tiết kiệm tiền nhưng gây mờ chữ nhỏ và mất chi tiết trong các cảnh phức tạp.

Hỏi: Làm sao giữ nhân vật nhất quán giữa các phiên? Tải lên một ảnh tham chiếu nhân vật và mô tả nhân vật chi tiết trong từng prompt. Trong cùng một phiên, mô hình tự nhiên giữ tính nhất quán. Giữa các phiên, ảnh tham chiếu là không thể thiếu.

Nguồn: