ERNIE-Image 提示词工程完全指南(2026 年版):从新手到高手的实战手册

may. 28, 2026

ERNIE-Image 提示词工程完全指南(2026 年版):从新手到高手的实战手册

摘要:ERNIE-Image 的提示词(Prompt)系统包含独特的 3B 参数 Prompt Enhancer(PE)增强器,理解如何与 PE 交互是产出高质量图像的关键。本指南覆盖基础语法、PE 开关策略、高级公式、20+ 实战示例和常见陷阱,助你从提示词新手成长为 ERNIE-Image 提示词高手。

为什么 ERNIE-Image 的提示词工程与众不同?

大多数文生图模型的提示词逻辑相似:描述主体 + 风格 + 环境 + 光影。但 ERNIE-Image 有一个独特组件 —— Prompt Enhancer(PE),一个 3B 参数的语言模型,会在你的原始提示词基础上自动生成更丰富、结构化的描述。

这意味着:

  • PE 开启时:简短的提示词也能产出高质量图像,但 PE 可能"过度脑补",偏离你的原始意图。
  • PE 关闭时:你需要写出更详细、精确的提示词,但对输出的控制力更强。

理解 PE 的工作机制,是 ERNIE-Image 提示词工程的第一课。

一、基础提示词结构

ERNIE-Image 提示词通用公式

[主体描述] + [环境/场景] + [风格关键词] + [光影/色调] + [构图要求]

示例

一只金毛寻回犬坐在秋天的枫树林中,落叶满地,电影感暖色调,浅景深,自然光,中景构图

拆解

  • 主体:金毛寻回犬,坐着
  • 环境:秋天枫树林,落叶
  • 风格:电影感
  • 光影:暖色调,浅景深,自然光
  • 构图:中景

提示词长度建议

PE 状态 推荐长度 说明
PE 开启 5-20 个词 让 PE 发挥增强作用
PE 关闭 30-80 个词 需要更详细的描述

二、Prompt Enhancer(PE)开关策略

何时开启 PE(use_pe=True)

  1. 简短创意描述:你只有一个模糊想法,让 PE 帮你扩展。

    • 例:赛博朋克风格的北京胡同
    • PE 会自动补充:霓虹灯、全息广告牌、雨夜、未来科技元素
  2. 快速原型:需要快速生成概念图,不追求精确控制。

    • 例:产品展示图,科技感
    • PE 会生成完整的场景描述
  3. 英文提示词:PE 对英文的理解能力更强,增强效果更好。

    • 例:cinematic sunset portrait, golden hour, bokeh background

何时关闭 PE(use_pe=False)

  1. 精确指令:需要严格按你的描述生成。

    • 例:白色背景,一个红色球体在画面正中央,纯光影渲染
    • PE 可能添加不必要的装饰
  2. 文字渲染:需要在图中生成特定文字时。

    • 例:海报设计,标题写 "SALE 50%",白色粗体字
    • PE 可能会改变文字内容
  3. 结构化布局:需要精确控制元素位置时。

    • 例:信息图表,左侧是柱状图,右侧是数据说明,顶部标题
    • PE 可能打乱布局
  4. 专业领域术语:PE 可能不理解专业术语。

    • 例:分子结构图,显示咖啡因的化学键连接

PE 开关设置方法

Diffusers:

# 开启 PE
image = pipeline("你的提示词", use_pe=True).images[0]

关闭 PE

image = pipeline("你的提示词", use_pe=False).images[0]

ComfyUI:

  • 在 Prompt Enhancer 节点中切换 PE 开关

SGLang:

  • 默认开启,通过 API 参数控制

三、高级提示词技巧

技巧 1:权重控制

ERNIE-Image 支持关键词权重控制(部分工作流中可用):

(超高清:1.3), 电影感光影, 细节丰富的皮肤纹理, 自然色彩

技巧 2:否定提示词(Negative Prompt)

模糊, 低质量, 变形的手, 多余的手指, 模糊的文字, 水印, 签名

技巧 3:风格锚定

使用具体的风格参考词,而非抽象描述:

# ❌ 不推荐
"好看的风格"

✅ 推荐

"Shot on Kodak Portra 400, available light, shallow depth of field"
"平面向导设计, 扁平化图标, 蓝橙配色方案"
"吉卜力工作室风格, 手绘水彩质感"

技巧 4:分步细化

对于复杂场景,使用"从粗到细"的提示词结构:

# 第一步:基础描述
一只猫坐在窗台上

第二步:添加细节

一只橘猫坐在窗台上,午后阳光从左侧照射

第三步:增加风格

一只橘猫坐在窗台上,午后阳光从左侧照射,胶片质感,暖色调,浅景深,Shot on Fujifilm Classic Chrome

技巧 5:中文 vs 英文提示词

ERNIE-Image 支持中英文提示词,但表现略有不同:

维度 中文提示词 英文提示词
文字渲染 ✅ 中文文字准确 ✅ 英文文字准确
风格理解 较好 更好(训练数据更多)
指令遵循 优秀 优秀
PE 增强效果 中等 更强

建议:需要中文文字渲染时用中文提示词;追求最佳风格效果时用英文提示词。

四、20+ 实战示例

摄影类

1. 人像摄影

professional portrait photography of a young woman, golden hour lighting, shallow depth of field, f/1.8, warm color grading, natural skin texture, 85mm lens

2. 产品摄影

product photography of a ceramic coffee mug, clean white background, studio lighting, soft shadows, top-down view, 4K resolution

3. 风光摄影

aerial view of the Great Wall of China at sunrise, misty mountains, golden light, dramatic clouds, National Geographic style, ultra wide angle

设计类

4. 海报设计

movie poster for a sci-fi thriller, title text "时空裂缝" in bold Chinese characters, dark blue background, glowing neon effects, cinematic composition

5. 信息图表

infographic about climate change, bar charts showing temperature rise, clean layout, blue and orange color scheme, sans-serif typography, data visualization

6. UI 设计概念

mobile app UI design for a fitness tracker, dark mode, gradient accents, clean card-based layout, modern icons, iOS design language

艺术风格

7. 动漫风格

anime style illustration, Studio Ghibli inspired, watercolor background, a girl walking through a sunflower field, soft pastel colors, detailed line art

8. 油画风格

oil painting of a stormy sea, dramatic waves, dark moody lighting, Van Gogh style brushstrokes, thick impasto texture, canvas visible

9. 像素艺术

pixel art style, 16-bit retro game aesthetic, a medieval knight standing before a dragon, limited color palette, dithering effects

商业应用

10. 电商产品图

e-commerce product image of wireless headphones, floating in mid-air, studio lighting, clean white background, lifestyle accessories around, 4K product photography

11. 社交媒体封面

YouTube thumbnail design, bold yellow text "AI 革命", dramatic background, high contrast, click-worthy composition, 16:9 aspect ratio

12. 品牌 Logo

minimalist logo design for a tech startup, geometric shape combining a hexagon and lightning bolt, blue gradient, clean vector style

五、Turbo 模式特殊提示词策略

ERNIE-Image-Turbo(8 步推理)在速度和画质上做了权衡,提示词策略略有不同:

Turbo 模式建议

  1. 减少风格修饰词:Turbo 对复杂修饰词的理解不如 Base 模型。

    # Base 模式可用
    cinematic lighting, dramatic chiaroscuro, anamorphic lens flares
    

    Turbo 模式推荐

    cinematic lighting, dramatic lighting

  2. CFG 值调整:Turbo 默认 CFG=1.0,Base 默认 CFG=4.0。

    • Turbo: CFG 1.0-3.0 效果最佳
    • Base: CFG 3.0-7.0 效果最佳
  3. 步数调整:Turbo 官方推荐 8 步,但 10-12 步可显著提升质量。

  4. 减少网格伪影:Turbo 可能出现对角线网格纹理。

    添加负面提示词:grid artifacts, diagonal lines, checkerboard pattern
    或增加步数至 10-12
    

六、常见陷阱与解决方案

陷阱 1:PE 过度脑补

症状:生成的图像与你的原始提示词偏差较大,添加了大量未要求的内容。

解决方案

  • 关闭 PE(use_pe=False)
  • 使用更精确的提示词
  • 切换到 Base 模式(Turbo 的 PE 倾向更强)

陷阱 2:文字渲染乱码

症状:图中的文字无法辨认或拼写错误。

解决方案

  • 关闭 PE(use_pe=False)
  • 使用 Base 模式(非 Turbo)
  • 将文字内容放在提示词最前面
  • 使用 text: "具体文字内容" 格式明确标注

陷阱 3:手部变形

症状:人物的手部出现多余手指或变形。

解决方案

  • 添加负面提示词:deformed hands, extra fingers, mutated hands
  • 避免复杂手势,让手部处于简单姿势
  • 使用 ControlNet(Pose 模式)控制手部姿势

陷阱 4:构图不均衡

症状:主体偏离画面中心或元素分布不均。

解决方案

  • 明确指定构图要求:centered composition, rule of thirds
  • 关闭 PE 让模型更严格遵循你的布局指令
  • 使用 ControlNet(Canny/Depth)控制构图

七、提示词优化工作流

迭代优化四步法

  1. 生成基础版本:用简短提示词 + PE 开启,快速验证概念。
  2. 分析结果:识别哪些元素满意,哪些需要调整。
  3. 细化提示词:根据结果增加或修改描述词,关闭 PE。
  4. 精细调整:微调 CFG、步数、种子,获得最终效果。

提示词库管理

建议维护个人提示词模板库:

  • 按场景分类(人像/产品/风光/设计)
  • 记录有效和无效的提示词组合
  • 标注适用的模型版本(Base/Turbo)和 PE 状态

八、总结:ERNIE-Image 提示词核心原则

  1. 理解 PE 的双面性:它是助手也是干扰源,学会何时开何时关。
  2. 简洁不等于简单:PE 开启时简洁,PE 关闭时需要详细。
  3. 文字渲染务必关闭 PE:这是最重要的规则。
  4. Base 模型 > Turbo 模型 在复杂提示词场景下。
  5. 负面提示词是安全网:始终添加通用的负面提示词。
  6. 中英文灵活切换:根据目标语言和风格需求选择。

本指南基于 ERNIE-Image 8B 模型(Base 和 Turbo 版本),数据截至 2026 年 5 月。提示词效果可能因版本更新而变化。

ERNIE-Image Team