ERNIE Image 提示词完全教程:8 大场景 × 50+ 实战 Prompt 示例
本文基于 ERNIE Image(百度开源 8B 文生图模型)最新实测,手把手教你用精准提示词生成高质量图像。涵盖产品摄影、电影海报、漫画分镜、电商 Banner、信息图表、UI 原型、场景概念图和角色设计 8 大场景,附完整 Prompt 模板。
什么是 ERNIE Image?
ERNIE Image 是百度文心大模型团队开发的开源文本到图像生成模型,基于单流 Diffusion Transformer(DiT) 架构,参数量仅 8B,但能在 24GB 显存的消费级显卡上流畅运行(Apache 2.0 开源协议)。
它最大的差异化优势是 图像内文字渲染能力——在 LongText-Bench 评测中达到 0.9733 分,位居全球前列,能精准渲染中英日韩多语言文字、复杂排版布局和密集文本。这在主流扩散模型中属于短板,但 ERNIE Image 用 DiT 架构将文字作为结构化位置令牌处理,实现了业界领先的效果。
除了文字渲染,ERNIE Image 还支持 Prompt Enhancer(提示词增强器)——自动将你简短的描述扩展为包含光照、构图、风格等专业艺术指导术语的结构化 Prompt,让你用最少的话获得更高质量的生成结果。

ERNIE Image 官方示例图:多风格、多场景的高质量生成能力
本文不讨论技术原理,直接聚焦:如何用 ERNIE Image 的 Prompt 生成你想要的高质量图像。
ERNIE Image Prompt 写作核心原则
在深入具体场景之前,先掌握 3 个核心原则。遵循这些规则,你的提示词质量会大幅提升。
原则 1:把 Prompt 当创作指令,而非搜索查询
AI 图像生成器不像搜索引擎,它把你的 Prompt 理解为创意指令。描述越具体、结构越清晰,输出越可控。
原则 2:结构化你的 Prompt
一个高效的 ERNIE Image Prompt 通常包含 5 个要素:
- 主体(Subject):画面的核心对象是什么?
- 动作/场景(Action/Context):主体在做什么?处于什么环境中?
- 风格(Style):照片?插画?电影感?
- 光照(Lighting):自然光?霓虹灯?逆光?
- 品质(Quality):4K、写实、浅景深等
示例:
基础提示词:一个森林
改进后提示词:
茂密的松树林在金色时刻,阳光穿透树冠形成光束,薄雾弥漫的氛围,丰富的绿色和暖金色调,自然摄影风格,4K 细节
原则 3:善用引号精确控制文字渲染
ERNIE Image 的强项之一是能在图像中渲染指定文字。把需要渲染的文字用英文双引号包裹,并指定字体样式、大小和位置。
技巧:建议单张图片上的文字控制在 8 个单词以内,过多会导致渲染模糊。
场景 1:产品摄影 — 电商图片、商品展示
适用场景:电商主图、产品目录、社交媒体商品推广
核心要素:光照方向、材质纹理、镜头参数、景深
关键词:商业摄影、产品拍摄、静物摄影
Prompt 模板
近距离产品摄影,[产品描述] 在 [材质] 桌面上,[光源方向] 投射柔和阴影,浅景深,商业摄影风格,[分辨率]
实战示例
| 产品 | Prompt |
|---|---|
| 陶瓷咖啡杯 | Close-up product photograph of a matte ceramic coffee mug on a white oak wood table, morning sunlight from the left casting soft shadows, shallow depth of field, commercial photography style, 8K detail |
| 智能手表 | Professional product shot of a smart watch on marble surface, soft studio lighting, minimal composition, subtle reflection, 85mm lens depth of field, clean white background |
| 手工面包 | Overhead flat-lay of a rustic wooden board with artisan sourdough bread, olive oil, fresh herbs, and sea salt flakes, natural light from above, food magazine editorial style, warm color palette |
| 香水瓶 | Luxury perfume bottle on polished black glass surface, dramatic side lighting creating long shadows, moody dark atmosphere, high-end commercial photography, 4K, macro lens |
场景 2:电影海报 — 标题文字 + 视觉冲击
适用场景:电影海报、音乐会海报、活动宣传
核心要素:画面构图、标题文字、副标题、氛围渲染
ERNIE Image 的 标题文字渲染 是其最出圈的能力之一。相比 Midjourney 和 Stable Diffusion 经常"写错字"的问题,ERNIE Image 能精准呈现大字标题。
Prompt 模板
[类型] 电影海报,[核心画面描述],标题「[标题文字]」以 [字体] 置于 [位置],副标题「[副标题文字]」以 [字体] 置于 [位置],[光照/氛围]
实战示例
| 类型 | Prompt |
|---|---|
| 科幻惊悚 | Movie poster for a sci-fi thriller set in 2087 Tokyo, neon-lit rain-soaked streets, lone figure in trench coat standing under a flickering sign, title "ECLIPSE" in bold white serif font at the top, tagline "The truth has two sides" in smaller italic text at the bottom, volumetric fog, cinematic lighting, 35mm film grain |
| 动作冒险 | Adventure movie poster, ancient temple ruins overgrown with vines in misty jungle, golden light beams breaking through canopy, title "LEGEND" in distressed serif font at the top, release date in small text at bottom, epic scale, color graded in warm oranges and deep greens, blockbuster aesthetic |
| 悬疑犯罪 | Film noir style movie poster, shadowy figure reflected in rain puddle on dark city street, single streetlight creating dramatic pools of light and shadow, title in bold white letters at the top, tagline in small italic text at bottom, high contrast black and white with red accents |
场景 3:漫画/分镜 — 开源模型中的天花板
适用场景:独立漫画创作、故事板、表情包、视觉叙事
核心要素:分镜布局、网点效果、对白气泡、角色一致性
ERNIE Image 在漫画风格生成上表现尤为突出——能同时呈现 分镜构图、网点纹理、对白气泡和日语/中文文字,这在开源模型中几乎处于第一梯队。
Prompt 模板
[面板数量] 面板漫画页,[故事场景描述],[风格参考] 美学,[光线],对白气泡包含 [文字内容]
实战示例
| 场景 | Prompt |
|---|---|
| 科幻漫画 | A 6-panel cinematic sci-fi comic page, retro-futuristic space exploration art, dramatic lighting with starfields and glowing planets, detailed panel borders, screentone shading, speech bubbles with English text, comic book aesthetic, high contrast |
| 日式动漫 | Anime-style illustration of a cheerful girl with short brown hair, wearing a blue school uniform, sunlit classroom background, Studio Ghibli aesthetic, soft watercolor tones, delicate line work, natural expression, pastel color palette |
| 动作漫画 | Dynamic manga action panel, character in mid-air combat pose, speed lines radiating outward, explosive impact effect, black and white ink with screentone shading, dramatic angle, motion blur lines, shonen manga style |
| 表情包组图 | 4-panel comic strip showing a cat discovering a portal to a miniature world in a cardboard box, the cat looking surprised in panel 1, curious in panel 2, entering in panel 3, exploring in panel 4, cute cartoon style with speech bubbles |
场景 4:电商 Banner — 带文字的营销素材
适用场景:电商首页 Banner、促销活动图、社交媒体广告
核心要素:品牌文字、促销信息、CTA 按钮、排版层次
Prompt 模板
[场景] 背景,[产品/主体],标题「[标题文字]」以 [字体/大小] 置于 [位置],副标题「[副标题文字]」,[氛围/光线],[分辨率]
实战示例
| 促销 | Prompt |
|---|---|
| 新品上市 | Minimalist product banner, matte white background, centered bold heading "NEW ARRIVAL" in clean sans-serif font, single rose-colored product jar in center, soft natural lighting, clean e-commerce photography, high resolution |
| 限时折扣 | E-commerce sale banner with gradient purple and pink background, centered text "SUMMER SALE 50% OFF" in bold white font at top, product silhouettes arranged below, clean modern design, promotional aesthetic, 4K resolution |
| 品牌宣传 | Luxury brand banner for a skincare line, cream-colored marble texture background, gold foil text "PURE GLOW" in elegant serif font, three product bottles arranged diagonally, soft golden hour lighting, high-end aesthetic, 4K |
场景 5:信息图表/知识可视化 — 带标签的数据图表
适用场景:教育课件、科普图解、业务流程图、数据可视化
核心要素:清晰标签、结构化布局、箭头连接、多区域标题
这是 ERNIE Image 的另一项核心优势——多语言、多标签、多区域的密集文字渲染。
Prompt 模板
[主题] 信息图,包含 [数量] 个标记区域:[区域1]、[区域2]、[区域3],通过 [连接方式] 连接,标题「[总标题]」在 [位置],[风格]
实战示例
| 主题 | Prompt |
|---|---|
| 水循环 | Infographic titled "THE WATER CYCLE" with four labeled sections: Evaporation, Condensation, Precipitation, Collection, connected by curved arrows, clean blue and white color scheme, minimal flat design style, educational illustration, 4K, clear typography for all labels |
| AI 工作原理 | Educational diagram titled "How AI Works" showing three connected stages: Data Input, Neural Network Processing, Output Prediction, flowing left to right with arrows between stages, each stage has a labeled icon box, clean modern tech aesthetic, blue and white color palette, professional infographic |
| 组织结构 | Organizational chart infographic titled "Company Structure" showing CEO at top with three departments below (Engineering, Marketing, Sales), each department has two team members listed, clean hierarchical layout, professional business style, blue and gray color scheme |
场景 6:UI/UX 原型 — 带文字界面的应用界面
适用场景:App 界面设计、网页原型、Dashboard 线框图
核心要素:界面元素排列、可辨文字、组件布局
ERNIE Image 能生成 像素级精度的界面截图,文字、图标、导航栏布局都能准确呈现,远超主流开源模型的 UI 生成能力。
Prompt 模板
[设备类型] 屏幕显示「[应用名/场景]」界面,顶部显示 [顶部元素],主要内容区包含 [核心内容],底部显示 [底部元素],[设计风格],[配色方案]
实战示例
| 界面 | Prompt |
|---|---|
| 健康 App | Mobile app screen showing a fitness tracking app, header "Good morning, Alex" at the top, central circular progress ring showing "8,432 STEPS" with green accent color, step count and time metrics below, clean white background, modern minimalist UI design, 4K |
| 电商首页 | Mobile app screen showing a shopping app home page, top navigation bar with search icon and cart icon, category tabs below: Electronics, Fashion, Home, Beauty, featured product card in center with image and price, clean white UI design, flat design, high resolution |
| 音乐播放器 | Smartphone screen showing a music player app, album art in center with play/pause button overlay, song title "Midnight Jazz" and artist name below, progress bar at bottom showing 3:24 of 4:58, volume slider on right side, dark theme with purple accent, modern UI |
场景 7:场景概念图 — 科幻、奇幻、蒸汽朋克
适用场景:游戏概念艺术、影视预可视化、世界设定
核心要素:空间一致性、环境层次、光照方向、氛围渲染
Prompt 模板
[环境] 概念艺术,[主体] 在 [环境] 中,[远处元素],[光照效果],[风格参考],[镜头/构图]
实战示例
| 风格 | Prompt |
|---|---|
| 赛博朋克 | Cyberpunk cityscape concept art, towering neon-lit skyscrapers reflecting in rain-soaked streets below, flying vehicles with light trails cutting through smog-filled sky, holographic advertisements in multiple languages, lone figure in glowing jacket standing on a rooftop overlooking the city, cinematic wide angle, 35mm lens, film grain, blade runner aesthetic |
| 奇幻 | Epic fantasy concept art, massive ancient tree with glowing roots stretching deep underground, a lone wizard standing on a moss-covered stone bridge spanning an underground river, bioluminescent mushrooms illuminating the cavern walls, volumetric light shafts filtering from above, matte painting style, cinematic atmosphere, 4K |
| 末日废土 | Post-apocalyptic wasteland concept art, overgrown city ruins covered in ivy and wildflowers, broken skyscrapers with vegetation growing through windows, a dirt road cutting through the center with abandoned cars half-buried in dirt, warm golden hour light casting long shadows, hopeful desolation aesthetic, wide panoramic composition |
| 蒸汽朋克 | Steampunk airship floating above Victorian London, massive brass and copper vessel with billowing canvas sails and rotating propellers, smoke stacks releasing golden smoke, below the city with clock towers and gas-lit streets, dramatic sunset sky with orange and purple hues, detailed mechanical components, cinematic angle |
场景 8:角色设计 — 一致的角色形象
适用场景:IP 角色、虚拟偶像、游戏 NPC、品牌吉祥物
核心要素:外貌特征、服装、姿势、一致性
Prompt 模板
[风格] 角色设计,[性别/年龄],[外貌细节],穿着 [服装描述],[姿势],[背景],[光照]
实战示例
| 角色 | Prompt |
|---|---|
| 游戏 NPC | Character design of a young female elven archer with long silver hair and pointed ears, wearing intricately detailed forest green leather armor with gold trim, holding a wooden bow with arrow nocked, standing in an enchanted forest clearing with dappled sunlight filtering through ancient oak trees, full body portrait, fantasy illustration style, high detail, 4K |
| 虚拟偶像 | Anime character design of a virtual idol singer, pink hair in twin tails with blue hair accessories, wearing a futuristic stage outfit with glowing neon patterns, holding a microphone with a confident pose, concert stage background with spotlights, vibrant colors, modern J-pop aesthetic, detailed illustration |
| 品牌吉祥物 | Cute kawaii mascot character design of a round fluffy cloud with a smiling face, wearing a small blue rain hat and holding a tiny rainbow umbrella, soft pastel blue and pink color palette, chibi style, friendly and approachable, white background, clean vector art style, brand mascot design |
高级技巧:ERNIE Image 文字渲染实测
为什么文字渲染如此重要?
做 AI 生图的人都知道这个痛点:人物能画、光影能做、氛围也能堆,但一旦碰到标题、招牌、按钮、宣传文案、界面文字,很多模型就开始失真、乱码、拼错字。
ERNIE Image 通过 LongText-Bench 等评测证明了它的文字渲染能力在开源模型中处于领先地位:

ERNIE Image 在开源模型文字渲染评测中名列前茅(注:Seedream 4.5 为闭源模型)
官方文字渲染示例



ERNIE Image 官方文字渲染示例:清晰的中英文标题、多语言混合排版、密集标签信息图
文字渲染最佳实践
- 用引号包裹目标文字:
"ECLIPSE"比ECLIPSE更容易被准确识别为渲染目标 - 控制文字数量:单张图片建议不超过 8 个单词
- 指定字体风格:
bold serif font、clean sans-serif、handwritten style - 指定位置:
at the top、in the center、at the bottom - 关闭 Prompt Enhancer:中文文字渲染时建议关闭,避免 AI 改写你的文字内容
高级技巧:Prompt Enhancer 怎么用?
ERNIE Image 内置了 Prompt Enhancer(提示词增强器),它会将你简短的描述自动扩展为更详细、更专业的艺术指导语言。
什么时候启用?
✅ 开启:当你有一个简单想法、希望 AI 自动补充光照和风格细节时
✅ 开启:新手用户,用简短描述获得高质量结果
✅ 开启:快速探索不同创意方向
什么时候关闭?
❌ 关闭:当你需要精确控制文字渲染(中文场景尤其需要关闭)
❌ 关闭:当你已经有一套成熟的 Prompt,希望保持固定格式迭代时
❌ 关闭:使用固定 Seed 进行精细调优时
最佳工作流
Turbo 快速迭代 + Standard 最终出图
- 先用 ERNIE Image Turbo(8 步推理,约 3 CU 成本)快速测试多个 Prompt 变体
- 确定最佳 Prompt 后,切换到 ERNIE Image Standard(50 步推理)生成最终质量图片
ERNIE Image 核心参数速查
| 参数 | Standard 模式 | Turbo 模式 | 说明 |
|---|---|---|---|
| 推理步数 | 默认 50(1-100) | 固定 ~8 | 50 步为最佳平衡点,>50 收益递减 |
| 引导系数 | 可调节(0-20,默认 4) | 固定 | >8 可能导致过饱和 |
| 分辨率 | 64-2048 像素(步长 16) | 同左 | 建议使用推荐预设 |
| 推荐尺寸 | Square 1024×1024、Portrait 848×1264、Landscape 1264×848 | 同左 | 社交/海报/横幅各有最优比例 |
| Prompt 增强器 | 默认开启 | 默认开启 | 中文文字渲染建议关闭 |
| 单次生成数量 | 1-4 张 | 同左 | — |
| 单条 Prompt 字数 | 最多 2048 字符 | 同左 | — |
ERNIE Image 的适用人群
- 电商运营:快速生成带品牌文字的产品主图和促销 Banner
- 独立创作者:低成本(Apache 2.0)自部署,无需订阅
- UI/UX 设计师:快速出带文字的原型界面
- 漫画/插画师:辅助生成分镜和角色设定
- 教育内容创作者:生成带清晰文字标签的信息图表
- 游戏开发者:生成场景概念图和 UI 线框图
常见问题
ERNIE Image 和 Midjourney 的区别?
ERNIE Image 在 文字渲染 和 结构化排版 上远胜于 Midjourney。Midjourney 在风格化插画方面仍有优势,但 ERNIE Image 能更准确地呈现海报标题、UI 文字、漫画对话框中的文字内容。此外,ERNIE Image 是开源的,可以本地部署。
ERNIE Image 和 Qwen Image 哪个更好?
两者都是国产优秀开源模型。ERNIE Image 在 LongText-Bench 文字渲染评测 中排名第一,且 DiT 架构在结构化布局任务上有天然优势。Qwen Image 在通用图像质量和指令遵循方面表现同样出色。具体选择取决于你的使用场景——需要文字渲染优先选 ERNIE Image,通用生成两者皆可。
ERNIE Image 需要什么配置?
Standard 模型需要 24GB VRAM,Turbo 模型 12GB VRAM 即可运行。使用 Unsloth GGUF 量化方案还可以进一步降低显存需求。
总结
ERNIE Image 的核心价值不在于"随便生成一张好看的图",而在于精准控制——精准的文字渲染、精准的布局控制、精准的指令遵循。
掌握本文中的 8 大场景 50+ Prompt 模板,你已经能在电商海报、漫画分镜、UI 原型、信息图表等实际场景中直接使用 ERNIE Image 产出专业级素材。
记住一个公式:清晰的主体描述 + 具体的文字渲染指令 + 合理的风格/光照/品质标注 = ERNIE Image 的高质量输出。