百度开源文生图ERNIE-Image-Turbo 8B 全网最全的多图横向对比 + 请万物吃西湖醋鱼提示词

就在刚刚，百度开源了 8B 参数量的文生图模型 ERNIE-Image。一般我们在对比文生图模型时，还是不由自主会先比较参数量。当然参数量并不能直观展示一个模型的能力和擅长点，但很多人仍然会默认“量大管饱”。不过参数量只是潜力，真正的能力还是取决于训练质量，作者的判断则全部交给测评。

文章首图

先给大家罗列一下截止到今天，开源的文生图模型，按参数量排名，第一个你可能很少听说：

HunyuanImage-3.0（Tencent Hunyuan） — 80B 总参数（MoE，64 experts，~13B 活跃）：目前最大的开源 T2I MoE 模型，原生多模态自回归架构，强于复杂提示、世界知识推理、中英文文本渲染和知识密集生成。适合高质量、专业场景，但推理需要高配硬件。
FLUX.2 [dev]（Black Forest Labs） — 32B 参数：支持 T2I、图像编辑、多参考图像融合，提示遵循、细节与连贯性极强，可在消费级 GPU 上通过量化优化运行。
FLUX.1 [dev/schnell] — ~12B 参数：经典 DiT / flow matching 模型，提示遵循和文本渲染一流，社区生态成熟。
Stable Diffusion 3.5 Large（Stability AI） — 8.1B 参数（MMDiT）：提示遵循与排版能力显著提升，支持更高分辨率；Medium 变体为 2.5B。
Qwen-Image / Qwen-Image-2.0（Alibaba Qwen） — ~7B–20B 参数：强中文 / 多语言文本渲染、专业排版，适合亚语系和 infographic。
Z-Image-Turbo / 其他小型高效模型 — ~6B 参数：偏高效实时 / 边缘部署，适合低资源环境。

所以从参数量上来说，百度的 ERNIE-Image 其实并不算大，算是卡在中间。至于图像表现，我们直接看图说话。

ERNIE-Image

ERNIE-Image 是百度 ERNIE-Image 团队开发的一种开放文本到图像模型。它基于单流扩散变换器（DiT），采用 8B 参数和潜在扩散（LDM）框架，并配备轻量级提示增强器，将简短输入扩展为更丰富、更有结构的提示，以更好释放模型能力。文章指出，该模型不仅注重视觉吸引力，也注重可控性，尤其是在复杂指令跟踪、精准文本渲染和结构化图像生成方面表现突出。

ERNIE-Image 说明图

模型测评横向对比官方版本

模型横向对比图

模型本身还增加了提示词增强

ERNIE-Image 搭配冗长、详尽且结构良好的提示效果最佳——更丰富的描述通常能带来更好的生成质量、更紧凑的指令忠实度，以及更忠实地呈现复杂版面或叙事内容。但实际上，用户通常只会输入简短句子。

为了弥补这一差距，百度发布了内置的 3B 提示增强器，将简短用户输入扩展为更详细、更有结构的提示，更适合 ERNIE-Image，尤其是在海报、动漫、网页布局、游戏截图及其他结构化视觉任务中。

文章认为，如果没有提示增强，模型往往会字面且不完整地理解短提示；有了 3B 提示增强器，提示会更描述化、更结构化，在许多场景中显著提升效果。

先用官网提示词进行复刻

在线体验地址：https://huggingface.co/spaces/baidu/ERNIE-Image-Turbo

在线体验页截图

提示词

不得不说这个提示词还是非常复杂

一张影棚微距摄影照片，
展现了一个手工聚合物粘土质感的微缩立体模型。
画面中央是一家小巧的奥利奥主题商店，
整体呈现竖向构图。商店的屋顶由几块巨大的奥利奥夹心饼干交错搭建而成，
饼干呈现深黑色，中间夹着厚实的白色奶油层，
表面带有经典的压花纹理和清晰的英文字母 'OREO'，
带有手工粘土圆润且微显指纹印记的真实触感。
商店正面有一扇打开的木质售卖窗，
窗户正上方悬挂着一块醒目的蓝色长方形招牌，
招牌上用立体的白色粗体字写着大写的品牌名 'OREO'。
在窗口处，一位身穿蓝色小围裙、头戴白色工作帽的粘土微缩店主探出上半身，
手中正拿着一块小巧的奥利奥饼干递向窗外。店外站着一位顾客，
是一个背着黄色双肩包、穿着红色休闲外套的微缩粘土小人，正微微仰头，
伸出双手准备接过店主递来的饼干。
商店周围的泥土地面上密集地散落着许多大小不一的奥利奥饼干，
有些是完整的，有些被掰开露出了白色的夹心，
铺满了整个前景和四周地面。画面采用柔和的影棚布光，
光线均匀温和，凸显了聚合物粘土特有的哑光细腻质感。
摄影采用了极浅的景深，焦点精准对焦在店主、顾客和招牌区域，
而靠近镜头的前景饼干和背景边缘则呈现出强烈的平滑虚化效果，
完美营造出微观世界的尺度感与梦幻氛围。

百度 Ernie-image 官方结果

官方结果 1

官方结果 2

中文也可以百分百复刻。下面是不同模型的对比结果。

一张垂直构图的卡通手绘风格信息图，
背景为带有轻微纸质纹理的柔和米白色，画面排版疏密有致，
留白丰富。整体采用马克笔与彩色铅笔混合的手绘质感线条，
无任何写实图画元素。画面顶部居中是一个醒目的手绘气泡框，
内有手写粗体文字标题 '番茄工作法'。
标题左侧绘制了一个拟人化的卡通红番茄角色，
番茄戴着黑框圆眼镜，正微笑着手持一根教鞭。
标题正下方是稍小字号的副标题 '高效时间管理指南'。
画面主体纵向分为四个步骤区块，通过手绘的黑色虚线箭头从上至下引导视线：
第一区块左侧绘制了一个带有飞镖的红色标靶图标，
右侧是手写文字 '1. 设定目标' 及下方的正文 '挑选一个需要完成的待办任务，保持明确。'；
第二区块交错到右侧，画有一个经典的番茄形状机械定时器图标，刻度指向 25，
左侧是手写文字 '2. 专注25分钟' 及正文 '全神贯注投入工作，屏蔽一切外部干扰。'；
第三区块左侧是一个冒着热气的咖啡杯简笔画，右侧手写文字 '3. 短暂休息' 及正文 '闹钟响起后，休息5分钟，喝水或活动大脑。'；
第四区块右侧画了四个排列整齐的小番茄图标和一张绿色单人沙发，左侧手写文字 '4. 长时休息' 及正文 '连续完成四个番茄钟后，进行15-30分钟的深度放松。'。
画面最底部画有一个发光的黄色卡通灯泡图标，旁边用蓝色手写体写着附加说明 '温馨提示：专注期间请将手机静音，远离视线！'。

下面继续给出“官方结果 / 百度 ERNIE-Image 复刻 / z-image / FireRed / Qwen-image-2512 / Flux2 / Nanobana 2 pro / 即梦”等多组图像对比。

人像表现

一张休闲街头风格的摄影肖像照，采用竖屏中近景构图，视角与人物眼睛齐平，
聚焦于人物的脸部与上半身。画面主体是一位年轻女性，
她留着齐肩的铂金白金色头发，发丝呈现柔和的波浪卷理，中分并自然垂落。
她的皮肤白皙，在阳光下泛着健康的光泽；眉毛为自然的棕色，形状柔和；
双眼是浅绿灰色的，正带着柔和友好的目光直视镜头。她化着极简的自然裸妆，
嘴唇呈现柔和的淡粉色，带着轻松自然的微笑。
她身穿一件修身的浅黄绿色罗纹吊带背心，胸前带有小巧的蓝绿色三角龙图案。
她的左耳佩戴着一只白色的无线耳机，脖子上戴着一条纤细的金色金属颈圈项链，
双肩上可见黑色的双肩背包背带。
人物站在一座具有欧洲城市风格的建筑室外。背景中有一扇蓝灰色的金属门，
门上有一个标牌，清晰地印有德文 'Notausgang freihalten'。
画面左侧露出了一部分被粉刷成橙色的墙面。
画面光线为傍晚黄金时刻的自然光，温暖的侧面定向光照在人物身上，
并在后方的墙壁上投射出柔和的阴影。整体色调温暖，
呈现出日常、放松且平易近人的城市生活氛围。

接下来文章展示了第二组人像与一系列长提示案例，并给出了提示词书写规则总结。

提示词书写规则

ERNIE-Image（含 SFT / Turbo）强依赖长、详细、结构化提示词。
长提示显著优于短提示。 模型不会主动脑补或精炼内容，短提示容易导致字面解读。
短提示常见问题： 输出质量低、布局混乱、文本错误、缺少叙事连贯性。
官方推荐使用 Prompt Enhancer（PE）。 可将简短输入扩展成结构化、细节丰富的提示词。
语言选择： 中文优先，也可中英混用或纯英文，但要避免模糊形容。
结构化写作框架： 主体描述 → 细节与关系 → 布局与构图 → 风格与氛围 → 质量提升词 → 负面提示。
关键技巧： 信息密度高、显式描述一切、善用 Prompt Enhancer、文本渲染内容要明确写出文字内容 / 字体 / 位置 / 颜色。
结构化场景特别强： 海报、动漫故事板、多面板、网页 UI、游戏界面等。

这是一张垂直竖版构图（比例约3:4）的高清超写实食品摄影与编辑级信息图海报……（原文为超长食品海报提示词，已保留核心段落与配图）

一张竖版多面版时尚 Lookbook 拼贴海报，采用网格布局，背景为干净的灰白色……（原文为超长时尚海报提示词）

高质量数字插画，采用垂直构图。画面中央以粗体、大写字母竖向错落堆叠拼写出英文单词 ‘ITALY’……（原文为超长美食字母海报提示词）

请万物吃饭复刻提示词

实的实景拍摄，单镜头，完整第一人称视角，无剪辑，无角度转换，无场景转换，无蒙太奇，无闪镜头，无音乐，无字幕。只有两个角色：我未露面的第一人称视角和坐在我对面的 @Image1。只有自然环境音：轻微的餐厅噪音、餐具、远处水声、微弱的声音、咀嚼声、吐痰声、冲洗声、我的笑声。

地点：杭州西湖旁的户外餐桌，靠近水边，宁静的白昼或柔和的傍晚光线……

动作场面：@Image1 坐在我对面，开心地从碗里吃饭，享受米饭和其他菜肴，唯独没有西湖醋鱼。第一人称视角用筷子夹起一口鱼喂给她，她先开心接受，随后夸张但可信地表现出厌恶，转头吐掉并漱口，最后愤怒地把整盘鱼扔进附近湖里。

结局：她愤怒地完成投掷，仍面向湖面，而镜头后的人保持第一人称视角笑着。

额外要求：1）视频时长 20 秒，要求调用 seedance2.0 实现；2）真实实景拍摄 + 智能手机视频真实感；3）画幅 16:9 横屏拍摄。

文章最后总结：本次百度开源文生图模型整体很能打，但使用时要遵循它的提示词规则，尤其偏向长文本描述。

官方结果

百度 ERNIE-Image 复刻

配图 15

z-image
z-image

配图 17

FireRed
FireRed

Qwen-image-2512

Flux2
Flux2

Nanobana 2 pro

即梦

配图 23

官方结果（人像）

百度 ERNIE-Image 复刻（人像）

配图 26

z-image（人像2）

配图 28

FireRed（人像2）

Qwen-image-2512（人像2）

Flux2（人像2）

Nanobana 2 pro（人像2）

即梦（人像2）

提示词书写规则配图 1

提示词书写规则配图 2

提示词书写规则配图 3

提示词书写规则配图 4

提示词书写规则配图 5

提示词书写规则配图 6

提示词书写规则配图 7

提示词书写规则配图 8

请万物吃饭复刻配图 1

请万物吃饭复刻配图 2

请万物吃饭复刻配图 3

请万物吃饭复刻配图 4

请万物吃饭复刻配图 5

请万物吃饭复刻配图 6

百度开源文生图ERNIE-Image-Turbo 8B 全网最全的多图横向对比 + 请万物吃西湖醋鱼提示词

Table of Contents

百度开源文生图ERNIE-Image-Turbo 8B 全网最全的多图横向对比 + 请万物吃西湖醋鱼提示词

ERNIE-Image

模型测评横向对比官方版本

模型本身还增加了提示词增强

先用官网提示词进行复刻

提示词

不得不说这个提示词还是非常复杂

百度 Ernie-image 官方结果

人像表现

提示词书写规则

请万物吃饭复刻提示词