百度开源文生图ERNIE-Image-Turbo 8B 全网最全的多图横向对比 + 请万物吃西湖醋鱼提示词

apr 21, 2026

百度开源文生图ERNIE-Image-Turbo 8B 全网最全的多图横向对比 + 请万物吃西湖醋鱼提示词

就在刚刚,百度开源了 8B 参数量的文生图模型 ERNIE-Image。一般我们在对比文生图模型时,还是不由自主会先比较参数量。当然参数量并不能直观展示一个模型的能力和擅长点,但很多人仍然会默认“量大管饱”。不过参数量只是潜力,真正的能力还是取决于训练质量,作者的判断则全部交给测评。

文章首图
文章首图

先给大家罗列一下截止到今天,开源的文生图模型,按参数量排名,第一个你可能很少听说:

  • HunyuanImage-3.0(Tencent Hunyuan)80B 总参数(MoE,64 experts,~13B 活跃):目前最大的开源 T2I MoE 模型,原生多模态自回归架构,强于复杂提示、世界知识推理、中英文文本渲染和知识密集生成。适合高质量、专业场景,但推理需要高配硬件。
  • FLUX.2 [dev](Black Forest Labs)32B 参数:支持 T2I、图像编辑、多参考图像融合,提示遵循、细节与连贯性极强,可在消费级 GPU 上通过量化优化运行。
  • FLUX.1 [dev/schnell]~12B 参数:经典 DiT / flow matching 模型,提示遵循和文本渲染一流,社区生态成熟。
  • Stable Diffusion 3.5 Large(Stability AI)8.1B 参数(MMDiT):提示遵循与排版能力显著提升,支持更高分辨率;Medium 变体为 2.5B。
  • Qwen-Image / Qwen-Image-2.0(Alibaba Qwen)~7B–20B 参数:强中文 / 多语言文本渲染、专业排版,适合亚语系和 infographic。
  • Z-Image-Turbo / 其他小型高效模型~6B 参数:偏高效实时 / 边缘部署,适合低资源环境。

所以从参数量上来说,百度的 ERNIE-Image 其实并不算大,算是卡在中间。至于图像表现,我们直接看图说话。

ERNIE-Image

ERNIE-Image 是百度 ERNIE-Image 团队开发的一种开放文本到图像模型。它基于单流扩散变换器(DiT),采用 8B 参数和潜在扩散(LDM)框架,并配备轻量级提示增强器,将简短输入扩展为更丰富、更有结构的提示,以更好释放模型能力。文章指出,该模型不仅注重视觉吸引力,也注重可控性,尤其是在复杂指令跟踪、精准文本渲染和结构化图像生成方面表现突出。

ERNIE-Image 说明图
ERNIE-Image 说明图

模型测评横向对比官方版本

模型横向对比图
模型横向对比图

模型本身还增加了提示词增强

ERNIE-Image 搭配冗长、详尽且结构良好的提示效果最佳——更丰富的描述通常能带来更好的生成质量、更紧凑的指令忠实度,以及更忠实地呈现复杂版面或叙事内容。但实际上,用户通常只会输入简短句子。

为了弥补这一差距,百度发布了内置的 3B 提示增强器,将简短用户输入扩展为更详细、更有结构的提示,更适合 ERNIE-Image,尤其是在海报、动漫、网页布局、游戏截图及其他结构化视觉任务中。

文章认为,如果没有提示增强,模型往往会字面且不完整地理解短提示;有了 3B 提示增强器,提示会更描述化、更结构化,在许多场景中显著提升效果。

先用官网提示词进行复刻

在线体验地址:https://huggingface.co/spaces/baidu/ERNIE-Image-Turbo

在线体验页截图
在线体验页截图

提示词

不得不说这个提示词还是非常复杂

一张影棚微距摄影照片,
展现了一个手工聚合物粘土质感的微缩立体模型。
画面中央是一家小巧的奥利奥主题商店,
整体呈现竖向构图。商店的屋顶由几块巨大的奥利奥夹心饼干交错搭建而成,
饼干呈现深黑色,中间夹着厚实的白色奶油层,
表面带有经典的压花纹理和清晰的英文字母 'OREO',
带有手工粘土圆润且微显指纹印记的真实触感。
商店正面有一扇打开的木质售卖窗,
窗户正上方悬挂着一块醒目的蓝色长方形招牌,
招牌上用立体的白色粗体字写着大写的品牌名 'OREO'。
在窗口处,一位身穿蓝色小围裙、头戴白色工作帽的粘土微缩店主探出上半身,
手中正拿着一块小巧的奥利奥饼干递向窗外。店外站着一位顾客,
是一个背着黄色双肩包、穿着红色休闲外套的微缩粘土小人,正微微仰头,
伸出双手准备接过店主递来的饼干。
商店周围的泥土地面上密集地散落着许多大小不一的奥利奥饼干,
有些是完整的,有些被掰开露出了白色的夹心,
铺满了整个前景和四周地面。画面采用柔和的影棚布光,
光线均匀温和,凸显了聚合物粘土特有的哑光细腻质感。
摄影采用了极浅的景深,焦点精准对焦在店主、顾客和招牌区域,
而靠近镜头的前景饼干和背景边缘则呈现出强烈的平滑虚化效果,
完美营造出微观世界的尺度感与梦幻氛围。

百度 Ernie-image 官方结果

官方结果 1
官方结果 1

官方结果 2
官方结果 2

中文也可以百分百复刻。下面是不同模型的对比结果。

一张垂直构图的卡通手绘风格信息图,
背景为带有轻微纸质纹理的柔和米白色,画面排版疏密有致,
留白丰富。整体采用马克笔与彩色铅笔混合的手绘质感线条,
无任何写实图画元素。画面顶部居中是一个醒目的手绘气泡框,
内有手写粗体文字标题 '番茄工作法'。
标题左侧绘制了一个拟人化的卡通红番茄角色,
番茄戴着黑框圆眼镜,正微笑着手持一根教鞭。
标题正下方是稍小字号的副标题 '高效时间管理指南'。
画面主体纵向分为四个步骤区块,通过手绘的黑色虚线箭头从上至下引导视线:
第一区块左侧绘制了一个带有飞镖的红色标靶图标,
右侧是手写文字 '1. 设定目标' 及下方的正文 '挑选一个需要完成的待办任务,保持明确。';
第二区块交错到右侧,画有一个经典的番茄形状机械定时器图标,刻度指向 25,
左侧是手写文字 '2. 专注25分钟' 及正文 '全神贯注投入工作,屏蔽一切外部干扰。';
第三区块左侧是一个冒着热气的咖啡杯简笔画,右侧手写文字 '3. 短暂休息' 及正文 '闹钟响起后,休息5分钟,喝水或活动大脑。';
第四区块右侧画了四个排列整齐的小番茄图标和一张绿色单人沙发,左侧手写文字 '4. 长时休息' 及正文 '连续完成四个番茄钟后,进行15-30分钟的深度放松。'。
画面最底部画有一个发光的黄色卡通灯泡图标,旁边用蓝色手写体写着附加说明 '温馨提示:专注期间请将手机静音,远离视线!'。

下面继续给出“官方结果 / 百度 ERNIE-Image 复刻 / z-image / FireRed / Qwen-image-2512 / Flux2 / Nanobana 2 pro / 即梦”等多组图像对比。

人像表现

一张休闲街头风格的摄影肖像照,采用竖屏中近景构图,视角与人物眼睛齐平,
聚焦于人物的脸部与上半身。画面主体是一位年轻女性,
她留着齐肩的铂金白金色头发,发丝呈现柔和的波浪卷理,中分并自然垂落。
她的皮肤白皙,在阳光下泛着健康的光泽;眉毛为自然的棕色,形状柔和;
双眼是浅绿灰色的,正带着柔和友好的目光直视镜头。她化着极简的自然裸妆,
嘴唇呈现柔和的淡粉色,带着轻松自然的微笑。
她身穿一件修身的浅黄绿色罗纹吊带背心,胸前带有小巧的蓝绿色三角龙图案。
她的左耳佩戴着一只白色的无线耳机,脖子上戴着一条纤细的金色金属颈圈项链,
双肩上可见黑色的双肩背包背带。
人物站在一座具有欧洲城市风格的建筑室外。背景中有一扇蓝灰色的金属门,
门上有一个标牌,清晰地印有德文 'Notausgang freihalten'。
画面左侧露出了一部分被粉刷成橙色的墙面。
画面光线为傍晚黄金时刻的自然光,温暖的侧面定向光照在人物身上,
并在后方的墙壁上投射出柔和的阴影。整体色调温暖,
呈现出日常、放松且平易近人的城市生活氛围。

接下来文章展示了第二组人像与一系列长提示案例,并给出了提示词书写规则总结。

提示词书写规则

  • ERNIE-Image(含 SFT / Turbo)强依赖长、详细、结构化提示词。
  • 长提示显著优于短提示。 模型不会主动脑补或精炼内容,短提示容易导致字面解读。
  • 短提示常见问题: 输出质量低、布局混乱、文本错误、缺少叙事连贯性。
  • 官方推荐使用 Prompt Enhancer(PE)。 可将简短输入扩展成结构化、细节丰富的提示词。
  • 语言选择: 中文优先,也可中英混用或纯英文,但要避免模糊形容。
  • 结构化写作框架: 主体描述 → 细节与关系 → 布局与构图 → 风格与氛围 → 质量提升词 → 负面提示。
  • 关键技巧: 信息密度高、显式描述一切、善用 Prompt Enhancer、文本渲染内容要明确写出文字内容 / 字体 / 位置 / 颜色。
  • 结构化场景特别强: 海报、动漫故事板、多面板、网页 UI、游戏界面等。
这是一张垂直竖版构图(比例约3:4)的高清超写实食品摄影与编辑级信息图海报……(原文为超长食品海报提示词,已保留核心段落与配图)
一张竖版多面版时尚 Lookbook 拼贴海报,采用网格布局,背景为干净的灰白色……(原文为超长时尚海报提示词)
高质量数字插画,采用垂直构图。画面中央以粗体、大写字母竖向错落堆叠拼写出英文单词 ‘ITALY’……(原文为超长美食字母海报提示词)

请万物吃饭复刻提示词

实的实景拍摄,单镜头,完整第一人称视角,无剪辑,无角度转换,无场景转换,无蒙太奇,无闪镜头,无音乐,无字幕。只有两个角色:我未露面的第一人称视角和坐在我对面的 @Image1。只有自然环境音:轻微的餐厅噪音、餐具、远处水声、微弱的声音、咀嚼声、吐痰声、冲洗声、我的笑声。

地点:杭州西湖旁的户外餐桌,靠近水边,宁静的白昼或柔和的傍晚光线……

动作场面:@Image1 坐在我对面,开心地从碗里吃饭,享受米饭和其他菜肴,唯独没有西湖醋鱼。第一人称视角用筷子夹起一口鱼喂给她,她先开心接受,随后夸张但可信地表现出厌恶,转头吐掉并漱口,最后愤怒地把整盘鱼扔进附近湖里。

结局:她愤怒地完成投掷,仍面向湖面,而镜头后的人保持第一人称视角笑着。
额外要求:1)视频时长 20 秒,要求调用 seedance2.0 实现;2)真实实景拍摄 + 智能手机视频真实感;3)画幅 16:9 横屏拍摄。

文章最后总结:本次百度开源文生图模型整体很能打,但使用时要遵循它的提示词规则,尤其偏向长文本描述。

官方结果
官方结果

百度 ERNIE-Image 复刻
百度 ERNIE-Image 复刻

配图 15
配图 15

z-image
z-image

配图 17
配图 17

FireRed
FireRed

Qwen-image-2512
Qwen-image-2512

Flux2
Flux2

Nanobana 2 pro
Nanobana 2 pro

即梦
即梦

配图 23
配图 23

官方结果(人像)
官方结果(人像)

百度 ERNIE-Image 复刻(人像)
百度 ERNIE-Image 复刻(人像)

配图 26
配图 26

z-image(人像2)
z-image(人像2)

配图 28
配图 28

FireRed(人像2)
FireRed(人像2)

Qwen-image-2512(人像2)
Qwen-image-2512(人像2)

Flux2(人像2)
Flux2(人像2)

Nanobana 2 pro(人像2)
Nanobana 2 pro(人像2)

即梦(人像2)
即梦(人像2)

提示词书写规则配图 1
提示词书写规则配图 1

提示词书写规则配图 2
提示词书写规则配图 2

提示词书写规则配图 3
提示词书写规则配图 3

提示词书写规则配图 4
提示词书写规则配图 4

提示词书写规则配图 5
提示词书写规则配图 5

提示词书写规则配图 6
提示词书写规则配图 6

提示词书写规则配图 7
提示词书写规则配图 7

提示词书写规则配图 8
提示词书写规则配图 8

请万物吃饭复刻配图 1
请万物吃饭复刻配图 1

请万物吃饭复刻配图 2
请万物吃饭复刻配图 2

请万物吃饭复刻配图 3
请万物吃饭复刻配图 3

请万物吃饭复刻配图 4
请万物吃饭复刻配图 4

请万物吃饭复刻配图 5
请万物吃饭复刻配图 5

请万物吃饭复刻配图 6
请万物吃饭复刻配图 6

ERNIE-Image Team