ERNIE-Image-Turbo 8B 全网最全多图横向对比 + 提示词实战

apr. 28, 2026

ERNIE-Image-Turbo 8B 全网最全多图横向对比 + 提示词实战

百度刚刚开源了8B参数量的文生图模型 ERNIE-Image。我们在对比文生图模型时,总是不由自主地会对比参数量。参数量不能直观地展示一个模型的能力和擅长点,但我们仍然相信,量大管饱,参数量只是潜力,真正的能力还是取决于训练质量。本文不做客观评价,全部交给测评说话。

开源文生图模型参数量排名

参数量对比

先给大家罗列一下截止到今天,开源的文生图模型,按着参数量排名:

  • HunyuanImage-3.0(Tencent Hunyuan)80B 总参数(MoE,64 experts,~13B 活跃):目前最大的开源T2I MoE模型,原生多模态自回归架构,强于复杂提示、世界知识推理、中英文文本渲染和知识密集生成。适合高质量、专业场景,但推理需高配硬件(数据中心级,量化后可优化)。2025年9月开源,权重在HF可用。
  • FLUX.2 [dev](Black Forest Labs)32B 参数:FLUX.2系列的开源版本,支持T2I、图像编辑、多参考图像融合。rectified flow transformer架构,提示遵循、细节和连贯性极强。可在消费级GPU(量化/FP8优化后)运行,是2026年开源旗舰之一。
  • FLUX.1 [dev/schnell]~12B 参数:(早期FLUX.1系列,Kontext Pro等约12B)经典DiT/flow matching模型,提示遵循和文本渲染一流。schnell为蒸馏快版本。社区生态最丰富,ComfyUI等支持完善。
  • Stable Diffusion 3.5 Large(Stability AI)8.1B 参数(MMDiT):SD系列最新主力,提示遵循和排版显著提升,支持1MP+分辨率。Medium变体为2.5B 参数,更适合消费级硬件。开源社区最大,LoRA/微调生态完善。
  • Qwen-Image / Qwen-Image-2.0(Alibaba Qwen)~7B–20B 参数:(2.0版统一为~7B,轻量高效)强中文/多语言文本渲染、专业排版(支持1K token长提示)、原生2K分辨率。2.0版统一生成+编辑,效率高,适合亚语系和infographic。
  • Z-Image-Turbo / 其他小型高效模型~6B 参数:高效实时/边缘部署模型,速度快,适合低资源环境。

所以从参数量上来说,百度的ERNIE-Image其实并不算大,算是卡在中间。至于图像表现,我们看图说话。

ERNIE-Image 简介

ERNIE-Image 是百度 ERNIE-Image 团队开发的一种开放文本对图像模型。它基于单流扩散变换器(DiT),采用8B参数,采用潜在扩散(LDM)框架,配备轻量级提示增强器,将简短输入扩展为更丰富、更有结构的提示,更好地释放模型能力。仅用8B DiT参数,ERNIE-Image在开放权重文本到图像模型中实现了最先进的性能——它不仅注重视觉吸引力,更注重可控性:准确的内容表现与美观同等重要。在实际操作中,它在复杂的指令跟踪、精准的文本渲染和结构化图像生成方面表现出色——这些领域是许多现有开放权重模型仍然不足的领域。

模型架构图

模型评测横向对比(官方版本)

官方评测

模型本身还增加了提示词增强

ERNIE-Image搭配冗长、详尽且结构良好的提示效果最佳——更丰富的描述通常能带来更好的生成质量、更紧密的指令忠诚度,以及更忠实地呈现复杂版面或叙事内容。但实际上,用户通常会输入简短的句子,而不是那种能发挥模型优势的详细提示。

为了弥补这一差距,我们发布了内置的3B提示增强器,将简短的用户输入扩展为更详细、更有结构的提示,更适合ERNIE-Image。目标不是改变用户的意图,而是将简洁的请求转化为一种能够更好地发挥模型价值的形式——尤其是在海报、动漫、网页布局、游戏截图及其他结构化的视觉任务中。

下面的例子说明了这种效应。如果没有提示增强,模型往往会字面且不完整地解读短提示。有了我们的3B提示增强器,提示变得更加描述性和结构化,在许多场景中显著提升了效果。我们还发现,更强大的大型语言模型可以进一步推动这一目标——这表明提示增强是利用ERNIE-Image长提示生成能力的实用杠杆。

提示增强器效果

提示增强器效果2

提示增强器效果3

提示增强器效果4

提示增强器效果5

提示增强器效果6

我们用官网的提示词进行复刻

在线网站:https://huggingface.co/spaces/baidu/ERNIE-Image-Turbo

HuggingFace 演示

提示词实战:奥reo粘土微缩模型

不得不说这个提示词还是非常复杂:

OREO 官方结果1

OREO 官方结果2

原始提示词:

一张影棚微距摄影照片,展现了一个手工聚合物粘土质感的微缩立体模型。画面中央是一家小巧的奥利奥主题商店,整体呈现纵向构图。商店的屋顶由几块巨大的奥利奥夹心饼干交错搭建而成,饼干呈现深黑色,中间夹着厚厚的白色奶油层,表面带有经典的压花纹理和清晰的英文字母 'OREO',带有手工粘土圆润且微显指纹印记的真实触感。商店正面有一扇打开的木质售卖窗,窗户正上方悬挂着一块醒目的蓝色长方形招牌,招牌上用立体的白色粗体字写着大写的品牌名 'OREO'。在窗口处,一位身穿蓝色小围裙、头戴白色工作帽的粘土微缩店主探出上半身,手中正拿着一块小巧的奥利奥饼干递向窗外。店外站着一位顾客,是一个背着黄色双肩包、穿着红色休闲外套的微缩粘土小人,正微微仰头,伸出双手准备接过店主递来的饼干。商店周围的泥土地面上密集地散落着许多大小不一的奥利奥饼干,有些是完整的,有些被掰开露出了白色的夹心,铺满了整个前景和四周地面。画面采用柔和的影棚布光,光线均匀温和,凸显了聚合物粘土特有的哑光细腻质感。摄影采用了极浅的景深,焦点精准对焦在店主、顾客和招牌区域,而靠近镜头的前景饼干和背景边缘则呈现出强烈的平滑虚化效果,完美营造出微观世界的尺度感与梦幻氛围。

百度 ERNIE-Image 复刻

OREO ERNIE复刻1

OREO ERNIE复刻2

Z-Image 复刻

OREO Z-Image1

OREO Z-Image2

FireRed Qwen-image-2512

OREO FireRed1

OREO FireRed2

Flux2

OREO Flux2

Nanobana 2 pro

OREO Nanobana

即梦

OREO 即梦1

OREO 即梦2

多文字组合测试

提示词:

一张垂直构图的卡通手绘风格信息图,背景为带有轻微纸质纹理的柔和米白色,画面排版疏密有致,留白丰富。整体采用马克笔与彩色铅笔混合的手绘质感线条,无任何写实图画元素。画面顶部居中是一个醒目的手绘气泡框,内有手写粗体文字标题 '番茄工作法'。标题左侧绘制了一个拟人化的卡通红番茄角色,番茄戴着黑框圆眼镜,正微笑着手持一根教鞭。标题正下方是稍小字号的副标题 '高效时间管理指南'。画面主体纵向分为四个步骤区块,通过手绘的黑色虚线箭头从上至下引导视线:第一区块左侧绘制了一个带有飞镖的红色标靶图标,右侧是手写文字 '1. 设定目标' 及下方的正文 '挑选一个需要完成的待办任务,保持明确。';第二区块交错到右侧,画有一个经典的番茄形状机械定时器图标,刻度指向25,左侧是手写文字 '2. 专注25分钟' 及正文 '全神贯注投入工作,屏蔽一切外部干扰。','25分钟' 下方有黄色的高光笔触强调;第三区块左侧是一个冒着热气的咖啡杯简笔画,右侧手写文字 '3. 短暂休息' 及正文 '闹钟响起后,休息5分钟,喝水或活动大脑。';第四区块右侧画了四个排列整齐的小番茄图标和一张绿色单人沙发,左侧手写文字 '4. 长时休息' 及正文 '连续完成四个番茄钟后,进行15-30分钟的深度放松。'。画面最底部画有一个发光的黄色卡通灯泡图标,旁边用蓝色手写体写着附加说明 '温馨提示:专注期间请将手机静音,远离视线!'。整体色调明快活泼,以红色、亮黄色和柔和的天蓝色为主,核心概念一目了然。

官方结果

番茄图 官方

百度 ERNIE-Image 复刻

番茄图 ERNIE1

番茄图 ERNIE2

Z-Image

番茄图 Z-Image1

番茄图 Z-Image2

FireRed Qwen-image-2512

番茄图 FireRed

Flux2

中文支持较差,结果为英文

番茄图 Flux2

Nanobana 2 pro

番茄图 Nanobana

即梦

番茄图 即梦1

番茄图 即梦2

人像表现

提示词:

一张休闲街头风格的摄影肖像照,采用竖屏中近景构图,视角与人物眼睛齐平,聚焦于人物的脸部与上半身。画面主体是一位年轻女性,她留着齐肩的钛金白金色头发,发丝呈现柔和的波浪卷理,中分并自然垂落。她的皮肤白晳,在阳光下泛着健康的光泽;眉毛为自然的棕色,形状柔和;双眼是浅绿灰色的,正带着柔和友好的目光直视镜头。她化着极简的自然裸妆,嘴唇呈现柔和的淡粉色,带着轻松自然的微笑。她身穿一件修身的浅黄绿色罗纹吊带背心,胸前带有小巧的蓝绿色三角龙图案。她的左耳佩戴着一只白色的无线耳机,脖子上戴着一条纤细的金色金属圆圈项链,双肩上的可见黑色的双肩背包背带。人物站在一座具有欧洲城市风格的建筑室外。背景中有一扇蓝灰色的金属门,门上有一个标牌,清晰地印有德文 'Notausgang freihalten'。画面左侧露出了一部分被粉刷成橙色的墙面。画面光线为傍晚黄金时刻的自然光,温暖的侧面定向光照在人物身上,并在后方的墙壁上投射出柔和的阴影。整体色调温暖,呈现出日常、放松且平易近人的城市生活氛围。

官方结果

人像 官方1

百度 ERNIE-Image 复刻

人像 ERNIE1

人像 ERNIE2

Z-Image

人像 Z-Image1

人像 Z-Image2

FireRed Qwen-image-2512

人像 FireRed

Flux2

人像 Flux2

Nanobana 2 pro

人像 Nanobana

即梦

人像 即梦1

人像 即梦2

人像2 - 超写实风格

提示词:

超写实风格的高角度抓拍照片。画面采用16:9的宽幅构图,展现了一个自然随性的生活场景。视觉中心是一位年轻的亚洲女生,她正蹲坐在带有粗糙质感和轻微斑驳的水泥地庭院中。女生侧身向后回望,目光微微上扬,与镜头产生对视。她的面部细节极为逼真,肌肤瓷白细腻,散发着自然的柔光;双唇紧闭,嘴角带着羞涩含蓄的笑容,大而明亮的圆眼睛和明显的卧蚕衬托出俏皮可爱的神情。她身穿一件鼠尾草绿色的针织露背长袖上衣,柔软的针织纹理清晰可见,长袖自然垂下覆盖住了大半个手掌;下身搭配浅蓝色的牛仔短裤,双脚赤裸穿着一双棕赪色的平底凉鞋。女生的一只手臂向外舒展,正在逗弄身旁一只玳黄色的猫咪,猫咪脖子上拴着一根细长的牵引绳,毛发蓬松且色泽温暖。在画面的另一侧,摆放着一张质朴的木质桌子,桌上覆盖着一块粉色的民族风桌布,桌布上带有复杂的几何花纹和流苏边缘。整体光线柔和明亮,色彩搭配和谐,鼠尾草绿、玳黄、粉色与灰色的水泥地形成丰富的视觉层次。

官方结果

人像2 官方

百度 ERNIE-Image 复刻

人像2 ERNIE1

人像2 ERNIE2

Z-Image

人像2 Z-Image1

人像2 Z-Image2

FireRed Qwen-image-2512

人像2 FireRed


本文所有测试均基于各模型官方或公开可复现的配置进行。提示词增强功能在 ERNIE-Image 中内置,其他模型对比时未使用额外提示词增强。

ERNIE-Image Team