ERNIE-Image-Turbo 8B 全网最全多图横向对比 + 提示词实战

百度刚刚开源了8B参数量的文生图模型 ERNIE-Image。我们在对比文生图模型时，总是不由自主地会对比参数量。参数量不能直观地展示一个模型的能力和擅长点，但我们仍然相信，量大管饱，参数量只是潜力，真正的能力还是取决于训练质量。本文不做客观评价，全部交给测评说话。

开源文生图模型参数量排名

参数量对比

先给大家罗列一下截止到今天，开源的文生图模型，按着参数量排名：

HunyuanImage-3.0（Tencent Hunyuan） — 80B 总参数（MoE，64 experts，~13B 活跃）：目前最大的开源T2I MoE模型，原生多模态自回归架构，强于复杂提示、世界知识推理、中英文文本渲染和知识密集生成。适合高质量、专业场景，但推理需高配硬件（数据中心级，量化后可优化）。2025年9月开源，权重在HF可用。
FLUX.2 [dev]（Black Forest Labs） — 32B 参数：FLUX.2系列的开源版本，支持T2I、图像编辑、多参考图像融合。rectified flow transformer架构，提示遵循、细节和连贯性极强。可在消费级GPU（量化/FP8优化后）运行，是2026年开源旗舰之一。
FLUX.1 [dev/schnell] — ~12B 参数：（早期FLUX.1系列，Kontext Pro等约12B）经典DiT/flow matching模型，提示遵循和文本渲染一流。schnell为蒸馏快版本。社区生态最丰富，ComfyUI等支持完善。
Stable Diffusion 3.5 Large（Stability AI） — 8.1B 参数（MMDiT）：SD系列最新主力，提示遵循和排版显著提升，支持1MP+分辨率。Medium变体为2.5B 参数，更适合消费级硬件。开源社区最大，LoRA/微调生态完善。
Qwen-Image / Qwen-Image-2.0（Alibaba Qwen） — ~7B–20B 参数：（2.0版统一为~7B，轻量高效）强中文/多语言文本渲染、专业排版（支持1K token长提示）、原生2K分辨率。2.0版统一生成+编辑，效率高，适合亚语系和infographic。
Z-Image-Turbo / 其他小型高效模型 — ~6B 参数：高效实时/边缘部署模型，速度快，适合低资源环境。

所以从参数量上来说，百度的ERNIE-Image其实并不算大，算是卡在中间。至于图像表现，我们看图说话。

ERNIE-Image 简介

ERNIE-Image 是百度 ERNIE-Image 团队开发的一种开放文本对图像模型。它基于单流扩散变换器（DiT），采用8B参数，采用潜在扩散（LDM）框架，配备轻量级提示增强器，将简短输入扩展为更丰富、更有结构的提示，更好地释放模型能力。仅用8B DiT参数，ERNIE-Image在开放权重文本到图像模型中实现了最先进的性能——它不仅注重视觉吸引力，更注重可控性：准确的内容表现与美观同等重要。在实际操作中，它在复杂的指令跟踪、精准的文本渲染和结构化图像生成方面表现出色——这些领域是许多现有开放权重模型仍然不足的领域。

模型架构图

模型评测横向对比（官方版本）

官方评测

模型本身还增加了提示词增强

ERNIE-Image搭配冗长、详尽且结构良好的提示效果最佳——更丰富的描述通常能带来更好的生成质量、更紧密的指令忠诚度，以及更忠实地呈现复杂版面或叙事内容。但实际上，用户通常会输入简短的句子，而不是那种能发挥模型优势的详细提示。

为了弥补这一差距，我们发布了内置的3B提示增强器，将简短的用户输入扩展为更详细、更有结构的提示，更适合ERNIE-Image。目标不是改变用户的意图，而是将简洁的请求转化为一种能够更好地发挥模型价值的形式——尤其是在海报、动漫、网页布局、游戏截图及其他结构化的视觉任务中。

下面的例子说明了这种效应。如果没有提示增强，模型往往会字面且不完整地解读短提示。有了我们的3B提示增强器，提示变得更加描述性和结构化，在许多场景中显著提升了效果。我们还发现，更强大的大型语言模型可以进一步推动这一目标——这表明提示增强是利用ERNIE-Image长提示生成能力的实用杠杆。

提示增强器效果

提示增强器效果2

提示增强器效果3

提示增强器效果4

提示增强器效果5

提示增强器效果6

我们用官网的提示词进行复刻

在线网站：https://huggingface.co/spaces/baidu/ERNIE-Image-Turbo

HuggingFace 演示

提示词实战：奥reo粘土微缩模型

不得不说这个提示词还是非常复杂：

OREO 官方结果1

OREO 官方结果2

原始提示词：

一张影棚微距摄影照片，展现了一个手工聚合物粘土质感的微缩立体模型。画面中央是一家小巧的奥利奥主题商店，整体呈现纵向构图。商店的屋顶由几块巨大的奥利奥夹心饼干交错搭建而成，饼干呈现深黑色，中间夹着厚厚的白色奶油层，表面带有经典的压花纹理和清晰的英文字母 'OREO'，带有手工粘土圆润且微显指纹印记的真实触感。商店正面有一扇打开的木质售卖窗，窗户正上方悬挂着一块醒目的蓝色长方形招牌，招牌上用立体的白色粗体字写着大写的品牌名 'OREO'。在窗口处，一位身穿蓝色小围裙、头戴白色工作帽的粘土微缩店主探出上半身，手中正拿着一块小巧的奥利奥饼干递向窗外。店外站着一位顾客，是一个背着黄色双肩包、穿着红色休闲外套的微缩粘土小人，正微微仰头，伸出双手准备接过店主递来的饼干。商店周围的泥土地面上密集地散落着许多大小不一的奥利奥饼干，有些是完整的，有些被掰开露出了白色的夹心，铺满了整个前景和四周地面。画面采用柔和的影棚布光，光线均匀温和，凸显了聚合物粘土特有的哑光细腻质感。摄影采用了极浅的景深，焦点精准对焦在店主、顾客和招牌区域，而靠近镜头的前景饼干和背景边缘则呈现出强烈的平滑虚化效果，完美营造出微观世界的尺度感与梦幻氛围。

百度 ERNIE-Image 复刻

OREO ERNIE复刻1

OREO ERNIE复刻2

Z-Image 复刻

OREO Z-Image1

OREO Z-Image2

FireRed Qwen-image-2512

OREO FireRed1

OREO FireRed2

Flux2

OREO Flux2

Nanobana 2 pro

OREO Nanobana

即梦

OREO 即梦1

OREO 即梦2

多文字组合测试

提示词：

一张垂直构图的卡通手绘风格信息图，背景为带有轻微纸质纹理的柔和米白色，画面排版疏密有致，留白丰富。整体采用马克笔与彩色铅笔混合的手绘质感线条，无任何写实图画元素。画面顶部居中是一个醒目的手绘气泡框，内有手写粗体文字标题 '番茄工作法'。标题左侧绘制了一个拟人化的卡通红番茄角色，番茄戴着黑框圆眼镜，正微笑着手持一根教鞭。标题正下方是稍小字号的副标题 '高效时间管理指南'。画面主体纵向分为四个步骤区块，通过手绘的黑色虚线箭头从上至下引导视线：第一区块左侧绘制了一个带有飞镖的红色标靶图标，右侧是手写文字 '1. 设定目标' 及下方的正文 '挑选一个需要完成的待办任务，保持明确。'；第二区块交错到右侧，画有一个经典的番茄形状机械定时器图标，刻度指向25，左侧是手写文字 '2. 专注25分钟' 及正文 '全神贯注投入工作，屏蔽一切外部干扰。'，'25分钟' 下方有黄色的高光笔触强调；第三区块左侧是一个冒着热气的咖啡杯简笔画，右侧手写文字 '3. 短暂休息' 及正文 '闹钟响起后，休息5分钟，喝水或活动大脑。'；第四区块右侧画了四个排列整齐的小番茄图标和一张绿色单人沙发，左侧手写文字 '4. 长时休息' 及正文 '连续完成四个番茄钟后，进行15-30分钟的深度放松。'。画面最底部画有一个发光的黄色卡通灯泡图标，旁边用蓝色手写体写着附加说明 '温馨提示：专注期间请将手机静音，远离视线！'。整体色调明快活泼，以红色、亮黄色和柔和的天蓝色为主，核心概念一目了然。