百度开源文生图ERNIE-Image-Turbo 8B 全网最全的多图横向对比 + 请万物吃西湖醋鱼提示词
就在刚刚,百度开源了8B参数量的文生图模型ERNIE-Image。一般我们在对比文生图模型时,还是不由自主的会对比参数量,当然参数量是不能直观的展示一个模型的能力和擅长点,但是我们仍然相信,量大管饱,但是参数量只是潜力,真正的能力还是取决于训练质量,我不做客观评价,全部交给测评。
开源文生图模型参数量排名
- HunyuanImage-3.0(Tencent Hunyuan)— 80B 总参数(MoE,64 experts,~13B 活跃)- 目前最大的开源T2I MoE模型
- FLUX.2 [dev](Black Forest Labs)— 32B 参数 - 2026年开源旗舰之一
- FLUX.1 [dev/schnell] — ~12B 参数 - 经典DiT/flow matching模型,社区生态最丰富
- Stable Diffusion 3.5 Large(Stability AI)— 8.1B 参数(MMDiT)- SD系列最新主力
- ERNIE-Image(Baidu)— 8B 参数 - 单流DiT架构
- Qwen-Image / Qwen-Image-2.0(Alibaba Qwen)— ~7B–20B 参数(2.0版统一为~7B)
- Z-Image-Turbo / 其他小型高效模型 — ~6B 参数
所以从参数量上来说,百度的ERNIE-Image其实并不算大,算是卡在中间,至于图像表现,我们看图说话。
ERNIE-Image 模型介绍
ERNIE-Image 是百度 ERNIE-Image 团队开发的一种开放文本对图像模型。它基于单流扩散变换器(DiT),采用8B参数,采用潜在扩散(LDM)框架,配备轻量级提示增强器,将简短输入扩展为更丰富、更有结构的提示,更好地释放模型能力。
仅用8B DiT参数,ERNIE-Image在开放权重文本到图像模型中实现了最先进的性能——它不仅注重视觉吸引力,更注重可控性:准确的内容表现与美观同等重要。在实际操作中,它在复杂的指令跟踪、精准的文本渲染和结构化图像生成方面表现出色——这些领域是许多现有开放权重模型仍然不足的领域。
模型测评横向对比官方版本


模型本身还增加了提示词增强
ERNIE-Image搭配冗长、详尽且结构良好的提示效果最佳——更丰富的描述通常能带来更好的生成质量、更紧凑的指令忠实度,以及更忠实地呈现复杂版面或叙事内容。但实际上,用户通常会输入简短的句子,而不是那种能发挥模型优势的详细提示。
为了弥补这一差距,我们发布了内置的3B提示增强器,将简短的用户输入扩展为更详细、更有结构的提示,更适合ERNIE-Image。目标不是改变用户的意图,而是将简洁的请求转化为一种能够更好地发挥模型价值的形式——尤其是在海报、动漫、网页布局、游戏截图及其他结构化的视觉任务中。
提示词书写规则
ERNIE-Image(包括 SFT 版和 Turbo 版)强烈依赖长、详细、结构化的提示词:
核心要点
- 长详细提示词效果远优于简短提示:模型几乎不主动"脑补"或精炼内容
- 短提示的典型问题:输出质量低、布局混乱、文本错误、缺少叙事连贯性
- 官方推荐:使用内置 Prompt Enhancer(PE)自动把简短输入扩展成结构化、细节丰富的提示词
提示词书写最佳实践
语言选择:中文优先(ERNIE-Image 对中文理解和语义控制极强)
结构化写作框架(推荐顺序):
- 主体描述(Subject):主要对象、场景、人物、动作
- 细节与关系(Details & Relations):物体位置、互动、光影、材质
- 布局与构图(Composition):明确分镜、海报布局、多面板、文字位置
- 风格与氛围(Style):艺术风格、时代、情绪、光线
- 质量提升词(Quality Boosters):高细节、锐利、电影级照明
关键技巧:
- 信息密度高:提示词越长、越结构化越好
- 显式描述一切:不要依赖模型"懂"隐含知识
- 利用 Prompt Enhancer:输入简短想法 → PE 自动扩展 → 再微调
- 文本渲染优势:适合生成带大量中文/英文文字的图片
- 结构化场景特别强:海报、动漫故事板、多面板、网页 UI
实战对比提示词
Oreo 微缩模型
一张影棚微距摄影照片,展现了一个手工聚合物粘土质感的微缩立体模型。画面中央是一家小巧的奥利奥主题商店,整体呈现竖向构图。商店的屋顶由几块巨大的奥利奥夹心饼干交错搭建而成,饼干呈现深黑色,中间夹着厚实的白色奶油层,表面带有经典的压花纹理和清晰的英文字母 'OREO',带有手工粘土圆润且微显指纹印记的真实触感。商店正面有一扇打开的木质售卖窗,窗户正上方悬挂着一块醒目的蓝色长方形招牌,招牌上用立体的白色粗体字写着大写的品牌名 'OREO'。在窗口处,一位身穿蓝色小围裙、头戴白色工作帽的粘土微缩店主探出上半身,手中正拿着一块小巧的奥利奥饼干递向窗外。店外站着一位顾客,是一个背着黄色双肩包、穿着红色休闲外套的微缩粘土小人,正微微仰头,伸出双手准备接过店主递来的饼干。商店周围的泥土地面上密集地散落着许多大小不一的奥利奥饼干,有些是完整的,有些被掰开露出了白色的夹心,铺满了整个前景和四周地面。画面采用柔和的影棚布光,光线均匀温和,凸显了聚合物粘土特有的哑光细腻质感。摄影采用了极浅的景深,焦点精准对焦在店主、顾客和招牌区域,而靠近镜头的前景饼干和背景边缘则呈现出强烈的平滑虚化效果,完美营造出微观世界的尺度感与梦幻氛围。
多文字组合 - 番茄工作法
一张垂直构图的卡通手绘风格信息图,背景为带有轻微纸质纹理的柔和米白色,画面排版疏密有致,留白丰富。整体采用马克笔与彩色铅笔混合的手绘质感线条,无任何写实图画元素。画面顶部居中是一个醒目的手绘气泡框,内有手写粗体文字标题 '番茄工作法'。标题左侧绘制了一个拟人化的卡通红番茄角色,番茄戴着黑框圆眼镜,正微笑着手持一根教鞭。标题正下方是稍小字号的副标题 '高效时间管理指南'。画面主体纵向分为四个步骤区块,通过手绘的黑色虚线箭头从上至下引导视线:第一区块左侧绘制了一个带有飞镖的红色标靶图标,右侧是手写文字 '1. 设定目标' 及下方的正文 '挑选一个需要完成的待办任务,保持明确。';第二区块交错到右侧,画有一个经典的番茄形状机械定时器图标,刻度指向25,左侧是手写文字 '2. 专注25分钟' 及正文 '全神贯注投入工作,屏蔽一切外部干扰。','25分钟' 下方有黄色的高光笔触强调;第三区块左侧是一个冒着热气的咖啡杯简笔画,右侧手写文字 '3. 短暂休息' 及正文 '闹钟响起后,休息5分钟,喝水或活动大脑。';第四区块右侧画了四个排列整齐的小番茄图标和一张绿色单人沙发,左侧手写文字 '4. 长时休息' 及正文 '连续完成四个番茄钟后,进行15-30分钟的深度放松。'。画面最底部画有一个发光的黄色卡通灯泡图标,旁边用蓝色手写体写着附加说明 '温馨提示:专注期间请将手机静音,远离视线!'。整体色调明快活泼,以红色、亮黄色和柔和的天蓝色为主,核心概念一目了然。
人像表现
一张休闲街头风格的摄影肖像照,采用竖屏中近景构图,视角与人物眼睛齐平,聚焦于人物的脸部与上半身。画面主体是一位年轻女性,她留着齐肩的铂金白金色头发,发丝呈现柔和的波浪卷理,中分并自然垂落。她的皮肤白皙,在阳光下泛着健康的光泽;眉毛为自然的棕色,形状柔和;双眼是浅绿灰色的,正带着柔和友好的目光直视镜头。她化着极简的自然裸妆,嘴唇呈现柔和的淡粉色,带着轻松自然的微笑。她身穿一件修身的浅黄绿色罗纹吊带背心,胸前带有小巧的蓝绿色三角龙图案。她的左耳佩戴着一只白色的无线耳机,脖子上戴着一条纤细的金色金属颈圈项链,双肩上可见黑色的双肩背包背带。人物站在一座具有欧洲城市风格的建筑室外。背景中有一扇蓝灰色的金属门,门上有一个标牌,清晰地印有德文 'Notausgang freihalten'。画面左侧露出了一部分被粉刷成橙色的墙面。画面光线为傍晚黄金时刻的自然光,温暖的侧面定向光照在人物身上,并在后方的墙壁上投射出柔和的阴影。整体色调温暖,呈现出日常、放松且平易近人的城市生活氛围。
高质量食品信息图
这是一张垂直竖版构图(比例约3:4)的高清超写实食品摄影与编辑级信息图海报。画面整体呈现8K超高清画质,采用中心加权的垂直构图,无任何画面裁剪与缩放。摄影风格带有浅景深效果,食物主体清晰锐利,背景柔和虚化。布光为电影级影棚灯光,柔和的定向主光勾勒出食物极其逼真的质感,边缘伴有微妙的轮廓光,高光部分控制得恰到好处。画面被分为上下两个场景模块,均包含悬浮或掉落的运动定格元素。所有信息图的指示线皆为细长平滑的圆角金线,连接的文字标签由金属金色的优雅衬线字体(用于成分名称)和纯白色的简洁无衬线字体(用于成分描述)组成。
海报的上半部分背景为柔和的粉彩粉色平滑渐变...(省略)
总结
总的来说我觉得本次的百度开源文生图还是非常能打的,但是你要按着他的提示词规则来写,搞清楚规则再写,偏向长文本描述。