12G显存跑 Ernie_Image,速度直追 Z-Image
百度发布了一款 8B 的开源文生图模型 Ernie_Image,说是特别适用于海报、漫画、故事板和多面板构图等结构化视觉任务,长文本渲染能力强大。

只不过因为是百度,在产品上历来是运气(策略)不好。这次也是,发布没多少天,就碰上了GPT Image 2 的发布,热度直接被盖掉……
但是呢,大家可能都知道,在AI这一块,百度可是国内的先行者之一。百度飞桨可是我刚刚开始接触AI绘图时,玩耍得最多的平台。所以这个老朋友发布了新模型,还是得试试看效果如何。
官方说这个 8B 模型可以在24G显卡上运行。虽然我只有个12G显卡的电脑但是连 LTX2.3 都可以跑,这个必须也可以跑起来!
直接用 Comfyui 官方的工作流,叠加个显存优化的节点就可以了,甚至这个官方工作流还可以带上一个提示词优化的模型:

不过为了节省内存占用,我们可以去掉这个提示词优化的流程,可以自己写提示词,或者用Deepseek 帮我们优化下提示词再来使用,这样的话就不用上显存优化节点,可以直接跑:

海报
下面来看看本地跑起来后,生成效果如何。
提示词
中文信息图海报,主题为 一杯咖啡如何来到你手里。风格为高级信息设计,兼具科普感与商业视觉感,版式清晰,带有路径箭头、数据框、图标、简洁插画和模块化卡片。色调以咖啡棕、奶白、墨黑、少量铜色点缀。要求图文并重,信息非常多,但仍然好看。 海报必须完整展示以下内容: 一杯咖啡 如何来到你手里 01 种植 海拔 1200 至 2200 米 适宜温度 18℃ 至 24℃ 采摘期通常集中在 11 月至次年 3 月 02 处理 日晒 水洗 蜜处理 03 烘焙 浅烘 更明亮 中烘 更平衡 深烘 更浓郁 04 研磨 手冲偏粗 意式偏细 冷萃中粗 05 萃取 粉水比 水温 时间 都会影响风味 风味关键词 花香 / 柑橘 / 坚果 / 焦糖 / 巧克力 / 烟熏 你喝到的每一口 都来自一连串精密选择 底部小字:适合用于咖啡入门科普与门店展示 重点测试长信息图、数字、温度、编号、短说明、斜杠风味词和多模块排版。要让它看起来像高质量展板,不要像课堂PPT。 如果你要把这 10 组再升级成真正的压测套题,我建议下一步直接做三层难度版本: 第一层,纯中文大标题加少量小字 第二层,中英混排加数字价格加多模块 第三层,超长正文加底部细小版权信息加复杂表格式排版

这提示词我从网上抄的,咋一看还可以。不过原来这个提示词是用再 GPT-Image2 上,对比起来这个Ernie-Image有点拉……
再抄多一个商品展示图设计:
提示词
高端护肤品电商首图海报,产品名为 修仙维稳面膜。整体风格干净、轻奢、科学护肤感强,画面中心是一片独立包装的高端面膜,膜布采用天然蚕丝或生物纤维材质,带有丰盈的精华液浸润感,表面可见细腻的水珠反光与流动的精华光泽。面膜包装袋为半透明磨砂质感,隐约透出内里的乳白色膜布与淡金色精华液,袋体边缘有精致的烫金压纹。背景为奶白到暖灰的柔和渐变,局部有透明的液体流动线条与微观分子结构(神经酰胺微囊、脂质体球状颗粒)装饰,营造出活性成分渗透的科技美学。
海报必须包含以下文案,层级清晰,字体高级无衬线:
主标题(大号,烫金色或深灰色):修仙 · 维稳面膜
功能短句(中号,深灰色,横向排列或居中):修护屏障 | 舒缓泛红 | 细腻透亮
升级标识(小号金色徽章或标签):第 2 代升级配方
核心成分(小字,两行排列):神经酰胺 · 泛醇 B5 · 积雪草提取物 · 微囊脂质体
适合人群(浅灰底标签或直接文字):敏感肌 · 熬夜肌 · 换季不稳定肌
价格信息(大号醒目的深色数字+小号单位):限时到手价 229 元
赠品列表(中号,用分隔符或图标):买 1 送 3 —— 赠洁面 15ml · 赠精华 5ml · 赠面霜 10g
左下角小字(极淡灰色,极小字体):实际效果因人而异,请坚持使用
整体构图:面膜包装位于画面中央偏下,略微倾斜,展示正面与侧面的立体感;上方为主标题和功能短句,左侧或右侧竖向排列成分与人群信息,价格和赠品集中在下部形成促销视觉焦点,但保持克制,避免过度叫卖。光影柔和,带高光与微阴影,背景分子装饰若隐若现。整体高级、冷静、有质感

来个复杂一点的试试:
提示词
一张高分辨率、横向或方形的科普风格数字插画,主题为“动物细胞内部结构”,采用半透视的剖面图视角,用于教育展示。整体色调清新自然,以柔和的蓝紫色细胞质为背景,各种细胞器用明亮且易于区分的颜色绘制,并配有清晰的中文标注线和图例。
画面中央偏右位置是一个大型的球形细胞核,核膜为双层膜结构,表面布满核孔复合体。核内部可见深紫色的染色质网络和一个或多个深红色的核仁。细胞核周围是由多条扁平囊泡堆叠而成的高尔基体,呈弯月形或弓形,颜色为橙黄,囊泡边缘可见小分泌泡。
细胞核附近有少量呈长条状或分支状的粗面内质网,表面附着密密麻麻的深色小颗粒(核糖体),颜色为浅绿色;光面内质网则呈管状分支,无颗粒,颜色为浅蓝色。细胞质中散布着大量游离的深蓝色小点状核糖体。数个椭圆形的线粒体分布于细胞各处,具有双层膜和向内折叠的嵴,外膜光滑,内膜及嵴用深红色或紫色表示,并带有ATP合成酶颗粒的示意。
靠近细胞膜内测,可见细胞骨架的微丝(细线状)和微管(粗管状)交织成网,颜色为浅灰色半透明。细胞质中还包含几个大小不一的圆形溶酶体(紫红色)和过氧化物酶体(黄褐色)。两个中心粒相互垂直排列,位于细胞核附近,呈短圆筒状结构。细胞表面有稀疏的微绒毛突起。细胞最外层为细胞膜,用浅灰色半透明双线表示,边界清晰。
画面右下角或左下角设置一个简洁的图例框,白底黑字,列出主要细胞器名称与对应颜色:细胞核(紫色)、核仁(深红)、核孔(标注)、线粒体(红色)、内质网(绿色)、高尔基体(橙色)、核糖体(蓝色)、溶酶体(紫红)、中心粒(灰色)、细胞膜(灰色双线)等。所有标注线为黑色细线,末端带圆点指向目标结构,文字采用清晰的无衬线字体。背景为纯白色或极浅灰色,确保印刷和屏幕显示清晰。整体风格兼具科学准确性与教学直观性。

抽了好多次卡,效果不是很好,错字、指示错误的地方特别多……
人物生成
提示词
A stylized cinematic side-profile medium shot portrait of a young Chinese 18 years old Girl with sleek dark hair in a tight low bun, wearing a crisp white ruffled-collar shirt, eyes closed in serene contemplation, standing against a moody, light twilight sky with layered misty mountain silhouettes in the background, extreme high-contrast split neon lighting: 95% of the scene bathed in deep, saturated cool cyan-blue ambient light (dim, moody, low-key), with a sharp, intense, vivid neon pink-orange rim light tracing her facial profile, neck, and collar, creating bold color blocking and a surreal, artistic aesthetic, minimalist composition, high-fashion editorial, 8K, ultra-sharp focus on subject, moody desaturated blue tones, dramatic contrast, atmospheric depth, tranquil introspective vibe, dark atmospheric background, no overexposure, stylized color grading, neon rim light glow, low-key cool fill light.

感觉人物生成不太精致,皮肤颗粒感太强了……但是硬要说这样才体现了真实感,去除了AI的油头粉面,也不是不可以……
再放多几张看看:





怎么说呢,有种古早SD时代的感觉,而且偶尔还会处崩坏的人体结构……
看看漫画效果如何




漫画人物生成比真实人物生成效果好一定,不过色彩层次还是差那么一点感觉。
最后
Ernie-image有两个版本:原版需要跑 50 步,蒸馏版(turbo)只需要跑8步。效果有挺大的不同,50步版本的需要更详细的描述,默认生成风格似乎更符合外国,蒸馏版本稍微偏向亚洲,但是总体上感觉没有 Z-Image /Qwen-Image看起来舒服。
不过如果是做设计图、PPT之类的还是可以尝试一下,而且得用 50 步版本的,因为 turbo 文字一多必定出错……
就我个人来说,没有惊喜,略有点失望……
大家想玩的话,可以去魔搭社区,搜索 Comfy-Org/ERNIE-Image,下载 模型、text_endcoder、vae(用的是 flux2 的vae)、prompt-enhancer(Comfyui 官方模板需要)。