ERNIE-Image 图生视频 ComfyUI 工作流：从静态图像到 AI 动画的完整链路

摘要：AI 视频生成正在从实验走向实用。本文详解如何将 ERNIE-Image 作为高质量静态图生成器，与 LTX 2.3、Wan 2.2 等视频生成模型在 ComfyUI 中无缝衔接，构建完整的"文生图→图生视频"自动化管线。

为什么 ERNIE-Image 是图生视频的最佳起点

在 AI 视频生成的工作流中，第一帧的质量决定了最终视频的上限。ERNIE-Image 在以下三个维度上恰好是图生视频场景的理想选择：

高质量静态图生成：8B DiT 架构，在角色一致性、场景细节和光影表现上处于开源模型第一梯队
文字渲染能力：可以在静态图中嵌入准确的文字，视频生成后文字仍然可读
ComfyUI 原生支持：RunComfy 和 mimicpc 社区已提供完整的 ERNIE-Image ComfyUI 工作流

一、AI 图生视频生态全景

2026 年主流图生视频模型

模型	参数量	最佳用途	视频时长	分辨率
LTX 2.3	开源	通用图生视频、唇同步	5-10s	720p+
Wan 2.2	开源	电影级运动、平滑过渡	5-10s	1080p
Higgsfield	闭源	专业动画制作	10-30s	4K
Kling 1.5	闭源 API	高真实感	10s	1080p

ERNIE-Image + 视频模型的优势组合

ERNIE-Image（静态图） → LTX 2.3 / Wan 2.2（视频生成） → 后处理（升频/调色）

为什么不是直接用视频生成模型的文本输入？

文生视频模型的文本理解能力普遍弱于专门的文生图模型
ERNIE-Image 的文字渲染 + 结构化布局能力是视频模型不具备的
两阶段工作流允许在中间环节进行人工审核和修改

二、ComfyUI 工作流搭建

基础工作流：ERNIE-Image → LTX 2.3 图生视频

┌─────────────────────┐
│ ERNIE-Image 部分     │
├─────────────────────┤
│ 1. Load Checkpoint  │
│    → ERNIE-Image    │
│       Base           │
│ 2. CLIP Text Encode │
│    → 场景描述        │
│ 3. Sampler          │
│    → 20-30 steps    │
│ 4. VAE Decode       │
│    → 静态图像输出    │
└────────┬────────────┘
         ↓
┌────────┴────────────┐
│ LTX 2.3 部分         │
├─────────────────────┤
│ 5. Load Checkpoint  │
│    → LTX 2.3        │
│ 6. Image → Video    │
│    → 输入: ERNIE    │
│       输出图像       │
│ 7. Video Sampler    │
│    → 25 frames      │
│ 8. Video Decode     │
│    → MP4 输出       │
└─────────────────────┘

关键节点配置

ERNIE-Image 部分：

Checkpoint: baidu/ERNIE-Image Base
Sampler: DPM++ 2M Karras
Steps: 25
CFG: 6.0
Resolution: 768x768 (横屏视频) 或 768x1024 (竖屏视频)

LTX 2.3 部分：

Model: LTX-Video 2.3
First Frame: ERNIE-Image 输出
Motion Strength: 0.6-0.8 (根据场景调整)
Frames: 25 (约 5 秒 @ 5fps)
FPS: 8-12 (视频生成帧率)

三、高级工作流：多模型组合

工作流 A：ERNIE-Image → LTX 2.3 → Topaz 升频

ERNIE-Image (768x768) → LTX 2.3 (720p 视频) → Topaz Video AI (2K/4K)

这个工作流适合需要高分辨率输出的商业场景，如产品展示视频、广告素材。

工作流 B：ERNIE-Image → Wan 2.2 电影级运动

ERNIE-Image (角色/场景图) → Wan 2.2 (60FPS 平滑运动) → CapCut 剪辑

Wan 2.2 在运动流畅度方面表现突出，适合人物动画、产品展示。

工作流 C：ERNIE-Image → LTX 2.3 唇同步

ERNIE-Image (角色肖像) → LTX 2.3 IC-LoRA (唇同步) → 音频对齐

LTX 2.3 的 IC-LoRA 功能支持精确的唇同步，适合 AI 数字人、虚拟主播场景。

四、实战案例

案例 1：电商产品展示视频

需求：生成产品在不同场景中的展示视频

工作流：

ERNIE-Image 生成产品图：

Prompt: 白色陶瓷咖啡杯, 放在旧橡木桌上, 早晨厨房场景, 
柔和左侧窗光, 暖色调, 浅景深, 8K 商业摄影

LTX 2.3 添加运动：
- Steam 上升效果
- 光线缓慢变化
- 微妙的镜头移动
Topaz 升频到 2K

结果：一段 5 秒的 2K 产品展示视频，可直接用于电商详情页

案例 2：AI 动漫短片

需求：制作 30 秒的 AI 动漫短片

工作流：

ERNIE-Image 生成关键帧（5 个场景 × 2 张 = 10 张静态图）
LTX 2.3 每帧生成 5 秒过渡
CapCut 拼接 + 配音 + 字幕

关键 Prompt 示例：

场景 1: 动漫风格, 少女站在樱花树下, 粉色花瓣飘落, 柔光, 浅景深, 电影感构图

场景 2: 动漫风格, 同一角色, 走在校园走廊, 阳光从窗户洒入, 书本散落

案例 3：社交媒体短视频

需求：Instagram/TikTok 风格的竖屏短视频

工作流：

ERNIE-Image 竖屏生成：

Resolution: 768x1024 (9:16)
Prompt: 电影感夜景, 城市天际线, 霓虹灯, 
        赛博朋克风格, 竖屏构图

Wan 2.2 添加动态效果：
- 灯光闪烁
- 云层移动
- 镜头缓慢推拉
CapCut 添加音乐和字幕

五、常见问题与优化

Q1: 视频中的文字模糊怎么办？

原因：视频生成模型在处理文字时往往会模糊化

解决方案：

在 ERNIE-Image 阶段确保文字清晰（这是它的强项）
在视频后处理阶段用 CapCut 添加文字覆盖层
减少运动强度，让文字区域保持稳定

Q2: 角色在视频中变形怎么办？

原因：视频生成模型在运动过程中可能改变角色特征

解决方案：

使用 ERNIE-Image 的角色 LoRA 生成更稳定的角色图
降低 LTX/Wan 的运动强度参数
使用 ControlNet 约束角色形态

Q3: 视频长度不够怎么办？

解决方案：

多帧拼接：生成多个 5 秒片段，用 CapCut 拼接
Loop 技巧：设计首尾一致的帧，实现无缝循环
慢放处理：在后期制作中降低播放速度

Q4: 运动不自然怎么办？

解决方案：

调整 Motion Strength：过高=抽搐，过低=静止
尝试不同的视频模型：Wan 2.2 更适合人物运动，LTX 更适合场景运动
在 ERNIE-Image 阶段生成更有动感的构图（倾斜角度、运动模糊提示词）

六、硬件要求与性能对比

组件	最低配置	推荐配置
GPU	RTX 3060 12GB	RTX 4090 24GB
VRAM	12GB	24GB
RAM	16GB	32GB
存储	50GB SSD	100GB NVMe

性能参考（RTX 4090 24GB）

ERNIE-Image 生成（768×768, 25 steps）：约 3-5 秒
LTX 2.3 图生视频（25 frames）：约 30-60 秒
Wan 2.2 图生视频（25 frames）：约 45-90 秒
Topaz 升频（720p → 2K, 125 帧）：约 2-5 分钟

七、商业应用场景

1. 电商产品视频

成本对比：传统产品视频拍摄 $500-5000/条 vs AI 生成 $0-5/条（自部署）
效率：从 3-5 天拍摄周期缩短到 1-2 小时
适用：中小商家、独立品牌、快速测试市场反应

2. 社交媒体内容

适用：Instagram Reels、TikTok、YouTube Shorts
优势：批量生成、快速迭代、无需拍摄场地

3. 教育与培训

适用：在线课程可视化、操作演示、概念解释
优势：文字渲染 + 视频 = 完整的教学素材

4. 广告与营销

适用：社交媒体广告、落地页视频、A/B 测试素材
优势：快速生成多个版本测试效果

总结

ERNIE-Image + 视频生成模型的组合工作流，将静态图像生成的高质量和视频生成的动态效果完美结合。关键要点：

ERNIE-Image 是最佳第一帧：高质量静态图 + 文字渲染 = 视频质量的上限
两阶段工作流优于端到端：中间审核、灵活修改、多模型组合
ComfyUI 是核心枢纽：连接 ERNIE-Image、LTX、Wan、Topaz 的统一平台
后处理不可忽视：CapCut 剪辑、Topaz 升频、音频对齐是专业输出的必经之路

随着 LTX 2.3 和 Wan 2.2 的持续更新，AI 视频生成的质量正在快速提升。ERNIE-Image 作为开源文生图的优质选择，将成为这条工作流中不可或缺的起点。

参考来源：RunComfy ERNIE-Image ComfyUI Workflow, mimicpc.com 工作流库, YouTube "How to Make Professional AI Animations in 2026", HuggingFace baidu/ERNIE-Image

ERNIE-Image 图生视频 ComfyUI 工作流：从静态图像到 AI 动画的完整链路

ERNIE-Image 图生视频 ComfyUI 工作流：从静态图像到 AI 动画的完整链路

为什么 ERNIE-Image 是图生视频的最佳起点

一、AI 图生视频生态全景

2026 年主流图生视频模型

ERNIE-Image + 视频模型的优势组合

二、ComfyUI 工作流搭建

基础工作流：ERNIE-Image → LTX 2.3 图生视频

关键节点配置

三、高级工作流：多模型组合

工作流 A：ERNIE-Image → LTX 2.3 → Topaz 升频

工作流 B：ERNIE-Image → Wan 2.2 电影级运动

工作流 C：ERNIE-Image → LTX 2.3 唇同步

四、实战案例

案例 1：电商产品展示视频

案例 2：AI 动漫短片

案例 3：社交媒体短视频

五、常见问题与优化

Q1: 视频中的文字模糊怎么办？

Q2: 角色在视频中变形怎么办？

Q3: 视频长度不够怎么办？

Q4: 运动不自然怎么办？

六、硬件要求与性能对比

推荐配置

性能参考（RTX 4090 24GB）

七、商业应用场景

1. 电商产品视频

2. 社交媒体内容

3. 教育与培训

4. 广告与营销

总结