ERNIE-Image 图生视频 ComfyUI 工作流:从静态图像到 AI 动画的完整链路
摘要:AI 视频生成正在从实验走向实用。本文详解如何将 ERNIE-Image 作为高质量静态图生成器,与 LTX 2.3、Wan 2.2 等视频生成模型在 ComfyUI 中无缝衔接,构建完整的"文生图→图生视频"自动化管线。
为什么 ERNIE-Image 是图生视频的最佳起点
在 AI 视频生成的工作流中,第一帧的质量决定了最终视频的上限。ERNIE-Image 在以下三个维度上恰好是图生视频场景的理想选择:
- 高质量静态图生成:8B DiT 架构,在角色一致性、场景细节和光影表现上处于开源模型第一梯队
- 文字渲染能力:可以在静态图中嵌入准确的文字,视频生成后文字仍然可读
- ComfyUI 原生支持:RunComfy 和 mimicpc 社区已提供完整的 ERNIE-Image ComfyUI 工作流
一、AI 图生视频生态全景
2026 年主流图生视频模型
| 模型 | 参数量 | 最佳用途 | 视频时长 | 分辨率 |
|---|---|---|---|---|
| LTX 2.3 | 开源 | 通用图生视频、唇同步 | 5-10s | 720p+ |
| Wan 2.2 | 开源 | 电影级运动、平滑过渡 | 5-10s | 1080p |
| Higgsfield | 闭源 | 专业动画制作 | 10-30s | 4K |
| Kling 1.5 | 闭源 API | 高真实感 | 10s | 1080p |
ERNIE-Image + 视频模型的优势组合
ERNIE-Image(静态图) → LTX 2.3 / Wan 2.2(视频生成) → 后处理(升频/调色)
为什么不是直接用视频生成模型的文本输入?
- 文生视频模型的文本理解能力普遍弱于专门的文生图模型
- ERNIE-Image 的文字渲染 + 结构化布局能力是视频模型不具备的
- 两阶段工作流允许在中间环节进行人工审核和修改
二、ComfyUI 工作流搭建
基础工作流:ERNIE-Image → LTX 2.3 图生视频
┌─────────────────────┐
│ ERNIE-Image 部分 │
├─────────────────────┤
│ 1. Load Checkpoint │
│ → ERNIE-Image │
│ Base │
│ 2. CLIP Text Encode │
│ → 场景描述 │
│ 3. Sampler │
│ → 20-30 steps │
│ 4. VAE Decode │
│ → 静态图像输出 │
└────────┬────────────┘
↓
┌────────┴────────────┐
│ LTX 2.3 部分 │
├─────────────────────┤
│ 5. Load Checkpoint │
│ → LTX 2.3 │
│ 6. Image → Video │
│ → 输入: ERNIE │
│ 输出图像 │
│ 7. Video Sampler │
│ → 25 frames │
│ 8. Video Decode │
│ → MP4 输出 │
└─────────────────────┘
关键节点配置
ERNIE-Image 部分:
Checkpoint: baidu/ERNIE-Image Base
Sampler: DPM++ 2M Karras
Steps: 25
CFG: 6.0
Resolution: 768x768 (横屏视频) 或 768x1024 (竖屏视频)
LTX 2.3 部分:
Model: LTX-Video 2.3
First Frame: ERNIE-Image 输出
Motion Strength: 0.6-0.8 (根据场景调整)
Frames: 25 (约 5 秒 @ 5fps)
FPS: 8-12 (视频生成帧率)
三、高级工作流:多模型组合
工作流 A:ERNIE-Image → LTX 2.3 → Topaz 升频
ERNIE-Image (768x768) → LTX 2.3 (720p 视频) → Topaz Video AI (2K/4K)
这个工作流适合需要高分辨率输出的商业场景,如产品展示视频、广告素材。
工作流 B:ERNIE-Image → Wan 2.2 电影级运动
ERNIE-Image (角色/场景图) → Wan 2.2 (60FPS 平滑运动) → CapCut 剪辑
Wan 2.2 在运动流畅度方面表现突出,适合人物动画、产品展示。
工作流 C:ERNIE-Image → LTX 2.3 唇同步
ERNIE-Image (角色肖像) → LTX 2.3 IC-LoRA (唇同步) → 音频对齐
LTX 2.3 的 IC-LoRA 功能支持精确的唇同步,适合 AI 数字人、虚拟主播场景。
四、实战案例
案例 1:电商产品展示视频
需求:生成产品在不同场景中的展示视频
工作流:
ERNIE-Image 生成产品图:
Prompt: 白色陶瓷咖啡杯, 放在旧橡木桌上, 早晨厨房场景, 柔和左侧窗光, 暖色调, 浅景深, 8K 商业摄影LTX 2.3 添加运动:
- Steam 上升效果
- 光线缓慢变化
- 微妙的镜头移动
Topaz 升频到 2K
结果:一段 5 秒的 2K 产品展示视频,可直接用于电商详情页
案例 2:AI 动漫短片
需求:制作 30 秒的 AI 动漫短片
工作流:
- ERNIE-Image 生成关键帧(5 个场景 × 2 张 = 10 张静态图)
- LTX 2.3 每帧生成 5 秒过渡
- CapCut 拼接 + 配音 + 字幕
关键 Prompt 示例:
场景 1: 动漫风格, 少女站在樱花树下, 粉色花瓣飘落,
柔光, 浅景深, 电影感构图
场景 2: 动漫风格, 同一角色, 走在校园走廊,
阳光从窗户洒入, 书本散落
案例 3:社交媒体短视频
需求:Instagram/TikTok 风格的竖屏短视频
工作流:
ERNIE-Image 竖屏生成:
Resolution: 768x1024 (9:16) Prompt: 电影感夜景, 城市天际线, 霓虹灯, 赛博朋克风格, 竖屏构图Wan 2.2 添加动态效果:
- 灯光闪烁
- 云层移动
- 镜头缓慢推拉
CapCut 添加音乐和字幕
五、常见问题与优化
Q1: 视频中的文字模糊怎么办?
原因:视频生成模型在处理文字时往往会模糊化
解决方案:
- 在 ERNIE-Image 阶段确保文字清晰(这是它的强项)
- 在视频后处理阶段用 CapCut 添加文字覆盖层
- 减少运动强度,让文字区域保持稳定
Q2: 角色在视频中变形怎么办?
原因:视频生成模型在运动过程中可能改变角色特征
解决方案:
- 使用 ERNIE-Image 的角色 LoRA 生成更稳定的角色图
- 降低 LTX/Wan 的运动强度参数
- 使用 ControlNet 约束角色形态
Q3: 视频长度不够怎么办?
解决方案:
- 多帧拼接:生成多个 5 秒片段,用 CapCut 拼接
- Loop 技巧:设计首尾一致的帧,实现无缝循环
- 慢放处理:在后期制作中降低播放速度
Q4: 运动不自然怎么办?
解决方案:
- 调整 Motion Strength:过高=抽搐,过低=静止
- 尝试不同的视频模型:Wan 2.2 更适合人物运动,LTX 更适合场景运动
- 在 ERNIE-Image 阶段生成更有动感的构图(倾斜角度、运动模糊提示词)
六、硬件要求与性能对比
推荐配置
| 组件 | 最低配置 | 推荐配置 |
|---|---|---|
| GPU | RTX 3060 12GB | RTX 4090 24GB |
| VRAM | 12GB | 24GB |
| RAM | 16GB | 32GB |
| 存储 | 50GB SSD | 100GB NVMe |
性能参考(RTX 4090 24GB)
- ERNIE-Image 生成(768×768, 25 steps):约 3-5 秒
- LTX 2.3 图生视频(25 frames):约 30-60 秒
- Wan 2.2 图生视频(25 frames):约 45-90 秒
- Topaz 升频(720p → 2K, 125 帧):约 2-5 分钟
七、商业应用场景
1. 电商产品视频
- 成本对比:传统产品视频拍摄 $500-5000/条 vs AI 生成 $0-5/条(自部署)
- 效率:从 3-5 天拍摄周期缩短到 1-2 小时
- 适用:中小商家、独立品牌、快速测试市场反应
2. 社交媒体内容
- 适用:Instagram Reels、TikTok、YouTube Shorts
- 优势:批量生成、快速迭代、无需拍摄场地
3. 教育与培训
- 适用:在线课程可视化、操作演示、概念解释
- 优势:文字渲染 + 视频 = 完整的教学素材
4. 广告与营销
- 适用:社交媒体广告、落地页视频、A/B 测试素材
- 优势:快速生成多个版本测试效果
总结
ERNIE-Image + 视频生成模型的组合工作流,将静态图像生成的高质量和视频生成的动态效果完美结合。关键要点:
- ERNIE-Image 是最佳第一帧:高质量静态图 + 文字渲染 = 视频质量的上限
- 两阶段工作流优于端到端:中间审核、灵活修改、多模型组合
- ComfyUI 是核心枢纽:连接 ERNIE-Image、LTX、Wan、Topaz 的统一平台
- 后处理不可忽视:CapCut 剪辑、Topaz 升频、音频对齐是专业输出的必经之路
随着 LTX 2.3 和 Wan 2.2 的持续更新,AI 视频生成的质量正在快速提升。ERNIE-Image 作为开源文生图的优质选择,将成为这条工作流中不可或缺的起点。
参考来源:RunComfy ERNIE-Image ComfyUI Workflow, mimicpc.com 工作流库, YouTube "How to Make Professional AI Animations in 2026", HuggingFace baidu/ERNIE-Image