ERNIE-Image 图生视频 ComfyUI 工作流:从静态图像到 AI 动画的完整链路

май 26, 2026

ERNIE-Image 图生视频 ComfyUI 工作流:从静态图像到 AI 动画的完整链路

摘要:AI 视频生成正在从实验走向实用。本文详解如何将 ERNIE-Image 作为高质量静态图生成器,与 LTX 2.3、Wan 2.2 等视频生成模型在 ComfyUI 中无缝衔接,构建完整的"文生图→图生视频"自动化管线。


为什么 ERNIE-Image 是图生视频的最佳起点

在 AI 视频生成的工作流中,第一帧的质量决定了最终视频的上限。ERNIE-Image 在以下三个维度上恰好是图生视频场景的理想选择:

  1. 高质量静态图生成:8B DiT 架构,在角色一致性、场景细节和光影表现上处于开源模型第一梯队
  2. 文字渲染能力:可以在静态图中嵌入准确的文字,视频生成后文字仍然可读
  3. ComfyUI 原生支持:RunComfy 和 mimicpc 社区已提供完整的 ERNIE-Image ComfyUI 工作流

一、AI 图生视频生态全景

2026 年主流图生视频模型

模型 参数量 最佳用途 视频时长 分辨率
LTX 2.3 开源 通用图生视频、唇同步 5-10s 720p+
Wan 2.2 开源 电影级运动、平滑过渡 5-10s 1080p
Higgsfield 闭源 专业动画制作 10-30s 4K
Kling 1.5 闭源 API 高真实感 10s 1080p

ERNIE-Image + 视频模型的优势组合

ERNIE-Image(静态图) → LTX 2.3 / Wan 2.2(视频生成) → 后处理(升频/调色)

为什么不是直接用视频生成模型的文本输入?

  • 文生视频模型的文本理解能力普遍弱于专门的文生图模型
  • ERNIE-Image 的文字渲染 + 结构化布局能力是视频模型不具备的
  • 两阶段工作流允许在中间环节进行人工审核和修改

二、ComfyUI 工作流搭建

基础工作流:ERNIE-Image → LTX 2.3 图生视频

┌─────────────────────┐
│ ERNIE-Image 部分     │
├─────────────────────┤
│ 1. Load Checkpoint  │
│    → ERNIE-Image    │
│       Base           │
│ 2. CLIP Text Encode │
│    → 场景描述        │
│ 3. Sampler          │
│    → 20-30 steps    │
│ 4. VAE Decode       │
│    → 静态图像输出    │
└────────┬────────────┘
         ↓
┌────────┴────────────┐
│ LTX 2.3 部分         │
├─────────────────────┤
│ 5. Load Checkpoint  │
│    → LTX 2.3        │
│ 6. Image → Video    │
│    → 输入: ERNIE    │
│       输出图像       │
│ 7. Video Sampler    │
│    → 25 frames      │
│ 8. Video Decode     │
│    → MP4 输出       │
└─────────────────────┘

关键节点配置

ERNIE-Image 部分:

Checkpoint: baidu/ERNIE-Image Base
Sampler: DPM++ 2M Karras
Steps: 25
CFG: 6.0
Resolution: 768x768 (横屏视频) 或 768x1024 (竖屏视频)

LTX 2.3 部分:

Model: LTX-Video 2.3
First Frame: ERNIE-Image 输出
Motion Strength: 0.6-0.8 (根据场景调整)
Frames: 25 (约 5 秒 @ 5fps)
FPS: 8-12 (视频生成帧率)

三、高级工作流:多模型组合

工作流 A:ERNIE-Image → LTX 2.3 → Topaz 升频

ERNIE-Image (768x768) → LTX 2.3 (720p 视频) → Topaz Video AI (2K/4K)

这个工作流适合需要高分辨率输出的商业场景,如产品展示视频、广告素材。

工作流 B:ERNIE-Image → Wan 2.2 电影级运动

ERNIE-Image (角色/场景图) → Wan 2.2 (60FPS 平滑运动) → CapCut 剪辑

Wan 2.2 在运动流畅度方面表现突出,适合人物动画、产品展示。

工作流 C:ERNIE-Image → LTX 2.3 唇同步

ERNIE-Image (角色肖像) → LTX 2.3 IC-LoRA (唇同步) → 音频对齐

LTX 2.3 的 IC-LoRA 功能支持精确的唇同步,适合 AI 数字人、虚拟主播场景。


四、实战案例

案例 1:电商产品展示视频

需求:生成产品在不同场景中的展示视频

工作流

  1. ERNIE-Image 生成产品图

    Prompt: 白色陶瓷咖啡杯, 放在旧橡木桌上, 早晨厨房场景, 
    柔和左侧窗光, 暖色调, 浅景深, 8K 商业摄影
    
  2. LTX 2.3 添加运动

    • Steam 上升效果
    • 光线缓慢变化
    • 微妙的镜头移动
  3. Topaz 升频到 2K

结果:一段 5 秒的 2K 产品展示视频,可直接用于电商详情页

案例 2:AI 动漫短片

需求:制作 30 秒的 AI 动漫短片

工作流

  1. ERNIE-Image 生成关键帧(5 个场景 × 2 张 = 10 张静态图)
  2. LTX 2.3 每帧生成 5 秒过渡
  3. CapCut 拼接 + 配音 + 字幕

关键 Prompt 示例

场景 1: 动漫风格, 少女站在樱花树下, 粉色花瓣飘落, 
        柔光, 浅景深, 电影感构图

场景 2: 动漫风格, 同一角色, 走在校园走廊,
阳光从窗户洒入, 书本散落

案例 3:社交媒体短视频

需求:Instagram/TikTok 风格的竖屏短视频

工作流

  1. ERNIE-Image 竖屏生成

    Resolution: 768x1024 (9:16)
    Prompt: 电影感夜景, 城市天际线, 霓虹灯, 
            赛博朋克风格, 竖屏构图
    
  2. Wan 2.2 添加动态效果

    • 灯光闪烁
    • 云层移动
    • 镜头缓慢推拉
  3. CapCut 添加音乐和字幕


五、常见问题与优化

Q1: 视频中的文字模糊怎么办?

原因:视频生成模型在处理文字时往往会模糊化

解决方案

  • 在 ERNIE-Image 阶段确保文字清晰(这是它的强项)
  • 在视频后处理阶段用 CapCut 添加文字覆盖层
  • 减少运动强度,让文字区域保持稳定

Q2: 角色在视频中变形怎么办?

原因:视频生成模型在运动过程中可能改变角色特征

解决方案

  • 使用 ERNIE-Image 的角色 LoRA 生成更稳定的角色图
  • 降低 LTX/Wan 的运动强度参数
  • 使用 ControlNet 约束角色形态

Q3: 视频长度不够怎么办?

解决方案

  • 多帧拼接:生成多个 5 秒片段,用 CapCut 拼接
  • Loop 技巧:设计首尾一致的帧,实现无缝循环
  • 慢放处理:在后期制作中降低播放速度

Q4: 运动不自然怎么办?

解决方案

  • 调整 Motion Strength:过高=抽搐,过低=静止
  • 尝试不同的视频模型:Wan 2.2 更适合人物运动,LTX 更适合场景运动
  • 在 ERNIE-Image 阶段生成更有动感的构图(倾斜角度、运动模糊提示词)

六、硬件要求与性能对比

推荐配置

组件 最低配置 推荐配置
GPU RTX 3060 12GB RTX 4090 24GB
VRAM 12GB 24GB
RAM 16GB 32GB
存储 50GB SSD 100GB NVMe

性能参考(RTX 4090 24GB)

  • ERNIE-Image 生成(768×768, 25 steps):约 3-5 秒
  • LTX 2.3 图生视频(25 frames):约 30-60 秒
  • Wan 2.2 图生视频(25 frames):约 45-90 秒
  • Topaz 升频(720p → 2K, 125 帧):约 2-5 分钟

七、商业应用场景

1. 电商产品视频

  • 成本对比:传统产品视频拍摄 $500-5000/条 vs AI 生成 $0-5/条(自部署)
  • 效率:从 3-5 天拍摄周期缩短到 1-2 小时
  • 适用:中小商家、独立品牌、快速测试市场反应

2. 社交媒体内容

  • 适用:Instagram Reels、TikTok、YouTube Shorts
  • 优势:批量生成、快速迭代、无需拍摄场地

3. 教育与培训

  • 适用:在线课程可视化、操作演示、概念解释
  • 优势:文字渲染 + 视频 = 完整的教学素材

4. 广告与营销

  • 适用:社交媒体广告、落地页视频、A/B 测试素材
  • 优势:快速生成多个版本测试效果

总结

ERNIE-Image + 视频生成模型的组合工作流,将静态图像生成的高质量和视频生成的动态效果完美结合。关键要点:

  1. ERNIE-Image 是最佳第一帧:高质量静态图 + 文字渲染 = 视频质量的上限
  2. 两阶段工作流优于端到端:中间审核、灵活修改、多模型组合
  3. ComfyUI 是核心枢纽:连接 ERNIE-Image、LTX、Wan、Topaz 的统一平台
  4. 后处理不可忽视:CapCut 剪辑、Topaz 升频、音频对齐是专业输出的必经之路

随着 LTX 2.3 和 Wan 2.2 的持续更新,AI 视频生成的质量正在快速提升。ERNIE-Image 作为开源文生图的优质选择,将成为这条工作流中不可或缺的起点。


参考来源:RunComfy ERNIE-Image ComfyUI Workflow, mimicpc.com 工作流库, YouTube "How to Make Professional AI Animations in 2026", HuggingFace baidu/ERNIE-Image

ERNIE-Image Team

ERNIE-Image 图生视频 ComfyUI 工作流:从静态图像到 AI 动画的完整链路 | Blog