ERNIE-Image 的 DPO 对齐训练深度解读：SFT、偏好优化与美学评估数据管线

摘要：ERNIE-Image 在 2026 年 4 月开源后迅速成为最受关注的开源文生图模型之一。其核心技术秘密不仅在于 8B 参数的 DiT 架构，更在于一套精心设计的数据管线与对齐训练策略。本文将从 arXiv 技术报告（2605.25347）出发，深度解读 ERNIE-Image 的 SFT 微调、DPO 偏好优化与美学评估三大训练阶段，揭示一个"数据驱动型"模型如何通过精细化数据策略超越参数规模的限制。

为什么 DPO 对扩散模型很重要？

在 LLM 领域，DPO（Direct Preference Optimization）已经成为模型对齐的标准工具。从 RLHF 到 DPO，对齐训练经历了从复杂到简洁的演进。但在扩散模型领域，DPO 的应用才刚刚起步。

ERNIE-Image 的技术报告首次详细披露了将 DPO 适配到 Flow Matching 扩散模型的完整方案。这不是简单的"套用"，而是对扩散模型训练目标的重新设计。

核心创新：传统 DPO 针对离散 token 生成（LLM），而扩散模型生成的是连续像素空间。ERNIE-Image 将 DPO 目标函数从"下一个 token 的概率"重新定义为"速度场的 $L_2$ 重建误差"。具体来说：

模型预测速度 $v_{\theta}(x_t, t)$ 将噪声 $x_t$ 在时间步 $t$ 转换为数据
DPO 优化目标是最大化偏好图像与拒绝图像之间的速度预测差异
这意味着模型不是"更喜欢某个输出"，而是"更喜欢某种去噪方向"

这种适配使 DPO 能够在扩散模型的连续空间中工作，而不需要额外的奖励模型或复杂的 PPO 优化。

训练管线全景：Bottom-up 与 Top-down 双路径

ERNIE-Image 的训练管线被明确分为两条路径，这是理解其技术优势的关键框架。

Bottom-up：大规模预训练

这一阶段的目标是建立一个强大的通用视觉生成基础。关键步骤包括：

1. 细粒度分类体系
所有训练图像被分类到 10,000 个具体的视觉类别中。这不是简单的"动物/人物/风景"三级分类，而是像"城市天际线-黄昏-建筑密集"这样的细粒度标签。这种分类确保：

长尾概念不会被高频类别淹没
每个类别都能得到足够的采样权重
模型学习到多样化的视觉模式而非少数主导风格

2. VLM 驱动的 Caption 增强
ERNIE-Image 使用 Qwen3 VLM 作为 caption 生成器。这不只是简单的图像描述，而是结构化描述提取：

明确标注图像中的文字元素（海报标题、路牌、产品包装）
提取空间关系（"左侧"、"上方"、"中心对齐"）
描述色彩、光影、构图等专业视觉属性

这种 caption 质量直接决定了模型对复杂指令的遵循能力。ERNIE-Image 在 GenEval 上达到 0.89 的得分，很大程度上归功于高质量的结构化 caption。

3. 美学过滤
每张图像在训练前都通过 ERNIE-Image-Aes 美学评估模型打分。低美学分数的图像被降权或剔除。这确保了预训练数据本身具有较高的视觉质量，从源头避免了"垃圾进垃圾出"的问题。

4. 渐进式分辨率训练
训练从 $256 \times 256$ 开始，逐步提升到 $512 \times 512$，最终到 $1024 \times 1024$。这种渐进式策略帮助模型先学习全局结构，再学习局部细节，避免了高分辨率训练中常见的模式崩溃。

Top-down：专业化后训练与人类对齐

预训练完成后，模型具备通用生成能力，但需要进一步对齐人类偏好。这一阶段包括两个子步骤：

SFT（监督微调）
SFT 使用精选的领域特定数据集，覆盖高需求场景：

人像摄影（自然面部纹理、真实光影）
游戏美术（角色设计、场景概念图）
商业设计（海报、信息图表、产品渲染）

关键创新在于 caption 多样化：通过 Qwen3 VLM，同一张图像被生成三种不同风格的 caption——关键词列表式、自然语言描述式、直接指令式。这使得模型能够理解不同形式的用户输入，提升了 prompt 的鲁棒性。

DPO（直接偏好优化）
这是 ERNIE-Image 对齐训练的核心。DPO 使用成对的偏好数据——对于同一 prompt，一张"好"的图像和一张"不好"的图像。模型被训练来增加好图像对应的速度场预测概率，同时降低坏图像的。

Anchor Losses 正则化：DPO 训练有一个已知风险——模型可能学会"作弊"，通过改变图像的基本结构来获得高偏好分数，而非真正提升质量。ERNIE-Image 引入 Anchor Losses 作为正则化项，锚定模型的基本生成能力，防止 DPO 训练过程中出现"reward hacking"。

ERNIE-Image-Aes：美学评估模型的工业化实践

ERNIE-Image-Aes 是一个独立的 8B VLM 美学评分模型，它是整个训练管线中不可或缺的一环。

标注方法论：Swiss-Tournament
传统的图像质量标注让标注者给每张图打 1-10 分，但这种绝对评分存在严重的主观性和不一致性。ERNIE-Image 采用了 Swiss-Tournament 配对比较法：

将两张图像同时展示给标注者
标注者选择"更好的那张"
基于当前排名（"standing"）分配积分
多轮比较后收敛到稳定的质量排序

这种方法的优势在于：

相对判断比绝对判断更可靠——人脑擅长比较而非评分
排名稳定性——多轮比较消除偶然偏差
可复现性——不同标注者群体的结果高度一致

ERIA-1K 基准
ERNIE-Image 团队发布了 ERIA-1K 基准——1000 张图像，覆盖 6 个类别（写实摄影、数字艺术、插画、海报设计、动漫、抽象艺术），由专业标注者（设计/美术背景）标注 1-10 级标签。这为美学评估模型提供了标准化测试集。

避免专业偏见
ERNIE-Image-Aes 的一个设计目标是反映公众审美偏好而非专业摄影师的审美。这意味着：

不过度偏好"完美曝光"或"黄金分割"
接受多样化的构图风格
重视信息传达效率而非纯视觉美感

这对于商业应用场景尤为重要——一张信息丰富的海报可能不如一张风景照"好看"，但其美学价值在目标上下文中很高。

DPO 训练的实际效果

ERNIE-Image 在关键基准上的表现反映了 DPO 对齐的效果：

基准	得分	含义
GenEval	0.89	单/多对象生成与属性绑定能力
LongText-Bench	0.973	中英双语文字渲染准确度
人类评估	开源第一	综合视觉质量排名

DPO 带来的具体改进：

人像质感：DPO 训练使人像生成避免了"过度磨皮"的 AI 感，面部纹理更加自然
指令遵循：复杂多元素指令（如"9 个不同姿势的贴纸，每个带有不同文字"）的执行准确率显著提升
审美一致性：生成的图像在不同 prompt 下保持统一的美学风格，而非随机波动

与其他模型的对比

模型	对齐方法	美学评估	公开数据管线
ERNIE-Image	DPO (Flow Matching)	ERNIE-Image-Aes	✅ 完整公开
FLUX.2 Pro	LoRA + 人工筛选	未公开	❌
SD 3.5	SFT only	CLIP-based	部分公开
Midjourney	RLHF (proprietary)	专有	❌
Seedream 4.5	未公开	未公开	❌

ERNIE-Image 的独特价值在于完整公开了从数据管线到对齐训练的每个环节。对于研究者和开发者而言，这不仅是一个可用的模型，更是一个可学习、可复现的训练框架。

实践启示

从 ERNIE-Image 的训练管线中，我们可以提取几个对社区开发者有用的启示：

1. 数据质量 > 数据数量
10,000 分类 + VLM caption + 美学过滤的数据管线比盲目增加训练数据更有效。小规模、高质量、多样化的数据集优于大规模、低质量的数据。

2. Caption 多样化提升鲁棒性
同一图像生成多种 caption 风格（关键词/自然语言/指令式）使模型能够理解不同形式的用户输入。这是提升 prompt 鲁棒性的低成本策略。

3. DPO 需要正则化
Anchor Losses 防止 reward hacking 是一个通用经验。任何使用偏好优化的训练都需要正则化机制来保持模型的基本生成能力。

4. 美学评估应该反映目标用户
ERNIE-Image-Aes 强调公众审美而非专业审美。如果你训练自己的 LoRA 或微调模型，你的美学标准应该与目标用户群体对齐，而非与专业摄影师对齐。

总结

ERNIE-Image 的成功不仅在于 8B 参数的规模，更在于一套精心设计的训练管线：Bottom-up 的大规模预训练建立通用能力，Top-down 的 SFT + DPO 对齐人类偏好，ERNE-Image-Aes 美学模型贯穿始终确保视觉质量。这套管线为开源扩散模型提供了一套完整的对齐训练范式，值得社区深入学习和借鉴。

延伸阅读：