ERNIE-Image-Aes 美学评估模型深度解析:8B VLM 的图像审美评分革命

5月 31, 2026

ERNIE-Image-Aes 美学评估模型深度解析:8B VLM 的图像审美评分革命

发布日期:2026-05-31
标签:ERNIE-Image-Aes, 美学评估, 图像质量, VLM, ERIA-1K

在 AI 图像生成的工作流中,有一个长期被忽视的瓶颈:如何自动、客观地评估生成图像的美学质量?

传统的方法依赖人工评审——耗时、主观、难以规模化。而现有的自动美学评分模型(如 LAION-AES、ArtiMuse、UniPercept)存在系统性偏差:有的对 AI 生成内容评分过高,有的偏好黑白摄影,有的对日常快照过度宽容。

百度 ERNIE-Image 团队近期开源了 ERNIE-Image-Aes——一个 8B 参数的视觉语言模型,专为图像美学评分设计。在 ERIA-1K 基准测试上,它达到了 SRCC 0.7445PLCC 0.7598,远超此前所有开源美学评估模型。

本文将深入解析 ERNIE-Image-Aes 的技术原理、性能表现和实际应用场景。


一、为什么我们需要更好的美学评估模型?

1.1 数据清洗的刚需

在训练文生图模型时,训练数据的质量直接决定输出质量。ERNIE-Image 的技术报告中明确指出:

每个图像都被 ERNIE-Image-Aes 分配一个美学分数,然后用于数据清洗。

这意味着,一个准确的美学评分模型是构建高质量文生图模型的基础设施

1.2 批量生产的质检工具

当你使用 ERNIE-Image 批量生成产品图、广告素材或社交媒体内容时,不可能每张都人工审核。美学评分模型可以作为第一道过滤器:

生成 100 张 → 美学评分 → 保留前 20 → 人工微调 → 交付

1.3 模型迭代的效果量化

训练 SFT 和 DPO 后,如何客观量化模型输出的美学改进?需要一个可靠的评分模型作为评估工具。


二、ERNIE-Image-Aes 的技术架构

2.1 基于 ArtiMuse 的微调

ERNIE-Image-Aes 从 ArtiMuse 初始化,并在一个多样化、专业标注的数据集上进行微调。

关键设计选择

  • 8B VLM:足够捕捉复杂的视觉模式,同时保持推理效率
  • 多样化标注数据:覆盖摄影、插画、动漫、产品图等多个类别
  • 明确的类别平衡:避免单一类别主导训练信号

2.2 解决现有模型的偏差问题

这是 ERNIE-Image-Aes 最重要的贡献之一。以下是现有模型的系统性偏差:

模型 偏差类型 表现
LAION-AES 类别偏差 对 AI 生成/动漫内容评分过高
ArtiMuse 风格偏差 对黑白摄影和日常快照评分过高
UniPercept 色彩偏好 偏好单色图像;对日常快照评分过高

ERNIE-Image-Aes 通过目的构建的标注流程显式的类别平衡来解决这些问题。


三、ERIA-1K 基准测试:更贴近真实的评估

3.1 为什么需要新的基准?

现有的美学基准(如 AVA、Flickr)存在一个问题:它们主要由专业摄影师的作品构成,偏向西方摄影传统和视觉精致内容,无法反映真实部署中的图像分布。

3.2 ERIA-1K 的设计

  • 1,000 张人工标注图像
  • 审美分数范围:2.0 ~ 9.67(覆盖广泛的审美质量光谱)
  • 真实部署导向:避免过度代表专业/西方摄影
  • 完全开源:任何人都可以用它评估自己的模型

3.3 基准测试结果

模型 SRCC PLCC
LAION AES 0.2944 0.3138
ArtiMuse 0.4277 0.4704
UniPercept 0.4533 0.4748
ERNIE-Image-Aes 0.7445 0.7598

SRCC 从 0.45 提升到 0.74,这是一个质的飞跃


四、实际应用场景

4.1 训练数据自动筛选

# 伪代码:使用 ERNIE-Image-Aes 筛选训练数据
from ernie_image_aes import AesModel

model = AesModel.from_pretrained("baidu/ERNIE-Image-Aes")

filtered_data = []
for image, caption in dataset:
score = model.score(image)
if score >= 7.0: # 设定阈值
filtered_data.append((image, caption))

4.2 批量生产质检管线

ERNE-Image 生成 → ERNIE-Image-Aes 评分 → 筛选 Top-K → 人工审核

对于电商配图、广告素材等批量场景,这可以节省 70-80% 的人工审核时间。

4.3 模型输出对比评估

当你训练了多个 LoRA 或进行了不同参数的 SFT,需要客观对比输出质量时:

scores_model_a = [model.score(img) for img in outputs_a]
scores_model_b = [model.score(img) for img in outputs_b]
print(f"Model A avg: {np.mean(scores_model_a):.3f}")
print(f"Model B avg: {np.mean(scores_model_b):.3f}")

4.4 美学导向的数据增强

根据美学评分,指导数据增强方向:

  • 低分图像 → 分析缺陷(构图?色彩?)
  • 高分图像 → 作为正样本增强

五、部署指南

5.1 环境准备

ERNIE-Image-Aes 基于 ArtiMuse 架构,部署方式与 ArtiMuse 一致。需要:

  • Python 3.10+
  • PyTorch 2.0+
  • 推荐 GPU:单张 16GB+ VRAM

5.2 推理示例

# 下载模型
git clone https://huggingface.co/baidu/ERNIE-Image-Aes

使用 Python 推理

python score_image.py --model-path ./ERNIE-Image-Aes --image test.jpg

5.3 批量推理优化

对于大规模数据集,建议使用批处理推理:

# 批量推理示例
batch_size = 32
for batch in DataLoader(images, batch_size=batch_size):
    scores = model(batch)
    results.extend(scores.tolist())

六、局限性与未来方向

6.1 当前局限

  1. 计算成本:8B VLM 的推理需要一定 GPU 资源
  2. 主观性:美学本质上存在主观性,任何评分模型都无法完全替代人类判断
  3. 文化差异:虽然 ERIA-1K 试图避免西方中心主义,但审美偏好仍存在文化差异

6.2 未来方向

  • 轻量化版本:开发更小参数的美学评分模型,适合边缘设备部署
  • 多模态反馈:不仅给出分数,还能指出具体的美学改进建议
  • 领域适配:针对特定领域(如电商、医疗、工业)微调专用的美学评分模型

七、总结

ERNIE-Image-Aes 是 ERNIE-Image 生态中的重要补充。它不仅是一个美学评分工具,更是 AI 图像生成工作流的基础设施:

  • 数据清洗:提升训练数据质量
  • 批量质检:自动化筛选最优输出
  • 模型评估:客观量化模型改进

配合 ERIA-1K 开源基准,它为社区提供了一个更公平、更贴近真实部署的评估标准。

随着 AI 图像生成越来越深入商业应用,一个可靠的美学评估模型将成为每个 AI 图像团队的标配工具。


参考资源

ERNIE-Image Team