SenseNova-U1:一个模型搞定理解+推理+生成,商汤开源统一多模态新范式

أبريل ٢٩، ٢٠٢٦

SenseNova-U1 封面

SenseNova-U1:一个模型搞定理解+推理+生成,商汤开源统一多模态新范式

在很长一段时间里,多模态 AI 的做法都是"拼凑"——用视觉编码器看世界,用自编码器生成图像,中间靠适配器把不同模态的信息硬凑在一起。

2026 年 4 月 27 日,商汤科技(SenseTime)联合南洋理工大学(NTU)开源的 SenseNova-U1 系列模型,直接撕掉了这套旧范式。它基于全新的 NEO-Unify 架构,从第一性原理出发,彻底消除了视觉编码器(VE)和变分自编码器(VAE),让像素与文字在一个统一的表示空间中直接关联。

这不只是一个概念验证——SenseNova-U1 在理解、推理和生成三项核心能力上均达到**开源 SoTA(State-of-the-Art)**水平,且已完整开源权重与推理代码。


一、NEO-Unify:从"拼凑"到"原生统一"

旧范式的瓶颈

传统多模态模型通常采用"视觉编码器 → 大语言模型 → 扩散模型/VAE 解码器"的三段式架构。理解靠编码器提取特征,生成靠 VAE 重建像素,中间由 LLM 做桥梁。

这种架构存在两个根本问题:

信息损失。 编码器将高分辨率图像压缩为固定长度的 token 序列,原始像素信息被大幅丢弃。

模态割裂。 理解和生成是两个独立的"世界",靠适配器强行打通,语义对齐永远存在偏差。

NEO-Unify 的核心思路

NEO-Unify 的设计哲学很简单:回归第一性原理

"No VE! No VAE!"

模型直接从近无损的像素和文字中学习,不依赖预训练编码器或外部先验,表示空间由模型自身塑造。

具体实现上:

  • 近无损视觉接口 — 直接处理原始像素输入与输出,不经过压缩编码
  • 原生 MoT(Mixture-of-Transformers)骨干 — 理解与生成路径共享底层骨干网络,通过混合专家机制在不同任务间动态分配计算资源
  • 统一学习目标 — 文本采用自回归交叉熵,视觉采用像素流匹配(pixel flow matching),在同一训练框架下联合优化

官方数据显示,经过 90,000 步预训练后,NEO-Unify 2B 模型在 MS COCO 2017 上实现了 31.56 PSNR0.85 SSIM 的图像重建质量,接近 Flux VAE 的 32.65 PSNR / 0.91 SSIM。近无损输入完全可以支撑语义理解和像素级保真度,无需预训练编码器。


二、SenseNova-U1 模型系列

目前 SenseNova-U1 Lite 系列已发布两个 8B 模型:

模型 参数 类型 说明
SenseNova-U1-8B-MoT-SFT 8B Dense 监督微调版本
SenseNova-U1-8B-MoT 8B Dense 最终版本(经 T2I 强化学习)

此外,A3B MoE(Mixture-of-Experts)版本也已在路线图,将进一步降低推理成本。

训练管线

SenseNova-U1 采用四阶段训练流程:

理解预热 → 生成预训练 → 统一中间训练 → 统一 SFT → T2I 强化学习(仅最终模型)

理解预热先在视觉理解任务上预热模型参数。生成预训练在图像生成任务上预训练生成分支。

到了统一中间训练阶段,理解与生成在同一数据源上联合训练。研究发现任务冲突极小——即使低数据比例和低损失权重下,理解路径依然稳定,生成路径收敛更快。

统一 SFT用高质量监督微调数据进一步提升能力。最终模型额外经过一轮T2I 强化学习,生成质量进一步跃升。


三、核心能力:理解、推理、生成,一网打尽

原生图文交错生成

这是 SenseNova-U1 最具区分度的能力之一。模型可以单次生成连贯的图文序列——文字和图片在同一个流中交替输出,而非分别生成后拼接。

典型场景包括实用指南("教我怎么做西红柿炒蛋,配上步骤图")、图文混排的旅行日记,以及带文字说明的数据可视化信息图。

高密度信息呈现

SenseNova-U1 在结构化布局生成方面表现突出,能处理海报设计(复杂版式 + 可读文字)、PPT 演示文稿、漫画分镜加对话气泡、结构化简历排版,以及带标签的关系图知识图谱。

推理驱动生成与编辑

模型在生成图像之前,会进行显式的逐步推理

  • 物理推理 — 如"一杯水从桌上掉下来会怎样"
  • 化学推理 — 化学反应后的视觉结果
  • 生物推理 — 生物变化的视觉呈现
  • 时间变化 — 物体随时间推移的状态演变

在图像编辑方面,支持属性变化、风格迁移、文字替换和复杂推理编辑(时序、因果、物理、生物)。

视觉理解与 VQA

除了生成,SenseNova-U1 在视觉理解任务上同样保持开源领先。模型支持复杂视觉问答、Agent 任务执行,甚至包括机器人操作演示(Vision-Language-Action)。


四、性能数据

Benchmark 表现

SenseNova-U1 在理解、推理和生成多项基准测试中均达到开源 SoTA

  • OneIG — 图像生成质量
  • LongText — 长文本生成能力
  • CVTG — 跨模态生成
  • BizGenEval — 商业生成评估
  • IGenBench — 综合生成基准
  • Infographic Benchmark — 信息图表生成

推理效率

生产部署方面,官方推荐 LightLLM(理解)+ LightX2V(生成)的解耦推理架构:

指标 数据
H100/H200 单步延迟 ~0.15 秒/step
2048×2048 端到端 ~9 秒
Prefill 加速 ~2.4–3.2×(相比 Triton baseline)
优化手段 FA3 混合掩码注意力

五、上手体验

在线演示(无需 GPU)

官方提供免费在线 Playground:unify.light-ai.top

该版本使用 U1-Fast(经过步数/CFG 蒸馏,专为信息图优化),无需本地 GPU 即可体验。

本地推理

官方提供基于 transformers 的完整推理代码:

# 视觉问答
python examples/vqa/inference.py \
  --model_path SenseNova/SenseNova-U1-8B-MoT \
  --image menu.jpg \
  --question "推荐两个菜的组合..."

# 文生图(默认 2048×2048)
python examples/t2i/inference.py \
  --model_path SenseNova/SenseNova-U1-8B-MoT \
  --prompt "..." \
  --width 2720 --height 1536 \
  --num_steps 50

# 图像编辑
python examples/editing/inference.py \
  --model_path SenseNova/SenseNova-U1-8B-MoT \
  --prompt "将动物毛色变深" \
  --image input.jpg

# 图文交错生成
python examples/interleave/inference.py \
  --model_path SenseNova/SenseNova-U1-8B-MoT \
  --prompt "教我做饭,配步骤图" \
  --resolution "16:9"

完整代码和文档见 GitHub 仓库:github.com/OpenSenseNova/SenseNova-U1

生产部署

官方提供 LightLLM + LightX2V 的 Docker 镜像,支持解耦推理引擎、独立并行和资源分配:

docker pull lightx2v/lightllm_lightx2v:20260407

六、已知限制

官方在文档中坦诚列出了当前限制:

限制 详情
上下文长度 最大 32K tokens,复杂/长视觉上下文可能受限
人体生成 细粒度人体细节、小尺寸人物、复杂交互仍有挑战
文字渲染 易出现拼写错误、字符变形、格式不一致;高度依赖 prompt 质量
图文交错生成 Beta/实验性,RL 尚未针对此任务优化
图像编辑/推理 RL 尚未针对编辑/推理/交错任务专门优化,当前性能与 SFT 基线持平

七、社区反响与未来展望

开源发布后,SenseNova-U1 在社区引发广泛关注。

架构创新方面,"No VE, No VAE" 的设计在 Reddit 和 X 上被大量讨论,被认为是对多模态架构的根本性重新思考。

LoRA 微调潜力方面,社区普遍认为原生统一架构为 LoRA 微调提供了独特优势——可在不产生特征泄漏的情况下教模型学习独特角色、服装或艺术风格。GitHub 上也已出现基于 NEO-Unify 理念的玩具级实验项目。

未来方向

SenseNova-U1 目前仍处于数据驱动学习阶段(类似 ChatGPT),但官方明确指向下一阶段——Agent 学习(类似 OpenClaw),实现原生多模态思考。

从技术路线图来看,NEO-Unify 的愿景是:

"模型不在模态之间做翻译,而是原生地在模态之间思考。"

未来将向 Vision-Language-Action (VLA)World Modeling (WM) 方向延伸。更大规模的模型版本也在规划中。


八、总结

SenseNova-U1 的核心价值不在于"又一个开源多模态模型",而在于它代表了一种架构范式的根本转变

  • 告别拼凑 — 不再有视觉编码器和 VAE 的割裂
  • 原生统一 — 像素与文字在同一表示空间直接关联
  • 理解+推理+生成一体化 — 一个模型覆盖多模态核心能力
  • 开源 SoTA — 理解、推理、生成三项能力均开源领先
  • 完整开源 — 权重、代码、推理管线、部署方案全部公开

对于开发者而言,SenseNova-U1 不仅是一个可以直接使用的工具,更是一个理解"多模态统一"新范式的窗口。


相关链接