
SenseNova-U1:一个模型搞定理解+推理+生成,商汤开源统一多模态新范式
在很长一段时间里,多模态 AI 的做法都是"拼凑"——用视觉编码器看世界,用自编码器生成图像,中间靠适配器把不同模态的信息硬凑在一起。
2026 年 4 月 27 日,商汤科技(SenseTime)联合南洋理工大学(NTU)开源的 SenseNova-U1 系列模型,直接撕掉了这套旧范式。它基于全新的 NEO-Unify 架构,从第一性原理出发,彻底消除了视觉编码器(VE)和变分自编码器(VAE),让像素与文字在一个统一的表示空间中直接关联。
这不只是一个概念验证——SenseNova-U1 在理解、推理和生成三项核心能力上均达到**开源 SoTA(State-of-the-Art)**水平,且已完整开源权重与推理代码。
一、NEO-Unify:从"拼凑"到"原生统一"
旧范式的瓶颈
传统多模态模型通常采用"视觉编码器 → 大语言模型 → 扩散模型/VAE 解码器"的三段式架构。理解靠编码器提取特征,生成靠 VAE 重建像素,中间由 LLM 做桥梁。
这种架构存在两个根本问题:
信息损失。 编码器将高分辨率图像压缩为固定长度的 token 序列,原始像素信息被大幅丢弃。
模态割裂。 理解和生成是两个独立的"世界",靠适配器强行打通,语义对齐永远存在偏差。
NEO-Unify 的核心思路
NEO-Unify 的设计哲学很简单:回归第一性原理。
"No VE! No VAE!"
模型直接从近无损的像素和文字中学习,不依赖预训练编码器或外部先验,表示空间由模型自身塑造。
具体实现上:
- 近无损视觉接口 — 直接处理原始像素输入与输出,不经过压缩编码
- 原生 MoT(Mixture-of-Transformers)骨干 — 理解与生成路径共享底层骨干网络,通过混合专家机制在不同任务间动态分配计算资源
- 统一学习目标 — 文本采用自回归交叉熵,视觉采用像素流匹配(pixel flow matching),在同一训练框架下联合优化
官方数据显示,经过 90,000 步预训练后,NEO-Unify 2B 模型在 MS COCO 2017 上实现了 31.56 PSNR 和 0.85 SSIM 的图像重建质量,接近 Flux VAE 的 32.65 PSNR / 0.91 SSIM。近无损输入完全可以支撑语义理解和像素级保真度,无需预训练编码器。
二、SenseNova-U1 模型系列
目前 SenseNova-U1 Lite 系列已发布两个 8B 模型:
| 模型 | 参数 | 类型 | 说明 |
|---|---|---|---|
SenseNova-U1-8B-MoT-SFT |
8B | Dense | 监督微调版本 |
SenseNova-U1-8B-MoT |
8B | Dense | 最终版本(经 T2I 强化学习) |
此外,A3B MoE(Mixture-of-Experts)版本也已在路线图,将进一步降低推理成本。
训练管线
SenseNova-U1 采用四阶段训练流程:
理解预热 → 生成预训练 → 统一中间训练 → 统一 SFT → T2I 强化学习(仅最终模型)
理解预热先在视觉理解任务上预热模型参数。生成预训练在图像生成任务上预训练生成分支。
到了统一中间训练阶段,理解与生成在同一数据源上联合训练。研究发现任务冲突极小——即使低数据比例和低损失权重下,理解路径依然稳定,生成路径收敛更快。
统一 SFT用高质量监督微调数据进一步提升能力。最终模型额外经过一轮T2I 强化学习,生成质量进一步跃升。
三、核心能力:理解、推理、生成,一网打尽
原生图文交错生成
这是 SenseNova-U1 最具区分度的能力之一。模型可以单次生成连贯的图文序列——文字和图片在同一个流中交替输出,而非分别生成后拼接。
典型场景包括实用指南("教我怎么做西红柿炒蛋,配上步骤图")、图文混排的旅行日记,以及带文字说明的数据可视化信息图。
高密度信息呈现
SenseNova-U1 在结构化布局生成方面表现突出,能处理海报设计(复杂版式 + 可读文字)、PPT 演示文稿、漫画分镜加对话气泡、结构化简历排版,以及带标签的关系图知识图谱。
推理驱动生成与编辑
模型在生成图像之前,会进行显式的逐步推理:
- 物理推理 — 如"一杯水从桌上掉下来会怎样"
- 化学推理 — 化学反应后的视觉结果
- 生物推理 — 生物变化的视觉呈现
- 时间变化 — 物体随时间推移的状态演变
在图像编辑方面,支持属性变化、风格迁移、文字替换和复杂推理编辑(时序、因果、物理、生物)。
视觉理解与 VQA
除了生成,SenseNova-U1 在视觉理解任务上同样保持开源领先。模型支持复杂视觉问答、Agent 任务执行,甚至包括机器人操作演示(Vision-Language-Action)。
四、性能数据
Benchmark 表现
SenseNova-U1 在理解、推理和生成多项基准测试中均达到开源 SoTA:
- OneIG — 图像生成质量
- LongText — 长文本生成能力
- CVTG — 跨模态生成
- BizGenEval — 商业生成评估
- IGenBench — 综合生成基准
- Infographic Benchmark — 信息图表生成
推理效率
生产部署方面,官方推荐 LightLLM(理解)+ LightX2V(生成)的解耦推理架构:
| 指标 | 数据 |
|---|---|
| H100/H200 单步延迟 | ~0.15 秒/step |
| 2048×2048 端到端 | ~9 秒 |
| Prefill 加速 | ~2.4–3.2×(相比 Triton baseline) |
| 优化手段 | FA3 混合掩码注意力 |
五、上手体验
在线演示(无需 GPU)
官方提供免费在线 Playground:unify.light-ai.top
该版本使用 U1-Fast(经过步数/CFG 蒸馏,专为信息图优化),无需本地 GPU 即可体验。
本地推理
官方提供基于 transformers 的完整推理代码:
# 视觉问答
python examples/vqa/inference.py \
--model_path SenseNova/SenseNova-U1-8B-MoT \
--image menu.jpg \
--question "推荐两个菜的组合..."
# 文生图(默认 2048×2048)
python examples/t2i/inference.py \
--model_path SenseNova/SenseNova-U1-8B-MoT \
--prompt "..." \
--width 2720 --height 1536 \
--num_steps 50
# 图像编辑
python examples/editing/inference.py \
--model_path SenseNova/SenseNova-U1-8B-MoT \
--prompt "将动物毛色变深" \
--image input.jpg
# 图文交错生成
python examples/interleave/inference.py \
--model_path SenseNova/SenseNova-U1-8B-MoT \
--prompt "教我做饭,配步骤图" \
--resolution "16:9"
完整代码和文档见 GitHub 仓库:github.com/OpenSenseNova/SenseNova-U1
生产部署
官方提供 LightLLM + LightX2V 的 Docker 镜像,支持解耦推理引擎、独立并行和资源分配:
docker pull lightx2v/lightllm_lightx2v:20260407
六、已知限制
官方在文档中坦诚列出了当前限制:
| 限制 | 详情 |
|---|---|
| 上下文长度 | 最大 32K tokens,复杂/长视觉上下文可能受限 |
| 人体生成 | 细粒度人体细节、小尺寸人物、复杂交互仍有挑战 |
| 文字渲染 | 易出现拼写错误、字符变形、格式不一致;高度依赖 prompt 质量 |
| 图文交错生成 | Beta/实验性,RL 尚未针对此任务优化 |
| 图像编辑/推理 | RL 尚未针对编辑/推理/交错任务专门优化,当前性能与 SFT 基线持平 |
七、社区反响与未来展望
开源发布后,SenseNova-U1 在社区引发广泛关注。
架构创新方面,"No VE, No VAE" 的设计在 Reddit 和 X 上被大量讨论,被认为是对多模态架构的根本性重新思考。
LoRA 微调潜力方面,社区普遍认为原生统一架构为 LoRA 微调提供了独特优势——可在不产生特征泄漏的情况下教模型学习独特角色、服装或艺术风格。GitHub 上也已出现基于 NEO-Unify 理念的玩具级实验项目。
未来方向
SenseNova-U1 目前仍处于数据驱动学习阶段(类似 ChatGPT),但官方明确指向下一阶段——Agent 学习(类似 OpenClaw),实现原生多模态思考。
从技术路线图来看,NEO-Unify 的愿景是:
"模型不在模态之间做翻译,而是原生地在模态之间思考。"
未来将向 Vision-Language-Action (VLA) 和 World Modeling (WM) 方向延伸。更大规模的模型版本也在规划中。
八、总结
SenseNova-U1 的核心价值不在于"又一个开源多模态模型",而在于它代表了一种架构范式的根本转变:
- 告别拼凑 — 不再有视觉编码器和 VAE 的割裂
- 原生统一 — 像素与文字在同一表示空间直接关联
- 理解+推理+生成一体化 — 一个模型覆盖多模态核心能力
- 开源 SoTA — 理解、推理、生成三项能力均开源领先
- 完整开源 — 权重、代码、推理管线、部署方案全部公开
对于开发者而言,SenseNova-U1 不仅是一个可以直接使用的工具,更是一个理解"多模态统一"新范式的窗口。
相关链接
- GitHub 仓库:github.com/OpenSenseNova/SenseNova-U1
- HuggingFace 模型:huggingface.co/sensenova/SenseNova-U1-8B-MoT
- 官方博客:huggingface.co/blog/sensenova/neo-unify
- 在线演示:unify.light-ai.top