SenseNova-U1 封面

SenseNova-U1：一个模型搞定理解+推理+生成，商汤开源统一多模态新范式

在很长一段时间里，多模态 AI 的做法都是"拼凑"——用视觉编码器看世界，用自编码器生成图像，中间靠适配器把不同模态的信息硬凑在一起。

2026 年 4 月 27 日，商汤科技（SenseTime）联合南洋理工大学（NTU）开源的 SenseNova-U1 系列模型，直接撕掉了这套旧范式。它基于全新的 NEO-Unify 架构，从第一性原理出发，彻底消除了视觉编码器（VE）和变分自编码器（VAE），让像素与文字在一个统一的表示空间中直接关联。

这不只是一个概念验证——SenseNova-U1 在理解、推理和生成三项核心能力上均达到**开源 SoTA（State-of-the-Art）**水平，且已完整开源权重与推理代码。

一、NEO-Unify：从"拼凑"到"原生统一"

旧范式的瓶颈

传统多模态模型通常采用"视觉编码器 → 大语言模型 → 扩散模型/VAE 解码器"的三段式架构。理解靠编码器提取特征，生成靠 VAE 重建像素，中间由 LLM 做桥梁。

这种架构存在两个根本问题：

信息损失。 编码器将高分辨率图像压缩为固定长度的 token 序列，原始像素信息被大幅丢弃。

模态割裂。 理解和生成是两个独立的"世界"，靠适配器强行打通，语义对齐永远存在偏差。

NEO-Unify 的核心思路

NEO-Unify 的设计哲学很简单：回归第一性原理。

"No VE! No VAE!"

模型直接从近无损的像素和文字中学习，不依赖预训练编码器或外部先验，表示空间由模型自身塑造。

具体实现上：

近无损视觉接口 — 直接处理原始像素输入与输出，不经过压缩编码
原生 MoT（Mixture-of-Transformers）骨干 — 理解与生成路径共享底层骨干网络，通过混合专家机制在不同任务间动态分配计算资源
统一学习目标 — 文本采用自回归交叉熵，视觉采用像素流匹配（pixel flow matching），在同一训练框架下联合优化

官方数据显示，经过 90,000 步预训练后，NEO-Unify 2B 模型在 MS COCO 2017 上实现了 31.56 PSNR 和 0.85 SSIM 的图像重建质量，接近 Flux VAE 的 32.65 PSNR / 0.91 SSIM。近无损输入完全可以支撑语义理解和像素级保真度，无需预训练编码器。

二、SenseNova-U1 模型系列

目前 SenseNova-U1 Lite 系列已发布两个 8B 模型：

模型	参数	类型	说明
`SenseNova-U1-8B-MoT-SFT`	8B	Dense	监督微调版本
`SenseNova-U1-8B-MoT`	8B	Dense	最终版本（经 T2I 强化学习）

此外，A3B MoE（Mixture-of-Experts）版本也已在路线图，将进一步降低推理成本。

训练管线

SenseNova-U1 采用四阶段训练流程：

理解预热 → 生成预训练 → 统一中间训练 → 统一 SFT → T2I 强化学习（仅最终模型）

理解预热先在视觉理解任务上预热模型参数。生成预训练在图像生成任务上预训练生成分支。

到了统一中间训练阶段，理解与生成在同一数据源上联合训练。研究发现任务冲突极小——即使低数据比例和低损失权重下，理解路径依然稳定，生成路径收敛更快。

统一 SFT用高质量监督微调数据进一步提升能力。最终模型额外经过一轮T2I 强化学习，生成质量进一步跃升。

三、核心能力：理解、推理、生成，一网打尽

原生图文交错生成

这是 SenseNova-U1 最具区分度的能力之一。模型可以单次生成连贯的图文序列——文字和图片在同一个流中交替输出，而非分别生成后拼接。

典型场景包括实用指南（"教我怎么做西红柿炒蛋，配上步骤图"）、图文混排的旅行日记，以及带文字说明的数据可视化信息图。

高密度信息呈现

SenseNova-U1 在结构化布局生成方面表现突出，能处理海报设计（复杂版式 + 可读文字）、PPT 演示文稿、漫画分镜加对话气泡、结构化简历排版，以及带标签的关系图知识图谱。

推理驱动生成与编辑

模型在生成图像之前，会进行显式的逐步推理：

物理推理 — 如"一杯水从桌上掉下来会怎样"
化学推理 — 化学反应后的视觉结果
生物推理 — 生物变化的视觉呈现
时间变化 — 物体随时间推移的状态演变

在图像编辑方面，支持属性变化、风格迁移、文字替换和复杂推理编辑（时序、因果、物理、生物）。

视觉理解与 VQA

除了生成，SenseNova-U1 在视觉理解任务上同样保持开源领先。模型支持复杂视觉问答、Agent 任务执行，甚至包括机器人操作演示（Vision-Language-Action）。

四、性能数据

Benchmark 表现

SenseNova-U1 在理解、推理和生成多项基准测试中均达到开源 SoTA：

OneIG — 图像生成质量
LongText — 长文本生成能力
CVTG — 跨模态生成
BizGenEval — 商业生成评估
IGenBench — 综合生成基准
Infographic Benchmark — 信息图表生成

推理效率

生产部署方面，官方推荐 LightLLM（理解）+ LightX2V（生成）的解耦推理架构：

指标	数据
H100/H200 单步延迟	~0.15 秒/step
2048×2048 端到端	~9 秒
Prefill 加速	~2.4–3.2×（相比 Triton baseline）
优化手段	FA3 混合掩码注意力

五、上手体验

在线演示（无需 GPU）

官方提供免费在线 Playground：unify.light-ai.top

该版本使用 U1-Fast（经过步数/CFG 蒸馏，专为信息图优化），无需本地 GPU 即可体验。

本地推理

官方提供基于 transformers 的完整推理代码：

# 视觉问答
python examples/vqa/inference.py \
  --model_path SenseNova/SenseNova-U1-8B-MoT \
  --image menu.jpg \
  --question "推荐两个菜的组合..."

# 文生图（默认 2048×2048）
python examples/t2i/inference.py \
  --model_path SenseNova/SenseNova-U1-8B-MoT \
  --prompt "..." \
  --width 2720 --height 1536 \
  --num_steps 50

# 图像编辑
python examples/editing/inference.py \
  --model_path SenseNova/SenseNova-U1-8B-MoT \
  --prompt "将动物毛色变深" \
  --image input.jpg

# 图文交错生成
python examples/interleave/inference.py \
  --model_path SenseNova/SenseNova-U1-8B-MoT \
  --prompt "教我做饭，配步骤图" \
  --resolution "16:9"

完整代码和文档见 GitHub 仓库：github.com/OpenSenseNova/SenseNova-U1

生产部署

官方提供 LightLLM + LightX2V 的 Docker 镜像，支持解耦推理引擎、独立并行和资源分配：

docker pull lightx2v/lightllm_lightx2v:20260407

六、已知限制

官方在文档中坦诚列出了当前限制：

限制	详情
上下文长度	最大 32K tokens，复杂/长视觉上下文可能受限
人体生成	细粒度人体细节、小尺寸人物、复杂交互仍有挑战
文字渲染	易出现拼写错误、字符变形、格式不一致；高度依赖 prompt 质量
图文交错生成	Beta/实验性，RL 尚未针对此任务优化
图像编辑/推理	RL 尚未针对编辑/推理/交错任务专门优化，当前性能与 SFT 基线持平

七、社区反响与未来展望

开源发布后，SenseNova-U1 在社区引发广泛关注。

架构创新方面，"No VE, No VAE" 的设计在 Reddit 和 X 上被大量讨论，被认为是对多模态架构的根本性重新思考。

LoRA 微调潜力方面，社区普遍认为原生统一架构为 LoRA 微调提供了独特优势——可在不产生特征泄漏的情况下教模型学习独特角色、服装或艺术风格。GitHub 上也已出现基于 NEO-Unify 理念的玩具级实验项目。

未来方向

SenseNova-U1 目前仍处于数据驱动学习阶段（类似 ChatGPT），但官方明确指向下一阶段——Agent 学习（类似 OpenClaw），实现原生多模态思考。

从技术路线图来看，NEO-Unify 的愿景是：

"模型不在模态之间做翻译，而是原生地在模态之间思考。"

未来将向 Vision-Language-Action (VLA) 和 World Modeling (WM) 方向延伸。更大规模的模型版本也在规划中。

八、总结

SenseNova-U1 的核心价值不在于"又一个开源多模态模型"，而在于它代表了一种架构范式的根本转变：

告别拼凑 — 不再有视觉编码器和 VAE 的割裂
原生统一 — 像素与文字在同一表示空间直接关联
理解+推理+生成一体化 — 一个模型覆盖多模态核心能力
开源 SoTA — 理解、推理、生成三项能力均开源领先
完整开源 — 权重、代码、推理管线、部署方案全部公开

对于开发者而言，SenseNova-U1 不仅是一个可以直接使用的工具，更是一个理解"多模态统一"新范式的窗口。

相关链接

GitHub 仓库：github.com/OpenSenseNova/SenseNova-U1
HuggingFace 模型：huggingface.co/sensenova/SenseNova-U1-8B-MoT
官方博客：huggingface.co/blog/sensenova/neo-unify
在线演示：unify.light-ai.top

SenseNova-U1：一个模型搞定理解+推理+生成，商汤开源统一多模态新范式

Table of Contents

SenseNova-U1：一个模型搞定理解+推理+生成，商汤开源统一多模态新范式

一、NEO-Unify：从"拼凑"到"原生统一"

旧范式的瓶颈

NEO-Unify 的核心思路

二、SenseNova-U1 模型系列

训练管线

三、核心能力：理解、推理、生成，一网打尽

原生图文交错生成

高密度信息呈现

推理驱动生成与编辑

视觉理解与 VQA

四、性能数据

Benchmark 表现

推理效率

五、上手体验

在线演示（无需 GPU）

本地推理

生产部署

六、已知限制

七、社区反响与未来展望

未来方向

八、总结