128张A100从零训出！字节开源3B全能多模态模型Lance

星期一

05 / 19

星期一 2026-05-19 18:54

据动察 Beating 监测，字节跳动（ByteDance Research）正式开源原生统一多模态大模型 Lance。这是一个激活参数仅为 3B 的轻量级模型，在单一框架内同时支持图像与视频的理解、生成及编辑。

目前主流统一模型高度依赖扩大参数规模或沿用文生图架构，Lance 则跑通了极低算力的协同路线。研发团队让模型完全从零开始训练，并将整个训练周期的总计算预算压低至 128 张 A100 GPU。

为解决不同模态与任务间的内部冲突，Lance 在架构上做了两项硬性隔离：
- 采用双流混合专家（MoE）架构处理交织的多模态序列，在共享底层上下文的同时，解耦理解与生成的计算路径。
- 引入模态感知的旋转位置编码，直接削弱图像和视频异构视觉 token 之间的信号干扰。

极端的算力压缩并未拉低性能上限。在仅有 3B 激活参数的情况下，Lance 的图像与视频生成及编辑表现在绝大多数基准测试中领跑现有开源统一模型，通过多任务协同跑通了小参数兼顾生成与语义理解的低成本路线。