微博开源VibeThinker-3B，3B小模型冲进前沿推理梯队

星期三

06 / 18

星期三 2026-06-18 23:07

据动察 Beating 监测，新浪微博团队日前开源了 30 亿参数的推理模型 VibeThinker-3B。

模型在数学与编程等任务上达到前沿水平，部分指标接近或超越 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro 等大规模旗舰模型。

VibeThinker-3B 基于 Qwen2.5-Coder-3B 改造，采用 Spectrum-to-Signal 流程进行二次训练：模型先从易到难做题积累解题谱系，再通过强化学习放大正确解法信号，训练全程使用 64K 大思考空间防止中断推理步骤。

针对数学与编程，模型一方面将自己做对的优秀步骤收集起来进行自蒸馏模仿，另一方面在答题时引入步骤级评估来进行自我核对。自我核对机制最终将 AIME26 数学测试得分从 94.3 提升至 97.1。

研发团队在报告中提出「参数压缩-覆盖假设」，认为逻辑推理属于高度可压缩的能力，主要依赖规则和纠错，用 3B 小模型就能跑出顶尖效果；而开放领域知识则需要海量参数去死记硬背。受限于参数规模，VibeThinker-3B 对常识性开放知识的覆盖能力仍弱于大模型。

团队强调，研发目的并非用小模型替代大模型，而是探索紧凑型模型在明确验证机制下的能力边界。