星期三
06 / 18
微博开源VibeThinker-3B,3B小模型冲进前沿推理梯队
星期三 2026-06-18 23:07

据动察 Beating 监测,新浪微博团队日前开源了 30 亿参数的推理模型 VibeThinker-3B。

模型在数学与编程等任务上达到前沿水平,部分指标接近或超越 DeepSeek V3.2、GLM-5 和 Gemini 3 Pro 等大规模旗舰模型。

VibeThinker-3B 基于 Qwen2.5-Coder-3B 改造,采用 Spectrum-to-Signal 流程进行二次训练:模型先从易到难做题积累解题谱系,再通过强化学习放大正确解法信号,训练全程使用 64K 大思考空间防止中断推理步骤。

针对数学与编程,模型一方面将自己做对的优秀步骤收集起来进行自蒸馏模仿,另一方面在答题时引入步骤级评估来进行自我核对。自我核对机制最终将 AIME26 数学测试得分从 94.3 提升至 97.1。

研发团队在报告中提出「参数压缩-覆盖假设」,认为逻辑推理属于高度可压缩的能力,主要依赖规则和纠错,用 3B 小模型就能跑出顶尖效果;而开放领域知识则需要海量参数去死记硬背。受限于参数规模,VibeThinker-3B 对常识性开放知识的覆盖能力仍弱于大模型。

团队强调,研发目的并非用小模型替代大模型,而是探索紧凑型模型在明确验证机制下的能力边界。