星期日
06 / 15
WecoAI评测:Kimi-K2.7-Code在ML工程中击败Fable-5等前沿大模型
星期日 2026-06-15 18:49

据 动察 Beating 监测,AI 智能体开发商 WecoAI 公布了 7 款前沿大模型在自主科研任务中的评测结果。在机器学习工程(ML Engineering)任务中,月之暗面最新开源的万亿参数模型 Kimi-K2.7-Code 击败了包括 Anthropic 旗舰模型 Fable-5 在内的所有受试前沿大模型。

评测采用成本(包含大模型调用和评估运行成本)受限而非步骤数受限的协议。这意味着在固定的资金预算内,单价更低的模型能够运行更多步的尝试与迭代。在整体表现上,虽然 Fable-5 在测试套件与提示词工程、算法发现两类任务中占据统治地位并夺得总冠军,但在机器学习工程任务中,Fable-5 的表现甚至落后于上一代模型 Claude 3 Opus。评测团队指出,机器学习工程表现不佳可能是因为 Fable-5 昂贵的 API 费用在成本限制下处于劣势,或是任务触发了模型更为严苛的安全护栏。