WecoAI评测：Kimi-K2.7-Code在ML工程中击败Fable-5等前沿大模型

星期日

06 / 15

星期日 2026-06-15 18:49

据动察 Beating 监测，AI 智能体开发商 WecoAI 公布了 7 款前沿大模型在自主科研任务中的评测结果。在机器学习工程（ML Engineering）任务中，月之暗面最新开源的万亿参数模型 Kimi-K2.7-Code 击败了包括 Anthropic 旗舰模型 Fable-5 在内的所有受试前沿大模型。

评测采用成本（包含大模型调用和评估运行成本）受限而非步骤数受限的协议。这意味着在固定的资金预算内，单价更低的模型能够运行更多步的尝试与迭代。在整体表现上，虽然 Fable-5 在测试套件与提示词工程、算法发现两类任务中占据统治地位并夺得总冠军，但在机器学习工程任务中，Fable-5 的表现甚至落后于上一代模型 Claude 3 Opus。评测团队指出，机器学习工程表现不佳可能是因为 Fable-5 昂贵的 API 费用在成本限制下处于劣势，或是任务触发了模型更为严苛的安全护栏。