WecoAI评测:Kimi-K2.7-Code在ML工程中击败Fable-5等前沿大模型

快链头条 2026-06-15 18:49:12
阅读 7,189
二维码
微信扫一扫,分享此文章

据 动察 Beating 监测,AI 智能体开发商 WecoAI 公布了 7 款前沿大模型在自主科研任务中的评测结果。在机器学习工程(ML Engineering)任务中,月之暗面最新开源的万亿参数模型 Kimi-K2.7-Code 击败了包括 Anthropic 旗舰模型 Fable-5 在内的所有受试前沿大模型。

评测采用成本(包含大模型调用和评估运行成本)受限而非步骤数受限的协议。这意味着在固定的资金预算内,单价更低的模型能够运行更多步的尝试与迭代。在整体表现上,虽然 Fable-5 在测试套件与提示词工程、算法发现两类任务中占据统治地位并夺得总冠军,但在机器学习工程任务中,Fable-5 的表现甚至落后于上一代模型 Claude 3 Opus。评测团队指出,机器学习工程表现不佳可能是因为 Fable-5 昂贵的 API 费用在成本限制下处于劣势,或是任务触发了模型更为严苛的安全护栏。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。