WecoAI评测:Kimi-K2.7-Code在ML工程中击败Fable-5等前沿大模型
快链头条 2026-06-15 18:49:12
据 动察 Beating 监测,AI 智能体开发商 WecoAI 公布了 7 款前沿大模型在自主科研任务中的评测结果。在机器学习工程(ML Engineering)任务中,月之暗面最新开源的万亿参数模型 Kimi-K2.7-Code 击败了包括 Anthropic 旗舰模型 Fable-5 在内的所有受试前沿大模型。
评测采用成本(包含大模型调用和评估运行成本)受限而非步骤数受限的协议。这意味着在固定的资金预算内,单价更低的模型能够运行更多步的尝试与迭代。在整体表现上,虽然 Fable-5 在测试套件与提示词工程、算法发现两类任务中占据统治地位并夺得总冠军,但在机器学习工程任务中,Fable-5 的表现甚至落后于上一代模型 Claude 3 Opus。评测团队指出,机器学习工程表现不佳可能是因为 Fable-5 昂贵的 API 费用在成本限制下处于劣势,或是任务触发了模型更为严苛的安全护栏。
快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。
7*24小时快讯
Michael Saylor:Strategy美元储备提升至11亿美元
06-15 20:07(1分钟前)
市场押注美伊突破推动风险资产反弹,原油大跌、降息预期提前
06-15 20:05(3分钟前)
智利加密货币平台 Plusspay 因涉嫌协助跨国犯罪组织洗钱遭调查
06-15 20:03(5分钟前)
Strategy 披露上周增持 1,587 枚比特币
06-15 20:01(7分钟前)
Strategy上周增持1,587枚比特币
06-15 20:01(7分钟前)
数据:Polymarket 显示比特币 6 月走势偏中性,上行空间受限、下行对冲明显
06-15 19:59(9分钟前)
Polymarket显示比特币6月走势偏中性,上行空间受限、下行对冲明显
06-15 19:58(10分钟前)
OpenAI与Anthropic员工五年内套现140亿美元
06-15 19:53(15分钟前)
热门资讯
风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。