Artificial Analysis新AI评测显示Claude比DeepSeek贵44倍

快链头条 2026-06-16 18:23:35
阅读 3,460
二维码
微信扫一扫,分享此文章

据动察 Beating 监测,评测机构 Artificial Analysis 调整了 AI 智能指数的评测标准,不再只让 AI 做单项选择题,而是全面考验 AI 能否自主规划、使用工具并解决复杂任务。新评测取消了考验听懂简单指令的旧项目,转而引入模拟银行客服真实对话等高难度场景,并首次将跑完一次任务要花多少钱、耗时多长作为核心考核指标。

在最新的评测结果中,已被美国政府管制下线的 Claude Fable 5 拿到了 60 分的最高成绩。而在目前市面上买得到的 AI 中,最贵的 Claude Opus 4.8 拿到了 56 分的第一名,以微弱优势领先拿到 55 分的 GPT-5.5。国产模型表现也相当亮眼,开源的 DeepSeek V4 Pro 与 MiniMax M3 都拿到了 44 分,紧随其后的是 43 分的 Kimi K2.6。

模型在费用上的差距十分巨大。同样运行一次任务,使用最先进的 Claude Opus 4.8 需要花费 1.78 美元(约合 13 元人民币),而使用国产开源的 DeepSeek V4 Pro 跑一次仅需 0.04 美元(约合 0.3 元人民币)。这意味着 Claude 的调用成本是 DeepSeek 的 44 倍。完成一次任务的等待时间也天差地别,最快的 xAI Grok 4.3 仅需 1.5 分钟,而最慢的 Claude Sonnet 4.6 却需要 13.5 分钟。

作为这次改制中权重最高的单一测试,考核真实世界知识工作的 GDPval-AA 升级到了第二版,占比提升至 20%。新版测试将人类的表现基准分设为 1000 分,并引入多个前沿模型轮换担任裁判,同时将单次对话的回合上限放宽到了 250 次。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。