Artificial Analysis新AI评测显示Claude比DeepSeek贵44倍 - 快链头条_区块链世界的入口_行情资讯_技术解读_独家深度

Artificial Analysis新AI评测显示Claude比DeepSeek贵44倍

快链头条 2026-06-16 18:23:35

阅读 3,460

据动察 Beating 监测，评测机构 Artificial Analysis 调整了 AI 智能指数的评测标准，不再只让 AI 做单项选择题，而是全面考验 AI 能否自主规划、使用工具并解决复杂任务。新评测取消了考验听懂简单指令的旧项目，转而引入模拟银行客服真实对话等高难度场景，并首次将跑完一次任务要花多少钱、耗时多长作为核心考核指标。

在最新的评测结果中，已被美国政府管制下线的 Claude Fable 5 拿到了 60 分的最高成绩。而在目前市面上买得到的 AI 中，最贵的 Claude Opus 4.8 拿到了 56 分的第一名，以微弱优势领先拿到 55 分的 GPT-5.5。国产模型表现也相当亮眼，开源的 DeepSeek V4 Pro 与 MiniMax M3 都拿到了 44 分，紧随其后的是 43 分的 Kimi K2.6。

模型在费用上的差距十分巨大。同样运行一次任务，使用最先进的 Claude Opus 4.8 需要花费 1.78 美元（约合 13 元人民币），而使用国产开源的 DeepSeek V4 Pro 跑一次仅需 0.04 美元（约合 0.3 元人民币）。这意味着 Claude 的调用成本是 DeepSeek 的 44 倍。完成一次任务的等待时间也天差地别，最快的 xAI Grok 4.3 仅需 1.5 分钟，而最慢的 Claude Sonnet 4.6 却需要 13.5 分钟。

作为这次改制中权重最高的单一测试，考核真实世界知识工作的 GDPval-AA 升级到了第二版，占比提升至 20%。新版测试将人类的表现基准分设为 1000 分，并引入多个前沿模型轮换担任裁判，同时将单次对话的回合上限放宽到了 250 次。

生成图片

快链头条登载此文本着传递更多信息的缘由，并不代表赞同其观点或证实其描述。
文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。
投资有风险，入市须谨慎。本资讯不作为投资理财建议。

推荐活动

【Amplify2026—Quantifying&Growth In Web 4.0】

2026-04-21 14:00

香港 Web3 嘉年华 2026

2026-04-20 18:34

【Amplify2026—VENTURE HORIZON】

2026-04-20 14:00

7*24小时快讯

美银调查：多数投资者预计美联储将鹰派按兵不动

06-16 19:34(6分钟前)

美银调查显示多数投资者预计美联储将维持利率不变

06-16 19:28(11分钟前)

特朗普：俄罗斯应与乌克兰达成协议

06-16 19:26(13分钟前)

Ripple入股非洲金融科技公司Flutterwave

06-16 19:23(17分钟前)

Robinhood 拟裁减 10%员工，预计将为裁员支出约 2800 万美元

06-16 19:21(19分钟前)

Flutterwave 向 Ripple 出售部分股权，估值达到 33 亿美元

06-16 19:20(19分钟前)

火币HTX已上线CIEN、PANW、EVAA永续合约

06-16 19:16(23分钟前)

Wintermute：判断加密市场「见底」仍为时尚早，但风险偏好明显回归

06-16 19:15(24分钟前)

热门资讯

从 SpaceX 打新乱象，看稳定币进入全球股票市场的新入口

2026-06-15 17:50:16

花旗发布《2030 资产代币化市场展望》：6 大趋势或催生 8.2 万亿美元市场

2026-06-12 11:00:15

以太坊最后的大买家，还能撑多久？

2026-06-12 08:36:06

对话OmenX 创始人：为什么预测市场需要一场从“现货”到“衍生品”的进化？

2026-06-11 11:22:24

风险提示

根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件，请广大公众理性看待区块链，不要盲目相信天花乱坠的承诺，树立正确的货币观念和投资理念，切实提高风险意识；对发现的违法犯罪线索，可积极向有关部门举报反映。