谷歌DeepMind发布Gemini Robotics-ER 1.6,Spot机器人已能自动读仪表盘

快链头条 2026-04-14 23:28:45
阅读 6,597
二维码
微信扫一扫,分享此文章

据 1M AI News 监测,谷歌 DeepMind 发布 Gemini Robotics-ER 1.6,定位为机器人的高层推理模型,相比前代 ER 1.5 和 Gemini 3.0 Flash 在空间推理和多视角理解上有显著提升。模型已通过 Gemini API 和 Google AI Studio 向开发者开放。

核心升级包括三项能力:

1. 指向(pointing)精度提升:可用于精确物体检测、计数、空间关系推理(如「指出所有能放进蓝色杯子的物体」)和运动轨迹规划,且能正确拒绝指向画面中不存在的物体
2. 多视角成功检测:机器人现在能综合多个摄像头画面判断任务是否完成,即使在遮挡或动态环境下也能保持准确
3. 新增仪表读取能力:可解读圆形压力表、垂直液位指示器和数字显示屏等多种工业仪表,通过 agentic vision(视觉推理 + 代码执行)实现逐步推理,先放大细节区域,再通过指向和代码计算比例与间隔,最后结合世界知识得出读数

仪表读取能力源于 DeepMind 与 Boston Dynamics 的合作。Boston Dynamics 同日宣布,已将 Gemini 和 Gemini Robotics-ER 1.6 集成到其 Orbit AIVI-Learning 产品中,于 4 月 8 日对所有 AIVI-Learning 客户上线。集成后新增了仪表盘(gauges)支持,四足机器人 Spot 现在可以在工业设施中自主巡检并读取压力表等仪表数据。Boston Dynamics 称,借助 Gemini 的推理能力,AIVI-Learning 在既有的视觉巡检、托盘计数、积液检测等任务上的基线性能和准确率也有所提升。

DeepMind 称 ER 1.6 是其「最安全的机器人模型」。在对抗性空间推理任务中,安全指令遵从度大幅优于 ER 1.5。在基于真实受伤报告的安全风险识别测试中,ER 系列模型较 Gemini 3.0 Flash 在文本场景上高 6%,视频场景上高 10%。

快链头条登载此文本着传递更多信息的缘由,并不代表赞同其观点或证实其描述。
文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
投资有风险,入市须谨慎。本资讯不作为投资理财建议。

推荐活动
风险提示
根据银保监会等五部门于 2018 年 8月发布《关于防范以「虚拟货币」「区块链」名义进行非法集资的风险提示》的文件, 请广大公众理性看待区块链,不要盲目相信天花乱坠的承诺,树立正确的货币观念和投资理念,切实提高风险意识;对发现的违法犯罪线索,可积极向有关部门举报反映。