首页 > 探索 > 自然探索

为机器人安上“最强大脑”!谷歌VLA新模型泛化能力提升3倍 能“听懂人话”

时间:2024-08-29来源:网络作者:小千点击数:
简介:《科创板日报》7月31日讯(编辑 郑远方) 一个单臂机器人“站”在桌前,桌上放着三个塑料动物玩具:狮子、鲸鱼与恐龙。

收到“捡起灭绝的动物”指令后,这个机器人“思考”了一会儿,然后甚至机械臂,打开爪子,抓起了恐龙。

这是谷歌最新一款机器人模型Robotic Transformer 2(机器人变形金刚2,RT-2)。

上文这个“抓起恐龙”的动作对于人类而言轻而易举,对于机器人而言却

【千问百科解读】

《科创板日报》7月31日讯(编辑 郑远方)一个单臂机器人“站”在桌前,桌上放着三个塑料动物玩具:狮子、鲸鱼与恐龙。

收到“捡起灭绝的动物”指令后,这个机器人“思考”了一会儿,然后甚至机械臂,打开爪子,抓起了恐龙。

这是谷歌最新一款机器人模型Robotic Transformer 2(机器人变形金刚2,RT-2)。

上文这个“抓起恐龙”的动作对于人类而言轻而易举,对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西,也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃

作为一款新型视觉-语言-动作(vision-language-action,VLA)模型,RT-2可以从网络、机器人数据中学习,并将这些知识转化为机器人控制的通用指令

相较于其他机器人研究,RT-2的核心优势在于,其不仅能直接接收“人话”指令,听懂“人话”、理解“人话”,还能做出相应推理,并转为机器人能理解的分阶段指令,从而做出动作完成任务

RT-2完成的每一项任务,都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。

例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时,机器人需要对相应物体/场景执行任务,而这些物体与场景它从未在机器人数据中见过,需要从网络数据中转化得到相应知识。

广告
他只是个小司机,伺候的却是一个富太太,小人物一步步平步青云扶摇直上!
×

总体而言,RT-2具备三大能力:符号理解(Symbol understanding)、推理(Reasoning)和人类识别(Human recognition)

(1)符号理解是指RT-2可以从视觉语言预训练中转移了语义知识,而这些语义知识在机器人数据中并不存在。

这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。

广告
家道中落的男子从底层爬起,一步一个脚印,踏上巅峰,过上众美环绕的逍遥人生!
×
图|符号理解指令示例

(2)推理则是将VLM的各种推理能力用于任务控制,包括视觉推理(“将苹果移到相同颜色的杯子里”)、数学推理(“将X移到2加1之和的附近”)、多语言理解(“mueve la manzana al vaso verde”,西班牙语)。

图|推理指令示例

(3)人类识别是以人类为中心的理解和识别能力,RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。

图|人类识别指令示例

此外,研究人员还将机器人控制与思维链推理相结合

首先用自然语言描述机器人即将采取的动作的目的,然后是“动作”和动作标记。

例如在下图中,RT-2接收到的要求是“我想钉个钉子,场景里什么东西可能能用上?”,RT-2转化得出了“石头。

动作:1 129 138 122 132 132 106 127”的指令,并拿起了石头。

RT-2还能更好地适用于不同的、机器此前没见过的场景。

比起在大型数据集上预训练的RT-1、Visual Cortex(VC-1)等模型,RT-2泛化能力大幅提高,较前者提高了3倍有余

加利福尼亚大学伯克利分校的机器人学教授Ken Goldberg表示,机器人的灵巧性仍达不到人类水平,在一些基本任务上也会失败,但谷歌利用人工智能语言模型,赋予机器人推理和随机应变的新技能,是一个很有希望的突破。

声明:本文内容仅代表作者个人观点,与本站立场无关。

如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理,本页面内容仅为信息发布,不作为任何招生依据,亦不构成任何报考建议。

如果您需要报名,请直接与学校联系,谨防受骗。