谷歌的 RT-2,是不是机器人的 GPT-3 时刻?

作者:小千 更新时间:2024-08-29 点击数:

【千问解读】

新模型解决了机器人训练需要大量数据的难题。

7 月 29 日,《纽约时报》的记者在谷歌实验室,率先看到了谷歌最新推出的 RT-2 模型驱动的机器人。

一个单臂机器人站在一张桌子前。

桌子上坐着三个塑料雕像:狮子、鲸鱼和恐龙。

工程师给机器人发出指令:「捡起灭绝的动物。

」机器人呼呼地响了一会儿,然后手臂伸出,爪子张开落下。

它抓住了恐龙。

这是一道智能的闪光。

《纽约时报》描述道,「直到上周,这一演示还是不可能的。

机器人无法可靠地操纵它们以前从未见过的物体,它们当然也无法实现从「灭绝的动物」到「塑料恐龙」的逻辑飞跃。

虽然仍然存在于展示之中,且谷歌并不打算立即进行更大规模的发布或者对其进行商业化,但这一展示已经足以展现大模型为机器人能够带来的机遇的一角。

在大模型时代到来之前,人们训练机器人,通常针对每个任务进行优化,比如抓取某种玩具,需要足量的数据,机器人才能准确地从各个角度、各个光线下识别这种玩具,抓取成功。

而让机器人意识到自己有抓取玩具的任务,也需要对机器人进行编程才能解决。

而大模型的智能和泛化能力,让人们看到了解决这些问题,走向通用机器人的一道曙光。

01 将 Transformer运用到机器人中

谷歌新的 RT-2 模型,全称为 Robotic Transformer 2,运用 Transformer 架构作为其模型的基座。

2018 年被提出的 Transformer 架构,是目前火遍全球的大语言模型(LLM)的最底层的基座,但事实上,作为一种架构,Transformer 不止可以应用于大语言模型当中,也可以用于训练其他类型的数据。

早在今年 3 月份,谷歌就发布了 PaLM-E,是当时世界上最大视觉语言模型(VLM)。

大语言模型中,语言被编码为向量,人们为模型提供大量的语料,使其能够预测出人类通常下一句会说什么,借此生成语言回答。

而在视觉语言模型中,模型可以将图像信息编码为与语言类似的向量,让模型既能「理解」文字,又能用相同方式「理解」图像。

而研究员们为视觉语言模型提供大量的语料和图像,使其能够执行视觉问答、为图像添加字幕和物品识别等任务。

无论是图像还是语言,都是相对容易大量获取的数据。

因此,模型很容易取得令人惊艳的成果。

而想使用 Transformer 架构来生成机器人行为,却有一个很大的难点。

「涉及到机器人动作的数据非常昂贵。

」清华大学交叉信息研究院助理教授许华哲教授告诉极客公园,「视觉和语言数据都来自于人类,是被动数据,而机器人的动作数据,全部是来自于机器人的主动数据。

比如我想研究机器人倒咖啡的动作,不管是写代码让机器人执行,还是利用其他的方式让机器人执行,都是需要机器人实际执行一遍这个操作才能得到这个数据。

因此,机器人的数据与语言和图片的规模和量级是完全不一样的。

在谷歌研究的第一代机器人 Transformer 模型 RT-1 中,谷歌第一次开启了这样的挑战,尝试建立一个视觉语言动作模型。

为了建立这样的模型,谷歌使用了 13 个机器人,在一个搭建的厨房环境中耗时 17 个月收集到了机器人在 700 多个任务上的主动数据组建的数据集。

数据集同时记录了三个维度:

视觉——机器人在执行任务操作时的摄像头数据;语言——用自然语言描述的任务文字;和机器人动作——机器手进行任务时在 xyz 轴和偏转数据等。

虽然当时得到了较好的实验效果,但可想而知,想要进一步增加数据集内数据的数量,将是一件非常难的事情。

图片来源:谷歌 AI 介绍视频

而 RT-2 的创新之处在于,RT-2 使用前面所述的视觉语言模型(VLM)PaLM-E 和另一个视觉语言模型 PaLI-X 作为其底座——单纯的视觉语言模型可以通过网络级的数据训练出来,因为数据量足够大,能够得到足够好的效果,而在微调(fine-tuning)阶段,再将机器人的动作数据加入进去一起微调(co-finetuning)。

这样,机器人相当于首先已经拥有了一个在海量数据上学习过了的常识系统——虽然还不会抓取香蕉,但是已经能够认识香蕉了,甚至也知道了香蕉是一种水果,猴子会比较喜欢吃。

而在微调阶段,通过再加入机器人在真实世界中看到香蕉后是如何抓取香蕉的知识,机器人就不但拥有了在各种光线和角度下识别香蕉的能力,也拥有了能够抓取香蕉的能力。

在这种方式下,用 Transformer 架构训练机器人所需的数据显著降低了。

RT-2 在微调阶段直接使用了 RT-1 训练阶段使用的视觉/语言/机器人动作数据集。

谷歌给出的数据显示,在抓取训练数据中原来出现过的物品时,RT-2 的表现与 RT-1 同样好。

而因为有了「拥有常识的大脑」,在抓取之前没有见过的物品时,成功率从 RT-1 的 32% 提升到了 62%。

「这就是大模型的妙处。

」许华哲讲道,「你没有办法把它拆解成因为它识别到了两个物体是材质相似,还是因为大小相近还是因为别的什么原因抓取的成功率提升了。

它学到的东西足够多了之后,就会涌现出一些能力。

02 使用自然语言与机器人交互的未来

学术上,RT-2 展现的很强的泛化性有可能解决机器人训练数据不足的难题。

而在此之外,RT-2 给人的直观震撼还是来自于它所展现的智能的一面。

在实验中,研究员希望它能够拿起一个「能够用作锤子的东西」,机器人在一堆物品中拿起了石头,而在被要求拿起一个提供给疲惫的人的饮料时,机器人在一堆物品中选择了红牛。

这样的技巧来自在进行大模型训练时,研究员引入「思维链」(chain of thought)的能力。

而这样的多段语义推理在传统的机器人模仿学习研究中时非常难以做到的。

不过,利用自然语言与机器人交互,并不是 RT-2 的创见。

在过去的机器人研究中,研究者始终需要将任务要求转换为代码而让机器人能够理解,同时一旦出现问题,也需要编写代码来纠正机器人的行为,整个过程需要多次交互,效率较低。

而既然我们已经有了非常智能的对话机器人了,下面比较自然的一步,自然是让机器人与人类用自然语言交互。

「我们大约两年前开始研究这些语言模型,然后我们意识到它们蕴藏着丰富的知识。

」谷歌研究科学家卡罗尔·豪斯曼 (Karol Hausman) 表示,「所以我们开始将它们连接到机器人。

不过,让大模型作为机器人的头脑,也有着自己的难题。

其中最重要的一个问题之一,就是 grounding 问题,即如何使大模型通常比较天马行空的回应,转化成驱动机器人行动的指令。

2022 年,谷歌推出 Say-can 模型。

模型正如其名,采用两重考量来帮助机器人行动。

一重考量是 say,模型通过与谷歌的大语言模型 PaLM 模型结合,可以通过自然语言和人类交互,把获得的任务进行分解,找到最适合当前行动;另一重考量是 can,模型通过一个算法,计算出当前机器人能够成功执行这一任务的概率。

机器人根据这两重考量下,进行动作。

比如对机器人讲「我的牛奶撒了,你能不能帮我?」机器人会首先通过语言模型进行任务规划,这时可能最合理的方式是找到一个清洁工,其次是找一块海绵自己擦。

然后机器人会通过算法计算出作为机器人,它能够成功找到清洁工的概率很低,而找到海绵自己擦的概率很高。

在两重考虑后,机器人就会选择寻找海绵擦牛奶的行动。

虽然在这样双层模型架构中,机器人能够成功做出的动作已经是预先设计好的,大语言模型只是能够帮助机器人选择合适的任务规划。

在这样模型中,机器人已经展现出了极强的智能感。

不过,虽然从外在看起来效果是类似的,RT-2 采取的是另一种道路。

通过训练时模型就同时学习视觉、语言、机器人行为这三种数据,RT-2 的模型并不是先进行任务分解,再进行任务操作,而是自然语言输入后,通过模型的运算,直接产生动作的输出。

「双层结构类似于我想去做一件事情,脑袋里先想好第一步干这个,第二步干那个,然后再挨个执行这些策略。

」许华哲教授表示,「而端到端的结构类似于我也没有特别仔细想第一步、第二步是什么,就把这个事情给干了。

」后者的一个例子可以类比于我们每天在手机上打字聊天,我们打字聊天时一般不会认真思考肌肉具体要如何去动作,而是想到了要打的字,就直接打出来了。

「两种不同的路线或者不同的方法,都还没有证明自己是唯一正确的方式。

」许华哲表示。

但由于 RT-2 的优秀表现,一个模型能够接管输入输出的技术方向,似乎值得探索。

「由于这一变化(RT-2 的优秀表现),我们不得不重新考虑我们的整个研究规划了,」谷歌 DeepMind 机器人技术主管文森特·范霍克(Vincent Vanhoucke)表示。

「之前所做的很多事情都完全变成无用功了。

03 RT-2 是机器人的 GPT3 时刻吗?

谷歌的 RT-2 机器人并不完美。

在《纽约时报》记者目睹的实际演示中,它错误地识别了一罐柠檬味苏打水的味道(说成「橘子味」)。

还有一次被问到桌子上有什么水果时,机器人回答成「白色」(实际是香蕉)。

谷歌发言人解释说,该机器人使用了缓存的答案来回答之前测试者的问题,因为它的 Wi-Fi 曾短暂中断过。

除此之外,利用大模型训练机器人,不可避免地要面对成本问题。

目前谷歌的机器人在进行推理和判断的时候,需要将数据传到云端,由多块 TPU 一起进行计算,再将结果发回机器人,由机器人执行操作。

这样的计算可想而知十分昂贵。

谷歌 DeepMind 机器人技术主管文森特·范霍克(Vincent Vanhoucke)认为,新的研究开启了机器人能够在有人的环境中使用的大门——研究者认为,内置了语言模型的机器人可以进入仓库、用于医疗行业,甚至成为家庭助理,帮助折叠衣物、从洗碗机中取出物品、在房子周围收拾东西。

「如果你开一个工厂,需要使用机器人,成功率一定是要求很高的。

你不会希望说买了机器人后,还需要很多人去维护这个机器人,完善机器人做的不够好的事情。

那这样成本太高了。

」许华哲教授表示,「家居场景下的机器人可能是另一个情形,因为也许家居场景下的一些任务的成功率要求没有那么高。

比如叠衣服,叠的没有那么好,可能在你眼中这个任务失败了,但对你的影响也不会非常大。

人工智能三巨头之一的杨立昆(Yaan Lecun)有一个强调过许多次的著名论断:人工智能还不够聪明。

任何一个孩子都能很快学会收拾桌子,把碗放进洗碗机,而机器人却做不到。

目前的机器人研究或许确实如此,但正如不完美的 GPT-3 让业界看到了大模型发展的方向一样,或许今天不完美的 RT-2 也将开启机器人进入家庭成为我们的助手的未来时代。

仁宗帝王李峼和生母都是被养母害死的吗?

朝鲜仁宗李峼在历史上的记录很少,主要是因为他在位时间十分的短暂,而且最后死亡的原因也不是很明确,至少史册上记载的原因是含糊其辞的。

人们对于这个的了解也是少之又少的,而在朝鲜仁宗皇帝李峼简介中却对他的一生进行了比较详尽的叙述,那么在朝鲜仁宗皇帝李峼简介中是如何介绍这个人物的呢? 《女人天下》李峼剧照 在朝鲜仁宗皇帝李峼简介中对他的信息介绍的十分的详细,李峼是中宗嫡出的长子,他的亲生母亲是章敬王后,可是却在生下他不久后就去世了。

李峼是由文定王后抚养,可是文定王后十分的严肃严明,这对李峼的性格造成了很大的影响。

李峼成为皇帝之后性格十分的软弱,这种优柔寡断和他的父亲倒是十分的相似。

另外朝鲜仁宗李峼在位时间也十分的短暂,前后加起来也不过八个月而已,而且并没有留下任何的子嗣。

在一些史册上记载着李峼死亡原因是因为他的父亲去世让他十分的悲伤,不久之后因为悲伤过度染病身亡了。

然后对于他的死还有着另外一种说法,有人说李峼是被文定王后毒杀而死,目的就是让她的亲生儿子即位成为皇帝,而在李峼死后确实也是文定王后的亲生儿子继承了王位,这样的说法似乎是得到了认同,但是却并没有明确的证据。

可以说朝鲜仁宗皇帝李峼的一生十分短暂,而他的这个皇帝做的也是十分软弱无能。

仁宗李峼生平 仁宗李峼在朝鲜的历届国王中算是在位时间最短的,他登上王位仅仅八个月就去世了,而且关于他死亡的原因史册上的记载并不是十分清晰。

李峼的一生并没有十分大的作为,主要还是因为他在位时间太短的缘故,而李峼和照顾他长大的文定王后之间也有着许多的潜在矛盾,这些在仁宗李峼生平中都有着十分明显的显示。

那么仁宗李峼生平是怎样的呢? 《女人天下》仁宗李峼剧照 说起仁宗李峼的生平还要从他的出生开始说起,在他出生仅仅几天之后他的亲生母亲章敬王后就因为产后病去世了,从此年幼的李峼就在下一任王后文定王后的抚养中长大。

但是文定王后也有自己的亲生儿子,对于这个占了嫡长子位子的李峼文定王后其实并不是十分喜爱。

在平时的教育中也主要是以严肃冷漠的态度来对待他,这在仁宗李峼的生平中也产生重大影响。

在中宗离开人世之后,峼继承了王位成为了仁宗,可是仅仅八个月后他也追随父亲的脚步去世了。

在仁宗李峼生平中,他在位的时候将之前赵光族等人的案子进行了平反,这也是仁宗李峼生平做的最伟大的一件事了。

然而他在三十岁的时候才继承王位,可是在位时间却只有短短的八个月,而且去世之后并没有任何的子女,所以最后朝鲜的王位还是落到了文定王后亲生儿子的身上。

人们也因此对仁宗李峼的死产生了一些怀疑,甚至还认为是文定王后为了亲生儿子而毒杀了他。

仁宗李峼生母是谁 仁宗李峼在登上王位仅仅八个月的时间就去世了,历史上他死亡的原因记载也不是十分清楚,据说是因为他的父亲去世对他造成过大的打击,悲伤过度最后染病去世。

然而也有另一种说法,据说是因为抚养他长大的文定王后为了让自己儿子上位而毒杀了他。

仁宗李峼的生母早逝,所以他一直在文定王后抚养下长大。

那么仁宗李峼生母是谁呢? 《女人天下》章敬王后剧照 仁宗李峼生母是谁这个问题在历史上有详细的记载,仁宗李峼的生母就是中宗的第二位王后章敬王后。

章敬王后的父亲也是朝鲜的官员,她的出身还是不错的,父亲是领敦宁府事,而章敬王后的哥哥也在朝廷中担任官职,被选进宫后,章敬王后被封为淑仪,后来在第一任王后去世之后她才坐上了王后的位置,仁宗李峼的生母就是她了。

作为仁宗李峼的生母,章敬王后本来可以看着儿子继承王位的,可是在生了仁宗之后就有了很严重的产后病,最后因为血崩无法诊治而去世了。

仁宗李峼的生母仅仅活到了二十五岁,死后被葬在了禧陵。

仁宗李峼的生母章敬王后去世之后,文定王后才被封为第二任继任王妃,而李峼由于没有了生母,一直都是文定王后在照顾管教他,可是文定王后也有自己的亲生儿子,为人又比较严肃厉害,所以让仁宗的性格变得有些软弱,这些都对他以后的发展有所影响。

仁宗李峼的养母 仁宗李峼在出生之后仅仅几天的时间母亲就去世了,在章敬王后去世之后文定王后成为了第二任继任王妃。

《女人天下》文定王后剧照 提到仁宗李峼的养母相信了解这段历史的人都会知道,他的亲生母亲去世之后就一直在文定王后的抚养之下成长,所以说仁宗李峼的养母就是文定王后。

这位养母对李峼的一生产生了非常大的影响,就连仁宗李峼的死亡也和这位养母有着关系。

文定王后虽然也是朝鲜贵族出身,然而那时候她家中情况并不是很好,直到成为王妃之后文定王后的生活才算是有了彻底的改变。

虽然是仁宗李峼的养母,但是文定王后对于占据了嫡长子位子的李峼态度却并不怎么好,在李峼继承王位之前,支持李峼的力量也和文定王后的儿子产生了很大的纷争。

当然事情最后的结果还是李峼继承王位成为了仁宗。

也许是因为仁宗李峼的养母文定王后太过于强势独断,所以李峼的性格十分的优柔寡断,甚至可以说有些软弱,李峼对于父亲和他的养母一直都是比较孝顺的,然而仁宗李峼的养母文定王后的态度却和他完全相反,对于中宗的去世文定王后甚至有些冷漠,李峼为了父亲的去世悲伤不已很快就消瘦下来。

仁宗李峼的养母文定王后却一直在想尽办法将他拉下王位,好让自己亲生儿子继承王位,而事情最后的结果果然让文定王后得偿所愿,李峼仅仅当了八个月的国王就去世了,最后由文定王后的儿子继承了王位 免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

解析罗马斗兽场地下迷宫机关重重的巨石阵

这个由数条纵横交错的管道和洞口组成的地宫,主要用于储存道具和牲畜以及角斗士,表演开始时再将他们吊起到地面上。

贝斯特介绍说,吊起这些道具运用的其实就是滑轮和绞盘的原理。

在斗兽场的墙壁上有大量半圆形的砖结构凸起和凹槽,这些凸起和凹槽是用于安装一个中间呈十字型的绞盘,工人把笼子吊在绞盘的一端,通过转动绞盘的滑轮,把角斗士或参与角斗的动物从地下吊上来,营造出让观众吃惊的效果。

初入罗马斗兽场,在惊叹于斗兽场的大气磅礴之余,游人一定会疑惑于这里的,比如斗兽场地面崎岖不平,就像由众多同心圆的环形石墙拼成的指纹图章。

多年来,斗兽场的“地下迷宫”隐藏了太多的秘密等待后人发掘:为何这里的地面不是由平坦的沙石铺就,而是由一系列具有圆对称形状的巨石阵组成;石柱上密密麻麻的圆孔又有何用……日前,德国学家贝斯特带领德意学者,历经14年探究,终于破解出这个神秘竞技场地下迷宫所隐藏的秘密。

网络配图 14年前,当贝斯特与德国和意大利的考古小组开始探索这个庞大的建筑时,他们困惑于斗兽场庞大的结构规模。

“我终于明白为什么从来没有人对斗兽场的结构进行适当的分析了,这里的复杂性真是彻头彻尾地恐怖。

” 贝斯特发现,不仅斗兽场的地面结构宏大磅礴,斗兽场的地下结构也大有千秋。

可以说,这个庞大的地宫复杂性一点都不逊于地面建筑,甚至比地面建筑更精巧,令人称奇。

地宫就隐藏在斗兽场的舞台下面。

舞台平面呈椭圆形,长轴86米,短轴54米,环绕着舞台逐级而上的就是观众席。

观众们从第一层的80个拱门入口处进入罗马斗兽场,逐步分散到每一层的座位中,但他们没有权利进入舞台下面的地宫,也从来不知道,这个地宫是一个如此庞大复杂的地下迷宫。

经过14年的发掘和研究,贝斯特领导的研究小组终于弄清楚了这个庞大地宫的结构。

去年10月,在140万美元的改造工程后,这个地宫的部分结构开始首次呈献给世人参观。

最能体现地宫作用的一个著名“戏法”发生于公元248年。

当时,为庆祝罗马建成1000周年,魔术师们在斗兽场曾将水引入表演区,形成一个湖,表演海战的场面,来庆祝罗马建成1000年。

这一浩大而壮观的场景被载入多本史书中,成为千古佳话。

在贝斯特看来,这个通过地宫输水道完成的把戏只是地宫最简单的运用。

贝斯特和他的同事们花了整整4年时间,用卷尺、铅垂线、不可计数的纸张和铅笔画出了整个地宫的技术图纸。

“今天,我们很可能用激光扫描仪完成这项作业,但用铅笔和纸张更能让你在潜意识里塑造地宫的整个形象。

”网络配图 这个由数条纵横交错的管道和洞口组成的地宫,主要用于储存道具和牲畜以及角斗士,表演开始时再将他们吊起到地面上。

贝斯特介绍说,吊起这些道具运用的其实就是滑轮和绞盘的原理。

在斗兽场的墙壁上有大量半圆形的砖结构凸起和凹槽,这些凸起和凹槽是用于安装一个中间呈十字型的绞盘,工人把笼子吊在绞盘的一端,通过转动绞盘的滑轮,把角斗士或参与角斗的动物从地下吊上来,营造出让观众吃惊的效果。

在地宫,贝斯特还发现了许多坡道、绞盘轴和方形榫眼、横梁等结构,甚至还有径流运河。

通过这些巧妙的设置,地宫能形成一个紧凑的、功能强大的电梯系统的网状结构,不仅能迅速吊起进入斗兽场的野兽、风景和设备,也能迅速引水排水。

在运作的高峰期,地宫有60个绞盘同时转动,每个绞盘高达两层楼,由四名男子转动。

其中的40个绞盘能从舞台下面升起动物笼,其他的20个则用于升起舞台布景,这些布景高达12到15英尺。

在斗兽场表演时,地宫制造的舞台效果功不可没。

当一名角斗士登上舞台,并杀死一头狮子获得胜利,这时,为制造紧张气氛,让比赛更精彩,舞台各处可能跳出3到4只狮子,集体对角斗士进行围攻,场景扣人心弦,这就需要地宫庞大结构的巧妙配合。

对于旁观者来说,整个古罗马斗兽场就是一个帝国的缩影。

里面的竞技游戏是对这个帝国神话的重新制定。

被杀的野生动物象征着罗马人如何征服野外遥远的土地和征服自然本身,处决戏剧性地表现了无情的正义力量;而角斗士体现了罗马尊崇的男子气概,无论是胜者还是战败者都等待着尊严的致死打击。

“我们知道这很可怕,”剑桥大学古典历史学家玛丽·比尔德表示,“但同时,人们喜欢观看这个生动的神话被不断演绎,这是戏剧、电影、幻象与现实,集合在一起。

” 在此之前,罗马斗兽场地宫长期被世人忽略。

自公元80年左右罗马斗兽场建成后,地下迷宫就一直处在被世人忽视的地位,随着不断的翻修,地宫结构也被毫无章法地肆意添加,导致结构混乱。

网络配图 随着时间的积淀,整个斗兽场堆满了漫长时间积累起来的废墟,人们在斗兽场里种菜、储存干草,甚至堆肥。

地宫也被湮没在这些垃圾和碎石中,多年来不见天日。

随后,虽然罗马统治者曾数次试图恢复罗马斗兽场,但都未能如愿。

直到在20世纪30年代,在“罗马美化工程”的号召下,工人们清除了斗兽场的历史沉渣,让斗兽场重见天日。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

声明:本文内容仅代表作者个人观点,与本站立场无关。

如有内容侵犯您的合法权益,请及时与我们联系,我们将第一时间安排处理

加入收藏

谷歌的 RT-2,是不是机器人的 GPT-3 时刻?

点击下载文档

格式为doc格式

  • 账号登录
社交账号登录