分享好友 资讯文章首页 资讯文章分类 切换频道

新的学习模型可以在现实世界中快速“教会”机器人新的行为

2022-07-28 08:12IP属地 广东佛山450机器人生态圈

训练机器人在现实世界中完成任务可能是一个非常耗时的过程,这涉及到建立一个快速高效的模拟器,对其进行多次试验,然后将在这些试验中学习到的行为转移到现实世界中。然而,在许多情况下,由于环境或任务的不可预测的变化,模拟中获得的性能与现实中获得的不匹配。

加州大学伯克利分校(UC Berkeley)的研究人员最近开发了一款名为DayDreamer的工具,可以用来训练机器人更有效地完成现实世界中的任务。他们的方法是基于世界的学习模型,允许机器人预测他们的动作和行动的结果,减少了在现实世界中大量的试错训练的需要。

新的学习模型可以在现实世界中快速“教会”机器人新的行为

进行这项研究的研究人员之一丹尼尔·哈夫纳(Danijar Hafner)说道:“我们希望制造出能够在现实世界中直接持续学习的机器人,而不需要创建模拟环境。我们之前只学习过电子游戏的世界模型,所以看到同样的算法也可以让机器人在现实世界中快速学习,这是非常令人兴奋的!”

使用他们的方法,研究人员能够有效和快速地教机器人在现实世界中执行特定的行为。例如,他们训练了一只机器狗,让它在一个小时内从背上滚下来,站起来并走路。

训练完成后,研究小组开始推机器人,并发现在10分钟内,机器人也能够承受推,或迅速用脚向后滚。该团队还在机械臂上测试了他们的工具,训练它们拿起物体并把它们放在特定的地方,但没有告诉它们物体最初的位置。

哈夫纳说:“我们发现机器人能够适应光照条件的变化,比如阴影在一天中随着太阳的移动而移动。除了在现实世界中快速、持续地学习外,相同的算法在四个不同的机器人和任务中都能很好地工作。因此,我们认为世界模型和在线适应将在机器人技术发展中发挥重要作用。”

基于强化学习的计算模型可以随着时间的推移教会机器人行为,通过给予它们理想行为的奖励,例如良好的物体抓取策略或以合适的速度移动。通常,这些模型都是经过漫长的试错过程训练的,使用可以加快速度的模拟和现实世界中的实验。

另一方面,由哈夫纳和他的同事开发的“梦想者”算法根据过去的“经验”构建了一个世界模型。这个世界模型可以用来教机器人基于“想象”互动的新行为。这大大减少了在现实环境中进行试验的需要,从而大大加快了训练过程。

新的学习模型可以在现实世界中快速“教会”机器人新的行为

直接预测未来的感官输入速度太慢,成本也太高,尤其是当涉及相机图像这样的大输入时。世界模型首先学会将每个时间步的感觉输入(电机角度、加速度计测量值、相机图像等)编码为一个紧凑的表示。给它一个表示法和一个运动指令,然后它学习预测下一个时间步骤的结果表示法。

“梦想家”制造的世界模型允许机器人“想象”未来的表现,而不是处理原始的感官输入。这反过来允许模型使用单个图形处理单元(GPU)并行规划数千个动作序列。这些“想象”的序列有助于快速提高机器人在特定任务中的表现。

潜在特征在强化学习中的使用已经在表征学习的背景下得到了广泛的研究,这项研究的另一名研究人员亚历杭德罗·埃斯孔雷拉说,我们的想法是,人们可以创建一个大型感官输入(相机图像、深度扫描)的紧凑表示,从而减少模型大小,可能还会减少所需的训练时间。然而,表征学习技术仍然需要机器人与现实世界或模拟器进行长时间的互动来学习任务。“梦想家”可以让机器人从想象的互动中学习,将其学习到的表征作为一个准确而高效的“模拟器”。这使得机器人能够在学习的世界模型中进行大量的训练。

在训练机器人的同时,“梦想家”不断收集新的经验,并利用它们来增强其世界模型,从而改善机器人的行为。他们的方法允许研究人员在一小时内训练一个四足机器人行走并适应特定的环境刺激,而不需要使用模拟器,这是以前从未实现过的。

哈夫纳说:“我们设想,在未来,这项技术将使用户能够在现实世界中直接教机器人许多新技能,从而无需为每项任务设计模拟器。这也为制造能够适应硬件故障的机器人打开了大门,比如即使一条腿的马达坏了,机器人也能行走。”

在他们最初的测试中,Hafner, Escontrela, Philip Wu和他们的同事还用他们的方法训练机器人拿起物体并将它们放在特定的地方。这项工作每天都是由人类工人在仓库和装配线上完成的,对于机器人来说可能很难完成,尤其是当它们期望捡到的物体的位置未知时。

这项任务的另一个困难是,在机器人真正掌握某些东西之前,我们不能给它中间反馈或奖励,所以没有中间指导,机器人可以探索很多东西。在10个小时的完全自主操作中,使用“梦想家”进行训练的机器人的性能接近人类远程操作员。这一结果表明,世界模型是仓库和装配线自动化工作站的一种有前途的方法。

在他们的实验中,研究人员成功地使用做梦者算法训练了四个形态不同的机器人完成各种任务。使用传统的强化学习方法训练这些机器人通常需要大量的人工调优,在不需要额外调优的情况下就能很好地完成任务。

哈夫纳说根据我们的研究结果,我们预计会有更多的机器人团队开始使用和改进“梦想家”,以解决更具挑战性的机器人问题。拥有一种开箱即用的强化学习算法,可以让团队有更多时间专注于构建机器人硬件,并指定他们想用世界模型自动化的任务。

该算法可以很容易地应用于机器人,其代码将很快开源。这意味着其他团队很快就能使用它来使用世界模型训练他们自己的机器人。

Hafner, Escontrela, Wu和他们的同事现在想要进行新的实验,给一个四足机器人装备一个摄像头,这样它不仅能学会走路,还能识别附近的物体。这将使机器人能够处理更复杂的任务,例如避开障碍物,识别环境中感兴趣的物体,或在人类用户旁边行走。

哈夫纳补充道,机器人领域的一个公开挑战是,用户如何直观地为机器人指定任务。在我们的工作中,我们实现了机器人作为Python函数优化的奖励信号,但最终它会很好,通过直接告诉机器人什么时候做对了或错了,从人类的偏好来教机器人。这可以通过按下一个按钮来给予奖励,甚至可以让机器人理解人类语言。

到目前为止,该团队只使用他们的算法训练机器人完成特定的任务,这些任务在他们的实验开始时就已经明确定义。然而,在未来,他们还想训练机器人探索环境,而不是解决明确定义的任务。

一个有前途的方向是,通过人工的好奇心,训练机器人在没有任务的情况下探索周围环境,然后更快地适应用户指定的任务。

举报
收藏 0
打赏 0
评论 0
商业化落地可期 上市公司竞逐人形机器人产业
  今年以来,人形机器人领域政策利好频至,产业链进展不断,商业化落地持续加速。机构人士和业内专家普遍认为,2024年是人形机器人发展的加速之年和商业化元年,板块催化密集,商业化落地也逐渐清晰。科技巨头在人形机器人行业的持续投入有望驱动行业不断突破,人形机器人量产并实现大规模应用迎来曙光,商业化落地可期,有望带来巨大的市场空间。  政策利好频至  今年以来,人形机器人领

2024-06-1642

人形机器人站上风口
  当前,以人形机器人为代表的新技术、新产品、新业态快速发展,成为全球科技创新的制高点、未来产业的新赛道和经济增长的新引擎。目前我国人形机器人产业发展情况如何?应用场景是否成熟?未来又将如何突破瓶颈、蓬勃发展?  赛迪顾问发布的最新报告显示,2023年人形机器人产业进入爆发期,预计到2026年中国人形机器人产业规模将突破200亿元,未来功能型整机将逐步占据主流、发展潜

2024-06-1634

人形机器人打开“具身智能”蓝图
  从搬运重物到端茶倒水,从进厂打工到做饭叠衣……当大模型为机器人注入“灵魂”,人形机器人“进化”加速。业内人士指出,人形机器人工业场景的落地最快今年或明年就能在部分试点实现,“入户”则将在10年左右。  变化——迈入“人形时代”  近期,国产人形机器人领域动作频频:全球首例纯电驱全尺寸人形机器人“天工”首次在北京人形机器人创新中心实现“拟人奔跑”、瞄准老年人陪护市场

2024-06-1629

第四代高压电缆剥切打磨机器人“上岗”
  记者5月17日从国网天津电力获悉,国网天津电缆公司团队研制的第四代剥切打磨机器人首次完成110千伏高压电缆检修任务。该机器人较上一代整体重量降低了10%,作业时间压缩至50分钟以内,作业效率提升近30%。  据了解,高压电缆绝缘偏心度与半导电层厚度不均匀,是制约高压电缆自动化剥切装置推广应用的关键因素。采用传统弹性浮动刀架进行电缆外轮廓的仿形,难以实现绝缘屏蔽断口

2024-06-0831

人形机器人产业发展提速 投融资热度居高不下
  近段时间,多地加速布局人形机器人产业。例如,5月9日,湖北省人民政府新闻办公室举行新闻发布会,湖北省发展和改革委员会党组成员、副主任刘正斌表示,湖北省发展改革委坚持以整带零、以零强整、强化支撑,推动人形机器人加快实现“从0到1”的研发、“从1到100”的产业化。此前,山东省工业和信息化厅印发《山东省制造业创新能力提升三年行动计划(2023—2025年)》提出,“研

2024-06-0836

北京亦庄:人形机器人在这里加速“奔跑”
    让机器人也能像真人一样“跑”起来,如今在北京经济技术开发区(北京亦庄)已成为现实。  今年4月,北京人形机器人创新中心发布名为“天工”的人形机器人(见上图,杨东摄),实现了全球首例纯电驱全尺寸人形机器人的“拟人奔跑”。  近日,记者来到北京亦创国际会展中心三层,只见1600余平方米的空间被分隔成多个大小不一的区域。在最大的一块场地,北京人形机器人创新中心工程师

2024-06-0830

智慧养老,让养老服务更便捷、更精准
 中国战略新兴产业融媒体记者 杜壮  “小丽,小丽,我回来了”“小丽陪我遛弯吧。”  在近日举办的2024第十届中国国际养老服务业博览会上,长者陪伴机器人“小丽”像个小尾巴一样,可以记忆、提醒老人的外出时间、关火、服药时间等。通过指令,可以让小丽帮忙拨通亲友电话或视频,边聊边干活……如今,“智慧养老”模式,使越来越多老人享受到了更加个性化、安全、舒适的产品。  森丽康

2024-06-0838