约翰霍普金斯大学的计算机科学家采用一种通常用于教狗坐下和坐下的训练技术,向机器人展示了一种如何自学几种新技巧的机器人,包括堆砌块。通过这种方法,名为Spot的机器人可以在几天内学习通常需要一个月的时间。
通过使用正强化,这是任何使用过的对待改变狗行为的人都熟悉的方法,团队极大地提高了机器人的技能,并且很快地完成了训练,使训练实际工作的机器人成为一个更可行的企业。这些发现新发表在名为“ Good Robot!”的论文中。
“这里的问题是我们如何让机器人学习技能?” 主要作者安德鲁·洪特(Andrew Hundt)说。在约翰·霍普金斯大学计算互动与机器人实验室工作的学生。“我有狗,所以我知道奖励的工作,这就是我设计学习算法的灵感。”
与天生具有高度直觉的大脑的人和动物不同,计算机是空白板,必须从头开始学习一切。但是,真正的学习通常是通过反复试验来完成的,机器人专家仍在研究如何从错误中有效学习。
该团队在这里通过设计一种奖励系统来实现这一目标,该奖励系统可以像对待狗一样对待机器人,为机器人工作。狗可能会因为做得好的工作而得到饼干,而机器人则获得了数字积分。
洪特回忆说,他曾经教过他的小混混小狗叫利亚(Leah)命令“离开它”,这样她就可以无视步行中的松鼠。他使用两种类型的零食,普通的教练零食和更好的东西,例如奶酪。当莉亚兴奋而无所事事时,她一无所有。但是当她冷静下来并移开视线时,她得到了好东西。“那时候我给了她奶酪,然后说,'离开!好呀!'”
同样,要堆积块,发现机器人需要学习如何专注于建设性行动。当机器人探索积木时,它很快了解到正确的堆叠行为可以赚取高分,而错误的堆叠则不能赚到高分。伸出手,但不理解障碍?没有分数 敲一堆?绝对没有分。通过将最后一个区块放在四个区块的堆栈之上,Spot获得了最大的收益。
训练策略不仅有效,而且花了几天的时间来告诉机器人过去需要数周的时间。通过首先训练类似于视频游戏的模拟机器人,然后使用Spot运行测试,该团队能够减少练习时间。