拥有双臂的机器人能完成开瓶盖这类任务吗?显然,这需要它用一只手握紧瓶身,另一只手捏紧瓶盖并进行旋转。这种比较复杂的顺序步骤通常被称为模式(schemas),它不受目标的几何尺寸及空间状态的影响。另外,模式不像其他深度学习技术那样需要上百万个案例、花费数周甚至数个月的时间去学习。
最近Facebook AI Research的一支团队试图让两支Sawyer机械臂从数据库中选择合适的步骤,从而完成指定的目标。在每一个步骤中,机械臂必须决定好使用哪种技能,以及具体的参数设定(包括施加力的位置和大小等)。尽管这涉及了很多复杂的问题,但这支团队表示这种方法的学习效率很快,一种操作技巧可能只需要几个小时就能完成学习。
这支团队的核心目标就是帮助机器臂应对更多的任务。它的学习流程分为两步,第一步学习完成任务的模式,第二步学习策略为不同技能配置合适的参数。他们认为这种方法能学得更快。首先,同一任务的细节差别所带来的数据能用于技能优化。除此之外,其他相关任务也能得到改善。
“举个例子,首先我们在仿真中让机械臂学会了捡起一根棍子。随后这个模式可以用于其他相关任务,比如在现实中借助摄像头拿起一个碟子,虽然这两者的空间状态和具体参数(比如抓取动作)差别很大。在模式确定后,拿起碟子就只需要进行第二步的学习,也就是参数优化。”
这些研究员为机械臂设计了一个技能数据库,包括扭转、举起、接近等动作。机械臂可用它对不同尺寸、不同空间状态的物体进行横向运动、旋转和开启等。目前模式的训练是在MuJoCo仿真环境中完成的,它只需要机械臂本体感觉(包括关节位置和关节转速等)和几何尺寸等少量数据。训练结果可以在仿真环境和现实中进行使用。