研究人员的任务,被称之为在连续环境中的视觉和语言导航(VLN-CE),是在Facebook的模拟器Habitat中进行的,该模拟器可以训练机器人助手在模拟真实环境的环境中操作。直径为0.2米、1.5米高的助手被放置在来自Matterport3D数据集的内部,该数据集是通过10800多个全景图和相应的3D网格捕获的90个环境的集合。
机器人助手必须在一条路径上做四个动作(向前移动0.25米,左转或右转15度,或停在目标位置)中的一个,并学会避免被困在障碍物上,比如椅子和桌子上。
研究小组将这些环境提炼成4475条由4到6个节点组成的轨迹,这些轨迹对应于在各个位置拍摄的360度全景图像,显示了导航能力。
他们用这个训练两个人工智能模型:一个sequence-to-sequence模型,该模型由采取视觉观察和指令表示的策略组成,并使用它们预测一个动作;另一个是两个网络交叉模式注意模型,该模型跟踪观察结果,并根据指令和特征做出决策。
研究人员表示,在实验中,表现最好的机器人可以遵循“向左拐,进入走廊”之类的指令,尽管这些指令要求机器人在发现视觉路标之前转动未知的次数。事实上,机器人在看不见的环境,大约三分之一的场景中导航到目标位置,平均采取了88次行动。
这些机器人偶尔也会失败,根据合著者的说法,这些失败通常是由于机器人在视觉上丢失了指令中提到的对象。
“至关重要的是,VLN-CE为(研究)社区提供了一个测试平台,在这里可以进行研究高级和低级控制界面的这类集成实验,”合著者写道。
Facebook投入了大量资源来解决自主机器人导航的问题。
雷锋网了解到,今年6月,在公布了一项训练六足机器人走路的计划后,Facebook首次推出了PyRobot,一种用于PyTorch机器学习框架的机器人框架。2018年,Facebook推出了开源人工智能,可以通过360度图像在纽约市街道上导航。最近,Facebook的一个团队发表了一篇论文,描述了一个通过观看视频学习如何在办公室里走动的系统。雷锋网