使用视觉输入进行代理导航制造技术

技术编号:22174450 阅读:75 留言:0更新日期:2019-09-21 15:06
方法、系统和装置,包括在计算机存储介质上编码的、用于使用视觉输入进行导航的计算机程序。所述系统中的一个系统包括绘图子系统,其被配置为在多个时间步中的每个时间步处根据该时间步处的环境的图像来生成环境的表征,其中,该表征包括标识环境中的、具有特定特性的位置的环境地图,并且其中,生成表征包括对于每个时间步:在该时间步处获得环境的图像,处理图像以生成针对该时间步的第一初始表征,获得针对先前时间步的最终表征,处理针对先前时间步的表征以生成针对该时间步的第二初始表征,并组合第一初始表征和第二初始表征以生成针对该时间步的最终表征。

Proxy navigation using visual input

【技术实现步骤摘要】
【国外来华专利技术】使用视觉输入进行代理导航
本说明书涉及环境中的代理(agent)导航。
技术介绍
使用视觉输入在环境中对代理(例如机器人)进行导航需要处理视觉输入以提取关于环境的信息并考虑到提取的关于环境的信息来选择适当的行动。一些系统使用神经网络来选择待由代理执行的行动。神经网络是采用一个或多个非线性单元层来为接收的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层的输入,即下一个隐藏层或输出层的输入。网络的每个层根据相应参数集合的当前值从接收的输入生成输出。一些神经网络是循环神经网络。循环神经网络是接收输入序列并从输入序列生成输出序列的神经网络。具体地,循环神经网络能够使用来自先前时间步的网络的内部状态中的一些或全部来计算当前时间步的输出。循环神经网络的示例是长短期记忆(LSTM)神经网络,其包括一个或多个LSTM记忆块。每个LSTM记忆块能够包括一个或多个单元(cell),每个单元包括输入门、遗忘门、和输出门,其允许单元存储该单元的先前状态,例如以用于生成当前激活或被提供到LSTM神经网络的其他组件。
技术实现思路
本说明书大体描述了一种导航系统,其控制在环境中导航的代理,即该导航系统选择要由代理执行的行动并且然后使代理执行所选择的行动。在所描述的主题的一个创造性方面,包括一个或多个计算机和一个或多个存储设备的系统存储指令,所述指令在被执行时使得所述一个或多个计算机实现:绘图子系统,所述绘图子系统被配置为在多个时间步中的每个时间步处根据该时间步处的环境的图像来生成所述环境的表征,其中,所述表征包括标识所述环境中具有特定特性的位置的环境地图,并且其中,生成所述表征包括对于每个时间步:在该时间步处获得所述环境的所述图像,处理所述图像以生成针对该时间步的所述环境的第一初始表征,获得针对该时间步之前的先前时间步的所述环境的最终表征,处理针对该先前时间步的所述环境的表征以生成针对该时间步的所述环境的第二初始表征,以及组合所述第一初始表征和所述第二初始表征以生成针对该时间步的所述环境的最终表征。在一些实施方式中,处理图像以生成第一初始表征包括:使用神经网络处理图像以生成第一初始表征。在一些实施方式中,图像是由在环境中移动的代理捕获的图像,并且其中,处理针对该先前时间步的所述环境的最终表征以生成针对该时间步的所述环境的第二初始表征包括:获得在该先前时间步和该时间步之间的所述代理的移动量度,以及将扭曲(warping)函数应用于针对该先前时间步的所述环境的最终表征和所述移动量度以生成所述第二初始表征。在一些实施方式中,所述扭曲函数是使用双线性采样执行插值的函数。在一些实施方式中,所述图像是由在环境中移动的所述代理捕获的,所述图像是来自所述代理的第一人称自我中心视角,以及所述第一初始表征、所述第二初始表征、针对该先前时间步的最终表征以及针对该时间步的最终表征是来自俯视视角。在一些实施方式中,组合所述第一初始表征和所述第二初始表征以生成针对该时间步的最终表征包括:将更新函数应用于所述第一初始表征和所述第二初始表征以生成所述最终表征。在一些实施方式中,每个表征包括:(i)表示所述环境中的多个位置是否具有所述特定特性的分值集合,以及(ii)对于所述分值集合的置信度量度集合,所述更新函数包括执行以下等式的运算:ct=ct-1+c′t其中,ft是针对该时间步的所述最终表征的分值集合,ct是对于针对该时间步的所述最终表征的分值集合的置信度量度集合,ft'是所述第一初始表征的分值集合,ct'是对于所述第一初始表征的分值集合的置信度量度集合,ft-1是所述第二初始表征的分值集合,以及ct-1是对于所述第二初始表征的分值集合的置信度量度集合。在一些实施方式中,所述更新函数是由循环神经网络执行的,并且其中,所述循环神经网络被配置为:对于所述多个时间步中的每个时间步,处理针对该时间步的所述第一初始表征和所述第二初始表征以生成针对该时间步的所述最终表征。在一些实施方式中,对于所述环境中的所述多个位置中的每个位置,针对该时间步的环境地图包括:表示该位置是否具有所述特定特性的分值,并且对于所述位置中的每个位置所述表征还包括:对于该位置的分值的置信度量度。在一些实施方式中,系统进一步包括对于所述多个时间步中的每个时间步:从所述绘图子系统获得针对该时间步的所述最终表征,以及处理所述最终表征以选择要由在该时间步处与所述环境交互的代理执行的所建议的行动。在另一创造性方面,所述系统包括规划子系统,其被配置为:对于多个时间步的每个时间步,获得执行行动以实现针对该时间步的目标的代理的环境的最终表征,其中,所述代理的所述环境的所述最终表征包括标识所述环境中的、具有特定特性的位置的环境地图;从所述最终表征生成空间扩缩的环境地图的序列,其中,所述序列中的每个空间扩缩的环境地图是相对于所述序列中的任何后续空间扩缩的环境地图下采样的;对于所述序列中的每个空间扩缩的环境地图,从最大下采样的空间扩缩的环境地图开始,处理所述序列中的该空间扩缩的环境地图和与该空间扩缩的环境地图相关联的一个或多个输入以生成该空间扩缩的环境地图的一个或多个价值地图,其中,价值地图对于该空间扩缩的环境地图中的多个区域中的每个区域包括在该区域中的所述代理实现所述目标的价值估计,以及对于所述序列中的、除了最后的空间扩缩的环境地图之外的每个空间扩缩的环境地图,提供该空间扩缩的环境地图的一个或多个价值地图以作为与所述序列中的后续空间扩缩的环境地图相关联的输入;以及基于所述序列中的所述最后的空间扩缩的环境地图的所更新的价值地图来选择所建议的行动。在一些实施方式中,与所述序列中的每个空间扩缩的环境地图相关联的输入包括标识所述代理的所述目标的数据。在一些实施方式中,目标是代理试图到达的环境中的位置。在一些实施方式中,目标是代理试图定位的环境中的对象。在一些实施方式中,对所述最大下采样的空间扩缩的环境地图的输入包括针对该时间步的所述最终表征。在一些实施方式中,处理与该空间扩缩的环境地图相关联的输入以生成该空间扩缩的环境地图的一个或多个价值地图包括:处理与该空间扩缩的环境地图相关联的输入以生成该空间扩缩的环境地图的一个或多个初始价值地图;以及在该空间扩缩的环境地图的一个或多个初始价值地图上执行一次或多次价值迭代,以生成该空间扩缩的环境地图的一个或多个价值地图。在一些实施方式中,基于所述序列中的所述最后的空间扩缩的环境地图的价值地图来选择所建议的行动包括:根据所述序列中的所述最后的空间扩缩的环境地图的价值地图,确定具有最高价值估计的所更新的价值地图的特定区域;以及选择使所述代理去往所述特定区域的行动作为针对该时间步的所建议的行动。在一些实施方式中,基于所述序列中的所述最后的空间扩缩的环境地图的价值地图来选择所建议的行动包括:通过包括一个或多个修正的线性单元的神经网络来处理所述价值地图以选择所建议的行动。能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。用于在包括地图和规划子系统的环境中导航代理的系统能够被端对端(end-to-end)地训练,这能够在这样的系统被训练之后提高其效率和准确性。也就是说,因为由绘图器和规划器执行的操作完全可本文档来自技高网...

【技术保护点】
1.一种系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被执行时使得所述一个或多个计算机实现:绘图子系统,所述绘图子系统被配置为在多个时间步中的每个时间步处根据该时间步处的环境的图像来生成所述环境的表征,其中,所述表征包括标识所述环境中的、具有特定特性的位置的环境地图,并且其中,生成所述表征包括对于每个时间步:在该时间步处获得所述环境的所述图像,其中,所述图像是由在所述环境中移动的代理捕获的图像,使用神经网络处理所述图像以生成针对该时间步的所述环境的第一初始表征,获得针对该时间步之前的先前时间步的所述环境的最终表征,获得所述代理在该先前时间步和该时间步之间的移动量度,处理针对该先前时间步的所述环境的表征以生成针对该时间步的所述环境的第二初始表征,包括将可微分的扭曲函数应用于针对该先前时间步的所述环境的最终表征和所述移动量度以生成所述第二初始表征;以及组合所述第一初始表征和所述第二初始表征以生成针对该时间步的所述环境的最终表征。

【技术特征摘要】
【国外来华专利技术】2017.02.09 US 62/456,9451.一种系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被执行时使得所述一个或多个计算机实现:绘图子系统,所述绘图子系统被配置为在多个时间步中的每个时间步处根据该时间步处的环境的图像来生成所述环境的表征,其中,所述表征包括标识所述环境中的、具有特定特性的位置的环境地图,并且其中,生成所述表征包括对于每个时间步:在该时间步处获得所述环境的所述图像,其中,所述图像是由在所述环境中移动的代理捕获的图像,使用神经网络处理所述图像以生成针对该时间步的所述环境的第一初始表征,获得针对该时间步之前的先前时间步的所述环境的最终表征,获得所述代理在该先前时间步和该时间步之间的移动量度,处理针对该先前时间步的所述环境的表征以生成针对该时间步的所述环境的第二初始表征,包括将可微分的扭曲函数应用于针对该先前时间步的所述环境的最终表征和所述移动量度以生成所述第二初始表征;以及组合所述第一初始表征和所述第二初始表征以生成针对该时间步的所述环境的最终表征。2.根据权利要求1所述的系统,其中,所述扭曲函数是使用双线性采样执行插值的函数。3.根据权利要求1至2中的任一项所述的系统,其中:所述图像是来自所述代理的第一人称自我中心视角,以及所述第一初始表征、所述第二初始表征、针对该先前时间步的最终表征以及针对该时间步的最终表征是来自俯视视角。4.根据权利要求1至3中的任一项所述的系统,其中,组合所述第一初始表征和所述第二初始表征以生成针对该时间步的最终表征包括:将更新函数应用于所述第一初始表征和所述第二初始表征以生成所述最终表征。5.根据权利要求4所述的系统,其中:每个表征包括:(i)表示所述环境中的多个位置是否具有所述特定特性的分值集合,以及(ii)对于所述分值集合的置信度量度集合,所述更新函数包括执行以下等式的运算:ct=ct-1+c′t其中,ft是针对该时间步的所述最终表征的分值集合,ct是对于针对该时间步的所述最终表征的分值集合的置信度量度集合,ft'是所述第一初始表征的分值集合,ct'是对于所述第一初始表征的分值集合的置信度量度集合,ft-1是所述第二初始表征的分值集合,以及ct-1是对于所述第二初始表征的分值集合的置信度量度集合。6.根据权利要求4所述的系统,其中,所述更新函数是由循环神经网络执行的,并且其中,所述循环神经网络被配置为:对于所述多个时间步中的每个时间步,处理针对该时间步的所述第一初始表征和所述第二初始表征以生成针对该时间步的所述最终表征。7.根据权利要求1至6中的任一项所述的系统,其中,对于所述环境中的所述多个位置中的每个位置,针对时间步的环境地图包括:表示该位置是否具有所述特定特性的分值,并且对于所述位置中的每个位置所述表征还包括:对于该位置的分值的置信度量度。8.根据权利要求1至7中的任一项所述的系统,还包括:规划子系统,所述规划子系统被配置为对于所述多个时间步中的每个时间步:从所述绘图子系统获得针对该时间步的所述最终表征,以及处理所述最终表征以选择要由在该时间步处与所述环境交互的代理执行的所建议的行动。9.根据权利要求8所述的系统,其中,所述代理正在执行行动以实现目标,并且其中,处理所述最终特征以选择针对该时间步的所建议的行动包括:根据针对该时间步的所述最终表征生成空间扩缩的环境地图的序列,其中,所述序列中的每个空间扩缩的环境地图是相对于所述序列中的任何后续空间扩缩的环境地图下采样的;以及对于所述序列中的每个空间扩缩的环境地图,从最大下采样的空间扩缩的环境地图开始:处理该空间扩缩的环境地图和与该空间扩缩的环境地图相关联...

【专利技术属性】
技术研发人员:拉胡尔·苏克坦卡尔绍拉伯·古普塔詹姆斯·克里斯托弗·戴维森谢尔盖·弗拉迪米尔·莱文吉滕德拉·马利克
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1