机器人导航和对象跟踪制造技术

技术编号:25409273 阅读:24 留言:0更新日期:2020-08-25 23:11
一种跟踪对象和导航对象跟踪机器人的系统和方法,包括:多次接收代表所述对象和环境的跟踪传感器输入;响应于所述跟踪传感器输入,多次计算所述机器人和所述对象的位置;使用被训练为跟踪质量奖励和机器人导航路径质量奖励的函数的由计算机实现的深度强化学习(deep reinforcement learning,简称DRL)网络,所述DRL网络多次响应于计算出的所述机器人和所述对象的位置以根据所述机器人的当前位置和目标,确定规定所述对象跟踪机器人的运动的可能动作;确定所述可能动作的质量值(quality value,简称Q‑value);选择一个动作作为所述质量值的函数。训练所述DRL网络的方法也包括在内。

【技术实现步骤摘要】
【国外来华专利技术】机器人导航和对象跟踪相关申请案交叉申请本申请要求于2018年1月12号递交的专利技术名称为“机器人导航和对象跟踪”的第15/870,626号美国非临时专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文。
本专利技术涉及机器人导航和对象跟踪。
技术介绍
对于家庭服务机器人而言,跟踪运动的对象是一项重要的功能。例如,机器人可跟随主人以提供必要的辅助,或机器人可出于家庭安全原因跟随可疑人员。几十年来,在该领域,人们一直在积极研究对视频中对象的跟踪,例如,跟踪监控视频中的车辆来进行交通监控,或跟踪监控视频中的人来进行安全监控。在这些先前的研究中,所用的摄像机或位置固定,或被动式移动。也就是说,摄像机运动并非由对象跟踪方法所控。例如,在监控视频中,摄像机通常是固定的,视频中出现的摄像机运动大多是来自各种原因所致的摄像机晃动。家庭服务机器人跟踪运动对象与上述视频中的对象跟踪任务大相径庭。所述机器人是运动的平台,需要在动态的环境中进行导航。即,除跟踪目标对象外,所述机器人还能自主决定:如何移动以跟踪所述运动对象;同时,如何在已知或未知环境中进行导航;以及,如何在所述环境中避开其他障碍物(例如其他运动或静止的对象)。即时定位与地图构建(simultaneouslocalizationandmapping,简称SLAM)技术使得机器人能在已知或未知的环境中进行导航。通过SLAM技术,所述机器人建立并维持已知或未知环境的2D/3D地图,同时,在所述建立的环境地图中定位自身(判断自身的位置)。其他技术,例如强化学习(reinforcementlearning,简称RL),也被用于帮助机器人在预先建立的环境地图中进行导航和躲避障碍物。所述地图中存在动态的小型变化组件,例如静态障碍物或运动障碍物。
技术实现思路
现描述各种示例从而以简化的形式引入概念的选择,这些概念将在下面进行进一步的细致描述。本
技术实现思路
的目的不在于识别权利要求书保护的主题的关键或必要特征,也不在于限制权利要求书保护的主题的范围。根据本专利技术的一方面,一种跟踪对象和导航对象跟踪机器人的方法包括:多次接收代表所述对象和环境的跟踪传感器输入;响应于所述跟踪传感器输入,多次计算所述机器人和所述对象的位置;使用被训练为跟踪质量奖励和机器人导航路径质量奖励的函数的由计算机实现的深度强化学习(deepreinforcementlearning,简称DRL)网络,所述DRL网络多次响应于计算出的所述机器人和所述对象的位置以根据所述机器人的当前位置和目标,确定规定所述对象跟踪机器人的运动的可能动作;确定所述可能动作的质量值(qualityvalue,简称Q-value);选择一个动作作为所述Q值的函数。可选地,在上述任意一方面中,所述方面的另一实现方式包括所述跟踪质量奖励函数是所述观察到的对象的大小除以所述对象的大小和所述对象跟踪机器人与所述对象之间的距离的函数。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述跟踪质量奖励rk依据以下等式计算:其中,Size(object)和Size(observed)就像素数量而言分别是所述对象的大小和所述对象实际被观察到的部分的大小,Ctx和Cty分别为输入感应帧It中理想的横向位置和纵向位置,Ltx和Lty均为归一化因子,xt0和yt0是所述对象的位置,Dist是到所述对象的距离测量结果。可选地,在上述任意一方面中,所述方面的另一实现方式包括:将所述机器人导航路径质量奖励rp定义为所述对象与所述机器人之间的最短有效距离的函数。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述DRL网络还被训练为可遍历性质量奖励rv的函数,针对规定所述对象跟踪机器人的运动的可能动作的集合。可选地,在上述任意一方面中,所述方面的另一实现方式包括:将所述可遍历性质量奖励rv定义为所述对象跟踪机器人与潜在障碍物之间的平均距离的函数。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述机器人和对象位于地图表示的所述环境中,所述可遍历性质量奖励其中Dist是所述机器人和障碍物之间的距离测量结果,Tm∈Ω是地图上点的集合,表示障碍物或墙的表面,且在到Tt+1的距离阈值内。可选地,在上述任意一方面中,所述方面的另一实现方式包括:加权所述质量奖励。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述感应输入包括RGB图像帧像素,所述方法还包括通过将过去时间窗口中的多个输入感应图像帧的像素堆叠在一起以创建感应输入,所述DRL网络使用所述感应输入来估计奖励并确定动作。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述DRL网络包括遗忘因子,以加权长期奖励与短期奖励。根据本专利技术的一方面,一种训练深度强化学习(deepreinforcementlearning,简称DRL)网络以在环境中跟踪对象和导航机器人的方法包括:多次接收代表所述对象和所述环境的跟踪传感器输入;响应于所述跟踪传感器输入,多次计算所述机器人和所述对象的位置;多次计算跟踪质量奖励,作为维持持续对象跟踪的函数;计算导航路径质量奖励,作为有效导航路径的函数;通过移动机器人的多个动作,训练响应于所述跟踪质量奖励和所述导航路径质量奖励的DRL网络。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述跟踪质量奖励函数是所述观察到的对象的大小除以所述对象的大小和所述机器人到所述对象之间的距离的函数。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述DRL网络还响应于:针对规定所述对象跟踪机器人的运动的可能动作集合,估计可遍历性质量奖励rv;通过所述DRL网络确定所述动作,所述DRL网络也被训练为所述可遍历性质量奖励rv的函数。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述机器人和对象位于地图表示的所述环境中,所述可遍历性质量奖励其中Dist是所述机器人和障碍物之间的距离测量结果,Tm∈Ω是地图上点的集合,表示障碍物或墙的表面,且在到Tt+1的距离阈值内。可选地,在上述任意一方面中,所述方面的另一实现方式包括:所述感应输入包括RGB图像帧像素,所述方法还包括通过将过去时间窗口中的多个输入感应图像帧的像素堆叠在一起以创建感应输入,所述DRL网络使用所述感应输入来估计奖励并确定动作。可选地,在上述任意一方面中,所述方面的另一实现方式包括:计算目标损失;将所述DRL网络更新为所述目标损失的函数。根据本专利技术的一方面,一种用于跟踪对象和导航对象跟踪机器人的系统包括:内存存储器,包括指令;与所述内存通信的处理器,其中,所述处理器执行所述指令以:多次获取代表所述对象和环境的跟踪传感器输入;响应于所述跟踪传感器输入,多次计算所述机器人和所述对象的位置;使用被训练为对象跟踪质量奖励和机器人导航路径质量奖励的函数的深度强化学习(deepreinforcementlearning,简称DRL)网络以:多本文档来自技高网
...

【技术保护点】
1.一种跟踪对象和导航对象跟踪机器人的方法,其特征在于,所述方法包括:/n多次接收代表所述对象和环境的跟踪传感器输入;/n响应于所述跟踪传感器输入,多次计算所述机器人和所述对象的位置;/n使用被训练为跟踪质量奖励和机器人导航路径质量奖励的函数的由计算机实现的深度强化学习(deep reinforcement learning,简称DRL)网络,所述DRL网络多次响应于计算出的所述机器人和所述对象的位置以:/n根据所述机器人和目标的当前位置,确定规定所述对象跟踪机器人的运动的可能动作;/n确定所述可能动作的质量值(quality value,简称Q-value);/n选择一个动作作为所述质量值的函数。/n

【技术特征摘要】
【国外来华专利技术】20180112 US 15/870,6261.一种跟踪对象和导航对象跟踪机器人的方法,其特征在于,所述方法包括:
多次接收代表所述对象和环境的跟踪传感器输入;
响应于所述跟踪传感器输入,多次计算所述机器人和所述对象的位置;
使用被训练为跟踪质量奖励和机器人导航路径质量奖励的函数的由计算机实现的深度强化学习(deepreinforcementlearning,简称DRL)网络,所述DRL网络多次响应于计算出的所述机器人和所述对象的位置以:
根据所述机器人和目标的当前位置,确定规定所述对象跟踪机器人的运动的可能动作;
确定所述可能动作的质量值(qualityvalue,简称Q-value);
选择一个动作作为所述质量值的函数。


2.根据权利要求1所述的方法,其特征在于,所述跟踪质量奖励函数是所述观察到的对象的大小除以所述对象的大小和所述对象跟踪机器人到所述对象之间的距离的函数。


3.根据权利要求1至2中任一项所述的方法,其特征在于,所述跟踪质量奖励rk依据以下等式计算:



其中,Size(object)和Size(observed)就像素数量而言分别是所述对象的大小和所述对象实际被观察到的部分的大小,Ctx和Cty分别为输入感应帧It中理想的横向位置和纵向位置,Ltx和Lty均为归一化因子,xt0和yt0是所述对象的位置,Dist是到所述对象的距离测量结果。


4.根据权利要求1至3中任一项所述的方法,其特征在于,将所述机器人导航路径质量奖励rp定义为所述对象与所述机器人之间的最短有效距离的函数。


5.根据权利要求1至4中任一项所述的方法,其特征在于,所述DRL网络还被训练为可遍历性质量奖励rv的函数,针对规定所述对象跟踪机器人的运动的可能动作的集合。


6.根据权利要求1至5中任一项所述的方法,其特征在于,将所述可遍历性质量奖励rv定义为所述对象跟踪机器人与潜在障碍物之间的平均距离的函数。


7.根据权利要求1至6中任一项所述的方法,其特征在于,所述机器人和对象位于由地图表示的所述环境中,所述可遍历性质量奖励其中Dist是所述机器人和障碍物之间的距离测量结果,Tm∈Ω是地图上点的集合,表示障碍物或墙的表面,且在到Tt+1的距离阈值内。


8.根据权利要求1至7中任一项所述的方法,其特征在于,加权所述质量奖励。


9.根据权利要求1至8中任一项所述的方法,其特征在于,所述传感输入包括RGB图像帧像素,所述方法还包括:
通过将过去时间窗口中的多个输入感应图像帧的像素堆叠在一起以创建感应输入,所述DRL网络使用所述感应输入来估计奖励并确定动作。


10.根据权利要求1至9中任一项所述的方法,其特征在于,所述DRL网络包括遗忘因子,以加权长期奖励与短期奖励。


11...

【专利技术属性】
技术研发人员:蒋伟王炜
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1