路径跟随方法、系统、电子设备和存储介质技术方案

技术编号:22363481 阅读:40 留言:0更新日期:2019-10-23 04:29
本发明专利技术提供一种路径跟随方法、系统、电子设备和存储介质,其中方法包括:根据栅格地图,获得起点栅格至终点栅格的规划路径和基于规划路径扩展得到的路径区域,获得路径区域内每个栅格规避障碍物的初始值;自起点栅格起遍历获得路径区域内每个栅格基于动作集合中每个动作ai的代价值,包括循环获得每个当前栅格sn基于每个动作ai的代价值Q(sn,ai)。以及,于当前栅格sn执行代价值Q(sn,ai)中最小代价值对应的动作。本发明专利技术通过在规划路径的允许误差范围内建立路径区域,并结合Q‑Learning算法对路径区域内每个栅格基于每个动作的代价值进行更新训练,从而能在训练完成后在每个栅格选择代价值最小的动作对规划路径进行跟随控制。

Path following methods, systems, electronic devices and storage media

【技术实现步骤摘要】
路径跟随方法、系统、电子设备和存储介质
本专利技术涉及无人驾驶
,具体地说,涉及一种路径跟随方法、系统、电子设备和存储介质。
技术介绍
在无人驾驶领域,例如无人车行驶的过程中,路径跟随的准确性决定了无人车能否安全准确地行驶。无论全局路径规划还是局部路径规划对路径的规划有多准确,如果无人车无法准确跟随所规划的路径,则无法做到对无人车的实时精确控制。在传统的路径跟随方法中比较经典的是PurePursuit控制,该方法通过对车辆当前位置和朝向以及目标位置和朝向的分析,建立车辆进行路径跟随的数学模型,实现对车辆路径跟随的控制。随着机器学习的发展,强化学习在路径跟随中的应用也逐渐广泛,现有的强化学习路径跟随方法是通过强化学习建立路径的平均曲率和车辆运动模式之间的映射关系,实现无人车的路径跟随功能。除了强化学习,深度学习通过对摄像头对当前车道线的识别,在一定程度上也实现了车道线的跟随功能。然而,上述传统方式实现路径跟随主要是建立车辆的数学模型,通过建立数学模型对车辆进行路径跟随控制对相关参数的调整要求严格,参数的好坏对路径的跟随效果有直接的影响。同时,路径的变化对参数的影响也很大,在路径为直线和路径为弯道,或者为弯曲程度不同的路径时,都需要不同的参数才能保证对路径有很好的跟随效果。因此,传统控制方式过于依赖调参,导致适应性通用性较差。而且,使用深度学习能够对车道线进行跟随,但对于没有车道线的路径跟随效果不理想,不能满足实际需求。而通过强化学习建立路径平均曲率和车辆动作模式之间关系的方式,在多数情况下能够满足需求,但无法适应平均曲率为零,实际为两个距离较近的弯道等情况,使车辆在上述情况下不能很好地进行路径跟随,甚至会出现较大的偏差,导致车辆发生碰撞。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
鉴此,本专利技术提供一种路径跟随方法、系统、电子设备和存储介质,解决现有技术中路径跟随依赖人工经验调参,及复杂路径下无法准确跟随的问题。根据本专利技术的一个方面,提供一种路径跟随方法,包括以下步骤:根据栅格地图,获得起点栅格至终点栅格的规划路径和基于规划路径扩展得到的路径区域,获得路径区域内每个栅格规避障碍物的初始值;自起点栅格起遍历获得路径区域内每个栅格基于动作集合中每个动作ai的代价值,包括:获得当前栅格sn执行每个动作ai能到达的下一栅格sn+1的初始值,作为当前栅格sn基于每个动作ai的当前收益Rn;获得每个下一栅格sn+1再执行每个动作ai能到达的再下一栅格sn+2的初始值中的最大值max(Q(sn+1,ai));根据当前收益Rn和最大值max(Q(sn+1,ai))获得当前栅格sn基于每个动作ai的代价值Q(sn,ai)。优选地,上述的路径跟随方法还包括步骤:于当前栅格sn执行代价值Q(sn,ai)中最小代价值对应的动作。优选地,上述的路径跟随方法中,获得代价值Q(sn,ai)的步骤中,根据当前收益Rn和当前栅格sn基于每个动作ai的未来收益Wn获得代价值Q(sn,ai),未来收益Wn=γ(max(Q(sn+1,ai))),γ为折扣因子,表示牺牲当前收益换取未来收益的程度,0<γ<1。优选地,上述的路径跟随方法中,获得代价值Q(sn,ai)的公式为:Q(sn,ai)=Rn+γ(max(Q(sn+1,ai)))。优选地,上述的路径跟随方法中,获得代价值Q(sn,ai)的步骤还包括:检测当前栅格sn是否位于所述路径区域内,若是则执行获得当前收益Rn的步骤,若否则自起点栅格起重新遍历。优选地,上述的路径跟随方法中,遍历获得路径区域内每个栅格基于每个动作ai的代价值的步骤还包括:实时检测经过的栅格位置,当经过的栅格位置超出路径区域,则自起点栅格起重新遍历。优选地,上述的路径跟随方法中,所述自起点栅格起遍历获得路径区域内每个栅格基于每个动作ai的代价值的步骤包括:自起点栅格起执行动作集合中的任一动作到达当前栅格sn;获得当前栅格sn基于每个动作ai的代价值Q(sn,ai);以及,将当前栅格sn作为起点栅格,遍历获得路径区域内每个栅格基于每个动作ai的代价值。优选地,上述的路径跟随方法中,按照预设频率执行动作集合中的每个动作ai。优选地,上述的路径跟随方法中,所述动作集合中包括j*k个动作,1≤i≤j*k,j为最小速度至最大速度的区间内j个不同的速度,k为最小角度至最大角度的区间内k个不同的角度。优选地,上述的路径跟随方法中,获得路径区域的步骤包括:根据代价地图获得栅格地图的自由移动区域,在自由移动区域中自规划路径向两侧扩展预设距离,生成位于规划路径的两侧与规划路径相平行的两条边界;以所述两条边界为障碍物,生成位于所述两条边界之间的路径区域,所述路径区域内每个栅格具有规避障碍物的初始值。根据本专利技术的另一个方面,提供一种路径跟随系统,包括:初始化模块,所述初始化模块根据栅格地图获得起点栅格至终点栅格的规划路径和基于规划路径扩展得到的路径区域,并获得路径区域内每个栅格规避障碍物的初始值;训练模块,所述训练模块自起点栅格起遍历获得路径区域内每个栅格基于动作集合中每个动作ai的代价值,包括:获得当前栅格sn执行每个动作ai能到达的下一栅格sn+1的初始值,作为当前栅格sn基于每个动作ai的当前收益Rn;获得每个下一栅格sn+1再执行每个动作ai能到达的再下一栅格sn+2的初始值中的最大值max(Q(sn+1,ai));根据当前收益Rn和最大值max(Q(sn+1,ai))获得当前栅格sn基于每个动作ai的代价值Q(sn,ai)。优选地,上述的路径跟随系统还包括:跟随控制模块,所述跟随控制模块于当前栅格sn执行代价值Q(sn,ai)中最小代价值对应的动作。根据本专利技术的一个方面,提供一种电子设备,包括处理器和存储器,存储器用于存储可执行指令,处理器配置为经由执行所述可执行指令来执行上述的路径跟随方法的步骤。根据本专利技术的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的路径跟随方法的步骤。采用上述技术方案,本专利技术与现有技术相比的有益效果在于:在规划路径允许误差范围内建立路径区域,以此为基础进行训练;基于Q-Learning算法对路径区域内每个栅格的代价值进行更新训练,从而能在训练完成后选择代价值最小的动作进行跟随控制。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出本专利技术实施例中一种路径跟随方法的步骤示意图;图2示出实施例中获得当前栅格基于每个动作的代价值的步骤示意图;图3示出实施例中遍历获得每个栅格基于每个动作的代价值的步骤示意图;图4示出本专利技术实施例中规划路径和路径区域的示意图;图5示出本专利技术实施例中一种路径跟随方法的详细流程图;图6示出本专利技术实施例中一种路径跟随系统的本文档来自技高网
...

【技术保护点】
1.一种路径跟随方法,其特征在于,包括以下步骤:根据栅格地图,获得起点栅格至终点栅格的规划路径和基于规划路径扩展得到的路径区域,获得路径区域内每个栅格规避障碍物的初始值;自起点栅格起遍历获得路径区域内每个栅格基于动作集合中每个动作ai的代价值,包括:获得当前栅格sn执行每个动作ai能到达的下一栅格sn+1的初始值,作为当前栅格sn基于每个动作ai的当前收益Rn;获得每个下一栅格sn+1再执行每个动作ai能到达的再下一栅格sn+2的初始值中的最大值max(Q(sn+1,ai));根据当前收益Rn和最大值max(Q(sn+1,ai))获得当前栅格sn基于每个动作ai的代价值Q(sn,ai)。

【技术特征摘要】
1.一种路径跟随方法,其特征在于,包括以下步骤:根据栅格地图,获得起点栅格至终点栅格的规划路径和基于规划路径扩展得到的路径区域,获得路径区域内每个栅格规避障碍物的初始值;自起点栅格起遍历获得路径区域内每个栅格基于动作集合中每个动作ai的代价值,包括:获得当前栅格sn执行每个动作ai能到达的下一栅格sn+1的初始值,作为当前栅格sn基于每个动作ai的当前收益Rn;获得每个下一栅格sn+1再执行每个动作ai能到达的再下一栅格sn+2的初始值中的最大值max(Q(sn+1,ai));根据当前收益Rn和最大值max(Q(sn+1,ai))获得当前栅格sn基于每个动作ai的代价值Q(sn,ai)。2.如权利要求1所述的路径跟随方法,其特征在于,还包括步骤:于当前栅格sn执行代价值Q(sn,ai)中最小代价值对应的动作。3.如权利要求1所述的路径跟随方法,其特征在于,获得代价值Q(sn,ai)的步骤中,根据当前收益Rn和当前栅格sn基于每个动作ai的未来收益Wn获得代价值Q(sn,ai),未来收益Wn=γ(max(Q(sn+1,ai))),γ为折扣因子,表示牺牲当前收益换取未来收益的程度,0<γ<1。4.如权利要求3所述的路径跟随方法,其特征在于,获得代价值Q(sn,ai)的公式为:Q(sn,ai)=Rn+γ(max(Q(sn+1,ai)))。5.如权利要求1所述的路径跟随方法,其特征在于,获得代价值Q(sn,ai)的步骤还包括:检测当前栅格sn是否位于所述路径区域内,若是则执行获得当前收益Rn的步骤,若否则自起点栅格起重新遍历。6.如权利要求1所述的路径跟随方法,其特征在于,遍历获得路径区域内每个栅格基于每个动作ai的代价值的步骤还包括:实时检测经过的栅格位置,当经过的栅格位置超出路径区域,则自起点栅格起重新遍历。7.如权利要求1所述的路径跟随方法,其特征在于,所述自起点栅格起遍历获得路径区域内每个栅格基于每个动作ai的代价值的步骤包括:自起点栅格起执行动作集合中的任一动作到达当前栅格sn;获得当前栅格sn基于每个动作ai的代价值Q(sn,ai);以...

【专利技术属性】
技术研发人员:高萌李雨倩刘懿李浩
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1