自动行驶设备的路口运动规划方法、装置、电子设备制造方法及图纸

技术编号:28621523 阅读:16 留言:0更新日期:2021-05-28 16:17
本申请公开了一种自动行驶设备的路口运动规划方法,属于自动控制技术领域,有助于节省运动规划时的计算资源消耗。本申请实施例公开的路口运动规划方法包括:获取包括自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据的实时的联合状态;确定联合状态匹配的预定义事件,其中,所述预定义事件包括:指示需要采取行动的可控事件;响应于联合状态匹配的预定义事件为所述可控事件,通过预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理,得到与所述联合状态匹配的动作向量;基于得到的动作向量对自动行驶设备进行运动规划,能够节省对进行路口运动规划时的计算资源消耗,提升自动行驶设备进行路口运动规划的效率。

【技术实现步骤摘要】
自动行驶设备的路口运动规划方法、装置、电子设备
本申请实施例涉及自动控制
,特别是涉及一种自动行驶设备的路口运动规划方法、装置、电子设备及计算机可读存储介质。
技术介绍
运动规划模块是自动行驶系统中的核心技术模块。运动规划模块根据感知定位模块获取到的信息,对自动行驶设备的运动方向、速度等进行控制,规划出一条满足安全、舒适,以及满足车辆动力学约束的高效运动路径。现有技术中的运动规划模块的一种实现方式是:利用深度学习方法来得到采集的环境图像的高层语义信息,并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。现有技术中的运动规划方案在模型训练过程中,学习过程缓慢,模型不易收敛。并且,在运动规划过程中对采集的环境图像进行处理时,需要从图像中提取大量特征,对于自动行驶设备决策路运动状态的场景,其中包含了很多冗余状态,浪费了自动行驶设备的计算资源。综上,需要提供一种高效的自动行驶设备的路口运动规划方法。
技术实现思路
本申请实施例提供一种自动行驶设备的路口运动规划方法,有助于节省对进行路口运动规划时的计算资源消耗。第一方面,本申请实施例提供了一种自动行驶设备的路口运动规划方法,包括:获取实时的联合状态,其中,所述联合状态数据包括:自动行驶设备的状态数据和/或所述自动行驶设备周边障碍物的状态数据;确定所述联合状态匹配的预定义事件,其中,所述预定义事件包括:指示需要采取行动的可控事件;响应于所述联合状态匹配的预定义事件为所述可控事件,通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理,得到与所述联合状态匹配的动作向量;基于所述动作向量对所述自动行驶设备进行运动规划。第二方面,本申请实施例提供了一种自动行驶设备的路口运动规划装置,包括:实时联合状态获取单元,用于获取实时的联合状态,其中,所述联合状态数据包括:自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据;事件确定单元,用于确定所述联合状态匹配的预定义事件,其中,所述预定义事件包括:指示需要采取行动的可控事件;可控事件决策单元,用于响应于所述联合状态匹配的预定义事件为所述可控事件,通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理,得到与所述联合状态匹配的动作向量;第一运动规划单元,用于基于所述动作向量对所述自动行驶设备进行运动规划。第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的自动行驶设备的路口运动规划方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的自动行驶设备的路口运动规划方法的步骤。本申请实施例公开的自动行驶设备的路口运动规划方法,通过获取实时的联合状态,其中,所述联合状态数据包括:自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据;确定所述联合状态匹配的预定义事件,其中,所述预定义事件包括:指示需要采取行动的可控事件;响应于所述联合状态匹配的预定义事件为所述可控事件,通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理,得到与所述联合状态匹配的动作向量;基于所述动作向量对所述自动行驶设备进行运动规划,有助于节省对进行路口运动规划时的计算资源消耗,提升自动行驶设备进行路口运动规划的效率。上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。附图说明为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1是本申请实施例一的自动行驶设备的路口运动规划方法流程图;图2是本申请实施例一中的路口场景示意图;图3是本申请实施例一的自动行驶设备的路口运动规划方法另一流程图;图4是本申请实施例二的自动行驶设备的路口运动规划装置结构示意图之一;图5是本申请实施例二的自动行驶设备的路口运动规划装置结构示意图之二;图6示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及图7示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一在运动规划任务中,需要同时考虑自动行驶设备以及周边障碍物的位置、速度、转向等运动状态信息。直接利用状态向量来描述自动行驶设备的运动状态维度较大,且随着场景复杂化,搜索解空间时会面临维数灾的问题。本申请实施例公开的路口运动规划旨在改进现有基于强化学习的运动规划方案,融合事件驱动优化方法至路口场景的决策问题。利用问题结构做状态聚集,以缓解搜索空间的维数灾,并减少不必要维度信息对学习结果的影响,从而提升路径规划的准确性。基于上述思路,在本申请的一些实施例中,需要采集实时状态,并转化为时间事件,之后,根据事件确定决策,即确定执行的动作。本申请实施例公开的一种自动行驶设备的路口运动规划方法,如图1所示,所述方法包括:步骤110至步骤140。步骤110,获取实时的联合状态,其中,所述联合状态包括:自动行驶设备的状态和/或所述自动行驶设备周边障碍物的状态。本申请实施例中所述的状态包括位置信息和速度信息,其中,所述位置信息包括位置坐标,所述速度信息包括速度的大小和方向信息。本申请的一些实施例中,所述速度信息可以通过速度向量表示。下文中,所述联合状态可以通过s=(s1,s2,…)表示,其中,s1,s2,…表示自动行驶设备和/或障碍物的状态,状态si可以表示为其中,xi,yi表示位置信息(如自动行驶设备在路口图像中的坐标),表示对应坐标方向的速度。本申请的一些实施例中,所述自动行驶设备例如可以包括:无人车、机器人等设置有信息采集装置和数据处理装置的设备。可以通过自动行驶设备的图像采集装置、定位装置、距离探测仪、加速度传感器等装置实时采集所述自动行驶设备所处路口的交通状态信息。其中,所述交通状态信息可以为图片、数据流等形式。之后,通过预设的数据处理模块对采集的交通状态信息进行数据处理,得到包括所述自动行驶设备的状态,以及,所述自动行驶设备附近的障碍物的状态。之后,根据本文档来自技高网...

【技术保护点】
1.一种自动行驶设备的路口运动规划方法,其特征在于,包括:/n获取实时的联合状态,其中,所述联合状态数据包括:自动行驶设备的状态数据和/或所述自动行驶设备周边障碍物的状态数据;/n确定所述联合状态匹配的预定义事件,其中,所述预定义事件包括:指示需要采取行动的可控事件;/n响应于所述联合状态匹配的预定义事件为所述可控事件,通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理,得到与所述联合状态匹配的动作向量;/n基于所述动作向量对所述自动行驶设备进行运动规划。/n

【技术特征摘要】
1.一种自动行驶设备的路口运动规划方法,其特征在于,包括:
获取实时的联合状态,其中,所述联合状态数据包括:自动行驶设备的状态数据和/或所述自动行驶设备周边障碍物的状态数据;
确定所述联合状态匹配的预定义事件,其中,所述预定义事件包括:指示需要采取行动的可控事件;
响应于所述联合状态匹配的预定义事件为所述可控事件,通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理,得到与所述联合状态匹配的动作向量;
基于所述动作向量对所述自动行驶设备进行运动规划。


2.根据权利要求1所述的方法,其特征在于,所述通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理的步骤之前,还包括:
获取预定义事件的输入状态集合和输出动作集合;
构建基于事件的优化模型;其中,所述优化模型包括:状态事件映射模块和决策模块,所述状态事件映射模块用于确定所述输入状态对应的预定义事件,所述决策模块为基于马尔科夫决策过程的强化学习网络,所述马尔科夫决策过程的模型要素中:状态空间要素为所述输入状态集合;动作空间要素为自动行驶设备的动作空间;奖励为对自动行驶设备到目的地的距离、距标准轨迹的偏差、当前行驶速度、与障碍物的距离中的一项或多项状态关联数据的调整;回报为累计折扣奖励;策略为针对当前状态执行相应动作后到达新的状态;
基于所述输入状态集合和所述输出动作集合,训练强化学习网络,求解一组使得全局回报最大化的策略;其中,使得全局回报最大化的策略表征了所述可控事件对应的输入状态到输出动作的映射关系。


3.根据权利要求2所述的方法,其特征在于,所述训练所述强化学习网络的步骤,包括:
对于所述输入状态集合中的每个输入状态,通过执行所述状态事件映射模块确定所述输入状态匹配的所述预定义事件;
响应于所述联合状态匹配的预定义事件为所述可控事件,通过所述强化学习网络将所述输入状态映射为下一时刻的动作;
根据所述下一时刻的动作与所述输出动作集合中所述输入状态对应的输出动作,计算即时奖励,并以根据各所述即时奖励计算得到全局回报最大化为目标,优化所述策略。


4.根据权利要求1所述的方法,其特征在于,所述确定所述联合状态匹配的预定义事件的步骤,包括:
根据所述联合状态中自动行驶设备的位置和速度,以及障碍物的位置和速度,确定所述自动行驶设备是否到达邻近所述障碍物指定距离的区域范围;
响应于所述自动行驶设备到达邻近所述障碍物指定距离的区域范围,确定所述联合状态匹配所述可控事件。


5.根据权利要求4所述的方法,其特征在于,所述预定义事件还包括:指示需要继续观察的可观事件,所述可观事件包括边界类型的可观事件和碰撞类型的可观事件,所述根据所述联合状态中自动行驶设备的位置和速度,以及障碍物的位置和速度,确定所述自动行驶设备是否到达邻近所述障碍物指定距离的区域范围的步骤之...

【专利技术属性】
技术研发人员:白钰金昕泽贾庆山任冬淳
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1