自动行驶设备的路口运动规划方法、装置、电子设备制造方法及图纸

技术编号：28621523 阅读：16 留言：0更新日期：2021-05-28 16:17

本申请公开了一种自动行驶设备的路口运动规划方法，属于自动控制技术领域，有助于节省运动规划时的计算资源消耗。本申请实施例公开的路口运动规划方法包括：获取包括自动行驶设备的状态数据和所述自动行驶设备周边障碍物的状态数据的实时的联合状态；确定联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；响应于联合状态匹配的预定义事件为所述可控事件，通过预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；基于得到的动作向量对自动行驶设备进行运动规划，能够节省对进行路口运动规划时的计算资源消耗，提升自动行驶设备进行路口运动规划的效率。

全部详细技术资料下载

【技术实现步骤摘要】
自动行驶设备的路口运动规划方法、装置、电子设备
本申请实施例涉及自动控制
，特别是涉及一种自动行驶设备的路口运动规划方法、装置、电子设备及计算机可读存储介质。
技术介绍
运动规划模块是自动行驶系统中的核心技术模块。运动规划模块根据感知定位模块获取到的信息，对自动行驶设备的运动方向、速度等进行控制，规划出一条满足安全、舒适，以及满足车辆动力学约束的高效运动路径。现有技术中的运动规划模块的一种实现方式是：利用深度学习方法来得到采集的环境图像的高层语义信息，并利用强化学习的方法来完成从环境的端到端的实时场景的路径规划。现有技术中的运动规划方案在模型训练过程中，学习过程缓慢，模型不易收敛。并且，在运动规划过程中对采集的环境图像进行处理时，需要从图像中提取大量特征，对于自动行驶设备决策路运动状态的场景，其中包含了很多冗余状态，浪费了自动行驶设备的计算资源。综上，需要提供一种高效的自动行驶设备的路口运动规划方法。
技术实现思路
本申请实施例提供一种自动行驶设备的路口运动规划方法，有助于节省对进行路口运动规划时的计算资源消耗。第一方面，本申请实施例提供了一种自动行驶设备的路口运动规划方法，包括：获取实时的联合状态，其中，所述联合状态数据包括：自动行驶设备的状态数据和/或所述自动行驶设备周边障碍物的状态数据；确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习...

【技术保护点】
1.一种自动行驶设备的路口运动规划方法，其特征在于，包括：/n获取实时的联合状态，其中，所述联合状态数据包括：自动行驶设备的状态数据和/或所述自动行驶设备周边障碍物的状态数据；/n确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；/n响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；/n基于所述动作向量对所述自动行驶设备进行运动规划。/n

【技术特征摘要】
1.一种自动行驶设备的路口运动规划方法，其特征在于，包括：
获取实时的联合状态，其中，所述联合状态数据包括：自动行驶设备的状态数据和/或所述自动行驶设备周边障碍物的状态数据；
确定所述联合状态匹配的预定义事件，其中，所述预定义事件包括：指示需要采取行动的可控事件；
响应于所述联合状态匹配的预定义事件为所述可控事件，通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理，得到与所述联合状态匹配的动作向量；
基于所述动作向量对所述自动行驶设备进行运动规划。

2.根据权利要求1所述的方法，其特征在于，所述通过所预先训练的强化学习网络对所述联合状态进行事件空间到动作空间的映射处理的步骤之前，还包括:
获取预定义事件的输入状态集合和输出动作集合；
构建基于事件的优化模型；其中，所述优化模型包括：状态事件映射模块和决策模块，所述状态事件映射模块用于确定所述输入状态对应的预定义事件，所述决策模块为基于马尔科夫决策过程的强化学习网络，所述马尔科夫决策过程的模型要素中:状态空间要素为所述输入状态集合；动作空间要素为自动行驶设备的动作空间；奖励为对自动行驶设备到目的地的距离、距标准轨迹的偏差、当前行驶速度、与障碍物的距离中的一项或多项状态关联数据的调整；回报为累计折扣奖励；策略为针对当前状态执行相应动作后到达新的状态；
基于所述输入状态集合和所述输出动作集合，训练强化学习网络，求解一组使得全局回报最大化的策略；其中，使得全局回报最大化的策略表征了所述可控事件对应的输入状态到输出动作的映射关系。

3.根据权利要求2所述的方法，其特征在于，所述训练所述强化学习网络的步骤，包括：
对于所述输入状态集合中的每个输入状态，通过执行所述状态事件映射模块确定所述输入状态匹配的所述预定义事件；
响应于所述联合状态匹配的预定义事件为所述可控事件，通过所述强化学习网络将所述输入状态映射为下一时刻的动作；
根据所述下一时刻的动作与所述输出动作集合中所述输入状态对应的输出动作，计算即时奖励，并以根据各所述即时奖励计算得到全局回报最大化为目标，优化所述策略。

4.根据权利要求1所述的方法，其特征在于，所述确定所述联合状态匹配的预定义事件的步骤，包括：
根据所述联合状态中自动行驶设备的位置和速度，以及障碍物的位置和速度，确定所述自动行驶设备是否到达邻近所述障碍物指定距离的区域范围；
响应于所述自动行驶设备到达邻近所述障碍物指定距离的区域范围，确定所述联合状态匹配所述可控事件。

5.根据权利要求4所述的方法，其特征在于，所述预定义事件还包括：指示需要继续观察的可观事件，所述可观事件包括边界类型的可观事件和碰撞类型的可观事件，所述根据所述联合状态中自动行驶设备的位置和速度，以及障碍物的位置和速度，确定所述自动行驶设备是否到达邻近所述障碍物指定距离的区域范围的步骤之...

【专利技术属性】
技术研发人员：白钰，金昕泽，贾庆山，任冬淳，
申请(专利权)人：北京三快在线科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人