基于类人特征的自动驾驶强化学习决策与规划方法及系统技术方案

技术编号：39567607 阅读：6 留言：0更新日期：2023-12-03 19:18

本发明专利技术中公开一种基于类人特征的自动驾驶强化学习决策与规划方法及系统，所述决策与规划方法通过分析交通参与者的驾驶风格来确定和量化当前情况下适合自主车辆的驾驶风格；通过

全部详细技术资料下载

【技术实现步骤摘要】
基于类人特征的自动驾驶强化学习决策与规划方法及系统

[0001]本专利技术涉及强化学习和运动规划
，具体涉及基于类人特征的自动驾驶强化学习决策与规划方法及系统
。

技术介绍

[0002]生成安全高效的类人轨迹始终是自动驾驶决策和规划的主要研究课题之一，尤其是在无明确规则的强交互场景中，如连续超车
、
无保护左转和无信号灯的十字路口等
。
自动驾驶车辆需要考虑交通场景的不确定性和交互性，保证自身安全并尽可能的提高通行效率，同时大众也期望自动驾驶车辆可以像人类一样权衡不同驾驶任务的需求权重
。
[0003]而目前常见的自动驾驶规划方法主要有两类：基于启发式先验规则的方法和基于学习的方法
。
基于先验规则的方法有清晰的可解释性和稳定的安全性，但需要手动设计大量参数，面对多变的不确定性场景，难以构造通用的启发式规则库，行为过于保守
。
基于学习的方法，如深度学习或强化学习，从数据或环境中挖掘复杂甚至崭新的知识，减少了规则的手工需求，提高模型的泛化性，但此类方法存在着“黑盒”问题，可解释性太低
。
基于对这些局限性的分析，有越来越多的工作尝试将两者相结合，在规则模型的限制范围内，使用强化学习从与环境的交互中学习更安全的操作
。
但尽管将规则和学习相结合的方法通常在某些具有挑战性的单特征场景中有着良好的表现，一成不变的驾驶风格难以平衡多种驾驶任务的综合需求，在应对其他交通参与者时也难以表现出类人的驾驶特性...

【技术保护点】

【技术特征摘要】
1.
基于类人特征的自动驾驶强化学习决策与规划方法，其特征在于，过程如下：通过分析交通参与者的驾驶风格来确定和量化当前情况下适合自主车辆的驾驶风格；通过
A2C
算法训练自主车辆的行为策略，即直行车道保持
/
跟随
、
左换道和右换道；遵从所述驾驶风格和行为决策，以路径速度解耦的方式生成类人安全的轨迹
。2.
根据权利要求1所述的基于类人特征的自动驾驶强化学习决策与规划方法，其特征在于，所述从周围交通参与者运动信息中，分析交通参与者的驾驶风格，包括：构建
VAE+RNN
网络，将周围交通参与者的历史轨迹编码为潜在驾驶特征，将收集的历史轨迹旋转对齐，基于
VAE+RNN
网络专注于学习历史轨迹中潜在的驾驶风格特征，得到其他交通参与者驾驶风格；根据周围车辆到自主车辆的距离，预测轨迹是否具有有效交点作为周围车辆驾驶风格
s
i
的权重
W
i
，计算自主车辆应选择的驾驶风格
s
AV
，若周边车辆加权平均潜在驾驶风格为保守，自主车辆则选择“激进”，具体计算如下：
s
＝
{0,1,2}
分别对应“激进”、“温和”和“保守”驾驶风格，
s
i
≠1
，
n
为周围交通参与者数量，
W∈[0,n]
为驾驶风格的权重
。3.
根据权利要求1所述的基于类人特征的自动驾驶强化学习决策与规划方法，其特征在于，通过分析交通参与者的驾驶风格时，使用嵌套哈希表收集周围车辆的实时运动信息，所述实时运动信息包括
Frenet
坐标系下纵向距离
、
纵向加速度
、
与前车的距离与速度差值，以及与期望速度的比值
。4.
根据权利要求1所述的基于类人特征的自动驾驶强化学习决策与规划方法，其特征在于，通过
A2C
算法训练自主车辆的行为策略时，状态空间包含的特征主要有社会兼容风格策略
、
自主车辆特征
、
周围交通参与者特征和道路信息特征，奖励函数通过社会兼容风格策略自适应的调整行为决策，基于观察到的状态和风格特征作为奖励结构输出决策，所述决策包含车道保持
、
左变道行为和右变道
。5.
根据权利要求4所述的基于类人特征的自动驾驶强化学习决策与规划方法，其特征在于，奖励函数包括：
(1)
碰撞惩罚：碰撞的定义包括与其他交通参与者的碰撞和与非可行车道的碰撞两种，当发生碰撞时，给予代理最大的代价并结束本轮训练；
(...

【专利技术属性】
技术研发人员：陈仕韬，宗紫琪，史佳敏，王润生，郑南宁，
申请(专利权)人：宁波市舜安人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人