基于类人特征的自动驾驶强化学习决策与规划方法及系统技术方案

技术编号:39567607 阅读:6 留言:0更新日期:2023-12-03 19:18
本发明专利技术中公开一种基于类人特征的自动驾驶强化学习决策与规划方法及系统,所述决策与规划方法通过分析交通参与者的驾驶风格来确定和量化当前情况下适合自主车辆的驾驶风格;通过

【技术实现步骤摘要】
基于类人特征的自动驾驶强化学习决策与规划方法及系统


[0001]本专利技术涉及强化学习和运动规划
,具体涉及基于类人特征的自动驾驶强化学习决策与规划方法及系统


技术介绍

[0002]生成安全高效的类人轨迹始终是自动驾驶决策和规划的主要研究课题之一,尤其是在无明确规则的强交互场景中,如连续超车

无保护左转和无信号灯的十字路口等

自动驾驶车辆需要考虑交通场景的不确定性和交互性,保证自身安全并尽可能的提高通行效率,同时大众也期望自动驾驶车辆可以像人类一样权衡不同驾驶任务的需求权重

[0003]而目前常见的自动驾驶规划方法主要有两类:基于启发式先验规则的方法和基于学习的方法

基于先验规则的方法有清晰的可解释性和稳定的安全性,但需要手动设计大量参数,面对多变的不确定性场景,难以构造通用的启发式规则库,行为过于保守

基于学习的方法,如深度学习或强化学习,从数据或环境中挖掘复杂甚至崭新的知识,减少了规则的手工需求,提高模型的泛化性,但此类方法存在着“黑盒”问题,可解释性太低

基于对这些局限性的分析,有越来越多的工作尝试将两者相结合,在规则模型的限制范围内,使用强化学习从与环境的交互中学习更安全的操作

但尽管将规则和学习相结合的方法通常在某些具有挑战性的单特征场景中有着良好的表现,一成不变的驾驶风格难以平衡多种驾驶任务的综合需求,在应对其他交通参与者时也难以表现出类人的驾驶特性


技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提供一个新颖的自适应社会兼容分层行为与运动规划方法,在无明确规则的强交互场景中,学习类人灵活的行为决策,生成可行可靠的运动轨迹
,
为结构化的多场景决策规划问题提供了解决思路,本专利技术结合基于强化学习的行为规划器和基于采样的轨迹规划器,考虑道路可行性生成灵活有效的动作策略,同时由轨迹规划器确保决策的安全性,尽可能大程度的实现优势互补

在此基础上,构建了更上层的自适应社会兼容模块以帮助行为规划层自适应的调整奖励函数,同时使运动规划层生成带有风格特色的运动轨迹,达到实时调整安全性和高效性权重的目的

[0005]根据自动驾驶规划任务的特点,提出了多项改进

本专利技术是在分层行为规划和运动规划框架
(HBMP)
下完成的,设计自适应社会兼容模块指导行为与运动规划模拟人类的驾驶方式,行为规划部分使用了强化学习方法选择最优动作策略,而运动规划部分则采用了状态采样方法保证框架的安全性

[0006]为了实现上述目的,本专利技术采用的技术方案是:基于类人特征的自动驾驶强化学习决策与规划方法,过程如下:
[0007]通过分析交通参与者的驾驶风格来确定和量化当前情况下适合自主车辆的驾驶风格;
[0008]通过
A2C
算法训练自主车辆的行为策略,即直行车道保持
/
跟随

左换道和右换道;
[0009]遵从所述驾驶风格和行为决策,以路径速度解耦的方式生成类人安全的轨迹

[0010]进一步的,所述从周围交通参与者运动信息中,分析交通参与者的驾驶风格,包括:
[0011]构建
VAE+RNN
网络,将周围交通参与者的历史轨迹编码为潜在驾驶特征,将收集的历史轨迹旋转对齐,基于
VAE+RNN
网络专注于学习历史轨迹中潜在的驾驶风格特征,得到其他交通参与者驾驶风格;
[0012]根据周围车辆到自主车辆的距离,预测轨迹是否具有有效交点作为周围车辆驾驶风格
s
i
的权重
W
i
,计算自主车辆应选择的驾驶风格
s
AV
,若周边车辆加权平均潜在驾驶风格为保守,自主车辆则选择“激进”,具体计算如下:
[0013][0014]s

{0,1,2}
分别对应“激进”、“温和”和“保守”驾驶风格,
s
i
≠1

n
为周围交通参与者数量,
W∈[0,n]为驾驶风格的权重

[0015]进一步的,通过分析交通参与者的驾驶风格时,使用嵌套哈希表收集周围车辆的实时运动信息,所述实时运动信息包括
Frenet
坐标系下纵向距离

纵向加速度

与前车的距离与速度差值,以及与期望速度的比值

[0016]进一步的,通过
A2C
算法训练自主车辆的行为策略时,状态空间包含的特征主要有社会兼容风格策略

自主车辆特征

周围交通参与者特征和道路信息特征,奖励函数通过社会兼容风格策略自适应的调整行为决策,基于观察到的状态和风格特征作为奖励结构输出决策,所述决策包含车道保持

左变道行为和右变道

[0017]进一步的,奖励函数包括:
(1)
碰撞惩罚:碰撞的定义包括与其他交通参与者的碰撞和与非可行车道的碰撞两种,当发生碰撞时,给予代理最大的代价并结束本轮训练;
(2)
换道惩罚:会有两种情况导致换道,跟随全局引导换道是无需惩罚的被动换道,为了获得更少惩罚采取的换道是需要依据风格制定惩罚的主动换道,以此避免车辆无意义的频繁换道,
(3)
低速惩罚:总是希望自主车辆的速度在理想情况下达到期望速度,使用当前速度与期望速度的差值构成低速惩罚,推动车辆尽可能的提高行驶速度

[0018]进一步的,采用状态采样方法在
Frenet
坐标系中生成候选路径集;
[0019]同时考虑横向偏移

碰撞约束

最大曲率

当前车速和驾驶风格从候选路径集中选择最佳路径;
[0020]基于最佳路径生成速度曲线,生成速度曲线时考虑加速度和急动限制

车道速度限制

车辆运动学特征,

障碍物及其轨迹预测的信息和社会兼容的驾驶风格

[0021]进一步的,基于最佳路径生成速度曲线时,设车辆加速度在速度和加速度限制的边界内是恒定的,通过组合障碍物信息和驾驶风格来确定期望的加速度,以生成适当的速度分布;
[0022]具体包括:评估不同加速度下车辆和障碍物的预测占用面积,以确定确保安全距离的临界加速度值,评估基于对交通参与者行为的合理预测以及通过不同驾驶方式对安全距离的控制,得到获取可行的加速度区间交集;
[0023]按照所述驾驶风格和行为策略,考虑当前车辆状态

运动约束和舒适性,从可行加
速度区间中选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于类人特征的自动驾驶强化学习决策与规划方法,其特征在于,过程如下:通过分析交通参与者的驾驶风格来确定和量化当前情况下适合自主车辆的驾驶风格;通过
A2C
算法训练自主车辆的行为策略,即直行车道保持
/
跟随

左换道和右换道;遵从所述驾驶风格和行为决策,以路径速度解耦的方式生成类人安全的轨迹
。2.
根据权利要求1所述的基于类人特征的自动驾驶强化学习决策与规划方法,其特征在于,所述从周围交通参与者运动信息中,分析交通参与者的驾驶风格,包括:构建
VAE+RNN
网络,将周围交通参与者的历史轨迹编码为潜在驾驶特征,将收集的历史轨迹旋转对齐,基于
VAE+RNN
网络专注于学习历史轨迹中潜在的驾驶风格特征,得到其他交通参与者驾驶风格;根据周围车辆到自主车辆的距离,预测轨迹是否具有有效交点作为周围车辆驾驶风格
s
i
的权重
W
i
,计算自主车辆应选择的驾驶风格
s
AV
,若周边车辆加权平均潜在驾驶风格为保守,自主车辆则选择“激进”,具体计算如下:
s

{0,1,2}
分别对应“激进”、“温和”和“保守”驾驶风格,
s
i
≠1

n
为周围交通参与者数量,
W∈[0,n]
为驾驶风格的权重
。3.
根据权利要求1所述的基于类人特征的自动驾驶强化学习决策与规划方法,其特征在于,通过分析交通参与者的驾驶风格时,使用嵌套哈希表收集周围车辆的实时运动信息,所述实时运动信息包括
Frenet
坐标系下纵向距离

纵向加速度

与前车的距离与速度差值,以及与期望速度的比值
。4.
根据权利要求1所述的基于类人特征的自动驾驶强化学习决策与规划方法,其特征在于,通过
A2C
算法训练自主车辆的行为策略时,状态空间包含的特征主要有社会兼容风格策略

自主车辆特征

周围交通参与者特征和道路信息特征,奖励函数通过社会兼容风格策略自适应的调整行为决策,基于观察到的状态和风格特征作为奖励结构输出决策,所述决策包含车道保持

左变道行为和右变道
。5.
根据权利要求4所述的基于类人特征的自动驾驶强化学习决策与规划方法,其特征在于,奖励函数包括:
(1)
碰撞惩罚:碰撞的定义包括与其他交通参与者的碰撞和与非可行车道的碰撞两种,当发生碰撞时,给予代理最大的代价并结束本轮训练;
(...

【专利技术属性】
技术研发人员:陈仕韬宗紫琪史佳敏王润生郑南宁
申请(专利权)人:宁波市舜安人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1