一种基于自适应课程残差分层强化学习轨迹规划方法及系统技术方案

技术编号:39730401 阅读:8 留言:0更新日期:2023-12-17 23:34
本发明专利技术公开了一种基于自适应课程残差分层强化学习轨迹规划方法及系统,所述方法利用模糊逻辑集成自动驾驶车辆的空间位置和动态特性;将基于规则的方法与深度强化学习相结合形成

【技术实现步骤摘要】
一种基于自适应课程残差分层强化学习轨迹规划方法及系统


[0001]本专利技术属于自动驾驶行为规划领域,具体涉及一种基于自适应课程残差分层强化学习轨迹规划方法及系统


技术介绍

[0002]近年来,人们对能够在不确定和动态的复杂城市交通环境中高效规划的自动驾驶车辆越来越感兴趣

尽管目前基于规则的规划系统在
DARPA
竞赛等特定驾驶场景中已经非常成熟,但由于交通场景的多样性和不确定性,很难创建全面覆盖所有动态交通场景的规则库,自动驾驶车辆仍然被批评过于保守

相比之下,基于学习的方法,如深度学习或强化学习,从数据或环境中挖掘复杂甚至崭新的知识,减少了规则的手工需求,提高模型的性能,在自动驾驶领域具有广阔的应用前景

[0003]基于马尔科夫决策模型
(MDP)
的端到端深度强化学习
(E2E

DRL)
,使自动驾驶车辆在与环境交互过程中通过优化策略来最大化回报或实现特定目标,对不确定和未知的动态场景表现出更好的泛化性

但对于具有多个子目标的复杂驾驶任务,
E2E

DRL
使用单个网络充当自动驾驶系统中的整个规划策略,直接从感知模块直接输出连续性的低维控制命令,如:方向盘转角和油门
/
踏板等

这种直接生成控制动作的方法往往是不可靠的,很难保障安全性和舒适性

且较难捕捉作为中间计划者的行为决策,很有可能使得网络学会有限的战术决策,如路径跟踪,缺乏明确的可解释性

[0004]分层强化学习
(HRL)
方法通常将复杂的自动驾驶任务分解为若干个易于解决的子问题

引入分层强化学习,将驾驶任务定义为行为规划和运动规划,使自动驾驶车辆针对不同交通场景做出行为规划,如:换道时,向左

向右或直行,然后由运动规划根据决策结果规划最优路径,两者协调响应适用于多个交通场景

虽然
HRL
提高了系统可解释性和子策略在多个任务间的复用性

但由于其状态空间的庞大性和动作空间的多样性,往往需要更多的优秀动作序列来训练模型,这大大降低了学习速率

为此,本专利技术开发了一个基于深度剩余
RL(DRRL)
的新框架,该框架结合了安全规划算法和
RL
的优点

在该框架中使用安全规划方法不仅加速了训练的稳定性,将智能体引导到具有平均高回报的安全区域,限制了策略搜索空间,避免了不希望出现的行为


技术实现思路

[0005]为了解决现有技术中存在的问题,本专利技术提出一种基于自适应课程残差分层强化学习轨迹规划方法及系统,提供用于动态城市交通场景的自适应课程残差分层强化学习策略框架,将驾驶任务定义为高层行为决策和底层速度规划,然后由
Frenet
最优轨迹生成器根据决策结果和目标速度生成安全舒适的规划轨迹

[0006]为了实现上述目的,本专利技术采用的技术方案是:一种基于自适应课程残差分层强化学习轨迹规划方法及系统,包括以下步骤:
[0007]利用模糊逻辑集成自动驾驶车辆的空间位置和动态特性;
[0008]将基于规则的方法与深度强化学习相结合形成
CR

HRL
决策框架,将自动驾驶车辆的空间位置和动态特性输入
CR

HRL
决策框架,根据训练过程自适应地调整基于规则和深度强化学习的输出比例,输出高层行为决策结果和目标速度;
[0009]根据高层行为决策结果和目标速度生成安全舒适的规划轨迹

[0010]进一步的,利用模糊逻辑将自动驾驶车辆的空间位置和动态特性时,从环境中解析交通规则

周围交通参与者和道路状况信息,构建引入周围车辆模糊速度和变形位姿的栅格地图,将交通规则

道路状况信息使用向量统一表示

[0011]进一步的,采用基于
Double Actor

Critic
框架的
PPO
算法训练高层行为决策和目标速度规划策略,高层行为者网络的输出换道决策,底层行为者网络输出目标速度,批评者网络的输出为状态值,高层和底层行为者网络的结构为:
Mt
分支由3个卷积层和3个全连接层组成,
Rt
分支只有一个全连接层;将
Mt
分支和
Rt
分支的输出连接并传输到最终的全连接层,最后一个输出层使用
Softmax
;批评者网络为去除高层和底层行为者网络架构最后一个输出层

[0012]进一步的,采用渐进式课程学习方法,分三阶段训练
CR

HRL
决策框架,第一阶段为
ACC
自适应巡航,第二阶段为换道,第三阶段为超车

[0013]进一步的,第一阶段,随机初始化智能体的残差策略,在单车道场景中,通过最大化安全奖励函数来训练所述残差策略,实现定速巡航和安全距离保持时停止训练;换道策略中发生换道错误,给予惩罚;
[0014]第二阶段,在多车道场景中,加载第一阶段完成的
ACC
预训练策略,并通过添加额外的周围交通参与者重新配置交通环境,通过最大化换道奖励函数来训练本阶段的换道策略;
[0015]第三阶段,加入超车奖励函数,保证最终训练策略可以避免碰撞,在必要时完成超车,返回原车道

[0016]进一步的,在第三阶段训练过程中,底层目标速度策略中考虑了乘客舒适性,当加速度变化出现抖动,给予不平滑惩罚:
[0017][0018]最终的奖励函数为:
[0019][0020][0021]为安全奖励函数,为变道奖励函数,为超车奖励函数,权重参数
w
change_lane
、w
safe
、w
overtake
、w
eff
以及
w
acc
随着课程学习阶段性进展改变

[0022]进一步的,
CR

HRL
决策框架的输入状态
s
t
包括残差强化学习策略的观测值和基于规则的策略的观测值两部分;基于规则的观测值
[0023][0024]其中,
v
f
为前车速度,
v
r
为后车速度,
v
max
为最大车速,
a
max
为最大加速度,
d
max
为最大减速度,
L
...

【技术保护点】

【技术特征摘要】
1.
一种基于自适应课程残差分层强化学习轨迹规划方法,其特征在于,包括以下步骤:利用模糊逻辑集成自动驾驶车辆的空间位置和动态特性;将基于规则的方法与深度强化学习相结合形成
CR

HRL
决策框架,将自动驾驶车辆的空间位置和动态特性输入
CR

HRL
决策框架,根据训练过程自适应地调整基于规则和深度强化学习的输出比例,输出高层行为决策结果和目标速度;根据高层行为决策结果和目标速度生成安全舒适的规划轨迹
。2.
根据权利要求1所述的一种基于自适应课程残差分层强化学习轨迹规划方法,其特征在于,利用模糊逻辑将自动驾驶车辆的空间位置和动态特性时,从环境中解析交通规则

周围交通参与者和道路状况信息,构建引入周围车辆模糊速度和变形位姿的栅格地图,将交通规则

道路状况信息使用向量统一表示
。3.
根据权利要求1所述的一种基于自适应课程残差分层强化学习轨迹规划方法,其特征在于,采用基于
Double Actor

Critic
框架的
PPO
算法训练高层行为决策和目标速度规划策略,高层行为者网络的输出换道决策,底层行为者网络输出目标速度,批评者网络的输出为状态值,高层和底层行为者网络的结构为:
Mt
分支由3个卷积层和3个全连接层组成,
Rt
分支只有一个全连接层;将
Mt
分支和
Rt
分支的输出连接并传输到最终的全连接层,最后一个输出层使用
Softmax
;批评者网络为去除高层和底层行为者网络架构最后一个输出层
。4.
根据权利要求1所述的一种基于自适应课程残差分层强化学习轨迹规划方法,其特征在于,采用渐进式课程学习方法,分三阶段训练
CR

HRL
决策框架,第一阶段为
ACC
自适应巡航,第二阶段为换道,第三阶段为超车
。5.
根据权利要求4所述的一种基于自适应课程残差分层强化学习轨迹规划方法及系统,其特征在于,第一阶段,随机初始化智能体的残差策略,在单车道场景中,通过最大化安全奖励函数来训练所述残差策略,实现定速巡航和安全距离保持时停止训练;换道策略中发生换道错误,给予惩罚;第二阶段,在多车道场景中,加载第一阶段完成的
ACC
预训练策略,并通过添加额外的周围交通参与者重新配置交通环境,通过最大化换道奖励函数来训练本阶段的换道策略;第三阶段,加入超车奖励函数,保证最终训练策略可以避免碰撞,在必要时完成超车,返回原车道
。6.
根据权利要求5所述的一种基于自适应课程残差分层强化学习轨迹规划方法,其特征在于,在第三阶段训练过程中,底层目标速度策略中考虑了乘客舒适性,当加速度变化出现抖...

【专利技术属性】
技术研发人员:陈仕韬史佳敏宗紫琪沈艳晴严宇宸邱卓常恩滔辛景民郑南宁
申请(专利权)人:宁波市舜安人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1