一种基于自适应课程残差分层强化学习轨迹规划方法及系统技术方案

技术编号：39730401 阅读：8 留言：0更新日期：2023-12-17 23:34

本发明专利技术公开了一种基于自适应课程残差分层强化学习轨迹规划方法及系统，所述方法利用模糊逻辑集成自动驾驶车辆的空间位置和动态特性；将基于规则的方法与深度强化学习相结合形成

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应课程残差分层强化学习轨迹规划方法及系统

[0001]本专利技术属于自动驾驶行为规划领域，具体涉及一种基于自适应课程残差分层强化学习轨迹规划方法及系统
。

技术介绍

[0002]近年来，人们对能够在不确定和动态的复杂城市交通环境中高效规划的自动驾驶车辆越来越感兴趣
。
尽管目前基于规则的规划系统在
DARPA
竞赛等特定驾驶场景中已经非常成熟，但由于交通场景的多样性和不确定性，很难创建全面覆盖所有动态交通场景的规则库，自动驾驶车辆仍然被批评过于保守
。
相比之下，基于学习的方法，如深度学习或强化学习，从数据或环境中挖掘复杂甚至崭新的知识，减少了规则的手工需求，提高模型的性能，在自动驾驶领域具有广阔的应用前景
。
[0003]基于马尔科夫决策模型
(MDP)
的端到端深度强化学习
(E2E
‑
DRL)
，使自动驾驶车辆在与环境交互过程中通过优化策略来最大化回报或实现特定目标，对不确定和未知的动态场景表现出更好的泛化性
。
但对于具有多个子目标的复杂驾驶任务，
E2E
‑
DRL
使用单个网络充当自动驾驶系统中的整个规划策略，直接从感知模块直接输出连续性的低维控制命令，如：方向盘转角和油门
/
踏板等
。
这种直接生成控制动作的方法往往是不可靠的，很难保障安全性和舒适性
。
且较难捕捉作为中间计

【技术保护点】

【技术特征摘要】
1.
一种基于自适应课程残差分层强化学习轨迹规划方法，其特征在于，包括以下步骤：利用模糊逻辑集成自动驾驶车辆的空间位置和动态特性；将基于规则的方法与深度强化学习相结合形成
CR
‑
HRL
决策框架，将自动驾驶车辆的空间位置和动态特性输入
CR
‑
HRL
决策框架，根据训练过程自适应地调整基于规则和深度强化学习的输出比例，输出高层行为决策结果和目标速度；根据高层行为决策结果和目标速度生成安全舒适的规划轨迹
。2.
根据权利要求1所述的一种基于自适应课程残差分层强化学习轨迹规划方法，其特征在于，利用模糊逻辑将自动驾驶车辆的空间位置和动态特性时，从环境中解析交通规则
、
周围交通参与者和道路状况信息，构建引入周围车辆模糊速度和变形位姿的栅格地图，将交通规则
、
道路状况信息使用向量统一表示
。3.
根据权利要求1所述的一种基于自适应课程残差分层强化学习轨迹规划方法，其特征在于，采用基于
Double Actor
‑
Critic
框架的
PPO
算法训练高层行为决策和目标速度规划策略，高层行为者网络的输出换道决策，底层行为者网络输出目标速度，批评者网络的输出为状态值，高层和底层行为者网络的结构为：
Mt
分支由3个卷积层和3个全连接层组成，
Rt
分支只有一个全连接层；将
Mt
分支和
Rt
分支的输出连接并传输到最终的全连接层，最后一个输出层使用
Softmax
；批评者网络为去除高层和底层行为者网络架构最后一个输出层
。4.
根据权利要求1所述的一种基于自适应课程残差分层强化学习轨迹规划方法，其特征在于，采用渐进式课程学习方法，分三阶段训练
CR
‑
HRL
决策框架，第一阶段为
ACC
自适应巡航，第二阶段为换道，第三阶段为超车
。5.
根据权利要求4所述的一种基于自适应课程残差分层强化学习轨迹规划方法及系统，其特征在于，第一阶段，随机初始化智能体的残差策略，在单车道场景中，通过最大化安全奖励函数来训练所述残差策略，实现定速巡航和安全距离保持时停止训练；换道策略中发生换道错误，给予惩罚；第二阶段，在多车道场景中，加载第一阶段完成的
ACC
预训练策略，并通过添加额外的周围交通参与者重新配置交通环境，通过最大化换道奖励函数来训练本阶段的换道策略；第三阶段，加入超车奖励函数，保证最终训练策略可以避免碰撞，在必要时完成超车，返回原车道
。6.
根据权利要求5所述的一种基于自适应课程残差分层强化学习轨迹规划方法，其特征在于，在第三阶段训练过程中，底层目标速度策略中考虑了乘客舒适性，当加速度变化出现抖...

【专利技术属性】
技术研发人员：陈仕韬，史佳敏，宗紫琪，沈艳晴，严宇宸，邱卓，常恩滔，辛景民，郑南宁，
申请(专利权)人：宁波市舜安人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人