System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度强化学习的自动驾驶决策方法技术_技高网
当前位置: 首页 > 专利查询>东南大学专利>正文

基于深度强化学习的自动驾驶决策方法技术

技术编号:40586135 阅读:3 留言:0更新日期:2024-03-12 21:45
本发明专利技术涉及一种基于深度强化学习的自动驾驶决策方法,包括如下步骤:S1、构造适合自动驾驶中跟驰决策和换道决策训练环境的马尔可夫决策过程;S2、通过深度Q网络和深度确定性策略梯度的聚合算法分别训练特定智能体的跟驰决策和换道决策。本发明专利技术有利于提高交通效率、增强交通安全性以及改善行驶的舒适性。

【技术实现步骤摘要】

本专利技术涉及一种基于深度强化学习的自动驾驶决策方法,属于智慧交通领域。


技术介绍

1、随着自动驾驶(ad)技术的崛起,配备先进传感器和人工智能算法的自动驾驶车辆(avs)能够在没有人类驾驶员的情况下智能地执行驾驶行为决策。与人类驾驶员相比,avs能够降低劳动成本和燃料消耗,并避免由于人为因素导致的交通事故。然而,avs的决策制定是一项亟待突破的关键技术。avs的驾驶性能受到决策模块的影响,主要包括跟驰决策(加速和制动)和变道决策(直行与转向)。传统的监督学习方法在处理决策过程的序列性问题时表现不佳,强化学习(rl)作为一种交互式学习方法,近年来在ad领域表现出了卓越的性能。此外,深度强化学习(drl)的发展使得处理复杂任务的特征提取和表征问题变得可行。


技术实现思路

1、本专利技术旨在提供一种基于深度强化学习的自动驾驶决策方法,以解决avs在决策制定中的关键问题。该方法的方法的状态空间为avs提供了多尺度感知,而动作空间则使得车辆可在驾驶的全过程中进行决策控制。通过设计包括效率、安全和舒适性的奖励机制和深度确定性策略梯度(ddpg)算法,本专利技术实现了车道变换和车辆跟驰行为的学习,从而使avs能够在复杂交通环境下做出高效、安全和舒适的决策。该决策方法有利于自动驾驶提高运行效率、缓解交通拥堵的同时保障了交通安全、并节省能源消耗。本专利技术的应用为智能自动驾驶技术的发展提供了一种新的有效途径,有利于智慧交通服务的建设发展与实施落地。

2、为解决上述技术问题,本专利技术提供了一种基于深度强化学习的自动驾驶决策方法,包括如下步骤:

3、s1、构造适合自动驾驶中跟驰决策和换道决策训练环境的马尔可夫决策过程;

4、s2、通过深度q网络和深度确定性策略梯度的聚合算法分别训练特定智能体的跟驰决策和换道决策。

5、步骤s1需要针对特定自动驾驶方法构造合适环境,包括如下步骤:

6、s11、构建动作空间,

7、s12、构建状态空间,智能体状态

8、s13、设置奖励函数,r(t)=ζcrc(t)+ζere(t)+ζsrs(t) (3);其包括舒适性高效性re(t)=-|vagent-vdesired|、安全性三种指标的加权。

9、步骤s2通过不同算法的结合,训练所需的,包括如下步骤:

10、s21、初始化ddpg算法的critic网络q(s,acf|θq)和actor网络μ(s|θμ),dqn算法的动作价值函数q(s,alc|w),重放内存target网络参数θq′←θq、θμ′←θμ,在训练的每个迭代步j∈{1,2,...,nepisode}中,进行步骤s22;

11、s22、在每个训练集中,首先随机选择动作acf和alc,获得初始状态s1={τ1,τ2,...,τk};此后进行步骤s23至s25;

12、s23、使用策略并与环境交互获得回报alc;

13、s24、记录环境信息,获取下一状态st+1,存储于经验池

14、s25、随机从中采样获取两种动作的基于当前critic的期望回报,即若为中止状态,则yi=ri,zi=ri,否则zi=ri+γq′(si+1,μ′(si+1|θμ′)|θq′);

15、s26、根据已知信息分别更新critic网络、actor网络和target网络参数,即θq′←τθq+(1-τ)θq′,θμ′←τθμ+(1-τ)θμ′;

16、s27、不断迭代,直至训练结束。

17、s1中,将自动驾驶决策问题建模为马尔可夫决策过程(s,a,p,r,γ),其中包括过程1-设置动作空间、过程2-设置状态空间、过程3-设置奖励函数三个过程。

18、针对过程1,考虑智能体需要完成的驾驶决策,动作空间被划分为acf和alc。acf指的是跟驰决策,即车辆跟驰前车的行为,其体现在车辆的加速与减速,为一连续性变量。alc指的是车辆换道决策,即是否选择更换当前行驶的车道,它是离散的,包括三个动作0、1和2。其中,“0-left”表示车辆驶入左侧车道,“1-keep”表示车辆保持在当前车道,“2-right”表示车辆驶入右侧车道。具体可用以下公式表示:

19、

20、针对过程2,考虑环境状态和智能体状态两个状态的构建。自动驾驶的决策,主要受到自己与周围6辆车之间相互作用的影响,这也是传感器感知的重要内容。其中包括前车l,后车f,左方车道的后车lf,左方车道的前车ll,右方车道的后车rf和右方车道的前车rl。

21、状态空间由自动驾驶车辆及其周围6辆车的22个连续状态变量组成。一方面,描述智能体车辆的四个状态变量包括纵向位置xlon,横向位置xlat,当前加速度和当前速度vagent。另一方面,在状态空间中还考虑了其他6辆车的速度、加速度以及与智能体车辆之间的横向距离。例如,左方车道的后车lf的状态空间包括alf,vlf和dlf。对周围车辆的判断阈值为车辆制动距离(最高取10m)。

22、综上所述,状态空间可由以下公式表示:

23、

24、针对过程3,奖励函数是对特定状态下选择行为质量的度量。设计合适的奖励是训练自动驾驶汽车驾驶行为最重要的工具。本专利技术设计了一个受多因素影响的奖励函数,使方法达到预期效果,保证车辆的驾驶策略接近现实。综合考虑驾驶自动驾驶汽车的安全性、效率和舒适性。

25、首先,考虑舒适性的奖励函数可表示为α和β为相关权重系数,alc是换道动作,acf为跟驰动作。这种类型的奖励是为了避免突然加速和减速给乘客带来的不适。

26、其次,将车辆更快速、更安全地运送到目的地是avs的重要优势。因此,效率是另一个重要的评价标准。考虑效率的奖励函数可表示为re(t)=-|vagent-vdesired|。vagent是智能体的当前速度,vdesired为期望速度,默认值为道路限速。奖励函数允许车辆在满足限速值的前提下立即到达目的地。

27、最后,确保自动驾驶汽车的安全至关重要;要实现这一目标,需要设计良好的奖励功能。奖励功能应考虑避免与其他车辆或障碍物碰撞以及遵守速度限制等因素。考虑安全的奖励函数表示为如果车辆发生碰撞,则会提供大量的负面奖励。

28、综上所述,整体奖励可以表示为以上三种奖励的综合,即r(t)=ζcrc(t)+ζere(t)+ζsrs(t)。智能体车辆的目标和任务是在最短的时间内(即以最大平均速度)到达目的地,同时遵守道路限速,避免与其他车辆发生碰撞。在训练过程中,参数可以根据用户需求进行调整。例如,如果用户优先考虑效率,那么与效率相关的奖励比例就会增加。本专利技术提出的自动驾驶汽车的驾驶策略有望比人类驾驶员的驾驶策略更加稳定和合理。

29、s2中,实现了过程1-通过dqn与ddpg算法设计解决思路、过程2-通过ac架构定制融合算法实现智能体训练。

30、针对过程1,通过dqn与ddpg算法设计本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的自动驾驶决策方法,其特征在于,包括如下步骤:

2.如权利要求1所述的方法,其特征在于,步骤S1需要针对特定自动驾驶方法构造合适环境,包括如下步骤:

3.如权利要求1所述的方法,其特征在于,步骤S2通过不同算法的结合,训练所需的,包括如下步骤:

4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现如权利要求1~3中任一项所述的基于深度强化学习的自动驾驶决策方法中的步骤。

5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~3中任一项所述的基于深度强化学习的自动驾驶决策方法方法中的步骤。

【技术特征摘要】

1.一种基于深度强化学习的自动驾驶决策方法,其特征在于,包括如下步骤:

2.如权利要求1所述的方法,其特征在于,步骤s1需要针对特定自动驾驶方法构造合适环境,包括如下步骤:

3.如权利要求1所述的方法,其特征在于,步骤s2通过不同算法的结合,训练所需的,包括如下步骤:

4.一种计算机可读存储介质,其上存储...

【专利技术属性】
技术研发人员:刘呈其刘少韦华张玉杰金忠富史云阳徐渝汉冯时刘志远
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1