一种基于路段安全级别DQN的车辆无人驾驶方法技术

技术编号:38424530 阅读:36 留言:0更新日期:2023-08-07 11:23
本发明专利技术公开了一种基于路段安全级别DQN的车辆无人驾驶方法,包括:1、建立基于DQN的车辆控制行为神经网络和目标神经网络;2、初始化各参数;3、将状态s

【技术实现步骤摘要】
一种基于路段安全级别DQN的车辆无人驾驶方法


[0001]本专利技术属于车辆无人驾驶
,具体涉及一种基于路段安全级别DQN的车辆无人驾驶方法。

技术介绍

[0002]随着自动驾驶技术的发展,自动驾驶车辆已经能在某些特定路段上达到试商业运行的水平,但是要达到安全驾驶L4和L5的级别,能够适应多样的驾驶环境,在全程驾驶过程中不需要辅助驾驶人员,对车速不加以限制等要求,在驾驶安全方面还需要大力增强。特别是对于交通情况复杂,容易造成交通事故安全的路段,比如十字路口和岔路口,以及行人和电动车较多的路段,以及遇到大拐弯,以及需要超车等需要复杂决策的场景,还需要训练出具有更高驾驶策略的无人驾驶智能体。同时在交通事故频发地段,可能先天的交通设计缺陷,无人驾驶智能体需要尝试和探索更多样的驾驶场景,以便尽早发现存在的问题,以便在后期训练阶段可以学习到如何避免触发相关的危险驾驶场景。
[0003]专利文献1:CN 110646009 A中提出了公开了一种基于DQN的车辆自动驾驶路径规划的方法,该专利技术设计奖励函数,使得自动行驶车辆沿着预设轨迹方向行驶本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于路段安全级别DQN的车辆无人驾驶方法,其特征在于,包括:S1、建立基于DQN算法的车辆控制行为神经网络和目标神经网络;所述车辆控制行为神经网络和目标神经网络的结构相同,输入为状态值,输出为在输入状态值下执行各种动作的Q值;所述行为神经网络和目标神经网络的状态空间为车辆自身状态和车辆周边路况信息构成的向量;所述车辆自身状态包括车辆自身的位置、速度、行驶方向;所述车辆周边路况信息包括车辆周边运动物体的状态和车辆周边静止物体的状态;所述车辆周边运动物体的状态包括车辆周边运动物体的位置、速度、运动方向;所述车辆周边静止物体的状态包括车辆周边静止物体的位置;所述行为神经网络和目标神经网络的动作空间为车辆转向角度、加速度、刹车强度组成的向量;S2、对行为神经网络的参数w进行随机初始化,将目标神经网络的参数θ初始化为w;初始化时间步t=0,采集车辆自身状态和车辆周边路况信息,建立初始状态值s
t
;初始化经验回放池为空;S3、将s
t
输入行为神经网络中,选择使Q(s
t
,a;w)取最大值的动作a
max
作为当前时间的最优动作,即:a
max
=argmax
a
Q(s
t
,a;w),其中Q(s
t
,a;w)表示行为神经网络在参数w下根据状态s
t
动作a输出的Q值;采用贪婪算法确定当前车辆的驾驶动作a
t
:以预设概率ε选择动作a
max
作为所述车辆的驾驶动作a
t
,以1

ε作为概率在预设动作集中随机选取一个动作作为所述车辆的驾驶动作a
t
;S4、执行动作a
t
并计算奖励r
t
和状态s
t+1
;将E
t
=(s
t
,a
t
,r
t
,s
t+1

t
)作为当前转移样本存储于经验回放池中;λ
t
为车辆当前位置的路段安全级别;根据λ
t
计算所述转移样本E
t
的回放优先级q
t
;如果mod(t,K)为0,执行步骤S5

S7;否则,令t加一,根据当前车辆自身状态和车辆周边路况信息更新s
t
,跳转至步骤S3;K为预设的回放训练周期;S5、计算当前经验回放池中每个转移样本的归一化回放优先级:α为非均匀采样强度,α≥0;N为经验回放池中当前转移样本的总数;q
τ
为经验回放池中第τ个样本的回放优先级;S6、对经验回放池中的转移样本进行非均匀采样,每个转移样本被选中的概率为该转移样本的归一化回放优先级;根据选中的转移样本计算损失函数,并通过最小化损失函数训练行为神经网络的参数w;S7、如果mod(t,C)为0,使用行为神经网络的参数w更新目标神经网络的参数θ;mod为取余运算,C为预设的参数更新周期;令t加一,根据当前车辆自身状态和车辆周边路况信息更新s
t
,跳转至步骤S3继续下一时间步的训练,直至行为神经网络收敛;所述行为神经网络收敛是指,从经验回放池中随机采集[N/R]个转移样本计算的损失函数值收敛于预设的误差阈值;R≥1,[]为取整函数;
S8、车辆采用无人驾驶模式行驶时,根据车辆自身状态和车辆周边路况信息构建车辆的实时状态值,将所述实时状态值输入训练好的目标神经网络中,选择使目标神经网络输出Q值取最大值的动作,作为车辆的驾驶动作,执行该驾驶动作;重复本步骤,直至车辆到达目的地。2.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述车辆自身状态和车辆周边路况信息采用车用无线通信技术V2X来获取。3.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述车辆自身状态和车辆周边路况信息采用计算机视觉技术来获取。4.根据权利要求1所述的车辆无人驾驶方法,其特征在于,所述奖励r
t
的计算为:判断车辆执行a

【专利技术属性】
技术研发人员:龚如宾游坤张曌肖芳雄
申请(专利权)人:金陵科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1