【技术实现步骤摘要】
一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法
[0001]本专利技术属于人工智能中的自动驾驶领域,涉及一种基于深度强化学习的自动驾驶商用车紧急转向控制(AES)策略网络模型、训练方法、建模方法及仿真方法。
技术介绍
[0002]汽车已经成为当今世界不可或缺的交通工具,但车辆带来机动性的同时,也会带来风险。随着人工智能和汽车技术的快速发展,人们期望自动驾驶汽车能够承担驾驶员更多的负担和压力,从而提高安全性。当前,具有固定路线的商用车自动驾驶具有落地部署的可行性,但由于商用车体积大,重量大,驾驶员视野盲区大等特点,在紧急避让前方障碍物时容易出现失稳、翻车等问题,引发严重交通事故。所以如何解决商用车在紧急避障时易侧翻的问题成为了一个重要的课题。
[0003]当前基于模型的控制算法(如MPC)的计算量非常大,当MPC试图优化每个控制周期的控制行为的成本函数时,庞大的计算量会导致较长的决策时间,这是不安全的。同时,在Carla模拟器中进行仿真时,商用车不具有特殊的动力学特性,使仿真效果不具很强的说服力。在原有的Carla仿真环境的基础上,如何构建具备商用车体积大,重心高等动力学特性的模型,是一个亟待解决的问题。
技术实现思路
[0004]针对上述问题,本专利技术将提出一种基于深度强化学习的商用车自动紧急转向控制方案。虽然深度强化学习(DRL)的训练计算量也比较大,但推理过程的权重较轻,与其他方法相比,可以在短时间内计划复杂的动作。本专利技术采用了多任务划分的强化学习方法,对决 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种自动驾驶商用车紧急转向控制策略网络模型,其特征在于,策略网络π
θ
(z,p)包括卷积特征提取网络和全连接网络两部分,其中z为策略网络的输入状态量,包括时序鸟瞰图矩阵和自车的当前位置;p为策略网络的输出,即商用车的导航点p=(x
i
,y
i
);θ为网络的权重和偏置参数;所述策略网络具体包括一层卷积层和三层全连接层,所述的卷积层Conv1由大小为2*2的卷积核组成,卷积核的个数为9*32,步长stride=1,激活函数为ReLU;所述的第一层全连接为全连接层FC1和全连接层FC1
‑
σ,全连接层FC1处理展平后的卷积层Conv1输出结果,大小为2*2*9*32,激活函数为ReLU;全连接层FC1
‑
σ输出为自车过去几个时刻的历史轨迹信息,大小为1024*1,激活函数为ReLU;所述的第二全连接为全连接层FC2,处理全连接层FC1和全连接层FC1
‑
σ的拼接状态量,大小为4096*1,激活函数为ReLU;所述的第三层全连接为全连接层FC3,处理全连接层FC2输出的状态量,大小为1024*1,激活函数为Tanh,最终全连接层FC3输出状态特征z。2.根据权利要求1所述的自动驾驶商用车紧急转向控制策略网络模型,其特征在于,所述策略网络的状态量为三维时序鸟瞰图;所述的三维时序鸟瞰图矩阵的尺寸为(40,400,80),其中第一维40表示参考线左右各10m的横向范围,横向位移间隔为0.5m;第二维400表示以自车为原点向前纵向200m的范围,纵向位移间隔为0.5m,第三维80表示未来8s内的时间范围,时间间隔为1s,当时序鸟瞰图矩阵中的点[α,β,γ]为
‑
1,表示该点在时空间中存在障碍物或为不可行驶区域,当时序鸟瞰图矩阵中的点[α,β,γ]为0,表示该点在时空间中为可行驶区域,当时序鸟瞰图矩阵中的点[α,β,γ]]为1,表示该点为参考线的一个点。3.根据权利要求1所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,包括横向控制训练;具体如下:以所导航点的坐标(x
i
,y
i
)、航向偏差和控制车辆的车速v、加速度为状态量:s
lane_keep
为智能体进行车道保持训练时所获得的状态量;动作为方向盘转角a
steer
∈[
‑
1,1],此部分的奖励函数的设计以车辆当前坐标的横向误差x0和航向角偏差作为评价指标:λ1、λ2为奖励函数两部分所占权重;如果自动驾驶车辆在进行训练的过程中当前位置的横向偏差大于设定的最大横向偏差阈值x
0m
则结束当前回合的迭代训练进行下一回合的训练。4.根据权利要求3所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,还包括纵向控制训练,具体如下:纵向轨迹跟踪控制任务以当前车辆的车速v、加速度前方车辆的车速v
l
、加速度与前车的距离d和当前车辆的期望车速v
des
为状态量:s
acc
为智能体进行纵向跟车控制训练时所获得的状态量;智能体的输出动作a
acc
∈[
‑
1,1],包括油门动作a
throttle
和刹车动作a
brake
:
针对纵向控制任务,奖励函数设计为:其中,d为与前车的实时距离,d
des
为与前车的期望距离,d
safe
为与前车的安全距离,当智能车与前方车辆的距离小于安全距离,奖励为
‑
100,同时停止当前的交互开始下一回合交互,在进行纵向训练时,每回合都随机给定前方车辆的车速v
l
和当前车辆的期望车速v
des
,以便训练的模型可以泛化到更多复杂的情况。5.根据权利要求3或4所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,还包括决策行为训练;所述决策行为包括紧急制动和紧急转向,当a
decision
为0时,决策模块选择紧急制动;当a
decision
为1时,决策模块选择向右进行紧急转向。6.根据权利要求5所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,所述决策行为为紧急制动避障时,采用可变高斯安全场对决策的奖励函数进行设计,在障碍物处于扩展域之外时,车辆采取制动措施可以制动,在障碍物位于扩展域时,车辆采取转向转向变道措施,当障碍物处于核心域和限制域时,将大概率碰撞,奖励函数设计如下:其中,d
lon,min
、d
lon,mid
、d
lon,max
分别为可别高斯安全场核心域、限制域、扩展域的纵向安全距离,l
v
是车辆模型的长度,w
v
是车辆模型的宽度,l
′
v
是车辆运动时车辆模型的长度,w
′
v
是车辆运动时车辆模型的宽度;其中:式中,是车辆运动的速度矢量,k
v
是调节因子,且有0<k
v
<1或
‑
1<k
v
<0,其符号与运动的前后方向相对应,ξ是车辆的横摆转角。7.根据权利要求6所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,所述可变高斯安全场是将静态的车辆抽象为长方形,其长为l
v
技术研发人员:蔡英凤,朱子轩,陈龙,方啸,陆文杰,王海,董钊志,孙晓强,
申请(专利权)人:江苏大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。