当前位置: 首页 > 专利查询>江苏大学专利>正文

一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法技术

技术编号:34629283 阅读:54 留言:0更新日期:2022-08-20 09:40
本发明专利技术公开了一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法,使用多任务划分的训练方法,同时结合可变高斯安全场模型以提高决策的安全性。使得在前方有障碍物,自身车辆又无法完成制动目标的情况下完成自动紧急转向,避免追尾或碰撞事故。本发明专利技术针对商用车的紧急制动转向问题,利用Matlab建模,并与Carla进行联合仿真的方法,解决了在无模型的强化学习中无法体现商用车重心高,易侧翻,质量大难制动等问题,保证了仿真实验的可靠性。本发明专利技术使用了多任务划分的强化学习方法,大大提高了训练效率。同时引入可变高斯安全场策略,保证了在决策和控制时,车辆控制具有较高的稳定性和避障安全性。辆控制具有较高的稳定性和避障安全性。辆控制具有较高的稳定性和避障安全性。

【技术实现步骤摘要】
一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法


[0001]本专利技术属于人工智能中的自动驾驶领域,涉及一种基于深度强化学习的自动驾驶商用车紧急转向控制(AES)策略网络模型、训练方法、建模方法及仿真方法。

技术介绍

[0002]汽车已经成为当今世界不可或缺的交通工具,但车辆带来机动性的同时,也会带来风险。随着人工智能和汽车技术的快速发展,人们期望自动驾驶汽车能够承担驾驶员更多的负担和压力,从而提高安全性。当前,具有固定路线的商用车自动驾驶具有落地部署的可行性,但由于商用车体积大,重量大,驾驶员视野盲区大等特点,在紧急避让前方障碍物时容易出现失稳、翻车等问题,引发严重交通事故。所以如何解决商用车在紧急避障时易侧翻的问题成为了一个重要的课题。
[0003]当前基于模型的控制算法(如MPC)的计算量非常大,当MPC试图优化每个控制周期的控制行为的成本函数时,庞大的计算量会导致较长的决策时间,这是不安全的。同时,在Carla模拟器中进行仿真时,商用车不具有特殊的动力学特性,使仿真效果不具很强的说服力。在原有的Carla仿真环境的基础上,如何构建具备商用车体积大,重心高等动力学特性的模型,是一个亟待解决的问题。

技术实现思路

[0004]针对上述问题,本专利技术将提出一种基于深度强化学习的商用车自动紧急转向控制方案。虽然深度强化学习(DRL)的训练计算量也比较大,但推理过程的权重较轻,与其他方法相比,可以在短时间内计划复杂的动作。本专利技术采用了多任务划分的强化学习方法,对决策和控制任务进行了划分训练。同时,加入了可变高斯安全场,作为决策的依据,并根据可变高斯安全场改进设计奖励函数。最后,在Matlab中进行商用车的动力学建模,并结合Carla进行联合仿真。
[0005]本专利技术的目的是提供一种基于深度强化学习的商用车自动紧急转向控制(AES)的策略网络模型、训练方法、建模方法及仿真方法,使用多任务划分的训练方法,同时结合可变高斯安全场模型以提高决策的安全性。使得在前方有障碍物,自身车辆又无法完成制动目标的情况下完成自动紧急转向,避免追尾或碰撞事故。
[0006]为实现上述目的,本专利技术采用如下技术方案:
[0007]第一部分:自动驾驶商用车建模
[0008]步骤1:在Matlab中进行商用车建模,本专利技术所设计的商用车类型为三轴商用车。
[0009]车辆的侧向运动方程为:
[0010][0011]横摆运动方程:
[0012][0013]其中,m为车辆质量,u为车辆质心前进速度,β为车辆质心侧偏角,ω
r
为横摆角速度,B为两主销中心线与地面交点之间的距离,I
z
为横摆惯性力矩,δ
i
为轮胎转向角,i=1,2,3分别表示三轴商用车的前、中、后轴,F
yi
为地面对轮胎侧偏力,i=1,2,3,4,5,6分别表示三轴商用车的6个轮胎。a,b,c为前、中、后轴到质心距离,F
yij
表示第j轴对第i轴取轮胎侧偏力矩。
[0014]计算三轴商用车各车轮垂直载荷,分为静态载荷和动态载荷两部分:
[0015](1)静态载荷
[0016]车辆动力学模型的数学方程为:
[0017][0018]其中,z为汽车振动结构的动位移,M、C、K、f为质量矩阵、阻尼矩阵、刚度矩阵和外力列向量。
[0019]则三轴商用车静止时在自身重力作用下的数学方程为:
[0020]Kz
j
=G
[0021]其中,z
j
为汽车振动结构的静位移,G为各静位移方向上的重力。因为汽车在线性范围内无论振动与否,结构刚度不变,K的表达式如下:
[0022][0023]其中,k1、k2、k3分别为各悬架的垂直刚度。
[0024]由上述数学方程可求解出静位移z
j
,进而求得前轴、中轴和后轴所受地面法向反作用力分别为:
[0025][0026][0027][0028]k
t1
、k
t2
、k
t3
分别为各轮胎的垂直刚度。
[0029]静止时,各轮所受垂直载荷引起的地面法向反作用力分别记为F
zi0
(i=1~6),则:
[0030][0031]其中,F
zf
为地面对前轮的法向反作用力,F
zm
为地面对中轮的法向反作用力,F
zr

地面对后轮的法向反作用力。
[0032](2)动态载荷
[0033]记汽车重力在各轴上的分配比例系数分别为t1、t2、t3,则t1=G
f
/G,t2=G
m
/G,t3=G
r
/G。侧向惯性力在各轴上的分配比例与汽车重力在各轴上的分配比例相同,因此(ma
y
)
f
=ma
y
t1,(ma
y
)
m
=ma
y
t2,(ma
y
)
r
=ma
y
t3。其中,G
f
、G
m
、G
r
分别表示汽车重力在前轴、中轴及后轴上的分离,a
y
为侧向加速度,ma
y
为侧向惯性力。
[0034]分别对不同轮胎取矩可得各轮胎垂直载荷:
[0035][0036]其中,h
g
为质心到地面的高度,F
zi1
(i=1~6)为转弯时各轮所受垂直载荷。
[0037]接着计算三轴商用车各轮胎侧偏角,采用求平面图形内各点速度的基点法,以车辆质心为基点,可求得各车轮中心速度在纵向和侧向两个方向上的分量。
[0038]所求的各轮胎侧偏角分别为:
[0039][0040]其中,ε
i
(i=1~6)为u
i
(i=1~6)与地面(即x轴)的夹角,u
i
(i=1~6)为汽车各轮胎中心速度。v为汽车质心侧向速度。
[0041]第二部分:策略网络模型训练及仿真
[0042]步骤2:将在Matlab中所建三轴商用车模型导入Carla仿真模拟器源文件,在Carla中获得具备商用车动力学特性的模型。
[0043]步骤3:进行基于多任务强化学习的自动驾驶商用车决策控模型训练,分解的子任务包括横向、纵向控制任务和决策任务。通过时序鸟瞰图获取商用车的导航点,进行训练。
[0044]横向控制训练。以所获得的导航点的坐标(x
i
,y
i
)、航向偏差和控制车辆的车速v、加速度为状态量:
[0045][0046]s
lane_keep
为智能体进行车道保持训练时所获得的状态量。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动驾驶商用车紧急转向控制策略网络模型,其特征在于,策略网络π
θ
(z,p)包括卷积特征提取网络和全连接网络两部分,其中z为策略网络的输入状态量,包括时序鸟瞰图矩阵和自车的当前位置;p为策略网络的输出,即商用车的导航点p=(x
i
,y
i
);θ为网络的权重和偏置参数;所述策略网络具体包括一层卷积层和三层全连接层,所述的卷积层Conv1由大小为2*2的卷积核组成,卷积核的个数为9*32,步长stride=1,激活函数为ReLU;所述的第一层全连接为全连接层FC1和全连接层FC1

σ,全连接层FC1处理展平后的卷积层Conv1输出结果,大小为2*2*9*32,激活函数为ReLU;全连接层FC1

σ输出为自车过去几个时刻的历史轨迹信息,大小为1024*1,激活函数为ReLU;所述的第二全连接为全连接层FC2,处理全连接层FC1和全连接层FC1

σ的拼接状态量,大小为4096*1,激活函数为ReLU;所述的第三层全连接为全连接层FC3,处理全连接层FC2输出的状态量,大小为1024*1,激活函数为Tanh,最终全连接层FC3输出状态特征z。2.根据权利要求1所述的自动驾驶商用车紧急转向控制策略网络模型,其特征在于,所述策略网络的状态量为三维时序鸟瞰图;所述的三维时序鸟瞰图矩阵的尺寸为(40,400,80),其中第一维40表示参考线左右各10m的横向范围,横向位移间隔为0.5m;第二维400表示以自车为原点向前纵向200m的范围,纵向位移间隔为0.5m,第三维80表示未来8s内的时间范围,时间间隔为1s,当时序鸟瞰图矩阵中的点[α,β,γ]为

1,表示该点在时空间中存在障碍物或为不可行驶区域,当时序鸟瞰图矩阵中的点[α,β,γ]为0,表示该点在时空间中为可行驶区域,当时序鸟瞰图矩阵中的点[α,β,γ]]为1,表示该点为参考线的一个点。3.根据权利要求1所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,包括横向控制训练;具体如下:以所导航点的坐标(x
i
,y
i
)、航向偏差和控制车辆的车速v、加速度为状态量:s
lane_keep
为智能体进行车道保持训练时所获得的状态量;动作为方向盘转角a
steer
∈[

1,1],此部分的奖励函数的设计以车辆当前坐标的横向误差x0和航向角偏差作为评价指标:λ1、λ2为奖励函数两部分所占权重;如果自动驾驶车辆在进行训练的过程中当前位置的横向偏差大于设定的最大横向偏差阈值x
0m
则结束当前回合的迭代训练进行下一回合的训练。4.根据权利要求3所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,还包括纵向控制训练,具体如下:纵向轨迹跟踪控制任务以当前车辆的车速v、加速度前方车辆的车速v
l
、加速度与前车的距离d和当前车辆的期望车速v
des
为状态量:s
acc
为智能体进行纵向跟车控制训练时所获得的状态量;智能体的输出动作a
acc
∈[

1,1],包括油门动作a
throttle
和刹车动作a
brake

针对纵向控制任务,奖励函数设计为:其中,d为与前车的实时距离,d
des
为与前车的期望距离,d
safe
为与前车的安全距离,当智能车与前方车辆的距离小于安全距离,奖励为

100,同时停止当前的交互开始下一回合交互,在进行纵向训练时,每回合都随机给定前方车辆的车速v
l
和当前车辆的期望车速v
des
,以便训练的模型可以泛化到更多复杂的情况。5.根据权利要求3或4所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,还包括决策行为训练;所述决策行为包括紧急制动和紧急转向,当a
decision
为0时,决策模块选择紧急制动;当a
decision
为1时,决策模块选择向右进行紧急转向。6.根据权利要求5所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,所述决策行为为紧急制动避障时,采用可变高斯安全场对决策的奖励函数进行设计,在障碍物处于扩展域之外时,车辆采取制动措施可以制动,在障碍物位于扩展域时,车辆采取转向转向变道措施,当障碍物处于核心域和限制域时,将大概率碰撞,奖励函数设计如下:其中,d
lon,min
、d
lon,mid
、d
lon,max
分别为可别高斯安全场核心域、限制域、扩展域的纵向安全距离,l
v
是车辆模型的长度,w
v
是车辆模型的宽度,l

v
是车辆运动时车辆模型的长度,w

v
是车辆运动时车辆模型的宽度;其中:式中,是车辆运动的速度矢量,k
v
是调节因子,且有0<k
v
<1或

1<k
v
<0,其符号与运动的前后方向相对应,ξ是车辆的横摆转角。7.根据权利要求6所述的自动驾驶商用车紧急转向控制策略网络模型的训练方法,其特征在于,所述可变高斯安全场是将静态的车辆抽象为长方形,其长为l
v

【专利技术属性】
技术研发人员:蔡英凤朱子轩陈龙方啸陆文杰王海董钊志孙晓强
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1