一种基于深度强化学习的智能汽车稳定性控制方法技术

技术编号:22558282 阅读:18 留言:0更新日期:2019-11-16 01:36
本发明专利技术公开了一种基于深度强化学习的智能汽车稳定性控制方法,其步骤包括:1获取汽车横向控制器的决策输出和车辆结构参数、行驶参数;2定义深度强化学习方法的状态参数、动作参数和奖励函数;3构建并训练深度强化学习方法的网络模型,得到最优动作网络模型;4获取汽车当前状态参数s

An intelligent vehicle stability control method based on deep reinforcement learning

The invention discloses an intelligent vehicle stability control method based on deep reinforcement learning, the steps of which include: 1. Obtaining the decision-making output, vehicle structure parameters and driving parameters of the vehicle lateral controller; 2. Defining the state parameters, action parameters and incentive functions of the deep reinforcement learning method; 3. Constructing and training the network model of the deep reinforcement learning method to obtain the optimal action network Model; 4 obtain the current state parameter s

【技术实现步骤摘要】
一种基于深度强化学习的智能汽车稳定性控制方法
本专利技术涉及汽车动力学控制领域,更具体地说是一种基于深度强化学习的智能汽车稳定性控制方法。
技术介绍
汽车在转向时,轮胎侧偏角增大,侧向力增大,使车辆能够按照驾驶员意图行驶,但在一些低附着和急转向工况下,车辆的侧向力容易达到附着极限,车辆会发生侧滑、急转、侧翻等危险工况。目前,能对上述危险工况进行干预的主要方式是主动转向控制和直接横摆力矩控制。主动转向控制是通过给方向盘输入修正转角,改变车辆的横摆力矩;直接横摆力矩控制主要是通过调节车轮制动力形成制动力差,从而产生附加横摆力矩来调整车辆的转向不足或转向过度。主动转向和直接横摆力矩控制对汽车性能的影响各有优缺点,单独主动转向控制对车速影响较小,保证了驾乘人员的舒适性,但在极限工况下效果不佳,无法控制车辆稳定,满足不了驾乘人员的安全性要求;单独的直接横摆力矩控制系统,可以保证驾乘人员在极限工况下的安全,但对车辆纵向加速度影响较大,满足不了驾乘人员的舒适性要求。而车辆作为复杂的非线性系统,各系统之间存在很多耦合作用,在车辆的每个状态,控制车辆稳定都有相对最优的控制输出,这些最优的控制输出之间并不是简单的线性关系,通过设计线性协调控制器也不能很好的保证驾乘人员的安全性和舒适性。
技术实现思路
本专利技术为解决上述现有技术存在的不足,提出一种基于深度强化学习的智能汽车稳定性控制方法,以期能实现稳定工况和极限工况下直接横摆力矩控制和转向控制之间的最优协调控制规律,从而实现车辆稳定性控制,保证驾乘人员的安全性和舒适性。本专利技术为解决技术问题采用如下技术方案:本专利技术一种基于深度强化学习的智能汽车稳定性控制方法的特点是按如下步骤进行:步骤1:获取车辆横向控制器决策输出的前轮转角δf以及车辆结构参数,包括:车辆轮距L、质心到前后轴距离Lf和Lr、前后轮侧偏刚度C1和C2、汽车质量m;获取车辆行驶参数,包括:方向盘转角sw、车速u和路面摩擦系数μ;步骤2:利用式(1)计算理想横摆角速度wd:式(1)中,g为重力加速度,w为横摆角速度,并有:步骤3:利用式(3)计算理想质心侧偏角βd:βd=-min{|β|,|βmax|}·sign(δf)(3)式(3)中,β为车辆质心侧偏角,βmax为车辆最大质心侧偏角,并有:步骤4:利用式(6)定义深度强化学习方法的车辆状态参数s:s={w,β,sw,wd,βd}(6)步骤5:利用式(7)定义深度强化学习方法的动作参数a:式(7)中,为方向盘修正转角,为附加横摆力矩;步骤6:利用式(8)建立深度强化学习方法的奖励函数r:r=re+rps+rv+rm+rsw+rst(8)式(8)中,re为误差奖励函数,并有:式(9)中,为横摆角速度误差,为质心侧偏角误差,并有:式(8)中,rps为固定奖励值函数,并有:式(8)中,rv为速度差奖励函数,并有:式(8)中,rm为附加横摆力矩奖励函数,并有:式(8)中,rsw为修正角奖励函数,并有:式(8)中,rst为稳定域奖励函数,并有:步骤7:构建深度强化学习方法的网络模型:步骤7.1:构建动作网络模型,包括:包含一个神经元的一层输入层,各自包含n1个神经元的m1层隐藏层,包含2个神经元的一层输出层;初始化动作网络参数为θμ;步骤7.2:构建评价网络模型,包括:各包含1个神经元的两层输入层,各自包含n2个神经元的m2层隐藏层,其中,第m2层隐藏层为全连接层,包含1个神经元的一层输出层;初始化评价网络参数为θQ;步骤7.3:构建与所述动作网络模型结构相同的目标动作网络模型,且令目标动作网络参数θμ′=θμ,构建与所述评价网络模型结构相同的目标评价网络模型,且令目标评价网络参数θQ′=θQ;步骤8:由第i条样本形成N条样本:初始化第i个车辆状态参数si,并以第i个车辆状态参数si作为所述动作网络模型的输入,由所述动作网络模型输出μ(si|θμ);利用式(17)得到第i个车辆动作参数ai:ai=μ(si|θμ)+Ni(17)式(17)中,Ni表示第i个随机噪声;根据式(8)获取第i个车辆奖励值ri,并得到更新后的第i个车辆状态参数s′i;从而得到获得第i条样本,记为(si,ai,ri,s′i),进而得到N条样本;步骤9:用所述N条样本对所述深度强化学习方法的网络模型进行训练,从而得到得到最优动作网络模型和最优评价网络模型;步骤10:判断式(18)和式(19)是否均成立,若均成立,则表示汽车处于稳定状态,否则,表示汽车处于不稳定状态,并执行步骤11:式(18)中,k1为稳定域第一边界系数,k2为稳定域第二边界系数;为质心侧偏角速度;式(19)中,ε为可调参数;步骤11:获取车辆当前状态参数st作为最优动作网络模型的输入,从而利用所述最优动作网络模型输出当前附加横摆力矩和修正转角步骤12:判断式(20)是否成立,若成立,则表示汽车的转向性质为不足转向,则令动作车轮为内后轮,并执行步骤13,否则,表示汽车的转向性质为过多转向,则令动作车轮为外前轮,并执行步骤14;wd×(w-wd)>0(20)步骤13:若δf>0,则令修正转角的方向向左,若δf<0,则令修正转角的方向向右;步骤14:若δf>0,则令修正转角的方向向右,若δf<0,则令修正转角的方向向左。本专利技术所述的智能汽车稳定性控制方法的特点也在于,所述步骤9是按如下过程进行:步骤9.1:初始化学习率参数为α,回报率参数为γ;初始化i=1;步骤9.2:以所述第i个车辆状态参数si作为当前第i个动作网络模型的输入,由所述当前第i个动作网络模型输出第i个输出值μ(si|θμ);以所述第i个车辆状态参数si、第i个车辆动作参数ai和所述动作网络的第i个输出值μ(si|θμ)均作为所述当前第i个评价网络模型的输入,由所述第i个车辆状态参数si和第i个车辆动作参数ai经过所述当前第i个评价网络模型输出第i个输出值Qi(ai);由所述动作网络模型的第i个输出值μ(si|θμ)经过所述当前第i个评价网络模型输出第i个输出值Qi(μ(si|θμ));以所述更新后的第i个车辆状态参数s′i作为所述当前第i个目标动作网络模型的输入,由所述当前第i个目标动作网络模型输出第i个输出值μ(s′i|θμ′);以所述更新后的第i个车辆状态参数s′i和目标动作网络模型的第i个输出值μ(s′i|θμ′)作为所述当前第i个目标评价网络模型的输入,由所述当前第i个目标评价网络模型输出第i个输出值Q′i(a′i);根据所述当前第i个评价网络模型的第i个输出值Qi(μ(si本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的智能汽车稳定性控制方法,其特征是按如下步骤进行:/n步骤1:获取车辆横向控制器决策输出的前轮转角δ

【技术特征摘要】
1.一种基于深度强化学习的智能汽车稳定性控制方法,其特征是按如下步骤进行:
步骤1:获取车辆横向控制器决策输出的前轮转角δf以及车辆结构参数,包括:车辆轮距L、质心到前后轴距离Lf和Lr、前后轮侧偏刚度C1和C2、汽车质量m;
获取车辆行驶参数,包括:方向盘转角sw、车速u和路面摩擦系数μ;
步骤2:利用式(1)计算理想横摆角速度wd:



式(1)中,g为重力加速度,w为横摆角速度,并有:



步骤3:利用式(3)计算理想质心侧偏角βd:
βd=-min{|β|,|βmax|}·sign(δf)(3)
式(3)中,β为车辆质心侧偏角,βmax为车辆最大质心侧偏角,并有:






步骤4:利用式(6)定义深度强化学习方法的车辆状态参数s:
s={w,β,sw,wd,βd}(6)
步骤5:利用式(7)定义深度强化学习方法的动作参数a:
a={▽δ,▽M}(7)
式(7)中,▽δ为方向盘修正转角,▽M为附加横摆力矩;
步骤6:利用式(8)建立深度强化学习方法的奖励函数r:
r=re+rps+rv+rm+rsw+rst(8)
式(8)中,re为误差奖励函数,并有:
re=-▽w2-▽β2+50(9)
式(9)中,▽w为横摆角速度误差,▽β为质心侧偏角误差,并有:
▽w=w-wd(10)
▽β=β-βd(11)
式(8)中,rps为固定奖励值函数,并有:



式(8)中,rv为速度差奖励函数,并有:



式(8)中,rm为附加横摆力矩奖励函数,并有:



式(8)中,rsw为修正角奖励函数,并有:
rsw=-|▽δ|+10(15)
式(8)中,rst为稳定域奖励函数,并有:
rst=-(|▽δ|+|▽M|)/10(16)
步骤7:构建深度强化学习方法的网络模型:
步骤7.1:构建动作网络模型,包括:包含一个神经元的一层输入层,各自包含n1个神经元的m1层隐藏层,包含2个神经元的一层输出层;初始化动作网络参数为θμ;
步骤7.2:构建评价网络模型,包括:各包含1个神经元的两层输入层,各自包含n2个神经元的m2层隐藏层,其中,第m2层隐藏层为全连接层,包含1个神经元的一层输出层;初始化评价网络参数为θQ;
步骤7.3:构建与所述动作网络模型结构相同的目标动作网络模型,且令目标动作网络参数θμ′=θμ,构建与所述评价网络模型结构相同的目标评价网络模型,且令目标评价网络参数θQ′=θQ;
步骤8:由第i条样本形成N条样本:
初始化第i个车辆状态参数si,并以第i个车辆状态参数si作为所述动作网络模型的输入,由所述动作网络模型输出μ(si|θμ);
利用式(17)得到第i个车辆动作参数ai:
ai=μ(si|θμ)+Ni(17)
式(17)中,Ni表示第i个随机噪声;
根据式(8)获取第i个车辆奖励值ri,并得到更新后的第i个车辆状态参数s′i;...

【专利技术属性】
技术研发人员:黄鹤郭伟锋张炳力张润王博文吴润晨程进
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利