The invention discloses an intelligent vehicle stability control method based on deep reinforcement learning, the steps of which include: 1. Obtaining the decision-making output, vehicle structure parameters and driving parameters of the vehicle lateral controller; 2. Defining the state parameters, action parameters and incentive functions of the deep reinforcement learning method; 3. Constructing and training the network model of the deep reinforcement learning method to obtain the optimal action network Model; 4 obtain the current state parameter s
【技术实现步骤摘要】
一种基于深度强化学习的智能汽车稳定性控制方法
本专利技术涉及汽车动力学控制领域,更具体地说是一种基于深度强化学习的智能汽车稳定性控制方法。
技术介绍
汽车在转向时,轮胎侧偏角增大,侧向力增大,使车辆能够按照驾驶员意图行驶,但在一些低附着和急转向工况下,车辆的侧向力容易达到附着极限,车辆会发生侧滑、急转、侧翻等危险工况。目前,能对上述危险工况进行干预的主要方式是主动转向控制和直接横摆力矩控制。主动转向控制是通过给方向盘输入修正转角,改变车辆的横摆力矩;直接横摆力矩控制主要是通过调节车轮制动力形成制动力差,从而产生附加横摆力矩来调整车辆的转向不足或转向过度。主动转向和直接横摆力矩控制对汽车性能的影响各有优缺点,单独主动转向控制对车速影响较小,保证了驾乘人员的舒适性,但在极限工况下效果不佳,无法控制车辆稳定,满足不了驾乘人员的安全性要求;单独的直接横摆力矩控制系统,可以保证驾乘人员在极限工况下的安全,但对车辆纵向加速度影响较大,满足不了驾乘人员的舒适性要求。而车辆作为复杂的非线性系统,各系统之间存在很多耦合作用,在车辆的每个状态,控制车辆稳定都有相对最优的控制输出,这些最优的控制输出之间并不是简单的线性关系,通过设计线性协调控制器也不能很好的保证驾乘人员的安全性和舒适性。
技术实现思路
本专利技术为解决上述现有技术存在的不足,提出一种基于深度强化学习的智能汽车稳定性控制方法,以期能实现稳定工况和极限工况下直接横摆力矩控制和转向控制之间的最优协调控制规律,从而实现车辆稳定性控制,保证驾乘人员的安全 ...
【技术保护点】
1.一种基于深度强化学习的智能汽车稳定性控制方法,其特征是按如下步骤进行:/n步骤1:获取车辆横向控制器决策输出的前轮转角δ
【技术特征摘要】
1.一种基于深度强化学习的智能汽车稳定性控制方法,其特征是按如下步骤进行:
步骤1:获取车辆横向控制器决策输出的前轮转角δf以及车辆结构参数,包括:车辆轮距L、质心到前后轴距离Lf和Lr、前后轮侧偏刚度C1和C2、汽车质量m;
获取车辆行驶参数,包括:方向盘转角sw、车速u和路面摩擦系数μ;
步骤2:利用式(1)计算理想横摆角速度wd:
式(1)中,g为重力加速度,w为横摆角速度,并有:
步骤3:利用式(3)计算理想质心侧偏角βd:
βd=-min{|β|,|βmax|}·sign(δf)(3)
式(3)中,β为车辆质心侧偏角,βmax为车辆最大质心侧偏角,并有:
步骤4:利用式(6)定义深度强化学习方法的车辆状态参数s:
s={w,β,sw,wd,βd}(6)
步骤5:利用式(7)定义深度强化学习方法的动作参数a:
a={▽δ,▽M}(7)
式(7)中,▽δ为方向盘修正转角,▽M为附加横摆力矩;
步骤6:利用式(8)建立深度强化学习方法的奖励函数r:
r=re+rps+rv+rm+rsw+rst(8)
式(8)中,re为误差奖励函数,并有:
re=-▽w2-▽β2+50(9)
式(9)中,▽w为横摆角速度误差,▽β为质心侧偏角误差,并有:
▽w=w-wd(10)
▽β=β-βd(11)
式(8)中,rps为固定奖励值函数,并有:
式(8)中,rv为速度差奖励函数,并有:
式(8)中,rm为附加横摆力矩奖励函数,并有:
式(8)中,rsw为修正角奖励函数,并有:
rsw=-|▽δ|+10(15)
式(8)中,rst为稳定域奖励函数,并有:
rst=-(|▽δ|+|▽M|)/10(16)
步骤7:构建深度强化学习方法的网络模型:
步骤7.1:构建动作网络模型,包括:包含一个神经元的一层输入层,各自包含n1个神经元的m1层隐藏层,包含2个神经元的一层输出层;初始化动作网络参数为θμ;
步骤7.2:构建评价网络模型,包括:各包含1个神经元的两层输入层,各自包含n2个神经元的m2层隐藏层,其中,第m2层隐藏层为全连接层,包含1个神经元的一层输出层;初始化评价网络参数为θQ;
步骤7.3:构建与所述动作网络模型结构相同的目标动作网络模型,且令目标动作网络参数θμ′=θμ,构建与所述评价网络模型结构相同的目标评价网络模型,且令目标评价网络参数θQ′=θQ;
步骤8:由第i条样本形成N条样本:
初始化第i个车辆状态参数si,并以第i个车辆状态参数si作为所述动作网络模型的输入,由所述动作网络模型输出μ(si|θμ);
利用式(17)得到第i个车辆动作参数ai:
ai=μ(si|θμ)+Ni(17)
式(17)中,Ni表示第i个随机噪声;
根据式(8)获取第i个车辆奖励值ri,并得到更新后的第i个车辆状态参数s′i;...
【专利技术属性】
技术研发人员:黄鹤,郭伟锋,张炳力,张润,王博文,吴润晨,程进,
申请(专利权)人:合肥工业大学,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。