当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于深度确定性策略梯度的主动悬架控制方法技术

技术编号:26919008 阅读:15 留言:0更新日期:2021-01-01 22:34
本发明专利技术涉及一种基于深度确定性策略梯度的主动悬架控制方法,属于汽车动态控制和人工智能技术领域。本发明专利技术中主动悬架控制的实现分为三个阶段,首先为仿真训练过程,用神经网络表示悬架控制策略,采用深度确定性策略梯度算法更新控制策略的参数。其次下载训练好的策略,当训练收敛后,神经网络的参数和结构被保存为训练好的控制策略。最后,训练好的策略可直接进行在线应用,实现主动悬架减振控制。采用基于深度确定性策略梯度的主动悬架控制方法,在大量随机路面下充分训练神经网络,得到的悬架控制策略巨有泛化性能,使主动悬架系统能在多变的路面情况下有效发挥减振性能,从而确保乘坐舒适性,同时保证车辆整体的安全性。

【技术实现步骤摘要】
一种基于深度确定性策略梯度的主动悬架控制方法
本专利技术属于汽车动态控制和人工智能
,具体涉及一种基于深度确定性策略梯度的主动悬架控制方法。
技术介绍
汽车的平顺性主要是保持汽车在行驶过程中产生的振动和冲击环境对乘员舒适性的影响在一定界限之内,因此平顺性主要根据乘员主观感觉的舒适性来评价。因此人主观感觉的到的乘坐舒适性某种程度上决定了汽车产品的价值。汽车悬架与乘坐舒适性直接相关,主动悬架是在被动悬架的基础上加设一个可以智能调节作用力的作动器,实时的提供与车身受到的冲击载荷相反方向的控制力,来抵消掉外部对于车身的冲击力,从而很好地实现了悬架系统的减振作用。控制主动悬架的关键是控制器要根据路面和悬架参数的变化具有很强的实时学习能力。常规主动悬架控制方法依赖于精确的悬架模型,单一神经网络控制器具有一定的学习能力,但主要是基于离线学习,且样本数量较大。为了克服这些困难,针对车辆主动悬架系统状态空间和执行动作的连续性,采用了基于深度确定性策略梯度的强化学习方法。控制器接收来自悬架系统的动态状态观测量,利用一定的算法更新策略参数,最终制定一个能产生最佳减振结果的动作序列。
技术实现思路
本专利技术提出一种基于深度确定性策略梯度的主动悬架控制方法,目的在于利用深度确定性策略梯度算法实现对主动悬架的控制,通过控制器与悬架系统环境的不断交互,逐渐优化悬架系统的减振效果。为达到上述技术目的,本专利技术采用以下技术方案:一种基于深度确定性策略梯度的主动悬架控制方法,包括,第一阶段为仿真训练过程,用神经网络表示控制策略,车身垂向加速度、悬架动挠度和轮胎动载荷作为悬架系统的基本输入,输出主动悬架状态;将主动悬架状态作为主动悬架控制器的输入,悬架主动力作为主动悬架控制器的输出,形成动作序列;通过不断更新的控制策略训练出在不同的主动悬架状态下执行不同的动作序列,使悬架系统环境到达新的状态,同时产生即时奖励用以评判当前主动悬架状态的好坏;第二阶段为策略下载,当训练收敛后,控制策略的参数和结构被保存为训练好的控制策略;第三阶段为策略在线应用,训练好的控制策略可直接将主动悬架状态映射到动作序列,直接使用下载的控制策略进行在线应用,实现主动悬架减振控制。进一步的,在所述第一阶段中,采用基于深度确定性策略梯度的强化学习算法更新控制策略的参数,所述深度确定性策略梯度的强化学习算法基于actor-critic架构,包括了评价当前主动悬架状态动作价值的评价网络和决定执行何种悬架主动力的策略网络,其中,评价网络指导策略网络制定动作序列。进一步的,主动悬架状态还包括车辆的侧倾和俯仰状态,定义悬架系统输出量为其中,为车身加速度,为车辆俯仰角加速度,为车辆侧倾角加速度,d为悬架动挠度,t为轮胎动位移,其中,下标lf表示左前侧悬架,下标rf表示右前侧悬架,下标lr表示左后侧悬架,下标rr表示右后侧悬架;悬架动挠度和轮胎动位移具体表达如下:dlf=z2+c′sinφ-bsinθdrf=z2-csinφ-bsinθdlr=z2+c′sinφ+b′sinθdrr=z2-csinφ+b′sinθtlf=z1lf-qlftrf=z1rf-qrftlr=z1lr-qlrtrr=z1rr-qrr其中,z1为各悬架的轮胎位移,z2为车身垂向位移,θ为车辆的俯仰角,φ为车辆的侧倾角,q为路面激励,b、b′分别为前、后轴到车辆质心的纵向距离,c、c′为左、右悬架到车辆质心的侧向距离;定义悬架状态转移时产生的即时奖励为:其中,Fa为各悬架控制器输出的主动控制力,δ1、δ2、δ3、δ4分别为各悬架控制器输出的主动控制力的权值,η1、η2、η3分别为车身垂向加速度、侧倾角加速度、俯仰角加速度的权值,α1、α2、α3、α4分别为各悬架动挠度的权值,β1、β2、β3、β4分别为各车轮动位移的权值。一种基于深度确定性策略梯度的主动悬架控制系统,包括,仿真训练模块,用神经网络表示控制策略,车身垂向加速度、悬架动挠度和轮胎动载荷作为悬架系统的基本输入,输出主动悬架状态;将主动悬架状态作为主动悬架控制器的输入,悬架主动力作为主动悬架控制器的输出,形成动作序列;通过不断更新的控制策略训练出在不同的主动悬架状态下执行不同的动作序列,使悬架系统环境到达新的状态,同时产生即时奖励用以评判当前主动悬架状态的好坏;策略下载模块,当训练收敛后,控制策略的参数和结构被保存为训练好的控制策略;策略在线应用模块,训练好的控制策略可直接将主动悬架状态映射到动作序列,直接使用下载的控制策略进行在线应用,实现主动悬架减振控制。进一步的,在所述仿真训练模块中,采用基于深度确定性策略梯度的强化学习算法更新控制策略的参数,所述深度确定性策略梯度的强化学习算法基于actor-critic架构,包括了评价当前主动悬架状态动作价值的评价网络和决定执行何种悬架主动力的策略网络,其中,评价网络指导策略网络制定动作序列。进一步的,主动悬架状态还包括车辆的侧倾和俯仰状态,定义悬架系统输出量为其中,为车身加速度,为车辆俯仰角加速度,为车辆侧倾角加速度,d为悬架动挠度,t为轮胎动位移,其中,下标lf表示左前侧悬架,下标rf表示右前侧悬架,下标lr表示左后侧悬架,下标rr表示右后侧悬架;悬架动挠度和轮胎动位移具体表达如下:dlf=z2+c′sinφ-bsinθdrf=z2-csinφ-bsinθdlr=z2+c′sinφ+b′sinθdrr=z2-csinφ+b′sinθtlf=z1lf-qlftrf=z1rf-qrftlr=z1lr-qlrtrr=z1rr-qrr其中,z1为各悬架的轮胎位移,z2为车身垂向位移,θ为车辆的俯仰角,φ为车辆的侧倾角,q为路面激励,b、b′分别为前、后轴到车辆质心的纵向距离,c、c′为左、右悬架到车辆质心的侧向距离;定义悬架状态转移时产生的即时奖励为:其中,Fa为各悬架控制器输出的主动控制力,δ1、δ2、δ3、δ4分别为各悬架控制器输出的主动控制力的权值,η1、η2、η3分别为车身垂向加速度、侧倾角加速度、俯仰角加速度的权值,α1、α2、α3、α4分别为各悬架动挠度的权值,β1、β2、β3、β4分别为各车轮动位移的权值。本专利技术具有以下有益效果:(1)针对车辆主动悬架系统状态空间和执行动作的连续性,采用基于深度确定性策略梯度的强化学习方法。控制器接收来自悬架系统的动态状态观测量,利用一定的算法更新策略参数,最终制定一个能产生最佳减振结果的动作序列。克服了常规主动悬架控制方法无法适应复杂多变路面的缺点,训练好的策略网络巨有一定的泛化性能。同时将神经网络与强化学习方法相结合,克服单一神经网络样本量大,训练耗时的问题。(2)创建经验回放缓存区和策略、评价网络的副本网络,从而解决样本独立性问题。每步训练时从经验回放缓存区中随机采样以更新网络,打乱了样本之间的顺序,减少样本间本文档来自技高网...

【技术保护点】
1.一种基于深度确定性策略梯度的主动悬架控制方法,其特征在于:包括,第一阶段为仿真训练过程,用神经网络表示控制策略,车身垂向加速度、悬架动挠度和轮胎动载荷作为悬架系统的基本输入,输出主动悬架状态;将主动悬架状态作为主动悬架控制器的输入,悬架主动力作为主动悬架控制器的输出,形成动作序列;通过不断更新的控制策略训练出在不同的主动悬架状态下执行不同的动作序列,使悬架系统环境到达新的状态,同时产生即时奖励用以评判当前主动悬架状态的好坏;/n第二阶段为策略下载,当训练收敛后,控制策略的参数和结构被保存为训练好的控制策略;/n第三阶段为策略在线应用,训练好的控制策略可直接将主动悬架状态映射到动作序列,直接使用下载的控制策略进行在线应用,实现主动悬架减振控制。/n

【技术特征摘要】
1.一种基于深度确定性策略梯度的主动悬架控制方法,其特征在于:包括,第一阶段为仿真训练过程,用神经网络表示控制策略,车身垂向加速度、悬架动挠度和轮胎动载荷作为悬架系统的基本输入,输出主动悬架状态;将主动悬架状态作为主动悬架控制器的输入,悬架主动力作为主动悬架控制器的输出,形成动作序列;通过不断更新的控制策略训练出在不同的主动悬架状态下执行不同的动作序列,使悬架系统环境到达新的状态,同时产生即时奖励用以评判当前主动悬架状态的好坏;
第二阶段为策略下载,当训练收敛后,控制策略的参数和结构被保存为训练好的控制策略;
第三阶段为策略在线应用,训练好的控制策略可直接将主动悬架状态映射到动作序列,直接使用下载的控制策略进行在线应用,实现主动悬架减振控制。


2.根据权利要求1所述的基于深度确定性策略梯度的主动悬架控制方法,其特征在于:在所述第一阶段中,采用基于深度确定性策略梯度的强化学习算法更新控制策略的参数,所述深度确定性策略梯度的强化学习算法基于actor-critic架构,包括了评价当前主动悬架状态动作价值的评价网络和决定执行何种悬架主动力的策略网络,其中,评价网络指导策略网络制定动作序列。


3.根据权利要求1所述的基于深度确定性策略梯度的主动悬架控制方法,其特征在于:主动悬架状态还包括车辆的侧倾和俯仰状态,定义悬架系统输出量为其中,为车身加速度,为车辆俯仰角加速度,为车辆侧倾角加速度,d为悬架动挠度,t为轮胎动位移,其中,下标lf表示左前侧悬架,下标rf表示右前侧悬架,下标lr表示左后侧悬架,下标rr表示右后侧悬架;悬架动挠度和轮胎动位移具体表达如下:
dlf=z2+c′sinφ-bsinθ
drf=z2-csinφ-bsinθ
dlr=z2+c′sinφ+b′sinθ
drr=z2-csinφ+b′sinθ
tlf=z1lf-qlf
trf=z1rf-qrf
tlr=z1lr-qlr
trr=z1rr-qrr
其中,z1为各悬架的轮胎位移,z2为车身垂向位移,θ为车辆的俯仰角,φ为车辆的侧倾角,q为路面激励,b、b′分别为前、后轴到车辆质心的纵向距离,c、c′为左、右悬架到车辆质心的侧向距离;
定义悬架状态转移时产生的即时奖励为:
其中,Fa为各悬架控制器输出的主动控制力,δ1、δ2、δ3、δ4分别为各悬架控制器输出的主动控制力的权值,η1、η2、η3分别为车身垂向加速度、侧倾角加速度、俯仰角加速度的权值,α1、α2、α3、α4分别为各悬架动挠度的权值,β1、β2、β3、β4分别为各车轮动位移的权值。<...

【专利技术属性】
技术研发人员:庄伟超王茜王群
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1