当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于深度强化学习算法的主动悬架控制策略生成方法技术

技术编号:36951997 阅读:5 留言:0更新日期:2023-03-22 19:12
本发明专利技术公开了一种基于深度强化学习算法的主动悬架控制策略生成方法,涉及到智能控制和人工智能领域技术,包括如下步骤:步骤一:基于主动悬架半车模型,建立主动悬架半车模型的控制问题模型;步骤二:搭建策略神经网络用以表征主动悬架的控制策略;步骤三:通过奖励函数实现策略神经网络的更新;步骤四:策略神经网络的迭代训练,生成收敛后的主动悬架控制策略。本发明专利技术基于SAC强化学习算法,通过对所构建的悬架控制策略网络的训练,寻求一种最优的主动悬架控制策略,对所生成的控制策略进行验证后,可通过该控制策略实现对主动悬架的动态自适应减振控制。适应减振控制。适应减振控制。

【技术实现步骤摘要】
一种基于深度强化学习算法的主动悬架控制策略生成方法


[0001]本专利技术涉及智能控制和人工智能领域技术,尤其涉及到一种基于深度强化学习算法的主动悬架控制策略生成方法。

技术介绍

[0002]车辆悬架系统在保证车辆操纵稳定性、驾驶安全性和乘坐舒适性方面发挥着重要作用,然而传统的被动悬架由于系统的参数固定,其动力学特征不易改变,极大的限制了悬架的预期性能,而采用动态参数可调的主动悬架系统可以克服被动悬架系统的以上缺点。在实际的应用中,虽然半主动悬架可以在一定程度上突破被动悬架的性能限制,但由于其减振器调节不便,因此控制性能并不是特别理想。主动悬架的提出改变了悬架系统的结构,大大的改善了悬架系统的控制效果,更大幅度的改善汽车系统的众多性能,目前,各种商用车大多采用主动悬架系统以提高乘坐的舒适性和稳定性。
[0003]传统的悬架控制方法如天棚阻尼(Skyhook)控制、模型预测控制(MPC)等方法需要依赖悬架系统的具体模型,然而主动悬架系统具有高度非线性的特性,不易建模,如果不考虑这些非线性因素,控制涉及的性能会严重下降。近年来,随着深度强化学习算法的不断发展,陆续提出了深度Q神经网络(DQN)、深度确定性策略梯度(DDPG)、近端策略优化(PPO)、SAC(SAC)等控制方法,特别是SAC引入最大熵模型,可以在获得较高奖励值的同时保持对环境的探索,能更快的学得较好的动作以加快算法的收敛。并且,基于神经网络和强化学习的控制方法在处理具有充分先验信息的非线性问题上具有很大优势。

技术实现思路

[0004]针对现有技术中存在的不足,本专利技术提供了一种基于深度强化学习算法的主动悬架控制策略生成方法,基于SAC强化学习算法,通过对所构建的悬架控制策略网络的训练,寻求一种最优的主动悬架控制策略,对所生成的控制策略进行验证后,通过该主动悬架控制策略实现对主动悬架的动态自适应减振控制。
[0005]本专利技术是通过以下技术手段实现上述技术目的的。
[0006]一种基于深度强化学习算法的主动悬架控制策略生成方法,包括如下步骤:
[0007]步骤一:基于主动悬架半车模型,建立主动悬架半车模型的控制问题模型;
[0008]步骤二:搭建策略神经网络用以表征主动悬架的控制策略;
[0009]步骤三:构建SAC强化学习算法中的奖励函数;
[0010]步骤四:基于步骤三中奖励函数对步骤二中的策略神经网络进行迭代训练,生成收敛后的主动悬架控制策略。
[0011]上述方案中,步骤一中,获取随机路面上车身的数据,通过Matlab/Python将数据可视化,去除异常数据,并通过对获取的数据进行分析,筛选得到对主动悬架控制影响大的参数作为状态观测量。
[0012]上述方案中,以步骤一中所获得主动悬架系统状态观测量作为策略神经网络的输
入,输出主动悬架的主动控制力动作,不同状态下所得到的主动控制力构成主动悬架系统的动作观测序列;以主动悬架的状态观测量和主动控制力动作观测序列分别作为主动悬架控制器的输入和输出。
[0013]上述方案中,步骤一中,悬架系统的状态观测量包括车身垂向位移、车身垂向加速度、车辆俯仰角、车辆俯仰角加速度、前车轮处的路面不平度q
f
和后车轮处的路面不平度q
r
,将t时刻的状态观测量表示为其中,z
c
表示车身垂向位移,θ表示车身俯仰角,q
f
表示前轮处的路面不平度,q
r
表示后轮处的路面不平度。
[0014]上述方案中,步骤二中,策略神经网络为主动悬架的控制器,策略神经网络接收主动悬架的状态观测量,选择与状态观测量相匹配的主动控制力F
alf
和F
alr
分别作用于前后两个悬架,悬架系统接收主动控制力后产生新的响应,进而更新悬架系统的状态观测量,如此循环,实现主动悬架的减振控制。
[0015]上述方案中,步骤二中,t时刻的动作观测序列表示为a
t
={F
alf
,F
alr
},由此得到步骤一中所述的主动悬架半车模型的控制问题模型:
[0016][0017]上述方案中,步骤四中通过SAC强化学习算法实现对策略神经网络参数的更新,训练得到随机状态观测量下控制器所做出的动作观测序列,并构建奖励函数用以评判随机状态观测量下动作的优劣。
[0018]上述方案中,SAC强化学习算法是一种基于Actor

Critic框架,用于连续动作空间的无模型算法,通过策略网络Actor来指导主动悬架选择主动控制力的大小、通过价值网络Critic来评判当前所选取的主动控制力策略的优劣,进而实现主动悬架控制策略的更新。
[0019]上述方案中,步骤S3中,通过构建奖励函数用以评判随机状态观测量下动作的优劣,所述的奖励函数为:
[0020][0021]其中,F
alf
为前悬架控制器的主动控制力,F
alr
为后悬架控制器的主动控制力,q1、q2分别表示前后悬架主控制力的权重系数,q3和q4分别为车身垂向加速度和车辆俯仰角加速度的权重系数,q5和q6分别为前后车轮处的路面不平度的权重系数。
[0022]上述方案中,步骤四中,以实车主动悬架振动数据为数据源来验证迭代训练收敛后得到的主动悬架控制策略的有效性,并对主动悬架控制策略进行微调来提高主动悬架控制策略的泛化性和自适应性。
[0023]本专利技术的有益效果在于:
[0024](1)本专利技术将SAC强化学习算法运用于主动悬架的控制策略生成,对所构建的策略网络进行离线训练,并通过奖励函数来评判主动悬架所选择策略的优劣,待训练收敛后即可生成安全的主动悬架控制策略,该控制策略通过硬件在仿真验证后,可将其运用在主动悬架的在线控制,实现对主动悬架的动态自适应减振控制。
[0025](2)相较于其他强化学习算法:深度Q神经网络(DQN)在主动悬架半车模型策略生成的训练中存在训练的速度较慢甚至难以收敛的问题;深度确定性策略梯度(DDPG)在主动悬架策略生成的训练中采用确定性策略,不能保证对环境的充分探索,并且还存在超参数
敏感、采样效率低等缺陷,本专利技术所提出的基于SAC强化学习算法生成主动悬架的控制策略,可通过随机策略进行训练,在获得较高奖励值的同时保持对环境的探索,能更快的学的较好的动作以加快算法的收敛,进而生成更好的主动悬架控制策略。
附图说明
[0026]图1为基于SAC的主动悬架控制策略生成框架图;
[0027]图2为基于SAC的主动悬架强化学习算法原理示意图;
[0028]图3为基于SAC的主动悬架强化学习算法伪代码;
[0029]图4为硬件在环仿真平台框架图。
具体实施方式
[0030]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习算法的主动悬架控制策略生成方法,其特征在于,包括如下步骤:步骤一:基于主动悬架半车模型,建立主动悬架半车模型的控制问题模型;步骤二:搭建策略神经网络用以表征主动悬架的控制策略;步骤三:构建SAC强化学习算法中的奖励函数;步骤四:基于步骤三中奖励函数对步骤二中的策略神经网络进行迭代训练,生成收敛后的主动悬架控制策略。2.根据权利要求1所述的基于深度强化学习算法的主动悬架控制策略生成方法,其特征在于,步骤一中,获取随机路面上车身的数据,通过Matlab/Python将数据可视化,去除异常数据,并通过对获取的数据进行分析,筛选得到对主动悬架控制影响大的参数作为状态观测量。3.根据权利要求2所述的基于深度强化学习算法的主动悬架控制策略生成方法,其特征在于,以步骤一中所获得主动悬架系统状态观测量作为策略神经网络的输入,输出主动悬架的主动控制力动作,不同状态下所得到的主动控制力构成主动悬架系统的动作观测序列;以主动悬架的状态观测量和主动控制力动作观测序列分别作为主动悬架控制器的输入和输出。4.根据权利要求2所述的基于深度强化学习算法的主动悬架控制策略生成方法,其特征在于,步骤一中,悬架系统的状态观测量包括车身垂向位移、车身垂向加速度、车辆俯仰角、车辆俯仰角加速度、前车轮处的路面不平度q
f
和后车轮处的路面不平度q
r
,将t时刻的状态观测量表示为其中,z
c
表示车身垂向位移,θ表示车身俯仰角,q
f
表示前轮处的路面不平度,q
r
表示后轮处的路面不平度。5.根据权利要求1所述的基于深度强化学习算法的主动悬架控制策略生成方法,其特征在于,步骤二中,策略神经网络为主动悬架的控制器,策略神经网络接收主动悬架的状态观测量,选择与状态观测量相匹配的主动控制力F
alf
和F
alf
分别作用于前后两个悬架,悬架系...

【专利技术属性】
技术研发人员:张步云赵妍王勇张云顺刘志强徐旗钊胡正林
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1