智能伺服稳定控制方法、装置、系统、控制器及存储介质制造方法及图纸

技术编号:38219303 阅读:15 留言:0更新日期:2023-07-25 11:31
本申请公开了一种智能伺服稳定控制方法、装置、系统、控制器及存储介质,涉及伺服控制技术领域。所述方法是在建立目标伺服机构的马尔可夫决策过程模型以及基于双向长短时记忆神经网络层BiLSTM构建包括有六个深度神经网络的TD3强化学习算法框架后,将TD3强化学习算法具体应用在伺服机构的稳定性控制中,实现在伺服控制参数不确定性以及工作环境未知情况下能够进行自主无监督学习的智能优化控制目的,如此不但可提高伺服机构稳定控制的静态与动态性能,还在自主学习过程中不需要人工干预与人工经验,进一步突破了PID控制器的线性特性,使得具有扰动环境的动态适应能力,从而提升伺服控制系统的控制性能以及智能性和鲁棒性。服控制系统的控制性能以及智能性和鲁棒性。服控制系统的控制性能以及智能性和鲁棒性。

【技术实现步骤摘要】
智能伺服稳定控制方法、装置、系统、控制器及存储介质


[0001]本专利技术属于伺服控制
,具体涉及一种智能伺服稳定控制方法、装置、系统、控制器及存储介质。

技术介绍

[0002]伺服机构(Servomechanism)又称随动系统,是用来精确地跟随或复现某个过程的反馈控制系统。所述伺服机构是使物体的位置、方位和状态等输出被控量能够跟随输入目标(或给定值)的任意变化的自动控制系统。它的主要任务是按控制命令的要求对功率进行放大、变换与调控等处理,使驱动装置输出的力矩、速度和位置控制非常灵活方便。在很多情况下,伺服机构专指被控制量(系统的输出量)是机械位移或位移速度、加速度的反馈控制系统,其作用是使输出的机械位移(或转角)准确地跟踪输入的位移(或转角),其结构组成和其他形式的反馈控制系统没有原则上的区别。
[0003]现有精密伺服机构的动力学特性具有非线性以及时滞特性,使得基于传统PID(Proportion Integral Differential)技术的伺服机构控制方案,在存在伺服控制参数不确定性及外部扰动(即工作环境未知)的时候表现出闭环控制低效或者控制性能下降的现象。因此,如何设计一款新型智能控制器来提高伺服机构稳定控制的静态与动态性能,是本领域技术人员亟需研究的课题。

技术实现思路

[0004]本专利技术的目的是提供一种智能伺服稳定控制方法、装置、系统、控制器及计算机可读存储介质,用以解决现有基于PID技术的伺服机构控制方案在存在伺服控制参数不确定性及外部扰动的时候表现出闭环控制低效或者控制性能下降的问题。
[0005]为了实现上述目的,本专利技术采用以下技术方案:第一方面,提供了一种智能伺服稳定控制方法,由伺服控制器执行,包括:建立目标伺服机构的马尔可夫决策过程模型,其中,所述马尔可夫决策过程模型包含有所述目标伺服机构的观测信号S
t
、动作信号A
t
和奖励函数;基于双向长短时记忆神经网络层BiLSTM和全连接网络层,构建包括有六个深度神经网络的TD3强化学习算法框架,其中,所述六个深度神经网络包括有策略网络Actor、与所述策略网络Actor对应的目标策略网络Actor_T、第一评价网络Critic1、与所述第一评价网络Critic1对应的第一目标评价网络Critic_T1、第二评价网络Critic2和与所述第二评价网络Critic2对应的第二目标评价网络Critic_T2,所述六个深度神经网络中的各个深度神经网络均由所述双向长短时记忆神经网络层BiLSTM和所述全连接网络层组成;初始化用于存放每一次状态转移元组的经验池R,其中,所述状态转移元组包含有所述观测信号S
t
的前一个状态、所述动作信号A
t
的前一个状态、所述奖励函数的前一个状态和所述观测信号S
t
的当前状态;从初始化状态开始在所述策略网络Actor和所述目标策略网络Actor_T中应用连
续动作空间的确定性算法将所述经验池R中的每个状态转移元组都映射到一个确定的动作上;在每一次映射确定动作后,使用所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2来分别对由所述目标策略网络Actor_T输出的动作进行Q值评估,得到在两Q值评估结果中的较小Q值,然后基于所述较小Q值和评价网络对由所述策略网络Actor输出的动作所作出的Q值评估结果,利用最小化损失函数更新所述评价网络,最后利用梯度策略算法反向传播延迟更新所述策略网络Actor、所述目标策略网络Actor_T、所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2,其中,所述评价网络包括有所述第一评价网络Critic1和所述第二评价网络Critic2;根据由所述策略网络Actor输出的动作生成控制器输出量,并将所述控制器输出量传送至所述目标伺服机构,以便得到新的所述状态转移元组。
[0006]基于上述
技术实现思路
,提供了一种基于深度强化学习的智能伺服稳定控制新方案,即在建立目标伺服机构的马尔可夫决策过程模型以及基于双向长短时记忆神经网络层BiLSTM和全连接网络层构建包括有六个深度神经网络的TD3强化学习算法框架后,将TD3强化学习算法具体应用在伺服机构的稳定性控制中,实现在伺服控制参数不确定性以及工作环境未知情况下能够进行自主无监督学习的智能优化控制目的,如此与传统PID控制方法以及整定PID控制方法相比,本方案不但可提高伺服机构稳定控制的静态与动态性能,还在自主学习过程中不需要人工干预与人工经验,进一步突破了PID控制器的线性特性,使得具有扰动环境的动态适应能力,从而提升伺服控制系统的控制性能以及智能性和鲁棒性。
[0007]在一个可能的设计中,所述观测信号S
t
包含有所述目标伺服机构的输出测量值y(t)、所述输出测量值与输出目标值的偏差e(t)和所述输出测量值与所述输出目标值的积分偏差Ie(t);和/或,所述动作信号A
t
包含有所述目标伺服机构的控制输入量Ci(t)。
[0008]在一个可能的设计中,所述奖励函数r(t)采用如下公式:r(t)=c2×
r2(t)

c1×
r1(t)

c3×
t,其中,t表示时间变量,c1、c2和c3分别表示预设的奖励系数,r1(t)在0≤y(t)≤y
max
时取零值而在其它情况时为负R1,y(t)表示所述目标伺服机构的输出测量值,y
max
表示已知的最大输出测量值,r2(t) 在|e(t)|≤e
th
时为R2而在其它情况时为负R3,e(t)表示所述输出测量值与输出目标值的偏差,e
th
表示预设的偏差阈值,R1、R2和R3分别表示预设的奖励值。
[0009]在一个可能的设计中,所述深度神经网络包括有依次连接的输入层、第一全连接层、双向长短时记忆神经网络层BiLSTM、第二全连接层和输出层,其中,所述第一全连接层和所述第二全连接层的激活函数均采用LeakyReLu函数。
[0010]在一个可能的设计中,所述评价网络的最小化损失函数采用如下均方差公式计算得到:式中,表示评价网络参数,表示损失函数,表示随机迷你批数量,表示正整数,表示目标Q值,表示状态,表示状态特征向量,表示输出动作,
表示当前网络的Q值。
[0011]在一个可能的设计中,所述策略网络Actor的损失梯度采用如下公式计算得到:式中,表示策略网络参数,表示策略网络的损失梯度,表示随机迷你批数量,表示正整数,表示Q值的损失梯度,表示动作空间的损失梯度,表示状态,表示输出动作,在策略更新时更新,所述策略网络的损失对评价网络返回的Q值取负进行,以便减少损失函数,表示Q值的损失。
[0012]第二方面,提供了一种智能伺服稳定控制装置,布置在伺服控制器中,包括有依次通信连接的模型建立模块、算法构建模块、初始化模块、动作映射模块、评估更新模块和动作输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能伺服稳定控制方法,其特征在于,由伺服控制器执行,包括:建立目标伺服机构的马尔可夫决策过程模型,其中,所述马尔可夫决策过程模型包含有所述目标伺服机构的观测信号S
t
、动作信号A
t
和奖励函数;基于双向长短时记忆神经网络层BiLSTM和全连接网络层,构建包括有六个深度神经网络的TD3强化学习算法框架,其中,所述六个深度神经网络包括有策略网络Actor、与所述策略网络Actor对应的目标策略网络Actor_T、第一评价网络Critic1、与所述第一评价网络Critic1对应的第一目标评价网络Critic_T1、第二评价网络Critic2和与所述第二评价网络Critic2对应的第二目标评价网络Critic_T2,所述六个深度神经网络中的各个深度神经网络均由所述双向长短时记忆神经网络层BiLSTM和所述全连接网络层组成;初始化用于存放每一次状态转移元组的经验池R,其中,所述状态转移元组包含有所述观测信号S
t
的前一个状态、所述动作信号A
t
的前一个状态、所述奖励函数的前一个状态和所述观测信号S
t
的当前状态;从初始化状态开始在所述策略网络Actor和所述目标策略网络Actor_T中应用连续动作空间的确定性算法将所述经验池R中的每个状态转移元组都映射到一个确定的动作上;在每一次映射确定动作后,使用所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2来分别对由所述目标策略网络Actor_T输出的动作进行Q值评估,得到在两Q值评估结果中的较小Q值,然后基于所述较小Q值和评价网络对由所述策略网络Actor输出的动作所作出的Q值评估结果,利用最小化损失函数更新所述评价网络,最后利用梯度策略算法反向传播延迟更新所述策略网络Actor、所述目标策略网络Actor_T、所述第一目标评价网络Critic_T1和所述第二目标评价网络Critic_T2,其中,所述评价网络包括有所述第一评价网络Critic1和所述第二评价网络Critic2;根据由所述策略网络Actor输出的动作生成控制器输出量,并将所述控制器输出量传送至所述目标伺服机构,以便得到新的所述状态转移元组。2.根据权利要求1所述的智能伺服稳定控制方法,其特征在于,所述观测信号S
t
包含有所述目标伺服机构的输出测量值y(t)、所述输出测量值与输出目标值的偏差e(t)和所述输出测量值与所述输出目标值的积分偏差Ie(t);和/或,所述动作信号A
t
包含有所述目标伺服机构的控制输入量Ci(t)。3.根据权利要求1所述的智能伺服稳定控制方法,其特征在于,所述奖励函数r(t)采用如下公式:r(t)=c2×
r2(t)

c1×
r1(t)

c3×
t,其中,t表示时间变量,c1、c2和c3分别表示预设的奖励系数,r1(t)在0≤y(t)≤y
max
时取零值而在其它情况时为负R1,y(t)表示所述目标伺服机构的输出测量值,y
max
表示已知的最大输出测量值,r2(t) 在|e(t)|≤e
th
时为R2而在其它情况时为负R3,e(t)表示所述输出测量值与输出目标值的偏差,e
th
表示预设的偏差阈值,R1、R2和R3分别表示预设的奖励值。4.根据权利要求1所述的智能伺服稳定控制方法,其特征在于,所述深度神经网络包括有依次连接的输入层、第一全连接层、双向长短时记忆神经网络层BiLSTM、第二全连接层和输出层,其中,所述第一全连接层和所述第二全连接层的激活函数均采用LeakyReLu函数。5.根据权利要求1所述的智能伺服稳定控制方法,其特征在于,所述评价网络的最小化损失函数采用如下均方差公式计算得到:
式中,表示评价网络参数,表示损失函数,表示随机迷你批数量,表示正整数,表示目标Q值,表示状态,...

【专利技术属性】
技术研发人员:章双全
申请(专利权)人:辰极智航北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1