一种基于A3C和事件触发的网络化伺服系统控制方法技术方案

技术编号:33525937 阅读:11 留言:0更新日期:2022-05-19 01:47
一种基于A3C和事件触发的网络化伺服系统控制方法,属于网络化电机控制技术领域。它包括以下步骤:1、建立网络化伺服控制系统的系统模型;2、设计考虑离散系统的事件触发策略3、基于事件触发的网络化伺服系统控制方案设计;4、控制器设计;5、强化学习A3C方案设计。本发明专利技术给出网络化伺服系统的数学模型,并使用时延系统的分析方法,提出了一个事件触发机制和状态反馈控制的闭环时延系统;导出控制器的设计方法;设计一个基于事件触发状态反馈控制算法,利用线性矩阵不等式工具箱获得控制器参数;最后,通过A3C方案的优化,设计了一个基于A3C和事件触发的动态阈值状态反馈控制算法;能够自主调节触发参数的动态事件触发策略。主调节触发参数的动态事件触发策略。主调节触发参数的动态事件触发策略。

【技术实现步骤摘要】
一种基于A3C和事件触发的网络化伺服系统控制方法


[0001]本专利技术属于网络化电机控制
,具体涉及一种基于A3C和 事件触发的网络化伺服系统控制方法。

技术介绍

[0002]近些年来,数字计算机飞速发展,已经成为了控制系统设计的重 要工具,而微型处理器的发展,也为控制系统增添了新的可能。随着 工业应用需求的不断扩大,网络控制系统(NCS)为实现远程控制提 供了有效的方案,并且在一些工作环境存在一定危险的方向有一定的 运用。与传统的点对点布线系统相比较,网络控制系统中的通信通道 可以大大降低成本,简化系统结构,并具有容易调试和维护系统的优 点。同时,网络控制系统由于其成本效益高,功耗要求低,可靠性高 等特点,广泛地应用在各个领域中。
[0003]在网络控制系统中,网络中的通信资源和计算资源往往是有限的, 传统的控制方法大多数都是采取周期触发控制方法,这种触发方式会 将很多不必要的信号通过网络发送,增大通信带宽的压力,降低通信 资源的利用率。为了有效地应对上述问题,D.Yue教授团队提出了基 于事件触发的控制方法,其可以在保证系统性能的情况下,减少网络 通信中不必要数据的传输数量。虽然事件触发机制可以提高通信资源 的利用率,减小通信带宽的压力,但现有的大多数事件触发条件中的 触发参数是固定不变的。这使系统在运行过程中,信号的触发频率非 常机械,不会对系统中的干扰进行反应。若能使触发参数随着系统的 变化而进行自动调节,系统将变得更加灵活,从而使系统能够拥有尽 可能好的性能和尽可能少的触发次数。因此,设计一种能自主调节触 发参数的动态事件触发策略显得尤为重要。

技术实现思路

[0004]针对现有技术中存在的上述问题,本专利技术的目的在于考虑网络控 制中通信资源和计算资源受限的问题,提出一种强化学习和事件触发 相结合的动态阈值控制方法。
[0005]本专利技术提供如下技术方案:
[0006]一种基于A3C和事件触发的网络化伺服系统控制方法,包括以下 步骤;
[0007]1)建立网络化伺服控制系统的系统模型:
[0008]定义x(k)∈R
p
表示系统的状态向量,u(k)∈R
m
表示系统的控制输入, ω(k)∈R
q
表示系统的干扰,y(k)∈R
p
表示系统输出,其中p、m、q分 别表示x(k)、u(k)、ω(k)的维度,A,B,F,C都是满足维数要求的系统 参数矩阵,则系统模型为:
[0009]x(k+1)=Ax(k)+Bu(k)+Fω(k)
[0010]y(k)=Cx(k)
[0011]设计基于状态反馈信号的伺服系统控制器:
[0012]u(k)=Kx(k),K表示控制器增益。
[0013]2)设计考虑离散系统的事件触发策略:
[0014]在网络系统中,受到通信资源受限和长距离传输的影响,存在传 输延迟τ
j
,其中,其中为大于0的实数,应用零阶保持器,系统 在事件产生器下的动态模型表示为:
[0015][0016]其中,k
j
表示系统的采样时刻,当前采样时刻的数据x(k
j
)是否被 发送用来更新控制器由以下的条件判断:
[0017][x(k)

x(k
j
)]T
Φ
j
[x(k)

x(k
j
)][0018]≤ε
j
x
T
(k)Φ
j
x(k)
[0019]通过公式推导得到,延时函数为:
[0020][0021]定义最大采样时间得到:
[0022][0023]其中,
[0024][0025][0026][0027]3)基于事件触发的网络化伺服系统控制方案设计:
[0028]定义上一时刻与下一时刻采样时间之间状态误差为:
[0029][0030]事件触发的判断条件可改写为:
[0031]e
k
(k)
T
Φ
j
e(k)
k
≤ε
j
x
T
(k

d(k))Φ
j
x(k

d(k))
[0032]基于事件触发的网络化伺服控制系统模型可以被描述为:
[0033][0034]其中表示系统的初始状态;
[0035]4)控制器设计:
[0036]给定0≤ε
j
≤1,γ>0,τ
M
>0和适当维度的矩阵 P
j
>0,Q
j
>0,R
j
>0,Z
j
>0,Φ
j
>0
和K使得下列不等式成立:
[0037][0038][0039][0040][0041][0042][0043]则基于事件触发的网络化伺服控制系统模型在均方意义上是指 数稳定的并且具有给定的H

性能水平γ,可得控制器增益K为:
[0044][0045]5)强化学习A3C方案设计:
[0046]基于A3C的强化学习方法对阈值进行优化,得到在保证系统性能 的情况下,触发次数较少的动态阈值。强化学习的问题通常可以转化 为一个动态规划问题,所以将动态阈值问题转化为一个多维动态规划 问题,并用一个五元组(S
r
,A
r
,P
r
,λ
r
,r)表示,其中,S
r
设计状态空间、A
r
为设计动作空间、P
r
为概率转移矩阵、λ
r
为设计折扣函数、r为设计 奖励函数。
[0047]所述的一种基于A3C和事件触发的网络化伺服系统控制方法,所 述步骤2)中,延时函数的推导过程如下:
[0048]由于网络中存在的长时延和短时延,所以,考虑两种延时情况:
[0049]2.1.、当时,定义延时函数:
[0050]d(k)=k

k
j
,k∈[k
j

j
,k
j+1

j+1
)
[0051]可知:
[0052][0053]2.1.、当时,
[0054]定义两种时间间隔:
[0055][0056]其中l≥1,得到:
[0057][0058]因此,当l=1,2,3,...d

1时,x(k
j
)和x(k
j
+l)满足:
[0059][x(k
j
+l)

x(k
j
)]T
Φ
j
[x(k...

【技术保护点】

【技术特征摘要】
1.一种基于A3C和事件触发的网络化伺服系统控制方法,其特征在于,包括以下步骤;1)建立网络化伺服控制系统的系统模型:定义x(k)∈R
p
表示系统的状态向量,u(k)∈R
m
表示系统的控制输入,ω(k)∈R
q
表示系统的干扰,y(k)∈R
p
表示系统输出,其中p、m、q分别表示x(k)、u(k)、ω(k)的维度,A,B,F,C都是满足维数要求的系统参数矩阵,则系统模型为:x(k+1)=Ax(k)+Bu(k)+Fω(k)y(k)=Cx(k)设计基于状态反馈信号的伺服系统控制器:u(k)=Kx(k),K表示控制器增益;2)设计考虑离散系统的事件触发策略:在网络系统中,受到通信资源受限和长距离传输的影响,存在传输延迟τ
j
,其中,其中为大于0的实数,应用零阶保持器,系统在事件产生器下的动态模型表示为:其中,k
j
表示系统的采样时刻,当前采样时刻的数据x(k
j
)是否被发送用来更新控制器由以下的条件判断:其中,Φ
j
为正定矩阵,然后通过公式推导得到延时函数为:定义最大采样时间得到:其中,其中,其中,3)基于事件触发的网络化伺服系统控制方案设计:定义上一时刻与下一时刻采样时间之间状态误差为:
事件触发的判断条件可改写为:e
k
(k)
T
Φ
j
e(k)
k
≤ε
j
x
T
(k

d(k))Φ
j
x(k

d(k))基于事件触发的网络化伺服控制系统模型可以被描述为:其中表示系统的初始状态;4)控制器设计:给定0≤ε
j
≤1,γ>0,τ
M
...

【专利技术属性】
技术研发人员:张栋辉张丹
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1