一种基于强化学习的区域控制器预测方法技术

技术编号:36341643 阅读:49 留言:0更新日期:2023-01-14 17:55
本发明专利技术公开了一种基于强化学习的区域控制器预测方法,包括以下步骤:S1、对采集的原始数据进行数据预处理;S2、将通道注意力模块和传统的注意力模块构建成混合注意力模块;S3、将混合注意力模块与长短时记忆LSTM模型串联,得到预测系统;S4、将预处理后的数据输入预测系统进行预测,通过预测系统预判出采集的连续数据的下一阶段的预判数据;S5、将预判数据与实际数据作比较,如果数据正常,则区域控制器不上报数据;如果数据异常,则区域控制器立即上报数据;本发明专利技术将强化学习算法集成到区域控制器中,通过神经元预判模型,预判采集的数据,在数据出现异常才实时上报,大大降低了区域控制器的上报数据量,可从根本缓解系统高并发可能性。能性。能性。

【技术实现步骤摘要】
一种基于强化学习的区域控制器预测方法


[0001]本专利技术涉及信息
,具体的说是一种基于强化学习的区域控制器预测方法。

技术介绍

[0002]城市市政管线是城市发展的生命线,是加快经济发展、加速现代化进程的保障。综合管廊建设在地下,并且一般由分散的多段管廊组成,传统的二维监控方式和效果已经难以满足针对地下多个区域管廊的的综合监控需求;将三维地理信息、设备运行信息、环境信息、安全防范信息、视频图像、预警报警信号、巡检信息等内容进行融合,统一在三维可视化平台进行集中展现,实现综合管廊的一体化的立体监控和调度逐渐得到人们的关注。地下管廊的安全运行保障,尤其是突发事件发生时如何及时发现异常,快速对突发事件进行分析诊断,给出科学、准确地处理措施,并将突发事件快速的解决,可在事故发生时尽可能的减少人身生命安全损失,不仅仅是重要的安全任务,同时也是重大的政治任务。区域控制器是管廊环境监测系统中重要组成部分,功能主要涉及到管廊内的温湿度、燃气泄露、火险、有害气体、积水监测等,据实际情况,还可能涉及到其它监测。区域控制器实时采集数据,并通过无线或者有线网络上报到主控中心,但随着全国隧道数量的增加,海量剧增的区域控制器使得实时上报数据越来越多,对系统平台层的高并发带来巨大挑战。现有区域控制器的采集数据实时上报,随着接入区域控制器的海量剧增,容易使系统出现拥堵。

技术实现思路

[0003]本专利技术的目的在于提出了一种基于强化学习的区域控制器预测方法,该基于强化学习的区域控制器预测方法将强化学习算法集成到区域控制器中,通过神经元预判模型,预判采集的数据,在数据出现异常才实时上报,大大降低了区域控制器的上报数据量,可从根本缓解系统高并发可能性。
[0004]为实现上述目的,本专利技术采用以下技术方案:
[0005]一种基于强化学习的区域控制器预测方法,包括以下步骤:
[0006]S1、对采集的原始数据进行数据预处理;
[0007]S2、将通道注意力模块和传统的注意力模块构建成混合注意力模块;
[0008]S3、将混合注意力模块与长短时记忆LSTM模型串联,得到预测系统;
[0009]S4、将预处理后的数据输入预测系统进行预测,通过预测系统预判出采集的连续数据的下一阶段的预判数据;
[0010]S5、将预判数据与实际数据作比较,如果数据正常,则区域控制器不上报数据;如果数据异常,则区域控制器立即上报数据。
[0011]优选地,步骤S1的具体过程为:将从现场各类传感器以及运行记录中所采集的原始数据,经过填充到固定长度以后,进入预处理模块进行归一化和中心化。
[0012]优选地,步骤S2的具体过程为:
[0013]S21、给定输入信号X∈R
S
×
C
,其中S为信号特征长度,C为每组信号的通道数,σ为softmax函数产生的非线性关系;
[0014]S22、输入信号通过通道注意力模块,将特征与其转置矩阵相乘,得到不同通道的自相关阵;
[0015]S23、将自相关阵通过softmax函数后,作为通道注意力矩阵A
C
∈R
C
×
C
对原始信号进行加权,使通道间的相关性下降,有用的信息被突出,得到X'∈R
S
×
C

[0016]S24、将X'∈R
S
×
C
输入传统的注意力模块,X'∈R
S
×
C
被3个映射矩阵W
k
、W
q
和W
v
投影到低维空间R
S
×
C'
上,产生自注意力矩阵A
S
∈R
S
×
S
,再对信号进行加权,得到降维后的输出Y∈R
S
×
C'
,传统的注意力模块的降维注意力机制表达为:
[0017]Y=A
s
X'W
v
=σ(X'W
q
(X'W
k
)
T
)X'W
v

[0018]其中,W
k
、W
q
和W
v
这3个C
×
C'维参数矩阵通过模型训练获得,T为某个时刻。
[0019]优选地,步骤S3的具体过程为:
[0020]S31、长短时记忆LSTM模型由输入门i、输入调制门g、遗忘门s、输出门o和记忆单元c构成,将混合注意力模块的输出Y被拉直后,作为长短时记忆LSTM模型的输入x∈R
SC'

[0021]S32、给定长短时记忆LSTM模型t时刻的输入为x
t
,输出为z
t
∈R
N
,传递的隐藏状态为h
t
∈R
N
,其中,N为隐藏单元数;
[0022]S33、将内部各门函数和记忆单元上的非线性激活函数统一用f
λ
(
·
),λ∈{i,g,s,o,c}表示,输入用x
λ
表示,输出用y
λ
表示,则长短时记忆LSTM模型的前向计算为:
[0023]y
λ
=f
λ
(W
λ
x
λ
),λ∈{i,g,o,s}
[0024]y
c
=f
c
(y
s

c
t
‑1+y
i

y
g
)
[0025]z
t
=h
t
=y
o

y
c
[0026]其中,

表示向量点积,4个门函数上的线性加权参数W
λ
通过模型训练获得y
λ
为λ时刻输出,x
λ
为λ时刻输入,y
c
为c时刻输出,y
s
为s时刻输出。
[0027]优选地,步骤S4中所述预测系统通过一个全连接FC层输出预测结果,得到预判数据。
[0028]采用上述技术方案后,本专利技术与
技术介绍
相比,具有如下优点:本专利技术旨在解决区域控制器数据上报数据量巨大的问题,将神经网络运用于区域控制器中,首先通过注意力机制发掘采集信号中的自相关性,突出信号中与最终预测任务相关的部分特征,并降低信号混淆程度,随后将混合注意力模块和长短时记忆LSTM模型进行串联,对区域控制器状态进行预测,可预判出连续数据的下一阶段可能出现的预判数据,最后将预判数据与实际数据作比较,如果数据正常,区域控制器选择不上报,仅仅当数据异常时才上报,可从根源上降低上报的数据量。
附图说明
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的区域控制器预测方法,其特征在于,包括以下步骤:S1、对采集的原始数据进行数据预处理;S2、将通道注意力模块和传统的注意力模块构建成混合注意力模块;S3、将混合注意力模块与长短时记忆LSTM模型串联,得到预测系统;S4、将预处理后的数据输入预测系统进行预测,通过预测系统预判出采集的连续数据的下一阶段的预判数据;S5、将预判数据与实际数据作比较,如果数据正常,则区域控制器不上报数据;如果数据异常,则区域控制器立即上报数据。2.如权利要求1所述的基于强化学习的区域控制器预测方法,其特征在于,步骤S1的具体过程为:将从现场各类传感器以及运行记录中所采集的原始数据,经过填充到固定长度以后,进入预处理模块进行归一化和中心化。3.如权利要求1所述的基于强化学习的区域控制器预测方法,其特征在于,步骤S2的具体过程为:S21、给定输入信号X∈R
S
×
C
,其中S为信号特征长度,C为每组信号的通道数,σ为softmax函数产生的非线性关系;S22、输入信号通过通道注意力模块,将特征与其转置矩阵相乘,得到不同通道的自相关阵;S23、将自相关阵通过softmax函数后,作为通道注意力矩阵A
C
∈R
C
×
C
对原始信号进行加权,使通道间的相关性下降,有用的信息被突出,得到X'∈R
S
×
C
;S24、将X'∈R
S
×
C
输入传统的注意力模块,X'∈R
S
×
C
被3个映射矩阵W
k
、W
q
和W
v
投影到低维空间R
S
×
C'
上,产生自注意力矩阵A
S
∈R
S
×
S
,再对信号进行加权,得到降维后的输出Y∈R
S
×
C'
,传统的注意力模块的降维注意力机制表达为:Y=A
s
X'W
v
=σ(X'W
q
(X'W
k
)
...

【专利技术属性】
技术研发人员:江福椿林伟铭刘中明
申请(专利权)人:厦门一联时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1