当前位置: 首页 > 专利查询>暨南大学专利>正文

基于AE模型优化的对抗训练式无监督入侵检测系统及方法技术方案

技术编号:38007029 阅读:6 留言:0更新日期:2023-06-30 10:24
本发明专利技术公开了一种基于自编码器模型优化的工业互联网对抗训练式无监督入侵检测系统及方法。本发明专利技术使用数据解压模块采集工业互联网系统的通讯时序流量,经过谱残差技术的数据清洗、数据归一化和数据样本化等获得输入数据集,将AE网络模型的架构和参数进行二进制编码,设计基于二进制遗传优化技术的AE网络模型离线优化平台,并利用对抗训练对个体适应度进行评估,经迭代优化后自动获得工业互联网入侵检测系统的AE网络最优模型。本发明专利技术不仅可实现用于工业互联网无监督入侵检测系统的AE模型的对抗式训练和自动优化设计,提高了工业互联网入侵检测系统的模型训练稳定性和智能化设计水平,还提升了工业互联网系统入侵检测的召回率和F1评分等性能指标。评分等性能指标。评分等性能指标。

【技术实现步骤摘要】
基于AE模型优化的对抗训练式无监督入侵检测系统及方法


[0001]本专利技术涉及工业互联网系统信息安全领域的智能入侵检测技术,特别涉及一种基于自编码器(Autoencoder,AE)模型优化的对抗训练式入侵检测系统及方法。

技术介绍

[0002]工业互联网是以互联网为代表的新一代信息技术在工业领域的应用和发展。近年来,我国的工业互联网产业规模已突破万亿元,制造业的数字化转型提速。工业互联网产业发展迅速、前景广阔,但与此同时所面临的安全风险也日益增加。
[0003]当前工业互联网还没形成较统一的架构,标准规范缺失,产业升级带来软件环境动态变化等情况导致对入侵检测模型的适应速度提出了更高的要求,安全风险的不断变化也对入侵检测模型的检测稳定性提出了更高的标准。近年来,基于深度学习的工业互联网系统入侵检测技术已成为学术界和工业界的研发热点之一。目前,面向工业互联网系统入侵检测的绝大多数深度神经网络模型架构为专业人员手工设计研发,设计研发的周期长,难以与环境动态调整,因此当前工业互联网入侵检测系统的自动化设计水平亟待提升。
[0004]深度神经网络模型优化设计方案在应对动态变化的环境风险和平衡计算成本与提高检测率等方面有与生俱来的优势。然而,深度神经模型优化设计的现有研究成果主要集中在传统的图像识别领域,在工业互联网系统入侵检测领域的应用却鲜有研究报道。
[0005]自编码器模型作为工业互联网系统入侵检测的一类典型无监督方法,虽然具有较高的检测率,但现有自编码器模型存在训练不稳定、模型设计依赖手工设计等问题,严重制约了其在工业互联网入侵检测中的推广应用。而对抗训练(学习)作为一种新兴技术,有望解决自编码器模型训练目标单一、训练不稳定等问题,但相关技术还未见报道。基于上述情况,基于自编码器网络模型优化设计的工业互联网系统新型对抗训练式无监督入侵检测技术亟待研发。

技术实现思路

[0006]本专利技术的目的在于针对现有技术的不足,提供了一种基于AE模型优化的工业互联网对抗训练式无监督入侵检测系统及方法。
[0007]本专利技术的目的是通过以下技术方案来实现的:一种基于AE模型优化的工业互联网对抗训练式无监督入侵检测系统,其特征在于,该系统包括工业互联网入侵检测的数据解压模块、数据预处理模块、自编码器网络模型离线优化模块和在线检测模块;
[0008]所述工业互联网入侵检测系统的数据解压模块包括数据采集和数据清洗两个子模块,其中数据采集模块的主要功能是将工业互联网系统的实时传感器等时序数据进行收集汇总,数据清洗模块的主要功能是使用谱残差技术对工业互联网时序数据中的每一个数据特征进行数据清洗;将数据清洗后的数据集输入到数据预处理模块,
[0009]所述数据预处理模块包括数据归一化和数据样本化两个子模块,其中数据归一化模块是通过计算数据集中每一维度的极值,以消除量纲达成加速优化过程的目的;数据样
本化模块将长段时序数据划分为块状数据,生成最终数据集,将生成的最终数据集作为自编码器网络模型优化模块的输入;
[0010]所述自编码器网络模型离线优化模块是针对数据预处理模块产生的最终数据集,对自编码器网络模型进行二进制编码,利用二进制遗传优化技术,联合个体适应度评估模块,经过迭代优化后获得最优自编码器网络模型的架构及参数信息;同时将其输入到在线检测模块;
[0011]所述个体适应度评估模块,从自编码器网络模型离线优化模块中获得每个个体的编码信息,构建自编码器AE以及两个判别器D1和D2,通过三者对抗训练,依据自编码器AE重构损失判别验证集样本,计算验证集F1评分作为每个个体的适应度值,将每个个体的适应度值传送回自编码器网络模型离线优化模块;
[0012]所述在线检测模块,在接收到最优自编码器网络模型的架构和参数信息后,构建最优自编码器网络模型,对工业互联网实时通讯流量进行异常检测,并判别出样本是否异常;
[0013]所述系统的基于自编码器网络模型优化的工业互联网入侵检测方法,包括以下步骤:
[0014](1)权利要求1中所述工业互联网入侵检测系统中的数据解压模块,将工业互联网系统的实时传感器等时序数据进行收集汇总,将收集的数据标记为x,并使用公式(1)、公式(2)、公式(3)对数据进行傅里叶变换得到对数振幅谱;
[0015]A(f)=Amplitude(F(x))
ꢀꢀꢀ
(1)
[0016]P(f)=Phrase(F(x))
ꢀꢀꢀ
(2)
[0017]L(f)=Log(A(f))
ꢀꢀꢀ
(3)
[0018]其中F(x)表示对x的傅里叶变换;A(f)为输入序列x的振幅谱,P(f)为输入序列x的相位谱,L(f)为振幅谱A(f)的对数表示;使用公式(4)、公式(5)进行谱残差计算:
[0019]AL(f)=h
q
(f)
·
L(f)
ꢀꢀꢀ
(4)
[0020]R(f)=L(f)

AL(f)
ꢀꢀꢀ
(5)
[0021]其中,AL(f)为对数振幅谱L(f)的平均频谱,h
q
(f)为卷积操作,R(f)为谱残差;使用公式(6)利用傅里叶反变换将序列变换回空间域;
[0022]S(x)=||F
‑1(exp(R(f)+iP(f)))||
ꢀꢀꢀ
(6)
[0023]其中F
‑1()表示傅里叶反变换,将数据解压模块处理后的时序数据标记为S(x),i表示虚数单位;
[0024]权利要求1中所述工业互联网入侵检测系统中的数据预处理模块,在接收到S(x)数据后,按照公式(7)进行数据归一化处理,将归一化处理后获得的数据集标记为X;
[0025][0026]其中,X
j
表示数据集X第j维度的特征,S
j
表示源数据集S中第j维度的特征,S
jmax
表示源数据集S第j维度的特征的最大值,S
jmin
表示源数据集S第j维度的特征的最小值,m表示数据集X的最大维度值;数据样本化是根据公式(8)使用时序滑动窗口截取一定时间段的时序数据产生时序样本Y
i
,再根据公式(9)每间隔一段距离收集Y
i
收录进W中;
[0027][0028][0029]其中,s
w
表示滑动窗口长度,s
s
表示滑动窗口间隔,X
i
表示X中时间点i的所有维度的数据,M表示数据集X的长度。将数据样本化处理后获得的数据集标记为W;训练集标记为W
train
,验证集标记为W
vali
,测试集标记为W
test

[0030](2)设置基于自编码器网络模型优化的离线优化训练模块的参数值,所述参数值包括种群大小N、自编码器网络模型架构与超参数优化的迭本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自编码器网络模型优化的工业互联网对抗训练式无监督入侵检测系统,其特征在于,该系统包括工业互联网入侵检测的数据解压模块、数据预处理模块、自编码器网络模型离线优化模块和在线检测模块;所述工业互联网入侵检测系统的数据解压模块包括数据采集和数据清洗两个子模块,其中数据采集模块的主要功能是将工业互联网系统的实时传感器等时序数据进行收集汇总,数据清洗模块的主要功能是使用谱残差技术对工业互联网时序数据中的每一个数据特征进行数据清洗;将数据清洗后的数据集输入到数据预处理模块,所述数据预处理模块包括数据归一化和数据样本化两个子模块,其中数据归一化模块是通过计算数据集中每一维度的极值,以消除量纲达成加速优化过程的目的;数据样本化模块将长段时序数据划分为块状数据,生成最终数据集,将生成的最终数据集作为自编码器网络模型优化模块的输入;所述自编码器网络模型离线优化模块是针对数据预处理模块产生的最终数据集,对自编码器网络模型进行二进制编码,利用二进制遗传优化技术,联合个体适应度评估模块,经过迭代优化后获得最优自编码器网络模型的架构及参数信息;同时将其输入到在线检测模块;所述个体适应度评估模块,从自编码器网络模型离线优化模块中获得每个个体的编码信息,构建自编码器AE以及两个判别器D1和D2,通过三者对抗训练,依据自编码器AE重构损失判别验证集样本,计算验证集F1评分作为每个个体的适应度值,将每个个体的适应度值传送回自编码器网络模型离线优化模块;所述在线检测模块,在接收到最优自编码器网络模型的架构和参数信息后,构建最优自编码器网络模型,对工业互联网实时通讯流量进行异常检测,并判别出样本是否异常。2.一种应用权利要求1所述系统的基于自编码器网络模型优化的工业互联网入侵检测方法,其特征在于,包括以下步骤:(1)权利要求1中所述工业互联网入侵检测系统中的数据解压模块,将工业互联网系统的实时传感器等时序数据进行收集汇总,将收集的数据标记为x,并使用公式(1)、公式(2)、公式(3)对数据进行傅里叶变换得到对数振幅谱;A(f)=Amplitude(F(x))
ꢀꢀꢀ
(1)P(f)=Phrase(F(x))
ꢀꢀꢀ
(2)L(f)=Log(A(f))
ꢀꢀꢀ
(3)其中F(x)表示对x的傅里叶变换;A(f)为输入序列x的振幅谱,P(f)为输入序列x的相位谱,L(f)为振幅谱A(f)的对数表示;使用公式(4)、公式(5)进行谱残差计算:AL(f)=h
q
(f)
·
L(f)
ꢀꢀꢀ
(4)R(f)=L(f)

AL(f)
ꢀꢀꢀ
(5)其中,AL(f)为对数振幅谱L(f)的平均频谱,h
q
(f)为卷积操作,R(f)为谱残差;使用公式(6)利用傅里叶反变换将序列变换回空间域;S(x)=||F
‑1(exp(R(f)+iP(f)))||
ꢀꢀꢀ
(6)其中F
‑1()表示傅里叶反变换,将数据解压模块处理后的时序数据标记为S(x),i表示虚数单位;权利要求1中所述工业互联网入侵检测系统中的数据预处理模块,在接收到S(x)数据
后,按照公式(7)进行数据归一化处理,将归一化处理后获得的数据集标记为X;其中,X
j
表示数据集X第j维度的特征,S
j
表示源数据集S中第j维度的特征,S
jmax
表示源数据集S第j维度的特征的最大值,S
jmin
表示源数据集S第j维度的特征的最小值,m表示数据集X的最大维度值;数据样本化是根据公式(8)使用时序滑动窗口截取一定时间段的时序数据产生时序样本Y
i
,再根据公式(9)每间隔一段距离收集Y
i
收录进W中;收录进W中;其中,s
w
表示滑动窗口长度,s
s
表示滑动窗口间隔,X
i
表示X中时间点i的所有维度的数据,M表示数据集X的长度;将数据样本化处理后获得的数据集标记为W;训练集标记为W
train
,验证集标记为W
vali
,测试集标记为W
test
;(2)设置基于自编码器网络模型优化的离线优化训练模块的参数值,所述参数值包括种群大小N、自编码器网络模型架构与超参数优化的迭代优化次数G
max
、自编码器网络模型训练的轮次E、自编码器网络模型潜在空间维度LD、二进制遗传优化求解器中的交叉率β、变异率σ;(3)随机产生包含N个个体的初始种群P0,即P0={p1,

,p
i
,

,p
N
,1≤i≤N},其中p
i
表示P0中第i个个体,p
i
将待优化设计的自编码器网络模型的超参数和网络架构参数编码成一个BD维的二进制向量,p
i
位置的具体编码如公式(10)所示:p
i
={b1,

,b
d
,

,b
D
},1≤d≤BD
ꢀꢀꢀ
(10)其中,b
d
表示自编码器网络模型的超参数和网络架构参数编码的第d位二进制数值,b
d
∈{0,1},将p
i
位置所对应的自编码器网络模型的超参数和网络架构参数标记为q
i
,即q
i
表示第i个个体所对应的自编码器网络模型超参数和网络架构参数的实数向量,其组成如公式(11)所示:其中,[B,f,η]表示自编码器网络模型所采用的超参数,B代表自编码器网络模型训练时采用的批大小,f代表自编码器网络模型训练时所采用的优化器类型,f∈{adamax,adam,r msprop,adadelta},adamax表示自适应矩估计最大值优化(Adaptive Moment Estimation Max,Adamax),adam表示自适应矩估计(Adaptive Moment Estimation),rmsprop表示均方根反向传播(Root Mean Squre Propogation),adadelta表示在均方根反向传播的基础上,对相邻两步迭代的差值(即迭代增量)进行累计加权和的优化求解方法;η代表自编码器网络模型训练时采用的学习率大小;L
n
代表自编码器网络模型中卷积层的层数,layer
j
代表第j层卷积层,1≤j≤n
c
,layer
j
的具体组成如公式(12)所示:layer
j
=[oc
j
,ks
j
,nt
j
,af
j
], 1≤j≤L
n
ꢀꢀꢀ
(12)其中,oc
j
代表第j层卷积层的卷积核个数,ks
j
代表第j层卷积层的卷积核大小,nt
j
代表第j层卷积层的所接的归一化层类型,nt
j
∈{batchnorm,none},batchnorm代表批量标准
...

【专利技术属性】
技术研发人员:曾国强杨耀伟耿光刚翁健黄家承张宇
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1