基于联合联邦学习的工控异常流量检测方法技术

技术编号:38646897 阅读:11 留言:0更新日期:2023-09-02 22:38
本发明专利技术公开了基于联合联邦学习的工控异常流量检测方法,包括:生成本地训练数据集;客户端使用本地数据集在初始模型上训练得到本地模型参数,并发送到服务器S1完成参数聚合;S1将全局参数分发到客户端,客户端开始下一轮本地训练;得到全局模型M1;客户端将本地的异常样本发送到服务器S2,S2整合所有异常样本,进行模型训练,得到模型M2;将模型M1和M2组合,并采集工控设备传感器和执行器数据,将数据送入组合模型,进行实时异常检测。本发明专利技术避免了工控环境下本地客户端采用不均衡数据集训练导致模型对正常样本过拟合,检测精度不高的问题;有更强的泛化能力。有更强的泛化能力。有更强的泛化能力。

【技术实现步骤摘要】
基于联合联邦学习的工控异常流量检测方法


[0001]本专利技术属于工控检测
,尤其涉及基于联合联邦学习的工控异常流量检测方法。

技术介绍

[0002]联邦学习作为一种新兴的机器学习技术,可以将分布在不同区域的多个客户端互联,通过各个客户端之间间接共享训练数据(共享模型权重而不是原始训练样本),进行分布式机器学习模型训练。其能够在保护用户数据隐私的前提下充分利用各个参与方的本地数据集,且拥有模型训练效率高、算法鲁棒性强等诸多优点,在工业控制系统异常流量检测领域应用广泛。
[0003]异常流量检测技术作为工业控制系统安全保障体系中的关键部分,亦由于机器学习和深度学习较传统检测算法有较高的检测精度,近年来有许多学者参与研究。随着联邦学习技术的发展,这种与工业控制系统中传感器的分布式特性完美相契合的机器学习技术,迅速成为了工业控制系统异常流量检测技术的热点。但是工业控制系统中多数流量为正常流量,异常流量比例占比极少,常规机器学习和联邦学习算法在极度失衡的数据集下模型训练效果不佳,通常表现为模型收敛慢,测试精度不高等。
[0004]为了使训练的模型性能更佳,重点在于提供高质量的均衡数据集用于模型训练。经典的处理不均衡数据集的方法主要包括数据集重采样、数据集扩充和算法补偿。其中重采样方法包括过采样和欠采样方法,数据集扩充方法包括属性值随机采样和Smote方法,算法补偿方法包括引入代价函数降低多数类样本的权值和基于集成学习的boosting方法。经典方法中,使用过采样方法容易造成模型过拟合,而使用欠采样方法则不能充分利用数据集。属性值随机采样方法无法保证采样后的数据属性保留之前的线性关系,可能会生成现实中不存在的数据。Smote方法容易造成数据分布边缘化,使正负样本的边界变得模糊,且K值的确定依赖于经验。
[0005]针对联邦学习框架下数据集不平衡问题,公开号CN112329820A的中国专利公开了联邦学习下不均衡数据的采样方法与装置,使用k

means聚类多数类样本,Smote方法生成少数类样本,将两组样本集组合后使用Adaboost方法生成本地模型,最后通过中心服务器进行模型参数聚合。公开号CN114548419A的中国专利公开了一种基于OT协议的纵向联邦学习样本不均衡处理方法,利用OT协议保护合作方数据隐私,使用改进的Smote方法生成少数类样本。公开号CN114529014A的中国专利公开了一种基于联邦学习的不均衡数据集成学习方法,使用自适应边界Smote算法生成少数样本,通过Tomeklinks方法消除由Smote方法生成的重复数据,最后得到均衡样本。这三种方案使用了改进的Smote方法作为解决不平衡数据集的基础方法,但其依旧存在上述问题。且联邦学习是多客户端参与训练的,每个客户端得到的数据特性可能不一致,这意味着要人工设置多个K值,操作较为繁琐。
[0006]公开号CN114462509A的中国专利公开了一种分布式物联网设备异常检测方法,使用改进自编码网络对训练集进行异常数据进行特征提取,特征校正和异常特征判别,获取
高质量重构异常数据。该方案使用自编码器提取样本特征到低维度,必然会造成部分有用信息的丢失,重构样本的质量不佳。

技术实现思路

[0007]针对现有的联邦学习技术在工业控制系统异常流量检测应用中,由于实际流量中的异常样本与正常样本数量极度不均衡,导致模型训练收敛速度慢、性能不佳的问题,本专利技术在原有技术基础上引入联合模型,能够充分有效利用分布在各个客户端之间的异常样本,提升联邦学习模型整体的检测精度。
[0008]本专利技术公开的基于联合联邦学习的工控异常流量检测方法,包括以下步骤:
[0009]在工控流量采集和预处理阶段,获取本地工控设备的各个传感器和执行器数据,生成本地训练数据集X
l

[0010]在模型M1训练阶段,各个客户端使用本地数据集X
l
在初始模型上训练得到本地模型参数w
l
,并发送到参数聚合服务器S1完成参数聚合;参数聚合服务器S1将全局参数w
g
分发到各个客户端,客户端开始下一轮本地训练;如此往复,直到全局模型精度达到要求或全局迭代次数达到E次,得到全局模型M1;
[0011]在模型M2训练阶段,各个客户端将本地的异常样本发送到服务器S2,服务器S2整合并打乱收到的所有异常样本,进行模型训练,得到模型M2;
[0012]在模型联合和异常检测阶段,将模型M1和M2组合,并采集工控设备传感器和执行器数据,将数据送入组合模型,进行实时异常检测。
[0013]进一步地,在工控数据采集及预处理阶段,各个客户端通过工控协议,每秒钟获取一次本地工控设备的各个传感器和执行器数据,生成t时刻特征向量x
t
∈R
n
,n为本地工控设备所有传感器和执行器数量的总和;
[0014]根据当前时刻工控系统的运行状态确定当前特征向量x
t
的标签y
t
,如正常则y
t
=0,否则y
t
=1;
[0015]连续采集数据,直到y
t
=1的特征向量总数大于50,停止采集数据;最后构成本地训练样本。
[0016]进一步地,在模型M1训练阶段,参数聚合服务器S1首先将基础模型w0分发到各个客户端;
[0017]各个客户端接收来自参数聚合服务器S1的参数w
s
,并使用本地数据在w
s
的基础上进行本地模型迭代,直到达到最大本地轮迭代次数E
l
;将本地迭代完成的模型参数w
l
发送的参数聚合服务器;
[0018]参数聚合服务器S1接收来自客户端的本地参数{w
l1
,w
l2
...w
lN
},其中N为所有的客户端总数;使用联邦平均参数聚合算法完成本次全局迭代的参数聚合,并将本轮全局模型参数w
g+1
分发给各个客户端;
[0019]重复上述步骤,直到全局模型精度达到要求或全局迭代次数达到预设次数,得到全局聚合参数w
end1
,完成全局模型M1训练。
[0020]进一步地,所述联邦平均参数聚合算法具体计算步骤如下:
[0021][0022]其中,w
g
为聚合服务器上一时刻保留的全局模型参数,t为学习率,N为参与本次参数聚合的客户端总数。
[0023]进一步地,在模型M2训练阶段,各个客户端将本地训练数据集X
l
的所有异常样本分离出来,构成异常样本集合所述异常样本是指本地训练数据集X
l
中,数据标签y=1的样本;各个客户端将本地异常样本集合发送到服务器S2;
[0024]服务器S2接收到来自各个客户端的训练样本集合,得到样本集合随后将样本集合打乱顺序,得到训练数据集X
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于联合联邦学习的工控异常流量检测方法,其特征在于,包括以下步骤:在工控流量采集和预处理阶段,获取本地工控设备的各个传感器和执行器数据,生成本地训练数据集X
l
;在模型M1训练阶段,各个客户端使用本地数据集X
l
在初始模型上训练得到本地模型参数w
l
,并发送到参数聚合服务器S1完成参数聚合;参数聚合服务器S1将全局参数w
g
分发到各个客户端,客户端开始下一轮本地训练;如此往复,直到全局模型精度达到要求或全局迭代次数达到E次,得到全局模型M1;在模型M2训练阶段,各个客户端将本地的异常样本发送到服务器S2,服务器S2整合并打乱收到的所有异常样本,进行模型训练,得到模型M2;在模型联合和异常检测阶段,将模型M1和M2组合,并采集工控设备传感器和执行器数据,将数据送入组合模型,进行实时异常检测。2.根据权利要求1所述的基于联合联邦学习的工控异常流量检测方法,其特征在于,在工控数据采集及预处理阶段,各个客户端通过工控协议,每秒钟获取一次本地工控设备的各个传感器和执行器数据,生成t时刻特征向量x
t
∈R
n
,n为本地工控设备所有传感器和执行器数量的总和;根据当前时刻工控系统的运行状态确定当前特征向量x
t
的标签y
t
,如正常则y
t
=0,否则y
t
=1;连续采集数据,直到y
t
=1的特征向量总数大于50,停止采集数据;最后构成本地训练样本。3.根据权利要求1所述的基于联合联邦学习的工控异常流量检测方法,其特征在于,在模型M1训练阶段,参数聚合服务器S1将基础模型参数w0和模型M1分发到各个客户端;各个客户端接收来自参数聚合服务器S1的参数w
s
,并使用本地数据在w
s
的基础上进行本地模型迭代,直到达到最大本地轮迭代次数E
l
;将本地迭代完成的模型参数w
l
发送的参数聚合服务器...

【专利技术属性】
技术研发人员:余思洋李政李肯立段明星蔡宇辉杨志邦杨圣洪唐伟吕婷
申请(专利权)人:湖南匡安网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1