工控网络负例样本数据生成方法、装置、服务器和介质制造方法及图纸

技术编号:25643343 阅读:22 留言:0更新日期:2020-09-15 21:34
本发明专利技术实施例涉及一种工控网络负例样本数据生成方法、装置、服务器和介质,该包括:获取工业控制网络正例样本数据记录集,正例样本数据记录集包括m条正例样本数据记录,每条正例样本数据记录包括多个维度的采集数据,每条正例样本数据记录设有n个维度数据,每个维度具有相应预设权重;依据维度预设权重,计算每条正例样本数据记录中各维度之间相互紧密程度;将强相关的维度分为一组;分别对每组正例样本数据记录中的维度数据进行攻击,生成负例样本数据。能够获得满足质量、数量要求的负例样本数据,进而实现获得准确的工控网络系统攻击检测模型。

【技术实现步骤摘要】
工控网络负例样本数据生成方法、装置、服务器和介质
本专利技术实施例涉及工业控制网络(以下简称工控网络)的负例样本数据生成技术,特别涉及工控网络负例样本数据生成方法、装置、服务器和介质。
技术介绍
在“工业4.0”及“中国制造2025”的大潮下,工控网络系统正朝着高度信息化方向发展,越来越多的工控网络系统及设备接入互联网,工控网络系统一般包括传感器、执行器、控制器和物理系统等4个部分。传感器采集物理量给控制器,执行器在接收到控制器的算法运算后的控制指令后执行动作(如:打开阀门),形成闭环控制。随之而来的各种工控网络系统(industrialcontrolsystemICS)安全问题成为企业最大的隐忧,一旦受到攻击,将产生不可估量的后果。从技术上看,工控网络系统除了面临传统的针对计算机的网络安全威胁以外,更重要是利用工控网络系统本身的软件硬件特性、通信协议、操作指令和基础设施生产装置的弱点攻击,导致一般的互联网安全技术人员难以发现,即具有高专业性、高隐蔽性、高复杂性、难以被发现、难以被跟踪(即“三高两难”)特性。具不完全统计,在相关领域的大数据态势感知研究中80%的时间与精力花费在数据集的建立阶段,是整个研究过程中第一步也是最花费时间的一步,直接关系到态势感知的优劣。目前国内该领域数据集研究成果相对较少,实用性成果更不多见。因此,工控网络安全防护,首要迫切需要的是建立统一规范的数据集,获取安全态势产生影响的要素,为网络安全提供强有力的支撑和研究基础。工控网络大数据是重要的战略资源,也是保证工控网络系统安全的重要手段,但是,各种过程参数、泵及电动阀门等设备的工作数据,OPC协议、485接口协议、Modbus协议等多种协议数据相关研究很少,且数量巨大、不完整、格式多样、数据重复、特征冗余,因此,工控网络大数据不是可以直接处理的数据。参见图1,工控网络系统的业务数据的多源异构性一方面来自于产生数据的设备和系统不同,以及数据类型本身的不同;另一方面也来自于不同安全服务商的监测技术或数据输出标准的不同。二者相互叠加,就形成了复杂的异构数据体系,往往很难“互联互通”,建立规范统一的数据集。当数据量不够的时候一个有效的方法便是使用样本生成技术来进行数据集的扩增。通常传统上多数采用均匀分布或者伯努利分布的负采样的方式构建负例样本,随机采样得到的绝大部分样本很难与正样本中的关系与实体组成一个可信样本。而包含正常和受攻击后的训练集以及测试集是工控网络系统攻击检测模型实现的基础,数据量和数据质量影响攻击检测模型最终表现效果。专利技术人发现现有技术中至少存在如下问题:虽然工控网络数据中心采集的海量实际量测数据是理想的数据样本,但是具有攻击特性的负例样本在实际生产生活中难以获得,导致很难获得准确的工控网络系统攻击检测模型。
技术实现思路
本专利技术实施方式的目的在于提供一种工控网络负例样本数据生成方法、装置、服务器和介质,能够获得满足质量、数量要求的负例样本数据,进而实现获得准确的工控网络系统攻击检测模型。为解决上述技术问题,本专利技术的实施方式提供了以下解决方案:根据本专利技术的一个方面,一种工业控制网络负例样本数据生成方法,包括:获取工业控制网络正例样本数据记录集,所述正例样本数据记录集包括m个正例样本数据记录,每个所述正例样本数据记录包括n个维度数据,每个所述维度数据对应一个维度,每个所述维度设有相应预设权重;依据每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度之间的相互紧密程度;依据所述相互紧密程度将相互强关联的维度分为一组;分别对每组维度上的所述维度数据进行攻击,生成负例样本数据。进一步可选的,该方法还包括:采用GAN对生成的每组负例样本数据进行扩充,所述GAN包括生成模型和判别模型。进一步可选的,所述采用GAN进行负例样本数据对扩充包括:利用所述生成模型G:学习真实的负例样本的概率分布,将输入的噪声数据转化生成初始负例样本;利用所述判别模型D:判断所述初始负例样本的真实性。进一步可选的,所述依据每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度之间的相互紧密程度之前,所述方法包括:针对所述正例样本数据记录集包括的m个正例样本数据记录进行数据预处理;所述依据每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度之间的相互紧密程度为:依据数据预处理后每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度数据之间相互紧密程度。进一步可选的,所述依据数据预处理后每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度数据之间相互紧密程度包括:依据m个正例样本数据记录的所述n个维度确定权重数据集M;依据m个正例样本数据记录的所述n个维度确定隶属度函数集U;由决策距离矩阵D表示所述m个正例样本数据记录中每个正例样本数据记录中n个维度的维度数据之间的概率距离,针对每个正例样本数据记录的n个维度,依据每个所述维度的维度数据的所述权重和所述隶属度函数逐一计算每个维度的决策距离矩阵D;计算所述每个维度的决策距离矩阵D的距离值,依据所述距离值得到m个正例样本数据记录的分组判决矩阵阵列J;使用所述分组判决矩阵阵列J确定相互强关联的维度。进一步可选的,所述依据m个正例样本数据记录的所述n个维度确定权重数据集M包括:根据预设权重数据库对n个维度确定权重数据集M;所述M为M=(λ1,λ2,λ3,…,λk,…,λn);其中,依据预设权重数据库及公式确定M中λk为n个维度中第k个维度所对应的权重。进一步可选的,所述依据m个正例样本数据记录的所述n个维度确定隶属度函数集U包括:依据隶属度计算公式及所述数据预处理后每个所述维度上的维度数据,基于所述隶属度函数为正态型分布函数的假设,确定所述隶属度函数集U;所述隶属度计算公式为:;式中,i表示m个正例样本数据记录中的第i个正例样本数据记录,j表示第i个正例样本数据记录的第j个维度所对应的维度数据,bij表示数据预处理后m个正例样本数据记录中的第i个正例样本数据记录的第j个维度对应的维度数据,是对应于第j个维度的维度数据的标准差,ηj参数用来调整第j个维度的所有维度数据的展开度,在0.1-1之间根据所述维度对应的维度数据情况取值。进一步可选的,所述针对每个正例样本数据记录的n个维度,依据每个所述维度的维度数据的所述权重和所述隶属度函数逐一计算每个维度的决策距离矩阵D包括:依据所述确定权重数据集M和所述隶属度函数集U结合概率距离计算公式构造每个正例样本数据记录的所述决策距离矩阵D,所述决策距离矩阵D中第i个正例样本数据记录对应的Di为:式中,矩阵行和列表示每个正例样本数据记录的n个维度对应的维度数据之间的概率距离;以dst和dts表示为第i个正例样本数据记录中第s个维度对应的维度数据与第t个维度对应的维度数据之间的距离值;所述概率距离计算公式为:式中,ρ为n/2,μis和μit分别为第i个正例本文档来自技高网
...

【技术保护点】
1.一种工业控制网络负例样本数据生成方法,其特征在于,包括:/n获取工业控制网络正例样本数据记录集,所述正例样本数据记录集包括m个正例样本数据记录,每个所述正例样本数据记录包括n个维度数据,每个所述维度数据对应一个维度,每个所述维度设有相应预设权重;/n依据每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度之间的相互紧密程度;/n依据所述相互紧密程度将相互强关联的维度分为一组;/n分别对每组维度上的所述维度数据进行攻击,生成负例样本数据。/n

【技术特征摘要】
1.一种工业控制网络负例样本数据生成方法,其特征在于,包括:
获取工业控制网络正例样本数据记录集,所述正例样本数据记录集包括m个正例样本数据记录,每个所述正例样本数据记录包括n个维度数据,每个所述维度数据对应一个维度,每个所述维度设有相应预设权重;
依据每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度之间的相互紧密程度;
依据所述相互紧密程度将相互强关联的维度分为一组;
分别对每组维度上的所述维度数据进行攻击,生成负例样本数据。


2.根据权利要求1所述的工业控制网络负例样本数据生成方法,其特征在于,还包括:
采用GAN对生成的每组负例样本数据进行扩充,所述GAN包括生成模型G和判别模型D。


3.根据权利要求2所述的工业控制网络负例样本数据生成方法,其特征在于,所述采用GAN进行负例样本数据对扩充包括:
利用所述生成模型G:学习真实的负例样本的概率分布,将输入的噪声数据转化生成初始负例样本;
利用所述判别模型D:判断所述初始负例样本的真实性。


4.根据权利要求1-3中任一项所述的工业控制网络负例样本数据生成方法,其特征在于,所述依据每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度之间的相互紧密程度之前,所述方法包括:
针对所述正例样本数据记录集包括的m个正例样本数据记录进行维度数据预处理;
所述依据每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度之间的相互紧密程度为:依据数据预处理后每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度上的维度数据之间相互紧密程度。


5.根据权利要求4所述的工业控制网络负例样本数据生成方法,其特征在于,所述依据数据预处理后每个所述维度上的维度数据以及相应预设权重,计算每个所述正例样本数据记录中各维度上的维度数据之间相互紧密程度包括:
依据m个正例样本数据记录的所述n个维度确定权重数据集M;
依据m个正例样本数据记录的所述n个维度确定隶属度函数集U;
由决策距离矩阵D表示所述m个正例样本数据记录中每个正例样本数据记录中n个维度的维度数据之间的概率距离,针对每个正例样本数据记录的n个维度,依据每个所述维度的维度数据的所述权重和所述隶属度函数逐一计算每个维度的决策距离矩阵D;
计算所述每个维度的决策距离矩阵D的距离值,依据所述距离值得到m个正例样本数据记录的分组判决矩阵阵列J,使用所述分组判决矩阵阵列J确定相互强关联的维度。


6.根据权利要求4所述的工业控制网络负例样本数据生成方法,其特征在于,所述依据m个正例样本数据记录的所述n个维度确定权重数据集M包括:
根据预设权重数据库对n个维度确定权重数据集M;所述M为M=(λ1,λ2,λ3,…,λk,…,λn);
其中,依据预设权重数据库及公式确定M中λk为n个维度中第k个维度所对应的权重。


7.根据权利要求5所述的工业控制网络负例样本数据生成方法,其特征在于,所述依据m个正例样本数据记录的所述n个维度确定隶属度函数集U包括:
依据隶属度计算公式及所述数据预处理后每个所述维度上的维度数据,基于所述隶属度函数为正态型分布函数的假设,确定所述隶属度函数集U;
所述隶属度计算公式为:;
式中,i表示m个正例样本数据记录中的第i个正例样本数据记录,j表示第i个正例样本数据记录的第j个维度所对应的维度数据,bij表示数据预处理后m个正例样本数据记录中的第i个正例样本数据记录的第j个维度对应的维度数据,是对应于第j个维度的维度数据的标准差,ηj参数用来调整第j个维度的所有维度数据的展开度,在0.1-1之间根据所述维度对应的维度数据情况取值。


8.根据权利要求5-7任一项所述的工业控制网络负例样本数据生成方法,其特征在于,所述针对每个正例样本数据记录的n个维度,依据每个所述维度的维度数据的所述权重和所述隶属度函数逐一计算每个维度的决策距离矩阵D包括:
依据所述确定权重数据集M和所述隶属度函数集U结合概率距离计算公式构造每个正例样本数据记录的所述决策距离矩阵D,所述决策距离矩阵D中第i个正例样本数据记录对应的Di为:



式中,矩阵行和列表示每个正例样本数据记录的n个维度对应的维度数据之间的概率距离;以dst和dts表示为第i个正例样本数据记...

【专利技术属性】
技术研发人员:周文李晓明刘学君任琳琳晏涌沙芸孔祥旻张小妮李凯丽
申请(专利权)人:中国航空油料集团有限公司北京石油化工学院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1