工控网络负例样本数据生成方法、装置、服务器和介质制造方法及图纸

技术编号：25643343 阅读：22 留言：0更新日期：2020-09-15 21:34

本发明专利技术实施例涉及一种工控网络负例样本数据生成方法、装置、服务器和介质，该包括：获取工业控制网络正例样本数据记录集，正例样本数据记录集包括m条正例样本数据记录，每条正例样本数据记录包括多个维度的采集数据，每条正例样本数据记录设有n个维度数据，每个维度具有相应预设权重；依据维度预设权重，计算每条正例样本数据记录中各维度之间相互紧密程度；将强相关的维度分为一组；分别对每组正例样本数据记录中的维度数据进行攻击，生成负例样本数据。能够获得满足质量、数量要求的负例样本数据，进而实现获得准确的工控网络系统攻击检测模型。

全部详细技术资料下载

【技术实现步骤摘要】
工控网络负例样本数据生成方法、装置、服务器和介质
本专利技术实施例涉及工业控制网络（以下简称工控网络）的负例样本数据生成技术，特别涉及工控网络负例样本数据生成方法、装置、服务器和介质。
技术介绍
在“工业4.0”及“中国制造2025”的大潮下，工控网络系统正朝着高度信息化方向发展，越来越多的工控网络系统及设备接入互联网，工控网络系统一般包括传感器、执行器、控制器和物理系统等4个部分。传感器采集物理量给控制器，执行器在接收到控制器的算法运算后的控制指令后执行动作(如：打开阀门)，形成闭环控制。随之而来的各种工控网络系统（industrialcontrolsystemICS）安全问题成为企业最大的隐忧，一旦受到攻击，将产生不可估量的后果。从技术上看，工控网络系统除了面临传统的针对计算机的网络安全威胁以外，更重要是利用工控网络系统本身的软件硬件特性、通信协议、操作指令和基础设施生产装置的弱点攻击，导致一般的互联网安全技术人员难以发现，即具有高专业性、高隐蔽性、高复杂性、难以被发现、难以被跟踪（即“三高两难”）特性。具不完全统计，在相关领域的大数据态势感知研究中80％的时间与精力花费在数据集的建立阶段，是整个研究过程中第一步也是最花费时间的一步，直接关系到态势感知的优劣。目前国内该领域数据集研究成果相对较少，实用性成果更不多见。因此，工控网络安全防护，首要迫切需要的是建立统一规范的数据集，获取安全态势产生影响的要素，为网络安全提供强有力的支撑和研究基础。工控网络大数据是重要的战略资源，也是保证工控网络...

【技术保护点】
1.一种工业控制网络负例样本数据生成方法，其特征在于，包括：/n获取工业控制网络正例样本数据记录集，所述正例样本数据记录集包括m个正例样本数据记录，每个所述正例样本数据记录包括n个维度数据，每个所述维度数据对应一个维度，每个所述维度设有相应预设权重；/n依据每个所述维度上的维度数据以及相应预设权重，计算每个所述正例样本数据记录中各维度之间的相互紧密程度；/n依据所述相互紧密程度将相互强关联的维度分为一组；/n分别对每组维度上的所述维度数据进行攻击，生成负例样本数据。/n

【技术特征摘要】
1.一种工业控制网络负例样本数据生成方法，其特征在于，包括：
获取工业控制网络正例样本数据记录集，所述正例样本数据记录集包括m个正例样本数据记录，每个所述正例样本数据记录包括n个维度数据，每个所述维度数据对应一个维度，每个所述维度设有相应预设权重；
依据每个所述维度上的维度数据以及相应预设权重，计算每个所述正例样本数据记录中各维度之间的相互紧密程度；
依据所述相互紧密程度将相互强关联的维度分为一组；
分别对每组维度上的所述维度数据进行攻击，生成负例样本数据。

2.根据权利要求1所述的工业控制网络负例样本数据生成方法，其特征在于，还包括：
采用GAN对生成的每组负例样本数据进行扩充，所述GAN包括生成模型G和判别模型D。

3.根据权利要求2所述的工业控制网络负例样本数据生成方法，其特征在于，所述采用GAN进行负例样本数据对扩充包括：
利用所述生成模型G：学习真实的负例样本的概率分布，将输入的噪声数据转化生成初始负例样本；
利用所述判别模型D：判断所述初始负例样本的真实性。

4.根据权利要求1-3中任一项所述的工业控制网络负例样本数据生成方法，其特征在于，所述依据每个所述维度上的维度数据以及相应预设权重，计算每个所述正例样本数据记录中各维度之间的相互紧密程度之前，所述方法包括：
针对所述正例样本数据记录集包括的m个正例样本数据记录进行维度数据预处理；
所述依据每个所述维度上的维度数据以及相应预设权重，计算每个所述正例样本数据记录中各维度之间的相互紧密程度为：依据数据预处理后每个所述维度上的维度数据以及相应预设权重，计算每个所述正例样本数据记录中各维度上的维度数据之间相互紧密程度。

5.根据权利要求4所述的工业控制网络负例样本数据生成方法，其特征在于，所述依据数据预处理后每个所述维度上的维度数据以及相应预设权重，计算每个所述正例样本数据记录中各维度上的维度数据之间相互紧密程度包括：
依据m个正例样本数据记录的所述n个维度确定权重数据集M；
依据m个正例样本数据记录的所述n个维度确定隶属度函数集U；
由决策距离矩阵D表示所述m个正例样本数据记录中每个正例样本数据记录中n个维度的维度数据之间的概率距离，针对每个正例样本数据记录的n个维度，依据每个所述维度的维度数据的所述权重和所述隶属度函数逐一计算每个维度的决策距离矩阵D；
计算所述每个维度的决策距离矩阵D的距离值，依据所述距离值得到m个正例样本数据记录的分组判决矩阵阵列J，使用所述分组判决矩阵阵列J确定相互强关联的维度。

6.根据权利要求4所述的工业控制网络负例样本数据生成方法，其特征在于，所述依据m个正例样本数据记录的所述n个维度确定权重数据集M包括：
根据预设权重数据库对n个维度确定权重数据集M；所述M为M=（λ1，λ2，λ3，…，λk，…，λn）；
其中，依据预设权重数据库及公式确定M中λk为n个维度中第k个维度所对应的权重。

7.根据权利要求5所述的工业控制网络负例样本数据生成方法，其特征在于，所述依据m个正例样本数据记录的所述n个维度确定隶属度函数集U包括：
依据隶属度计算公式及所述数据预处理后每个所述维度上的维度数据，基于所述隶属度函数为正态型分布函数的假设，确定所述隶属度函数集U；
所述隶属度计算公式为：；
式中，i表示m个正例样本数据记录中的第i个正例样本数据记录，j表示第i个正例样本数据记录的第j个维度所对应的维度数据，bij表示数据预处理后m个正例样本数据记录中的第i个正例样本数据记录的第j个维度对应的维度数据，是对应于第j个维度的维度数据的标准差，ηj参数用来调整第j个维度的所有维度数据的展开度，在0.1-1之间根据所述维度对应的维度数据情况取值。

8.根据权利要求5-7任一项所述的工业控制网络负例样本数据生成方法，其特征在于，所述针对每个正例样本数据记录的n个维度，依据每个所述维度的维度数据的所述权重和所述隶属度函数逐一计算每个维度的决策距离矩阵D包括：
依据所述确定权重数据集M和所述隶属度函数集U结合概率距离计算公式构造每个正例样本数据记录的所述决策距离矩阵D，所述决策距离矩阵D中第i个正例样本数据记录对应的Di为：

式中，矩阵行和列表示每个正例样本数据记录的n个维度对应的维度数据之间的概率距离；以dst和dts表示为第i个正例样本数据记...

【专利技术属性】
技术研发人员：周文，李晓明，刘学君，任琳琳，晏涌，沙芸，孔祥旻，张小妮，李凯丽，
申请(专利权)人：中国航空油料集团有限公司，北京石油化工学院，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人