一种基于特征融合的电网信息系统网络攻击检测方法技术方案

技术编号:38844758 阅读:9 留言:0更新日期:2023-09-17 09:56
本发明专利技术公开了一种基于特征融合的电网信息系统网络攻击检测方法,包括以下步骤:S1:获取配电网信息系统全景数据,对配电网信息系统全景数据进行预处理,并将所述配电网信息系统全景数据划分为训练集、验证集和测试集。该一种基于特征融合的电网信息系统网络攻击检测方法,通过综合考虑URL的文本特征和结构特征,针对文本特征通过双线性因子分解机(FFM)算法有效来学习文本特征之间的潜在交互;对于深层结构特征,考虑恶意URL中不同位置的标记具有不同的功能,引入位置嵌入进行标记向量化,以减少URL标记的歧义。减少URL标记的歧义。

【技术实现步骤摘要】
一种基于特征融合的电网信息系统网络攻击检测方法


[0001]本专利技术涉及电力信息安全
,具体为一种基于特征融合的电网信息系统网络攻击检测方法。

技术介绍

[0002]随着电力数据化建设的不断推进,信息技术的引入在给电力系统带来便捷的同时,也带了大量的问题,其显著缺点之一是网络安全问题。电力网络信息安全目标是必须采取预防措施来保护电网的机密性、完整性和可用性的信息。机密性是指只有经过授权的人员才能访问电力信息系统信息。如果网络攻击者随意得到这部分信息,其可以滥用这些信息作出不可挽回的破坏。完整性是为防止数据受到未经授权的更改和破坏,维护和确保保障电力系统数据的真实完整。可用性是保护信息系统免受故障,信息必须在需要时及时提供给电网中的授权方,而不会影响安全性。智能电网应用程序中的典型网络攻击主要针对机密性、完整性和可用性信息中的一个或多个。因此,准确识别电网中的漏洞和网络安全威胁,有效制定策略保护电网的机密性、完整性和可用性的信息,对于保障电网系统的平稳运行具有重大的意义。
[0003]然而,现有的配电网信息系统入侵检测方法,仍然存在一些问题:算法开销时间大,存在一定的局限性。神经网络所需的计算能力在很大程度上取决于数据的大小,也取决与网络的深度和复杂程度,相比之下,融合神经网络的配电网信息系统入侵检测模型的处理速度较慢,算法开销过大,计算代价高昂。现有的入侵检测模型的超参数配置主要是通过手动搜索来完成的,而手动搜索要求使用者具有专业的背景只是和实践经验,这使得调整超参数的过程不易重现。与此同时,随着超参数的数量和值的范围增加,由于大多数人不善于处理高维数据并且容易误解或错过超参数的趋势和关系,所以该过程变得难以管理。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种基于特征融合的电网信息系统网络攻击检测方法。
[0006](二)技术方案
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于特征融合的电网信息系统网络攻击检测方法,包括以下步骤:
[0008]S1:获取配电网信息系统全景数据,对配电网信息系统全景数据进行预处理,并将所述配电网信息系统全景数据划分为训练集、验证集和测试集;
[0009]S2:基于特征融合网络攻击检测方法包括参考值生成层、网络攻击缓解层、协调虚假数据注入层以及网络物理-信息层;
[0010]S3:对样本URL数据进行数据预处理,包括去除重复样本、数据修剪、格式化,数据修剪去除指定条件的符号和字符,格式化将数据分为两列,修剪后的URL放置在第一列中,
URL的标签放置在第二列中,其中标签标记了URL是否恶意;
[0011]S4:基于预处理后的URL数据,提取包括词汇特征和统计特征在内的文本特征,构建文本特征向量,利用双线性因子分解机学习文本特征向量之间的潜在交互关系;
[0012]S5:基于预处理后的URL数据,执行token提取以从URL中获取tokens,通过word2vec学习URLtokens的向量表示,利用时间卷积网络学习URLtokens向量之间的距离依赖关系,距离依赖关系称为结构特征;
[0013]S6:建立随机森林入侵检测模型,并根据训练集、验证集和测试集,为随机森林入侵检测模型寻找最佳超参数组;
[0014]S7:根据最佳超参数组确定配电网信息系统是否存在网络攻击;
[0015]S8:再利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络,在整体模型训练好之后,利用训练好的模型对待检测的URL数据进行识别,基于特征融合的识别结果完成恶意URL的检测,所述自定进度学习策略通过逐渐加入学习数据来减少熵值,训练出潜在的权重参数,并通过在损失函数中引入权重变量来表示样本是否被选择。
[0016]在本专利技术实施例中,所述全景数据包括配电网网架拓扑、开关状态、设备参数、客户负荷、运行状态和设备历史运行数据。
[0017]在本专利技术实施例中,搭建由所述配电网信息系统全景数据构成的配电网信息系统全景数据库;所述对所述配电网信息系统全景数据进行预处理,具体包括:对所述配电网信息系统全景数据进行混合采样和归一化处理。
[0018]在本专利技术实施例中,对于提取文本特征的数据修剪,针对URL数据集,首先将字符选为最小的数据处理单元,接着进行字符频率统计,删除频率低于指定数量的特殊字符,并对URL长度进行标准化操作,所述标准化操作包括将URL长度与指定长度阈值比较,比指定阈值长的部分被截断,短部分用零填充。
[0019]在本专利技术实施例中,对电网信息系统全景数据进行预处理,具体包括:对电网信息系统全景数据中的边界样本进行分类,并根据所述边界样本的分布状态,对电网信息系统全景数据中的边界少数样本进行合成;根据新合成数据集中的两个样本点之间的距离,判断所述两个样本点能否形成TomekLinks对,若能形成,则确定所述两个样本点中的一个样本为噪声,并删除所述样本;若不能形成,则确定所述两个样本点为安全样本。
[0020]在本专利技术实施例中,所述利用双线性因子分解机学习文本特征向量之间的潜在交互关系包括:
[0021][0022]其中ω0是模型偏差;ω
i
∈R是对特征变量x
i
的权重建模;表征变量x
i
和x
j
之间的成对交互,k表示隐向量长度;n代表样本的特征数量;v
i
,f表示x
i
的辅助向量,表示向量x
i
在对应域f
j
的辅助向量,为向量x
j
在对应域f
i
的辅助向量。
[0023]在本专利技术实施例中,所述按/的位置将URL分成四个块:协议、域、路径和文件,第一个/之前的块作为协议部分;第二个/之前的字符串定义为域部分;最后一个/之后的字符串被视为文件部分;其余字符串被视为路径部分,利用对齐策略将tokens定位在带有不同类
型括号的不同卡盘上,其中协议部分的每个token都放在大括号{}中,域部分中的每个标记都放在括号()中,路径部分中的标记放在尖括号<>中,文件部分中的标记用方括号[]。
[0024]在本专利技术实施例中,所述利用时间卷积网络学习URLtokens向量之间的距离依赖关系包括:时间卷积网络输入层将token向量化的数据作为模型的输入,时间卷积网络由多个残差模块堆叠而成,负责提取对应的序列的时序特征,每个残差模块有一个输入,称为X,两个输出,均为高维张量,一个表示该模块所提取出的特征H
T
,一个表示该模块输出的残差R
T
,每个残差模块由4个一维卷积层Conv0、Conv1、Conv2、Conv3组成:第一个卷积层Conv对输入做初步处理,输出为C0;第二个卷积层Conv1的输入为C0,输出经过DropOut后选择使用Sigmoid函数激活,称之C本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于,包括以下步骤:S1:获取配电网信息系统全景数据,对配电网信息系统全景数据进行预处理,并将所述配电网信息系统全景数据划分为训练集、验证集和测试集;S2:基于特征融合网络攻击检测方法包括参考值生成层、网络攻击缓解层、协调虚假数据注入层以及网络物理-信息层;S3:对样本URL数据进行数据预处理,包括去除重复样本、数据修剪、格式化,数据修剪去除指定条件的符号和字符,格式化将数据分为两列,修剪后的URL放置在第一列中,URL的标签放置在第二列中,其中标签标记了URL是否恶意;S4:基于预处理后的URL数据,提取包括词汇特征和统计特征在内的文本特征,构建文本特征向量,利用双线性因子分解机学习文本特征向量之间的潜在交互关系;S5:基于预处理后的URL数据,执行token提取以从URL中获取tokens,通过word2vec学习URLtokens的向量表示,利用时间卷积网络学习URLtokens向量之间的距离依赖关系,距离依赖关系称为结构特征;S6:建立随机森林入侵检测模型,并根据训练集、验证集和测试集,为随机森林入侵检测模型寻找最佳超参数组;S7:根据最佳超参数组确定配电网信息系统是否存在网络攻击;S8:再利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络,在整体模型训练好之后,利用训练好的模型对待检测的URL数据进行识别,基于特征融合的识别结果完成恶意URL的检测,所述自定进度学习策略通过逐渐加入学习数据来减少熵值,训练出潜在的权重参数,并通过在损失函数中引入权重变量来表示样本是否被选择。2.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:所述全景数据包括配电网网架拓扑、开关状态、设备参数、客户负荷、运行状态和设备历史运行数据。3.根据权利要求2所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:搭建由所述配电网信息系统全景数据构成的配电网信息系统全景数据库;所述对所述配电网信息系统全景数据进行预处理,具体包括:对所述配电网信息系统全景数据进行混合采样和归一化处理。4.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:对于提取文本特征的数据修剪,针对URL数据集,首先将字符选为最小的数据处理单元,接着进行字符频率统计,删除频率低于指定数量的特殊字符,并对URL长度进行标准化操作,所述标准化操作包括将URL长度与指定长度阈值比较,比指定阈值长的部分被截断,短部分用零填充。5.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:对电网信息系统全景数据进行预处理,具体包括:对电网信息系统全景数据中的边界样本进行分类,并根据所述边界样本的分布状态,对电网信息系统全景数据中的边界少数样本进行合成;...

【专利技术属性】
技术研发人员:杨艺杨军张争坤姚雪莲高颂王俊付主木陶发展
申请(专利权)人:江苏理工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1