基于单类支持向量机OCSVM的流量异常检测方法技术

技术编号:36812851 阅读:19 留言:0更新日期:2023-03-09 00:55
本发明专利技术提供了一种基于单类支持向量机OCSVM的流量异常检测方法,包括1)数据采集阶段、2)数据降维预处理阶段及3)OCSVM算法运行阶段。应用本技术方案可通过机器学习的方法对数据进行二分类,并且只需要一类样本就可以训练检测模型,对噪声样本数据具有鲁棒性,很好满足了工控系统的数据不平衡特点。满足了工控系统的数据不平衡特点。满足了工控系统的数据不平衡特点。

【技术实现步骤摘要】
基于单类支持向量机OCSVM的流量异常检测方法


[0001]本专利技术涉及信息安全测试
,特别是一种基于单类支持向量机 OCSVM的流量异常检测方法。

技术介绍

[0002]与传统TCP/IP网络不同,工业控制系统通信网络具有“状态有限”和“行为有限”的特点。状态有限是指工业控制系统通信具有规律性和稳定性的特点,即规则的通信流;行为有限是指工业控制系统具有较固定的行为特征和可预测的行为模式,因此,工业控制系统的实时网络流量异常特征识别技术本质上是一个二分类问题,即对正常的工业数据和异常的工业数据进行二分类。但目前的数据检测通常需要多类样本,检测便捷度低。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于单类支持向量机OCSVM的流量异常检测方法,通过机器学习的方法对数据进行二分类,并且只需要一类样本就可以训练检测模型,对噪声样本数据具有鲁棒性,很好满足了工控系统的数据不平衡特点。
[0004]为实现上述目的,本专利技术采用如下技术方案:基于单类支持向量机 OCSVM的流量异常检测方法,包括1)数据采集阶段、2)数据降维预处理阶段及3)OCSVM算法运行阶段。
[0005]在一较佳的实施例中,数据采集阶段在电网运行时对网络数据包进行捕获,从电网实时网络流量中采集到的流量数据绝大部分为正常数据,少部分为异常数据;现场采集的流量数据数据量大、维度高,因此需要经过一系列的预处理后,采用OCSVM算法进行机器学习。
[0006]在一较佳的实施例中,数据降维预处理阶段指数据降维;数据降维是对数据维度进行降维处理;采用主成分分析方法对系统数据进行特征提取、降维度。
[0007]在一较佳的实施例中,对电网网络流量特征数据进行反复权衡比较,选取能够代表电网流量的特征属性代表原始数据包信息;选取下列13项特征属性代表原数据包的信息,它们是源地址、目的地址、IP包总长度、IP 包头长度、TCP包头长度、源端口号、目的端口号、流量大小、协议标识符、长度、业务标识符、功能码以及数据长度;
[0008]根据所选择的特征,将这些特征按顺序从数据包中提取出来并存储成矩阵形式,用主成分分析方法PCA进行特征提取,进行降维处理,去除噪声数据和冗余特征项。
[0009]在一较佳的实施例中,主成分分析方法PCA具体过程如下:
[0010]步骤1:设定n个特征变量,这里n=13;
[0011]步骤2:输入提取数据帧号N,计算第N帧各特征数据地址;
[0012]步骤3:提取不同的特征变量对应的数据值;
[0013]步骤4:判断是否提取n个特征变量,若是,将提取的特征变量输出,存储为矩阵形式,记为X0,否则继续提取数据,直到将所有数据包中的特征值都提取出来为止;
[0014]步骤5:计算标准化化后的工业数据集X0的协方差矩阵P=(1/n)X0X0T,并计算协
方差矩阵的特征值以及对应的特征向量;
[0015]步骤6:按照特征值大小顺序将特征值对应的特征向量排列成向量形式,根据公式计算累计方差贡献率,选取前m,个特征向量组成变换矩阵C,m<n,确定降维后工业数据集,记为X1=CX0,将原始工业数据集从n维降到m维。
[0016]在一较佳的实施例中,OCSVM算法运行阶段具体为:在经过数据预处理后,得到具有相同维数的流量数据样本,即OCSVM算法可处理的矩阵形式X =(x1,x2

xi

xl),将矩阵输入OCSVM算法运算实现实时网络流量异常的识别;在X矩阵中,xi=(xi1,xi2,

,xim)表示第i个现场数据,每一维代表该数据的一项属性;
[0017]当样本维数为两维时,直线即可进行样本划分,当样本维数为三维时,截面即可进行样本划分,当样本维数高于3维时,需要在高维空间进行样本划分,利用OCSVM算法将样本的特征在高维空间进行映射和划分。
[0018]在一较佳的实施例中,在OCSVM流量流量异常检测中;在OCSVM训练中,采用OCSVM算法对电网流量数据进行训练;在训练时假设坐标原点为异样样本,在特征空间中构建一个最优的划分面区分正常和异常数据,得到分类决策函数。
[0019]与现有技术相比,本专利技术具有以下有益效果:经过对电网智能终端报文的深度解析,对网络流量的异常监测以对应用层指令监测,可构建电网智能终端业务行为模型,实现基于终端业务行为模型的指令级攻击模式在线识别,解决电网智能终端中大量规约指令级新型攻击识别难题。
附图说明
[0020]图1为本专利技术优选实施例的基于单类支持向量机OCSVM的流量异常检测技术流程图;
[0021]图2为本专利技术优选实施例的电网异常流量检测流程。
具体实施方式
[0022]下面结合附图及实施例对本专利技术做进一步说明。
[0023]应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。
[0024]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0025]本专利技术提出了基于单类支持向量机OCSVM的流量异常检测技术,OCSVM 的基本思想就是通过机器学习的方法对数据进行二分类,并且只需要一类样本就可以训练检测模型,对噪声样本数据具有鲁棒性,很好满足了工控系统的数据不平衡特点,如图1所示。
[0026]一种基于单类支持向量机OCSVM的流量异常检测方法,如图1所示,包括以下三个阶段;
[0027]1)数据采集阶段
[0028]数据采集主要是在电网运行时对网络数据包进行捕获,从电网实时网络流量中采集到的流量数据绝大部分为正常数据,只有很少的一部分为异常数据,此外,现场采集的流量数据还可能数据量大、维度高,因此需要经过一系列的预处理,才能用OCSVM算法进行机器学习。
[0029]2)数据降维预处理阶段
[0030]数据预处理主要指数据降维,数据降维主要是对数据维度进行降维处理,采集的数据具有较多的属性即数据的维度高,这会降低异常识别算法的效率,需要对数据作降维处理。本专利技术采用主成分分析方法对系统数据进行特征提取、降维度,主成分分析法(Principal Component Analysis, PCA)基于统计特征的多维正交线性变化,是一种多源统计方法,成功应用于数据的特征提取和数据降维。
[0031]对于一个数据包来说,在对特征属性进行选择时,属性选择的越多能代表的原始数据包的信息就越全面,然而,特征属性选择的越多计算量也会相应越大。因此需要对电网网络流量特征数据进行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于单类支持向量机OCSVM的流量异常检测方法,其特征在于,包括1)数据采集阶段、2)数据降维预处理阶段及3)OCSVM算法运行阶段。2.根据权利要求1所述的基于单类支持向量机OCSVM的流量异常检测方法,其特征在于,数据采集阶段在电网运行时对网络数据包进行捕获,从电网实时网络流量中采集到的流量数据绝大部分为正常数据,少部分为异常数据;现场采集的流量数据数据量大、维度高,因此需要经过一系列的预处理后,采用OCSVM算法进行机器学习。3.根据权利要求1所述的基于单类支持向量机OCSVM的流量异常检测方法,其特征在于,数据降维预处理阶段指数据降维;数据降维是对数据维度进行降维处理;采用主成分分析方法对系统数据进行特征提取、降维度。4.根据权利要求3所述的基于单类支持向量机OCSVM的流量异常检测方法,其特征在于,对电网网络流量特征数据进行反复权衡比较,选取能够代表电网流量的特征属性代表原始数据包信息;选取下列13项特征属性代表原数据包的信息,它们是源地址、目的地址、IP包总长度、IP包头长度、TCP包头长度、源端口号、目的端口号、流量大小、协议标识符、长度、业务标识符、功能码以及数据长度;根据所选择的特征,将这些特征按顺序从数据包中提取出来并存储成矩阵形式,用主成分分析方法PCA进行特征提取,进行降维处理,去除噪声数据和冗余特征项。5.根据权利要求4所述的基于单类支持向量机OCSVM的流量异常检测方法,其特征在于,主成分分析方法PCA具体过程如下:步骤1:设定n个特征变量,这里n=13;步骤2:输入提取数据帧号N,计算第N帧各特征数据地址;步骤3:提取不同的特征变量对应的数据值;步骤4:判断是否提取n个特...

【专利技术属性】
技术研发人员:张坤三陈辰曾臻黄正刘学瀚林小平杨威陈丽莎陈铮傅昱钟敏林逸婷蔡洪明肖英东朱雅珊
申请(专利权)人:国网福建省电力有限公司漳州供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1