一种网络流量数据分析方法及系统技术方案

技术编号:27433045 阅读:156 留言:0更新日期:2021-02-25 03:09
本发明专利技术属于网络流量数据分析技术领域,具体涉及一种网络流量数据的异常检测方法,该方法包括:对实时抓取原始网络流量数据进行处理,获取网络流数据;如果该网络流数据是异常数据,则输出异常,并将该异常数据输入至预先训练的第一异常分类器中,判定该异常数据的攻击类型为已知攻击类型,输出该异常数据的攻击类型;如果该网络流数据不是异常数据,则采用无监督异常检测方法,进一步检测该网络流数据是否异常;如果该网络流数据是异常数据,则将该异常数据输入至预先训练的第二异常分类器中,判定该异常数据的类型为未知攻击类型,并将该异常数据标记为未知攻击类型;如果该网络流数据不是异常数据,则输出正常。则输出正常。则输出正常。

【技术实现步骤摘要】
一种网络流量数据分析方法及系统


[0001]本专利技术属于基于机器学习和大数据的异常检测技术和网络流量数据分析
,特别涉及一种网络流量数据分析方法及系统,具体地,一种基于稀疏自编码器和极端随机树的网络流量数据分析方法及系统。

技术介绍

[0002]近几十年来,随着互联网的迅速发展,从消费互联、产业互联到万物互联,人们的交流方式、消费模式乃至整个国家的经济形态都被一次次重塑。与之而来的网络安全问题也变得越来越棘手,层出不穷的网络攻击使得传统防御手段在面临新的攻击方式时显得力不从心。从基础的数据链路层到网络层和传输层,再到比较高级的表示层和应用层,网络攻击的方式纷繁复杂,且在不断更新,使用一种手段往往不能尽如人意,例如,规模不断增长的分布式拒绝服务攻击(DDOS),它既有利用TCP/IP协议特征的传统网络层DDOS攻击,也有在此基础上发展起来的应用层DDOS攻击,具体到应用层,又可以分为DNS-Flood攻击、慢连接攻击和CC攻击。
[0003]为了保证网络安全,各种网络安全技术应运而生,其中,网络流量分析和入侵检测技术,对检测网络流本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网络流量数据的异常检测方法,其特征在于,该方法包括:对实时抓取原始网络流量数据进行处理,获取网络流数据;如果该网络流数据是异常数据,则输出异常,并将该异常数据输入至预先训练的第一异常分类器中,判定该异常数据的攻击类型为已知攻击类型,输出该异常数据的攻击类型;如果该网络流数据不是异常数据,则采用无监督异常检测方法,进一步检测该网络流数据是否异常;如果该网络流数据是异常数据,则将该异常数据输入至预先训练的第二异常分类器中,判定该异常数据的类型为未知攻击类型,并将该异常数据标记为未知攻击类型;如果该网络流数据不是异常数据,则输出正常。2.根据权利要求1所述的方法,其特征在于,所述对实时抓取原始网络流量数据进行处理,获取网络流数据;具体包括:实时抓取原始网络流量数据;从获取的原始网络流量数据中提取可利用的数据特征,获取网络流量特征数据;对获取的网络流量特征数据进行数据清洗和属性拆分,拆分为数值型数据和非数值型数据;将非数值型数据输入至预先训练的稀疏自编码器进行重新编码,获取编码后的非数值型数据;将数值型数据输入至预先建立的极端随机树模型,对数值型数据的重要性进行降序排列和筛选,获取筛选后的数值型数据;对编码后的非数值型数据和筛选后的数值型数据进行归一化处理,获取网络流数据。3.根据权利要求2所述的方法,其特征在于,所述将非数值型数据输入至预先训练的稀疏自编码器进行重新编码,获取编码后的非数值型数据;具体包括:根据属性标号集合划分,对非数值型数据进行属性拆分,从非数值型数据中,获取非数值特征集合;对该非数值特征集合进行独热编码,获取经过独热编码后的非数值特征集合,将其输入至预先训练的稀疏自编码器,获取从稀疏自编码器中提取的编码器;采用基于稀疏自编码器的TCPIP2Vec算法,对非数值特征集合的独热编码进行重新编码,获取编码后的非数值型数据。4.根据权利要求2所述的方法,其特征在于,所述稀疏自编码器的建立和训练具体包括:建立稀疏自编码器,基于稀疏自编码器的TCPIP2Vec算法,采用添加了KL散度稀疏惩罚项的交叉熵损失函数J
S
(W,b),对稀疏自编码器进行训练;其中,为对编码函数所施加的KL散度惩罚项;ρ是稀疏参数,β是正则化参数;为编码层第j个隐藏单元的平均激活值;其中,的计算公式如下所示:
其中,n为训练时所设置的块样本个数;f(x
i
)为编码函数,x
i
是第i个样本;KL为散度;其中,KL散度是比较两个概率分布之间相似性的一种度量,其计算公式如下:其中,ρ(t)为稀疏参数函数;其中,稀疏自编码器的输入为经过独热编码后的非数值特征集合;稀疏自编码器的输出为重新编码后的非数值特征集合,即为编码后的非数值型数据。5.根据权利要求2所述的方法,其特征在于,所述将数值型数据输入至预先建立的极端随机树模型,对数值型数据的重要性进行降序排列和筛选,获取筛选后的数值型数据;具体包括:根据属性编号划分,对数值型数据进行属性拆分,获取拆分后的数值特征集合;将拆分后的数值特征集合输入至预先建立的极端随机树模型,按照重要性对拆分后的数值特征集合内的各个数值特征进行从大到小降序排列,获得排序后的数值特征集合;再根据预先设定好的阈值,对该排序后的数值特征集合进行筛选,获得大于预先设定的阈值的排序后的数值特征集合内的各个数值特征的重要性因子,记为筛选后的数值型数据。6.根据权利要求5所述的方法,其特征在于,所述基于极端随机树的特征选择模型的建立过程,具体包括:对拆分后的数值特征集合内的数值特征进行随机选择,构建多颗决策树;其中,每颗决策树的构建过程如下:根据如下计算公式,获得每个数值特征的重要性因子:其中,G(D,A)为数值特征A相对于待划分的数值特征集合D的重要性因子,即信息增益比;D为待划分的数据集合;A是当前选择的数值特征;H
A
(D)是将当前选择的数值特征A作为随机变量求得的信息熵;H(D)是集合D把数据类别作为随机变量的信息熵;H(D|A)是使用特征A对集合D划分后所得子集的条件信息熵;其中,构建每颗决策树时,随机地从K个数值特征中随机选择k个数值特征,K为数值特征的总维数,k为构建每颗决策树所设置的特征维数;k取值设置要小于K,一般令构建每颗决策树时,从所选出的k个数值特征中选择信息增益比G(D,A)最大的数值特征,然后构建节点,并进行分裂;在决策树的节点分裂时,随机选择一个处于该数值特征的最大值和最小值之间的任意数,记为比较值;当样本的该数值特征大于该比较值时,作为左分支;当样本的该数值特征小于该比较值时,作为右分支,然后计算该样本的该数值特征的分叉值;其中,该样本为拆
分后的数值特征集合;其中,遍历所选出来的k个数值特征,构建一个决策树;重复构建基本决策树的过程N次,构建N个决策树;其中,该决策树的个数使用交叉验证和网格搜索的方法进行确定;利用多颗决策树,对拆分后的数值特征集合内的每一条数值特征进行判别,具体地,通过多颗决策树种的每一颗决策树,判别该条数值特征所对应原始网络流量数据是正常数据还是异常数据,以投票法,汇总每颗决策树的判别结果,将判别结果占多数的结果作为最终的判别结果;其中,所述判别结果为该条数值特征所对应原始网络流量数据是正常数据或异常数据;根据最终获得的判别结果和上述公式,获得该拆分后的数值特征集合内的各个数值特征的重要性...

【专利技术属性】
技术研发人员:方少峰孙鹏科闫振中郑岩马福利佟继周
申请(专利权)人:中国科学院国家空间科学中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1