一种基于小波分析和支持向量机的网络数据流量识别方法及系统技术方案

技术编号:25486150 阅读:36 留言:0更新日期:2020-09-01 23:05
本发明专利技术提供的一种基于小波分析和支持向量机的网络数据流量识别方法及系统,包括:S101、解析pcap数据包,并通过KNN分类方法将解析后的网络流量数据进行分类标记;S102、通过二进制离散小波变换算法对KNN分类方法筛选出来的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集;S103、将异常流量数据的训练特征集作为训练样本对SVM分类器进行训练,得到SVM分类器;S104、对处理后的待测试网络流量数据加入SVM分类器中,得到分类结果;本发明专利技术具有使用二进制离散小波变换进行数值序列过程的处理,对于网络的流量信号进行有效的时频分解的有益效果,适用于网络流量安全领域。

【技术实现步骤摘要】
一种基于小波分析和支持向量机的网络数据流量识别方法及系统
本专利技术涉及电网调度数据中心机房网络流量数据的
,具体涉及一种基于小波分析和支持向量机的网络数据流量识别方法及系统。
技术介绍
电网调度数据中心的正常运行对于一个地区甚至对整个国家经济发展和居民生活都起到了举足轻重的作用,任何一个局部出现问题都可能会波及到整个数据中心甚至整个地区电网的正常运行。网络流量的测量和预测对电网数据调度中心大规模网络管理、规划和设计具有非常重要的意义,网络流量异常检测可以监控网络工作状态是否健康,这对于确保电网数据调度中心网络系统的正常工作是意义重大的,也是网络安全领域的重点研究方向,根据目前的形式,大多数网络流量检测系统都不完美,现有技术中,使用连续小波分解来检测频域中正常和异常流量信号之间的差异,作为检测的基础,这些检测算法基于多分辨分析,可以对信号进行有效的时频分解,由于其尺度以二进制方式改变,因此其频率分辨率在高频频段较差,然而,各种异常流量产生原因多种多样导致了异常有可能是低频的,也有可能是高频的。因此,这些方法的缺点是不能有效地检测所有频段中的异常。
技术实现思路
针对相关技术中存在的不足,本专利技术所要解决的技术问题在于:提供一种能够有效检测所有网络数据流量频段中的异常,且基于小波分析和支持向量机的网络数据流量识别方法及系统。为解决上述技术问题,本专利技术采用的技术方案为:一种基于小波分析和支持向量机的网络数据流量识别方法,包括:S101、解析pcap数据包,并通过KNN分类方法将解析后的网络流量数据进行分类标记,正常流量数据标记为“0”,异常流量数据标记为“1”;S102、通过二进制离散小波变换算法对KNN分类方法筛选出来的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集;S103、将异常流量数据的训练特征集作为训练样本对支持向量机(SVM)分类器进行训练,得到SVM分类器;S104、对处理后的待测试网络流量数据加入训练好的SVM分类器中,用所述SVM分类器计算,得到最终的分类结果,判定处理后的待测试网络流量数据是否为异常流量数据。优选地,所述解析pcap数据包,并通过KNN分类方法将解析后的网络流量数据进行分类标记,具体包括:使用python的scapy模块对tcpdump生成的pcap文件进行解析及信息提取,所述提取内容包括数据的sourceip、destinationip、timenode和URL;以数据的sourceip、destinationip、timenode和URI为匹配条件,将告警日志中的每条记录与已解析的pcap文件中的数据进行匹配,将正常流量数据中提取出的包长序列和URL长度序列为“0”,将异常流量数据中提取出的包长序列和URL长度序列标记为“1”,跨站脚本攻击数据标记为“2”;将已获得的有标记数据的包长序列、URL长度序列和无标签数据的包长序列和URL长度序列均看做向量,分别计算其欧氏距离;统计最接近无标记数据的邻近K个数据中出现次数最多的有标记数据,则将该无标记数据打上与该有标记数据相同的标记。优选地,所述通过二进制离散小波变换算法对KNN分类方法筛选出来的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集,具体包括:分别估算异常流量数据中包长序列的周期和URL长度序列的周期;获取异常流量数据在包长序列每个周期窗口内的特征向量组和在URL长度序列每个周期内的特征向量组,并存储至异常流量数据的训练特征集。优选地,所述对处理后的待测试网络流量数据加入所述SVM分类器中,用所述SVM分类器计算,得到最终的分类结果,具体包括:通过KNN分类方法将解析后的待测试网络流量数据进行分类标记,正常流量数据标记为“0”,异常流量数据标记为“1”;通过小波包变换算法对KNN分类方法筛选出来的待测试网络流量中的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集;对处理后的待测试网络流量数据的异常流量数据加入SVM分类器中,得到最终的分类结果。相应地,一种基于小波分析和支持向量机的网络数据流量识别系统,包括:第一预处理单元:用于解析pcap数据包,并通过KNN分类方法将解析后的网络流量数据进行分类标记,正常流量数据标记为“0”,异常流量数据标记为“1”;第一处理单元:通过二进制离散小波变换算法对KNN分类方法筛选出来的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集;SVM分类器建立单元:将异常流量数据的训练特征集作为训练样本对支持向量机(SVM)分类器进行训练,得到SVM分类器;分类单元:对处理后的待测试网络流量数据加入训练好的SVM分类器中,用所述SVM分类器计算,得到最终的分类结果,判定处理后的待测试网络流量数据是否为异常流量数据。优选地,所述第一预处理单元包括:解析单元:使用python的scapy模块对tcpdump生成的pcap文件进行解析及信息提取,所述提取内容包括数据的sourceip、destinationip、timenode和URL;第一标记单元:以数据的sourceip、destinationip、timenode和URI为匹配条件,将告警日志中的每条记录与已解析的pcap文件中的数据进行匹配,将正常流量数据中提取出的包长序列和URL长度序列为“0”,将异常流量数据中提取出的包长序列和URL长度序列标记为“1”,跨站脚本攻击数据标记为“2”;计算单元:将已获得的有标记数据的包长序列、URL长度序列和无标签数据的包长序列和URL长度序列均看做向量,分别计算其欧氏距离;第二标记单元:统计最接近无标记数据的邻近K个数据中出现次数最多的有标记数据,则将该无标记数据打上与该有标记数据相同的标记。优选地,所述第一处理单元包括:估算单元:用于分别估算异常流量数据中包长序列的周期和URL长度序列的周期;特征向量获取模块:用于获取异常流量数据在包长序列每个周期窗口内的特征向量组和在URL长度序列每个周期内的特征向量组,并存储至异常流量数据的训练特征集。优选地,所述分类单元包括:第二预处理单元:用于通过KNN分类方法将解析后的待测试网络流量数据进行分类标记,正常流量数据标记为“0”,异常流量数据标记为“1”;第二处理单元:通过小波包变换算法对KNN分类方法筛选出来的待测试网络流量中的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集;第一分类单元:对处理后的待测试网络流量数据的异常流量数据加入SVM分类器中,得到最终的分类结果。本专利技术的有益技术效果在于:本专利技术一种基于小波分析和支持向量机的网络数据流量识别方法及系统,解析后的pcap数据包通过KNN分类方法进行分类标记,正常流量数据标记为“0”,异常流量数据标记为“1”,标记后,将KNN分类方法筛选出来的异常流量数据的包长序列和URL长度序列均看做信号,通过二进制离散小波变换算法对信号进行多尺度聚焦分析,并从中提取有用的信息处理,获得异常流量数据的训练特征集;将本文档来自技高网...

【技术保护点】
1.一种基于小波分析和支持向量机的网络数据流量识别方法,其特征在于:包括:/nS101、解析pcap数据包,并通过KNN分类方法将解析后的网络流量数据进行分类标记,正常流量数据标记为“0”,异常流量数据标记为“1”;/nS102、通过二进制离散小波变换算法对KNN分类方法筛选出来的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集;/nS103、将异常流量数据的训练特征集作为训练样本对支持向量机(SVM)分类器进行训练,得到SVM分类器;/nS104、对处理后的待测试网络流量数据加入训练好的SVM分类器中,用所述SVM分类器计算,得到最终的分类结果,判定处理后的待测试网络流量数据是否为异常流量数据。/n

【技术特征摘要】
1.一种基于小波分析和支持向量机的网络数据流量识别方法,其特征在于:包括:
S101、解析pcap数据包,并通过KNN分类方法将解析后的网络流量数据进行分类标记,正常流量数据标记为“0”,异常流量数据标记为“1”;
S102、通过二进制离散小波变换算法对KNN分类方法筛选出来的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集;
S103、将异常流量数据的训练特征集作为训练样本对支持向量机(SVM)分类器进行训练,得到SVM分类器;
S104、对处理后的待测试网络流量数据加入训练好的SVM分类器中,用所述SVM分类器计算,得到最终的分类结果,判定处理后的待测试网络流量数据是否为异常流量数据。


2.根据权利要求1所述的一种基于小波分析和支持向量机的网络数据流量识别方法,其特征在于:所述解析pcap数据包,并通过KNN分类方法将解析后的网络流量数据进行分类标记,具体包括:
使用python的scapy模块对tcpdump生成的pcap文件进行解析及信息提取,所述提取内容包括数据的sourceip、destinationip、timenode和URL;
以数据的sourceip、destinationip、timenode和URI为匹配条件,将告警日志中的每条记录与已解析的pcap文件中的数据进行匹配,将正常流量数据中提取出的包长序列和URL长度序列为“0”,将异常流量数据中提取出的包长序列和URL长度序列标记为“1”,跨站脚本攻击数据标记为“2”;
将已获得的有标记数据的包长序列、URL长度序列和无标签数据的包长序列和URL长度序列均看做向量,分别计算其欧氏距离;
统计最接近无标记数据的邻近K个数据中出现次数最多的有标记数据,则将该无标记数据打上与该有标记数据相同的标记。


3.根据权利要求1所述的一种基于小波分析和支持向量机的网络数据流量识别方法,其特征在于:所述通过二进制离散小波变换算法对KNN分类方法筛选出来的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集,具体包括:
分别估算异常流量数据中包长序列的周期和URL长度序列的周期;
获取异常流量数据在包长序列每个周期窗口内的特征向量组和在URL长度序列每个周期内的特征向量组,并存储至异常流量数据的训练特征集。


4.根据权利要求1所述的一种基于小波分析和支持向量机的网络数据流量识别方法,其特征在于:所述对处理后的待测试网络流量数据加入所述SVM分类器中,用所述SVM分类器计算,得到最终的分类结果,具体包括:
通过KNN分类方法将解析后的待测试网络流量数据进行分类标记,正常流量数据标记为“0”,异常流量数据标记为“1”;
通过小波包变换算法对KNN分类方法筛选出来的待测试网络流量中的异常流量数据的包长序列和URL长度序列进行处理,获得异常流量数据的训练特征集;
对处理后的待测试网络流量数据的异常流量数据加入SVM分类器中,得到最终的分类结果。
...

【专利技术属性】
技术研发人员:王婷郝伟李晋泉汪文全吴攀赵文娜李远徐利美赵金白亦萱李裕民强彦贾培伟杨凯敏
申请(专利权)人:国网山西省电力公司电力科学研究院国网山西省电力公司山西合力创新科技股份有限公司
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1