一种面向网络异常数据流的分类检测方法技术

技术编号:13941311 阅读:59 留言:0更新日期:2016-10-29 16:29
在面向大规模数据流的监控应用中,为了使管理更加高效,必须针对异常数据流的特征进行准确的在线识别。由于网络数据流在大规模网络实时环境中具有多维异构的特点,对异常数据流的挖掘必须使用较高的计算性能和较小的计算开销来满足所有符合匹配规则的异常数据流。本发明专利技术提出了一种面向异常数据流层次聚类挖掘算法,这种算法能够很好的适应多源异构环境下的异常流。挖掘算法主要包括两个部分,约束归并和层次聚类。算法将数据流进行嵌套层次聚类的同时进行约束归并,约束归并主要将聚类的数据流进行必连和不连约束并将约束进行闭包操作,防止类别间的过早聚类所产生分析误差。实验表明,该算法在挖掘异常数据流中相比其他分类检测算法具有较高的精确度。

【技术实现步骤摘要】

本专利技术涉及网络安全研究领域,具体涉及通过一种异常数据流分类方法对网络数据流进行检测并对异常流量进行稳定的分类。
技术介绍
随着大数据技术的逐渐发展,企业大数据处理水平不断提高,面向企业的大规模数据流逐渐出现多源异构等特点.一些大型企业集团开始重视面向在线数据流的监控和挖掘以及相关技术的实现。因此,数据流挖掘技术在大数据环境下针对不同属性维度的数据流具有广泛的应用前景;通过数据流挖掘能够客观的评估数据流状态并预测数据流趋势。需要训练的数据流持续不断的经过在线检测系统,系统需要将原来的学习结果和实时的训练结果进行有效的综合,并能够保证系统的计算能力和知识发现的准确度。最后,在原有的异常判断规则中添加新的异常检测规则。近年来,国内外针对异常流检测和分析的相关研究工作不断增多。根据不同的类型的数据源,检测范围和不同层面的流量异常检测内容,研究人员使用多种研究方法从数据流量属性特征出发,对异常数据流进行多维多层次的分析。数据包和网络流量是异常数据流挖掘技术主要研究的基本单位,数据流挖掘技术的主要研究方法包括近似技术、滑动窗口技术、衰减因子以及自适应技术。其中,自适应技术是目前流挖掘技术的主要研究方向。从数据流的多维特征中提取出某种异常流量形式的特征流,结合其他大规模数据流的正常行为模式,从而确定网络流量的异常行为。例如,一些畸形的大规模流量从固定的几个源端口发送出去,这种流量异常所体现的网络行为代表的某种蠕虫特征,常见于flash堵塞和DDos中。本文专利技术一种面向网络异常数据流的分类检测方法,这种方法能够很好的适应多源异构网络环境下的异常数据流。挖掘检测方法主要包括两个部分,约束归并和层次聚类。算法将数据流进行嵌套层次聚类的同时进行约束归并,约束归并主要将聚类的数据流进行必连和不连约束并将约束进行闭包操作,防止类别间的过早聚类所产生分析误差。实验表明,该方法在挖掘异常数据流中相比其他流挖掘算法具有较高的精确度。专利技术中所使用的一些技术原理如下。1、约束传递原理在数据挖掘思想中,半监督学习要求不仅使用标记数据集进行分析,而且通过标记数据集产生的分类模式能够合理的引导未经标识的数据集进行数据挖掘。半监督层次聚类算法使用了必连和不连两种约束。算法的主要思想是:首先对符合必连约束的数据集划分为数据类别M1,…Mr,对于不涉及必连约束的数据样本集合划分类别为C1,…Cr。之后通过输入初始化类别和相似度测量来运行层次化聚类算法。与标准的层次聚类算法不同的是,如果Ca与Cb之间的所有样本点不存在满足不连约束的点,则与Cb可以进行合并,否则寻找次小的两个类别。如果不存在两个类别,则算法终止。由于半监督层次聚类算法对类别进行初始化约束判断,对于层次聚类的效果具有一定的影响,具有必连约束的类别不一定是最近,有可能最远,对于新产生类别的中心点有可能与其他类别重合,降低挖掘精度。因此,引入约束的思想动态变换类间的约束。由同类传递和异类传递的原理可知,对于必连约束集合μ和不连约束集合有其中约束集合μ和是一个闭包是指μ是一个同类闭包同时是一个异类闭包。同类闭包是指所有可以通过传递规则推断的集合可以最终推断并包含在必连约束集合中。异类闭包是指所有可以通过传递规则推断的集合可以最终推断并包含在不连约束集合中。2、约束归并方法给定需要合并的类别C1和C2,合并结果C∪,必连约束集合μ和不连约束集合步骤1.对满足(C1,Ck)∈μ或(C2,Ck)∈μ,则将(C∪,Ck)加入μ,即μ=μ∪(C∪,Ck);步骤2.对满足或则将(C∪,Ck)加入即步骤3.分别计算与C1和C2满足必连约束的集合μ1和μ2,以及满足不连约束的集合和并进行如下操作:将(Ck,Cs)加入即将(Ck,Cs)加入即将(Ck,Cs)加入μ,即μ=μ∪(Ck,Cs)。步骤4.从μ和中将所有关于C1或C2的约束去除;步骤5.返回归并后的必连和不连约束集合μ和半监督层次聚类要求数据源同时包含标记数据的训练集和未标记数据的测试集,由于网络异常通常表现为极大的多样性:在种类上包括扫描、DDos、蠕虫以及网络堵塞等。系统可以通过训练数据流进行初始化分类为这些异常,并通过测试数据流更加精确的对数据流进行分类处理。
技术实现思路
本专利技术使用的网络数据流检测分类方法包含三个主要步骤:将约束数据流关联,数据流特征属性聚类,约束归并。首先将所有的必连约束数据流集和不连约束数据流集进行闭包关联,对数据流聚类需要计算训练数据集的相似度,同时在构建聚类树时完成约束规则的动态更新。一种面向网络异常数据流的分类检测方法,该方法包括:步骤一:对网络异常数据流开始分类检测,判断是否符合数据流约简要求,如果是,则执行步骤二;如果否,则返回;步骤二:使用自定义向量因子约简数据流集,步骤三:关联数据流集合约束控制矩阵;步骤四:计算类间相似度并选出相似度最小的一对数据集,将该数据集合并为新的集合,更新数据流集,并更新约束控制矩阵;步骤五:判断是否满足聚类停止条件,如果是,则输出异常流聚类树状图,结束算法分类检测过程,如果否,则返回步骤三。附图说明图1分类检测方法流程;图2针对不同异常数据流的检测效果;图3不同算法对数据流的分类性能。具体实施方式在多源异构的网络环境中,对于异常流量的准确分析和判断有助于网络管理人员及时做出应急响应措施。本文通过从网络原始流量中收集的流量数据和具有标识的网络流数据,从训练数据集和测试数据集两个角度进行半监督聚类分析,将相似的数据流归为一类。为了提高聚类结果的精确性,通过类间约束更新能够较为有效的提高层次聚类合并的准确度,并防止聚类之间的过早合并所产生的分类误差。图1为分类检测方法的流程。表1描述了实验过程所使用的数据集信息。训练数据流使用的是在某商业网链路上搜集一个月的流量记录。恶意异常流量数据采用CAIDA组织收集到的Witty蠕虫数据、DDOS数据以及Conficker蠕虫数据。表1数据集统计信息表其中,Witty和Conficker蠕虫数据流量使用工具Telescope采集,DDOS数据是针对某主干链路采集到的一次ICMP DDOS攻击。原始背景训练数据流是通过流量收集的方式进行数据收集,在商业网中异常流量相对于背景流量总体较少,不利于流量挖掘算法对其进行分析。因此,实验使用异常数据流注入的方式改善原始数据的总体特征效果。由于原始数据集过于庞大,为了对系统进行验证,从各数据代表集中选取具有代表性的15%数据集作为测试。表2给出了在评价指标下算法的分类效果,其中可以看出DDos与蠕虫的分类误判率较低,精确度较高。说明算法可以有效的对这两种攻击特征属性进行聚类划分。针对链路失效的分类效果同时可以达到85.5%,说明针对特征向量以及分析视角的选择对分类结果的精确度有一定的影响力。表2算法分类效果表图2为算法在针对不同异常数据流中识别效果,通过注入异常数据流来确定算法的识别精度。从图中可以看出,当异常数据流注入比例达到%6时对异常的识别效果达到最优,接近%100。当异常数据流小于%6时,算法识别效果较低,误判率较高,检测准确率在%40-%80。因此,算法检测精度可以定义为%6。图3选取人工注入的背景数据流集进行算法分类性能比较。并使用COP-KMEANS和C-DBSCAN算法。由于数据集本文档来自技高网
...

【技术保护点】
一种面向网络异常数据流的分类检测方法,该方法包括:步骤一:对网络异常数据流开始分类检测,判断是否符合数据流约简要求,如果是,则执行步骤二;如果否,则返回;步骤二:使用自定义向量因子约简数据流集,步骤三:关联数据流集合约束控制矩阵;步骤四:计算类间相似度并选出相似度最小的一对数据集,将该数据集合并为新的集合,更新数据流集,并更新约束控制矩阵;步骤五:判断是否满足聚类停止条件,如果是,则输出异常流聚类树状图,结束算法分类检测过程,如果否,则返回步骤三。

【技术特征摘要】
1.一种面向网络异常数据流的分类检测方法,该方法包括:步骤一:对网络异常数据流开始分类检测,判断是否符合数据流约简要求,如果是,则执行步骤二;如果否,则返回;步骤二:使用自定义向量因子约简数据流集,步骤三:关联数据流集合约束控制矩阵;步骤四:计算类间相似度并选出相似度最小的一对数据集,将该数据集合并为新的集合,更新数据流集,并更新约束控制矩阵;步骤五:判断是否满足聚类停止条件,如果是,则输出异常流聚类树状图,结束算法分类检测过程,如果否,则返回步骤三。2.根据权利要求1所述的一种面向网络异常数据流的分类检测方法,其特征在于:该网络异常数据流定义为多元组表示,使用元组形式为I=(sIP,dIP,sPort,dPort,Protocol),其中,sIP和dIP为数据流源IP地址和目的IP地址,Port和dPort为数据流源端口和目的端口,Protocol为数据流所使用的协议类型。3.根据权利要求2所述的一种面向网络异常数据流的分类检测方法,其特征在于:该网络异常数据流定义为元组属性。4.根据权利要求1所述的一种面向网络异常数据流的分类检测方法,其特征在于:所述约束控制矩阵Conj(i,j),C...

【专利技术属性】
技术研发人员:柳毅杨融泽凌捷
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1