一种基于对称度Sketch的网络流量异常检测与定位方法技术

技术编号:15334650 阅读:322 留言:0更新日期:2017-05-16 21:48
本发明专利技术公开了一种基于对称度Sketch的网络流量异常检测与定位方法,提出采用连接对称度来实现异常行为的检测,其检测粒度和精度都要高于传统的基于流量特征统计的方法;本发明专利技术提出了连接对称度的计算方法‑连接度sketch,将IP地址按照其结构特征分为四段,每一段采用相应的hash函数组进行映射,不但有效的降低了hash表的长度,也有效的降低了冲突发生的概率,获得比较精确的主机连接对称度;接着提出了根据流量自身特征的分布情况获取阈值的方法,所获得的阈值根据网络流量特征实时变化,能够较为精准的捕获到异常行为的特征,获得较好的检测效果;最后,通过设计sketch的核心hash函数组,利用中国余数定理,实现异常源的解析求解,并且求解过程简单高效,结果准确。

【技术实现步骤摘要】
一种基于对称度Sketch的网络流量异常检测与定位方法
本专利技术属于数据流分析处理
,涉及一种基于对称度Sketch的网络流量异常检测与定位方法。
技术介绍
随着计算机网络技术的发展和应用,网络带宽和网络流量快速增长,海量的网络流量数据给大规模网络的实时有效测量和监控带来了巨大挑战。网络的实时有效测量对网络管理、流量规划、网络计费有重要意义,例如网络运营商需要统计网络带宽的使用情况或者流量的统计信息来进行计费,网络管理者需要根据流量统计信息更新路由器的路由表,以及通过对网络流量的有效分析来及时发现和处理网络异常事件。为此大规模网络流量的实时测量和监控系统在性能上需要满足下面三个基本的要求:1)高效的处理速度,对于每个数据包的处理必须高效快速。2)较小的内存需求。3)快速而且准确的数据查询。异常检测主要分为两类:基于特征的检测和基于统计的检测。基于特征的检测主要是通过寻找能与已知异常特征相匹配的模式来检测异常,需要预先设定特征库或规则库。这种方法的优点是能够准确检测已知的异常,缺点是不能检测未知异常,同时随着异常种类的增多,特征库很庞大,监测性能下降。因此基于特征的异常监测只能适用于局域网,不能满足骨干链路的速率。基于统计的检测不需要预先了解异常的特征和属性,能够有效的检测已知和未知异常。在基于统计的检测方法中很重要的一部分就是变化检测,主要是通过历史流量得到一个正常的流量模型,然后通过检测在短期内不符合此模型的行为来发现异常。网络流是网络流量测量和监控领域常用的处理技术,网络流通常的定义是具有相同五元组(协议类型,源IP,源端口,目的IP,目的端口)的所有网络数据包集合。对于基于网络流的网络流量测量和监控,如果精确的测量,则需要存储每条网络流的状态信息。对于大规模的网络流量而言,这需要巨大的内存空间,目前而言往往是无法实现的。目前硬件的处理速度已经跟不上网络流量的增长速度,同时随着网络带宽和网络流的在逐年剧增,这一差距还在不断扩大。综上可知,对大规模网络特性实时精确的测量已经是遥不可及,目前许多处理大规模网络流量的技术方法都是采用概率估计的技术方法。数据采样是一种常用的数据处理技术,在网络流量处理领域有着广泛的应用。有关采样技术国内外都有着广泛深入的研究,提出了数据包随机采样,网络流采样,智能采样等多种采样技术。其中一些技术已经应用于实际的生产实践中了,例如Cisco路由器上的Netflow数据流信息就是经过数据包采样后的结果。由于采样的技术仅仅处理并存储极少部分数据的信息,因此所需要的存储空间相对很小,处理的效率也很高。同时采样技术的缺陷是有很多的数据包以及网络数据流的丢失,尤其是网络数据包数较少的网络流。这将给网络的测量与监控带来一系列的问题,比如Dos和DDos攻击的有效检测。sketch是最近几年提出的一种数据结构,已经广泛应用于涉及海量数据处理的各个领域。sketch利用一组hash函数将数据映射到各个hash函数空间中,通过各个hash函数空间的映射值可以估算原始数据的真实值,估算的结果可以确保在一定的误差范围内。相对存储原始数据而言,sketch技术只需要很小的存储要求,因此在网络流量测量与监控流域,尤其是涉及大规模的网络流量sketch技术有着广泛的应用。比如统计网络流的大小分布特性,查找流量大小占网络总流量比较大的网络流,以及检测异常网络流量等。下面简单介绍用于大规模网络流量监控的k-arysketch技术。(1)数据流模型设输入数据流为I=a1,a2,…,数据项ai按照时间顺序依次到达。数据项ai=(ki,ui),其中键值ki∈{0,1,…,N-1},ui是相应的更新数值,ui值可正可负。(2)数据结构k-arysketch由H×K的计数数组T[i][j](0≤i<H,0≤j<K)构成,k-arysketch的概要数据结构见图1。数据结构T[i][j]可以看成H张hash表,每一行T[i][·](0≤i<H)是和hash函数hi相对应的hash表。其中每个hash函数是从{0,1,…,N-1}到{0,1,…,K-1}的映射,其中N是键值空间的大小,K是每张hash表的大小。各hash函数之间是相互独立无关的。(3)更新操作当更新数据项ai=(ki,ui)到达后,将每一张hash表j(1≤j≤H)相应的T[j][hj(ki)]项加上更新数值ui,即如下式所示:T[j][hj(ki)]=T[j][hj(ki)]+ui1≤j≤H由上可知k-arysketch所需的内存空间大小为H×K,处理每个数据包需要的操作数为H。网络管理者可以基于对k-arysketch分析,获取在k-arysketch每张数据表中的那些项产生了异常,从而实现对大规模网络流量实时有效监控。然而从上述k-arysketch的数据结构可以得知,其并没有存储键值的任何信息,导致很难通过k-arysketch中的异常项来逆向求解其对应的网络流。因此当通过k-arysketch发现存在网络流量异常时,无法快速的将该网络流量异常准确的定位到相应的某条网络流上。下面形式化的描述sketch逆向求解问题,其定义如下:输入:整数t≥1,r≤H-1。sketch的hash函数为从{0,…,N-1}到{0,…,K-1}的映射对于每一张hash表i至多包含t个不同的标记项,其集合记做输出:输出集合中的元素x满足x∈{0,…,N-1},并且存在不少于H-r个i∈{0,…,H-1},使得hi(x)∈Ri。对于网络流量异常检测方面的应用,上述问题中的标记项对应的就是异常项。目前解决这一问题主要有三种实现方法:(1)依次尝试键值空间的每一个键值,检测此键值是否映射到sketch的至少H-r张hash表的异常项中,如果是,则此键值为异常键值。由于这种方法需要尝试键值空间的所有键值,因此当键值空间较大时所需要的时间代价较高。(2)当sketch中的每张hash表的异常项检测出来后,不实时的求解异常键值,而是利用后续到来的异常键值对应的数据项来确定该异常键值。对于后续到来的每一个数据项,除更新操作外,另外还需检测此数据项的键值是否映射到sketch的至少H-r张hash表的异常项中,如果是,则此数据项的键值为异常键值。这种方法的局限性是当有些异常键值无相应的数据项随后到来时,这些异常键值将被漏检。(3)利用二次遍历的方式来寻找异常键值,这种方法需要将数据流全部捕获并存储下来。首先用数据流作为sketch的输入,检测出sketch中每张hash表对应的异常项。然后对存储下来的数据流从头开始依次检测每一个数据项,判断此数据项的键值是否映射到sketch的至少H-r张hash表的异常项中,如果是,则此数据项的键值为异常键值。这种方法目前主要用于离线处理,无法在线应用。
技术实现思路
本专利技术的目的在于提出一种基于对称度sketch的网络流量异常检测与定位方法,以准确高效的进行网络异常流量的检测和异常流的定位。本专利技术是通过以下技术方案来实现:一种基于对称度Sketch的网络流量异常检测与定位方法,基于连接对称度来实现异常行为的检测,包括网络流量实时更新、网络主机对称度实时计算、主机流量异常检测、异常源定位四个部分;在进行异常检测时,本文档来自技高网
...
一种基于对称度Sketch的网络流量异常检测与定位方法

【技术保护点】
一种基于对称度Sketch的网络流量异常检测与定位方法,其特征在于,基于连接对称度来实现异常行为的检测,包括网络流量实时更新、网络主机对称度实时计算、主机流量异常检测、异常源定位四个部分;在进行异常行为检测时,获取每条流的源IP和目的IP进行网络流量实时更新,根据IP地址的结构特征,采用IP分段hash,将IP分为四段分别对相应的hash函数组映射,最后将映射结果整合成一个字符串作为hash表中的键;其中,数据更新部分涉及对两个sketch数据结构的更新操作,一个sketch是出连接度sketch,记为M

【技术特征摘要】
1.一种基于对称度Sketch的网络流量异常检测与定位方法,其特征在于,基于连接对称度来实现异常行为的检测,包括网络流量实时更新、网络主机对称度实时计算、主机流量异常检测、异常源定位四个部分;在进行异常行为检测时,获取每条流的源IP和目的IP进行网络流量实时更新,根据IP地址的结构特征,采用IP分段hash,将IP分为四段分别对相应的hash函数组映射,最后将映射结果整合成一个字符串作为hash表中的键;其中,数据更新部分涉及对两个sketch数据结构的更新操作,一个sketch是出连接度sketch,记为Mout;另一个是入连接度sketch,记为Min;出连接度sketch和入连接度sketch采用同一组hash函数组;所述网络主机对称度实时计算,是计算出连接度sketch和入连接度sketch的比值,得到对称度sketchMsm:Msm=Min/Mout;所述主机流量异常检测,是根据当前窗口的对称度sketchMsm,利用切比雪夫不等式来设定阈值,衡量流量偏离正常流量行为的程度,得到异常sketch;所述异常源定位,是通过设计sketch中的关键hash函数组,利用中国余数定理实现sketch的逆向求解;若异常sketch中每个hash表中有且仅有一个异常键,则利用这一组异常键可以唯一逆向确定一个异常IP。2.如权利要求1所述的基于对称度Sketch的网络流量异常检测与定位方法,其特征在于,所述的对称度sketch由H张hash表T[j][·](0≤j<H)构成,对应的hash函数如下所示:hj(x)≡xmodmj,1≤j≤H其中m1,…,mH均为互不相等的质数;对称度sketch选择四个hash函数,选择的质数分别为2、3、5、11;通过该hash函数组得到的对称度sketch和异常sketch,能够逆向唯一确定一个IP。3.如权利要求1或2所述的基于对称度Sketch的网络流量异常检测与定位方法,其特征在于,所述的网络流量实时更新包括如下操作:记输入网络数据流为I=a1,a2,…,每个数据项为ai=(ki,ui),键值ki为源IP、和/或目的IP及其结合;更新数值ui为数据包的字节数、数据包的个数或网络流的个数等统计量;当更新数据项ai=(ki,ui)到达后,将每一张hash表j(1≤j≤H)相应的T[j][hj(ki)]项加上更新数值ui,如下式所示:T[j][hj(ki)]=T[j][hj(ki)]+ui1≤j≤H。4.如权利要求3所述的基于对称度Sketch的网络流量异常检测与定位方法,其特征在于,所述的数据项ai=(ki,ui)中,在出度ske...

【专利技术属性】
技术研发人员:秦涛刘艳雨王平辉王博沈壮管晓宏
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1