当前位置: 首页 > 专利查询>中南大学专利>正文

基于可视化聚类的网络流量异常分析方法技术

技术编号:12014737 阅读:270 留言:0更新日期:2015-09-06 01:13
本发明专利技术公开了一种基于可视化聚类对网络流量进行异常分析的方法,步骤为:1)对网络流量监控数据记录进行预处理;2)对流量数据进行RadViz可视聚类,得到网络流量特征类似的流量时隙聚类;3)归纳2)所得到的流量时隙聚类的网络流量特征,得到流量特征异常的聚类;4)对2)所得到的流量时隙聚类过滤选择,得到不在聚类内离散的时隙点;5)结合IPPort矩阵对3)4)所得到的流量异常聚类中的和离散的时隙点进行分析。本发明专利技术能结合多角度快速对网络流量进行协同过滤,高效分析出网络流量的异常。

【技术实现步骤摘要】
基于可视化聚类的网络流量异常分析方法
本专利技术涉及一种基于可视化聚类的网络流量异常分析方法。
技术介绍
流量是网络中传播的数据量,数据传输是网络活动的基础,网络流量就是网络活动最重要的标志之一,几乎所有的网络应用和网络攻击在流量变化上都有迹可循。如今信息社会进入大数据时代,网络规模日益壮大,设备集成程度越来越高,数据容量越来越大,新兴的网络业务正在逐渐被开发,网络流量呈爆发性的增长,这些都有可能使得网络出现状况。由于网络流量数据的海量和高维,传统的数据挖掘技术和算法让用户难以理解和使用,往往耗费大量的时间,也未能分析清楚数据之间的关联来反应完整的网络状态,而且不能以用户为驱动进行交互。而实践证明,用可视化的方法描述庞大的流量数据集合和复杂的关联规则,让用户在易于理解的图形结构中对流量进行直观的可视分析,效率和效果都会比对着一堆数据操作好很多。用户在看到直观的图片形式的网络流量表示图后,可以较快的对当前流量有一个清楚的认识,同时也便于用户继续执行流量分析及异常判断的步骤。基于可视化方法对网络流量进行异常分析,能帮助用户直观地感受网络状态的发展,使用户能够在及时找出故障原因,预测运行态势,规避网络危险,从而做到防微杜渐,稳定网络环境,提升网络性能。
技术实现思路
本专利技术的主要目的是针对如今呈爆发性的增长的网络流量和网络问题,提出一种基于可视化聚类的,结合多角度快速对网络流量进行协同过滤可视聚类的方法,能高效分析出网络流量的异常。为了实现上述技术目的,本专利技术的技术方案是,一种基于可视化聚类对网络流量进行异常分析的方法,包括:步骤1):对需监控的时间段内网络流量监控数据记录进行预处理,得到反应流量特征的关于各个时隙slot点的集合p的流量信息表Netflow_Info_Table;步骤2):根据步骤1)得到的流量信息表Netflow_Info_Table,对集合p进行RadViz可视聚类,得到网络流量特征类似的时隙点聚类;步骤3):初步归纳步骤2)得到的时隙点聚类的网络流量特征,得到Radviz中流量特征异常聚类中的时隙点集s1;步骤4):根据步骤2)得到的时隙点聚类图像进行过滤选择,得到不在聚类内的离散时隙点集s2;步骤5):根据步骤3)和步骤4)得到的点集合s1、s2,用IPPort矩阵反映每个时隙点的IP和端口的流量、连接情况,利用IPPort矩阵判断哪些时间点发生了何种异常,完成对该时间段网络流量的异常分析。所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤1)包括:步骤1.1):提取需监控时间段内的网络流量监控数据中的描述网络流量特征数据,即提取每一条流记录的时隙slot、发送方源IPsip、接收方目的IPdip、发送方端口sport、接收方端口dport、传输流大小byte字段;步骤1.2):根据步骤1.1)得到的网络流量特征数据,计算对应每个时隙网络流量数据特征的相关统计信息,包括该时隙的源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;该时隙的主机总连接数sumCount;该时隙的总流量大小sumByte;并将每一个时隙点加入时隙slot点集合p中,其中Pi代表集合p中第i个时隙点;步骤1.3):根据步骤1.2)计算得到的对应每个时隙网络流量数据特征的相关统计信息,建立关于各个时隙slot点集合p的流量信息表Netflow_Info_Table。所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤2)包括:步骤2.1):选取源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;主机总连接数sumCount;总流量大小sumByte作为6个维度的锚点,将其均匀分布在RadViz圆周;步骤2.2):对时隙slot点集p中每个流量时隙点进行Radviz聚类,每个时隙点在Radviz以半径r的圆表示,r介于RadViz圆半径的1/60与1/70之间,受其对应维度锚点产生的弹簧力而在RadViz中处于平衡位置;步骤2.3):用K-Means算法对RadViz圆环内时隙点聚类,设置初始聚类个数X为流量信息表Netflow_Info_Table中时隙记录条数;聚类内记录个数限制Nummin=30;在RadViz中随机选定K个时隙点作为聚类质心Centroid,每个质心代表聚类Ci,i=1,2,…,K;第一步对每个时隙点分别计算其到各个聚类质心的距离,选取距离该时隙点最近的聚类Ci作为这个时隙点的聚类;第二步对每个聚类重新计算质心,即对聚类中所有的点求平均坐标并作为新的质心;重复迭代第一步和第二步直到前后质心变动的距离d不大于时隙点半径r;第三步逐个判断每个聚类中记录个数Numi是否小于类内记录个数限制Nummin,若Numi<Nummin,则取消该聚类,K=K-1;聚类内的时隙点回复未被聚集状态;聚类Ci半径Ri为聚类Ci的质心到边缘时隙点最大值,其中Ri的最大值为Rmax;步骤2.4):对步骤2.3)中的初始聚类个数K、聚类内记录个数限制Nummin进行调整,重复执行步骤2.3),直到任一聚类Ci半径Ri总小于与之相邻聚类间质心距离,即得到最终聚类结果,其中初始聚类个数K的调整范围为0到之间的整数,聚类内记录个数限制Nummin为大于0的整数。所述的一种基于可视化聚类对网络流量进行异常分析的方法,所述步骤2.4)中,最终聚类结果中的不同聚类由用户进行调整,包括:步骤2.5):对步骤2.4)中得到的每一个聚类Ci,首先统计该聚类中记录个数Numi,然后以该聚类质心为圆心,以一半聚类半径即为半径,统计此区域内包含记录个数num,若则认为聚类Ci记录点分布离散,取消该聚类;若则记录来作为衡量聚类Ci的记录密度,其中Pi的最小值为Pmin;步骤2.6):对步骤2.4)中由于Nummin限制未被聚类的时隙点,以及步骤2.5)中分散的时隙点,由用户选择组成新的聚类:第一步,随机选择一未被聚类的时隙点作为新聚类质心,然后以此时隙点为圆心、不大于当前已有聚类的最大半径Rmax的距离为半径,随机选择该范围内的另一未被聚类的时隙点加入点集作为新聚类中的点,然后重新计算点集内所有点的平均坐标作为新的聚类质心,再以新的质心为圆心,半径保持不变,继续加入新的时隙点并计算质心,直至范围内没有未被聚类的时隙点或点集加入时隙点会成为已形成过的不能聚类的点集为止;第二步,设所选点集中时隙点个数为n、点集中所有点的平均坐标到点集中任一点的最大值为l,若满足则认为六个维度对点集中时隙点影响相似,所选点集成为新的聚类,若不满足,则认为所形成的点集不符合聚类要求,记录该点集内容并标记为不能聚类的点集并取消聚类;随后重复进行第一步和第二步,直到连续3次出现点集为已形成过的不能聚类的点集,则认为剩下的离散点再不能构成聚类。所述的一种基于可视化聚类对网络流量进行异常分析的方法,对所述步骤3)包括:步骤3.1):通过步骤2)RadViz可视聚类,将Radviz圆心往每一聚类Ci的质心的向量,向圆心到源ip本文档来自技高网...
基于可视化聚类的网络流量异常分析方法

【技术保护点】
一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,包括: 步骤1):对需监控的时间段内网络流量监控数据记录进行预处理,得到反应流量特征的关于各个时隙slot点的集合p的流量信息表Netflow_Info_Table; 步骤2):根据步骤1)得到的流量信息表Netflow_Info_Table,对集合p进行RadViz可视聚类,得到网络流量特征类似的时隙点聚类; 步骤3):初步归纳步骤2)得到的时隙点聚类的网络流量特征,得到Radviz中流量特征异常聚类中的时隙点集s1; 步骤4):根据步骤2)得到的时隙点聚类图像进行过滤选择,得到不在聚类内的离散时隙点集s2; 步骤5):根据步骤3)和步骤4)得到的点集合s1、s2,用IPPort矩阵反映每个时隙点的IP和端口的流量、连接情况,利用IPPort矩阵判断哪些时间点发生了何种异常,完成对该时间段网络流量的异常分析。

【技术特征摘要】
1.一种基于可视化聚类对网络流量进行异常分析的方法,其特征在于,包括:步骤1):对需监控的时间段内网络流量监控数据记录进行预处理,得到反应流量特征的关于各个时隙slot点的集合p的流量信息表Netflow_Info_Table;步骤2):根据步骤1)得到的流量信息表Netflow_Info_Table,对集合p进行RadViz可视聚类,得到网络流量特征类似的时隙点聚类;步骤3):初步归纳步骤2)得到的时隙点聚类的网络流量特征,得到Radviz中流量特征异常聚类中的时隙点集s1;步骤4):根据步骤2)得到的时隙点聚类图像进行过滤选择,得到不在聚类内的离散时隙点集s2;步骤5):根据步骤3)和步骤4)得到的点集合s1、s2,用IPPort矩阵反映每个时隙点的IP和端口的流量、连接情况,利用IPPort矩阵判断哪些时间点发生了何种异常,完成对该时间段网络流量的异常分析;所述步骤1)包括:步骤1.1):提取需监控时间段内的网络流量监控数据中的描述网络流量特征数据,即提取每一条流记录的时隙slot、发送方源IPsip、接收方目的IPdip、发送方端口sport、接收方端口dport、传输流大小byte字段;步骤1.2):根据步骤1.1)得到的网络流量特征数据,计算对应每个时隙网络流量数据特征的相关统计信息,包括该时隙的源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;该时隙的主机总连接数sumCount;该时隙的总流量大小sumByte;并将每一个时隙点加入时隙slot点集合p中,其中Pi代表集合p中第i个时隙点;步骤1.3):根据步骤1.2)计算得到的对应每个时隙网络流量数据特征的相关统计信息,建立关于各个时隙slot点集合p的流量信息表Netflow_Info_Table;所述步骤2)包括:步骤2.1):选取源IP标准熵sipNormEntro、目的IP标准熵dipNormEntro,源端口标准熵sportNormEntro、目的端口标准熵dportNormEntro;主机总连接数sumCount;总流量大小sumByte作为6个维度的锚点,将其均匀分布在RadViz圆周;步骤2.2):对时隙slot点集p中每个流量时隙点进行Radviz聚类,每个时隙点在Radviz以半径r的圆表示,r介于RadViz圆半径的1/60与1/70之间,受其对应维度锚点产生的弹簧力而在RadViz中处于平衡位置;步骤2.3):用K-Means算法对RadViz圆环内时隙点聚类,设置初始聚类个数X为流量信息表Netflow_Info_Table中时隙记录条数;聚类内记录个数限制Nummin=30;在RadViz中随机选定K个时隙点作为聚类质心Centroid,每个质心代表聚类Ci,i=1,2,…,K;第一步对每个时隙点分别计算其到各个聚类质心的距离,选取距离该时隙点最近的聚类Ci作为这个时隙点的聚类;第二步对每个聚类重新计算质心,即对聚类中所有的点求平均坐标并作为新的质心;重复迭代第一步和第二步直到前后质心变动的距离d不大于时隙点半径r;第三步逐个判断每个聚类中记录个数Numi是否小于类内记录个数限制Nummin,若Numi<Nummin,则取消该聚类,K=K-1;聚类内的时隙点回复未被聚集状态;聚类Ci半径Ri为聚类Ci的质心到边缘时隙点最大值,其中Ri的最大值为Rmax;步骤2.4):对步骤2.3)中的初始聚类个数K、聚类内记录个数限制Nummin进行调整,重复执行步骤2.3),直到任一聚类Ci半径Ri总小于与之相邻聚类间质心距离,即得到最终聚类结果,其中初始聚类个数K的调整范围为0到之间的整数,聚类内记录个数限制Nummin为大于0的整数。2.根据权利要求1所述的一种基于可视化聚类对网络流量进行异常分析的方...

【专利技术属性】
技术研发人员:周芳芳王俊韡赵颖彭燕妮施荣华樊晓平
申请(专利权)人:中南大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1