基于流行为特征的IDC识别方法技术

技术编号:17056014 阅读:26 留言:0更新日期:2018-01-17 20:11
本发明专利技术公开了一种基于流行为特征的IDC识别方法。其包括基于网络流特征的服务器IP识别和基于IP社团检测的IDC识别。本发明专利技术利用机器学习算法识别IDC服务器IP地址,再利用社团划分算法,将所得的服务器IP地址进行社团划分,得到IDC网络分布,实现IDC识别,使得用户能够通过网络流行为特征识别出IDC,进而研究IDC之间的关系和布局,最终有助于IDC的资源优化。

IDC recognition method based on Popularity

The invention discloses a IDC recognition method based on popularity. It includes server IP recognition based on network flow characteristics and IDC recognition based on IP community detection. The invention uses machine learning algorithm to identify the IDC server IP address, and then use the partitioning algorithm, the server IP address of the community division, IDC network distribution, to achieve IDC recognition, users can through the network popular features to identify IDC, and study the relationship between IDC and layout, resource optimization will eventually help in IDC.

【技术实现步骤摘要】
基于流行为特征的IDC识别方法
本专利技术属于互联网数据分析
,尤其涉及一种基于流行为特征的IDC识别方法。
技术介绍
目前,关于互联网数据中心的研究主要集中于IDC(InternetDataCenter,互联网数据中心)内部网络结构优化及能耗减低、网络资源分配和内部网络流量特征等方面。近年来的研究者主要是对数据中心内部网络流量特征进行研究,没有分析数据中心之间和数据中心外部的网络流量特征。研究者首次提出了数据中心之间的流量特征分析,通过对Yahoo数据中心IP地址发现与确认,将网络流量分为D2C流与D2D流,分析了Yahoo不同服务之间的流量相关性和数据中心间的流量特征。基于流量特征的识别技术,根据识别对象的不同,采用的流特征也不尽相同,按照流特征的内容,大致可以分为:基于包的流特征、基于统计的流特征和基于行为的流特征三种。其中,基于包的流特征识别精度最高,从数据包入手研究网络流和应用的关系,例如可识别BitTorrent、QQvoice等应用。Sen等人采用包的流特征分析网络数据,对于五种P2P协议的识别率达到95%以上。基于统计的流特征与基于包的相比分类精度较粗,主要用来识别某些类型应用和网络流的对应关系,例如识别web流、p2p流等。Li等人对网络中实时数据进行采集,从多个特征筛选得到了9个流特征,并使用机器学习算法进行分类,实现了不同类型的流的分类。而基于行为的流特征粒度最粗,通常与前两种特征结合使用进行分类。Karagiannis等人提出了一种称为BLINC的网络流量识别方法,该方法将主机行为分为社会、功能及应用三个层面,即通过主机的通信模式、节点作用、数据包等内容分析应用的类型。国内外采用图分析技术对互联网流连接特征的研究则相对成熟。在研究网络终端主机的行为相似性时,使用二分图对网络主机流的通信量进行建模,并构建二分图的单模投影图,通过聚类算法将同一网络前缀中的终端主机聚类到不同的主机行为集群中,实现了不同主机行为的分类。研究者还提出了一种基于流量因果图(TCG)的网络应用分析框架,利用图形挖掘算法从TCG中提取区分子结构作为特征,用来识别网络应用程序,克服了应用程序使用随机端口和加密所产生的限制。随后,研究员提出了无向的动态流量图(TAG)的概念,通过不同应用行为连通度存在的区别,采用tNMF的方法从TAG邻接阵提取出代表特征值,从而推断出特定应用以及识别蠕虫等异常流行为。目前虽然各大电信运营商都拥有自己的IDC,但并不了解网络中其他运营商IDC分布和主要业务,会造成网络中IDC分布集中,网络资源利用率低等问题。同时,IDC网络资源优化研究主要集中在单个数据中心内部网络的流量特征,对IDC整体在网络中的通信特征知之甚少。研究员通过分析Yahoo数据中心之间的流量,得到了数据中心之间的流量特征,但没有依据用户的访问行为研究数据中心之间的关系。国内外对于流特征的运用主要是对网络流量分类,利用流量特征对网络中IP地址识别使用较少。而有关图分析技术的研究,大多集中在应用分类和网络流异常检测,对于挖掘网络中拥有大量IP地址的IDC还涉及较少,不能有效地运用于流连接行为为网络建设提供帮助。现有对IDC的研究主要集中于IDC内部网络结构优化及节能减耗、网络资源分配和内部网络流量特征等方面。而对IDC之间的关系和布局的研究还不成熟,而要从外部分析IDC,就需要首先能够通过某种方式从网络中识别出IDC,而目前从大规模的网络中识别出IDC却没有成熟的技术。
技术实现思路
本专利技术的专利技术目的是:为了解决现有技术中存在的以上问题,本专利技术提出了一种基于流行为特征的IDC识别方法。本专利技术的技术方案是:一种基于流行为特征的IDC识别方法,包括以下步骤:A、对IDC服务器的网络流量数据进行预处理,提取多种用于识别IDC服务器IP的网络流量特征,通过采用BestFirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集,利用C4.5决策树机器学习算法构建IDC服务器流分类模型对IP地址进行分类,识别得到IDC服务器的IP地址;B、采用网络节点划分方法对IDC构建社团网络,利用基于模块度的BGLL社团检测算法将步骤A中得到的IDC服务器IP地址进行社团划分,构建IDC的网络分布情况,完成IDC识别。进一步地,所述步骤A中对IDC服务器的网络流量数据进行预处理具体为:从IDC服务器的网络流量数据中提取流,将具有相同五元组的包合并,并用该五元组作为标识;同时,对网络流量数据中的服务器IP与非服务器IP进行标记。进一步地,所述步骤A中用于识别IDC服务器IP的网络流量特征包括:通信对象的数量大,数据量大,端口号固定和端口数量稳定,上下行流量差异较小,网络空闲时间稳定,流的数量多与极值差异大。进一步地,所述步骤A中采用BestFirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集具体为:采用BestFirst搜索算法从网络流量特征中选择出包含十种特征参数的最优特征子集,组成IDC服务器的流量特征参数集;所述IDC服务器的流量特征参数集包括TotalNumofBytes、TotalNumofPackets、TotalNumofFlows、NumofIps、NumofRemotePort、PortNo.、MinPacketsinFlows、MaxBytesinFlows、AvePacketsinFlows、NumofFlowsinUser。进一步地,所述步骤B中采用网络节点划分方法对IDC构建社团网络具体为:以所有IDC的IP地址和与IDC通信的主机IP地址作为网络中的节点,生成有向网络流连接图;再根据共引网络的思想,生成数据中心IP共引网络。进一步地,所述步骤B中利用基于模块度的BGLL社团检测算法将步骤A中得到的IDC服务器IP地址进行社团划分,构建IDC的网络分布情况,具体包括以下分步骤:B1、设定社团网络中的每个节点均未独立的社团,社团的数目与节点个数相同;B2、计算任意节点i加入其邻居节点j所在社团时模块度的增量;B3、判断节点i加入其邻居节点j所在社团时模块度的增量的最大值是否大于0;若是,则将节点i加入对应邻居节点j所在社团;若否,则保留节点i在原社团;B3、判断所有节点所属社团是否发生变化;若是,则返回步骤B2;若否,则进行下一步骤;B4、构造新网络,将同一个社团的节点合并为一个新节点,原社团内节点间的边的权重之和作为新节点的环的权重,原社团间所有边的权重之和作为新节点间的边权重;B5、判断新网络的模块度是否发生变化;若是,则返回步骤B2;若否,则操作结束。进一步地,所述步骤B2中计算任意节点i加入其邻居节点j所在社团时模块度的增量的计算公式为其中,Sc为所有与社团C内部的点连接的边的权值和,si为与节点i相连的所有边的权值和,si,in为节点i到社区C中的所有节点的边的权重和,W为网络中所有边的权重和,ΔQ为节点i加入其邻居节点j所在社团时模块度的增量。本专利技术的有益效果是:本专利技术利用机器学习算法识别IDC服务器IP地址,再利用社团划分算法,将所得的服务器IP地址进行社团划分,得到IDC网络分布,实现IDC识别,使得用户能够通过网络流行为特征识别出IDC,进而研究IDC之间的关系本文档来自技高网
...
基于流行为特征的IDC识别方法

【技术保护点】
一种基于流行为特征的IDC识别方法,其特征在于,包括以下步骤:A、对IDC服务器的网络流量数据进行预处理,提取多种用于识别IDC服务器IP的网络流量特征,通过采用BestFirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集,利用C4.5决策树机器学习算法构建IDC服务器流分类模型对IP地址进行分类,识别得到IDC服务器的IP地址;B、采用网络节点划分方法对IDC构建社团网络,利用基于模块度的BGLL社团检测算法将步骤A中得到的IDC服务器IP地址进行社团划分,构建IDC的网络分布情况,完成IDC识别。

【技术特征摘要】
1.一种基于流行为特征的IDC识别方法,其特征在于,包括以下步骤:A、对IDC服务器的网络流量数据进行预处理,提取多种用于识别IDC服务器IP的网络流量特征,通过采用BestFirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集,利用C4.5决策树机器学习算法构建IDC服务器流分类模型对IP地址进行分类,识别得到IDC服务器的IP地址;B、采用网络节点划分方法对IDC构建社团网络,利用基于模块度的BGLL社团检测算法将步骤A中得到的IDC服务器IP地址进行社团划分,构建IDC的网络分布情况,完成IDC识别。2.如权利要求1所述的基于流行为特征的IDC识别方法,其特征在于,所述步骤A中对IDC服务器的网络流量数据进行预处理具体为:从IDC服务器的网络流量数据中提取流,将具有相同五元组的包合并,并用该五元组作为标识;同时,对网络流量数据中的服务器IP与非服务器IP进行标记。3.如权利要求2所述的基于流行为特征的IDC识别方法,其特征在于,所述步骤A中用于识别IDC服务器IP的网络流量特征包括:通信对象的数量大,数据量大,端口号固定和端口数量稳定,上下行流量差异较小,网络空闲时间稳定,流的数量多与极值差异大。4.如权利要求3所述的基于流行为特征的IDC识别方法,其特征在于,所述步骤A中采用BestFirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集具体为:采用BestFirst搜索算法从网络流量特征中选择出包含十种特征参数的最优特征子集,组成IDC服务器的流量特征参数集;所述IDC服务器的流量特征参数集包括TotalNumofBytes、TotalNumofPackets、TotalNumofFlows、NumofIps、NumofRemotePort、PortNo.、MinPacketsinFlows、MaxBytesinFlows、AvePacketsinF...

【专利技术属性】
技术研发人员:于富财章俊申洲胡光岷费高雷
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1