The invention discloses a IDC recognition method based on popularity. It includes server IP recognition based on network flow characteristics and IDC recognition based on IP community detection. The invention uses machine learning algorithm to identify the IDC server IP address, and then use the partitioning algorithm, the server IP address of the community division, IDC network distribution, to achieve IDC recognition, users can through the network popular features to identify IDC, and study the relationship between IDC and layout, resource optimization will eventually help in IDC.
【技术实现步骤摘要】
基于流行为特征的IDC识别方法
本专利技术属于互联网数据分析
,尤其涉及一种基于流行为特征的IDC识别方法。
技术介绍
目前,关于互联网数据中心的研究主要集中于IDC(InternetDataCenter,互联网数据中心)内部网络结构优化及能耗减低、网络资源分配和内部网络流量特征等方面。近年来的研究者主要是对数据中心内部网络流量特征进行研究,没有分析数据中心之间和数据中心外部的网络流量特征。研究者首次提出了数据中心之间的流量特征分析,通过对Yahoo数据中心IP地址发现与确认,将网络流量分为D2C流与D2D流,分析了Yahoo不同服务之间的流量相关性和数据中心间的流量特征。基于流量特征的识别技术,根据识别对象的不同,采用的流特征也不尽相同,按照流特征的内容,大致可以分为:基于包的流特征、基于统计的流特征和基于行为的流特征三种。其中,基于包的流特征识别精度最高,从数据包入手研究网络流和应用的关系,例如可识别BitTorrent、QQvoice等应用。Sen等人采用包的流特征分析网络数据,对于五种P2P协议的识别率达到95%以上。基于统计的流特征与基于包的相比分类精度较粗,主要用来识别某些类型应用和网络流的对应关系,例如识别web流、p2p流等。Li等人对网络中实时数据进行采集,从多个特征筛选得到了9个流特征,并使用机器学习算法进行分类,实现了不同类型的流的分类。而基于行为的流特征粒度最粗,通常与前两种特征结合使用进行分类。Karagiannis等人提出了一种称为BLINC的网络流量识别方法,该方法将主机行为分为社会、功能及应用三个层面,即通过主机的通信 ...
【技术保护点】
一种基于流行为特征的IDC识别方法,其特征在于,包括以下步骤:A、对IDC服务器的网络流量数据进行预处理,提取多种用于识别IDC服务器IP的网络流量特征,通过采用BestFirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集,利用C4.5决策树机器学习算法构建IDC服务器流分类模型对IP地址进行分类,识别得到IDC服务器的IP地址;B、采用网络节点划分方法对IDC构建社团网络,利用基于模块度的BGLL社团检测算法将步骤A中得到的IDC服务器IP地址进行社团划分,构建IDC的网络分布情况,完成IDC识别。
【技术特征摘要】
1.一种基于流行为特征的IDC识别方法,其特征在于,包括以下步骤:A、对IDC服务器的网络流量数据进行预处理,提取多种用于识别IDC服务器IP的网络流量特征,通过采用BestFirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集,利用C4.5决策树机器学习算法构建IDC服务器流分类模型对IP地址进行分类,识别得到IDC服务器的IP地址;B、采用网络节点划分方法对IDC构建社团网络,利用基于模块度的BGLL社团检测算法将步骤A中得到的IDC服务器IP地址进行社团划分,构建IDC的网络分布情况,完成IDC识别。2.如权利要求1所述的基于流行为特征的IDC识别方法,其特征在于,所述步骤A中对IDC服务器的网络流量数据进行预处理具体为:从IDC服务器的网络流量数据中提取流,将具有相同五元组的包合并,并用该五元组作为标识;同时,对网络流量数据中的服务器IP与非服务器IP进行标记。3.如权利要求2所述的基于流行为特征的IDC识别方法,其特征在于,所述步骤A中用于识别IDC服务器IP的网络流量特征包括:通信对象的数量大,数据量大,端口号固定和端口数量稳定,上下行流量差异较小,网络空闲时间稳定,流的数量多与极值差异大。4.如权利要求3所述的基于流行为特征的IDC识别方法,其特征在于,所述步骤A中采用BestFirst搜索算法从网络流量特征中选择出包含多种特征参数的最优特征子集具体为:采用BestFirst搜索算法从网络流量特征中选择出包含十种特征参数的最优特征子集,组成IDC服务器的流量特征参数集;所述IDC服务器的流量特征参数集包括TotalNumofBytes、TotalNumofPackets、TotalNumofFlows、NumofIps、NumofRemotePort、PortNo.、MinPacketsinFlows、MaxBytesinFlows、AvePacketsinF...
【专利技术属性】
技术研发人员:于富财,章俊,申洲,胡光岷,费高雷,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。