一种互联网业务流特征的提取方法技术

技术编号:7301934 阅读:311 留言:0更新日期:2012-04-27 04:22
一种互联网业务流特征的提取方法,是先设置分布式多个流量采集器,用于获取、选择和提纯原始数据样本,再上传并存储于流量数据服务器;流量特征提取器在已经获得的纯净数据基础上,提取或生成网络业务流量特征,并建立业务流特征库,以便管理和维护业务流特征;流量特征提取器还要选择适宜的业务流特征,以辅助研究人员或网络管理者进一步分析,并提供给DPI设备利用。该方法在待分析数据集和标准数据集的生成与提纯方法和特征库的维护方法都有创新改进,且操作简单、容易,既能有效维护和动态优化选择多个应用程序的业务流特征,还可反映不同业务流特征之间的包容关系和表述多个特征在同一业务流中的特征序列特点,具有很好的推广应用前景。

【技术实现步骤摘要】

本专利技术涉及,确切地说,涉及一种应用于互联网业务流上下文感知和深度包检测特征字识别技术的特征提取方法,属于hternet通信

技术介绍
下一代网络能够给用户带来丰富的业务体验,但是,其庞大的网络流量也给网络管理人员及服务提供商带来了巨大的挑战。为了保证网络安全和给用户提供有服务质量保障的业务,电信运营商对于网络的可控性和可管性的需求也大大增加。流量识别技术是保障网络可控性的基础,只有通过有效的流量识别,电信运营商才能准确把握网络现状,正确分析、理解并预测用户的行为模式,保障网络的安全性与可控性。传统IP包的流量识别和QoS控制技术,仅对IP包头中的五元组信息进行分析,以确定流量的基本信息。五元组信息是源地址、目的地址、源端口、目的端口和协议类型。传统IP路由器也只是通过五元组获得的信息来实现一定程度的流量识别和OoS保证,但是, 随着网络上应用类型的不断丰富,仅仅分析IP包的四层以下的内容,已经不能真正判断流量中的业务类型,更不能判断基于开放端口、随机端口等方式进行传输的应用类型、或应用的具体内容特征。因此,目前流量识别
应用最广泛的是利用深度包检测DPI (De印I^cket Inspect)技术实现深度业务类型感知。利用深度包检测技术可以实现对数据包OSI体系结构的第2 7层的分析。DPI技术在获取数据包基本信息的同时,还对多个相关数据包的应用层协议头和净核进行扫描,获取存在于应用层中的特征信息。通过与已存在的业务类型信息特征库的匹配结果,以确定业务类型。然而,由于随着互联网新业务的日益增长,DPI技术不得不面临处理日益增长的网络流量和日益增多的业务类型两个方面的挑战。对于前者挑战,相关研究者已经进行了比较广泛的研究。对于后者,由于目前仅仅依靠人工提取新型业务的特征,导致DPI设备对新型业务的更新和反映速度还远不尽如人意。综上所述,因为其准确性,基于DPI的技术仍然是运营商最普遍采用的方式,但是,该方式针对新的协议反应慢,如何能快速、自动地获得协议的特征,已经成为业内科技人员关注的新课题,也是本专利技术所要解决的问题。
技术实现思路
有鉴于此,本专利技术的目的是提供,该方法是一种面向DPI针对互联网流量负载来提取特征,用于帮助网络管理者能够方便、快捷、准确地分析和感知新型业务,并为网络管理者更好更快地管理DPI设备提供一种辅助的自动机制,从而为互联网流量感知设备与网络研究人员和管理者提供判断依据。为了达到上述专利技术目的,本专利技术提供了,其特征在于先设置分布式多个流量采集器,用于获取、选择和提纯原始数据样本,再上传并存储于流量数据服务器;流量特征提取器在已经获得的纯净数据基础上,提取或生成网络业务流量特征,并建立业务流特征库,以便管理和维护业务流特征;流量特征提取器还要选择适宜的业务流特征,以辅助研究人员或网络管理者进一步分析,并提供给DPI设备利用;所述方法包括如下三个操作步骤(1)提取特征前的准备操作获取、选择和提纯业务流量的数据样本;(2)提取特征流量特征提取器生成业务流特征,并维护业务流特征库;(3)提取特征后的整理操作流量特征提取器选择和优化所提取的业务流特征, 以供深度包检测DPI (De印Packet Inspect)设备使用。本专利技术方法与现有技术进行比较,主要有下述两方面的不同与改进(一 )待分析数据集和标准数据集的生成与提纯方法,即前期处理方法本专利技术首次提出利用分布式多个数据采集器同时采集本机流量和本机运行信息的方式来生成数据集,由于同时利用了已有DPI设备的识别结果和采用聚类汇聚方法,最大限度地在没有人为辅助分析的前提下,有效删除了待分析数据集的噪声(即包含的非待分析应用程序流量)。这种综合型的数据生成算法克服了纯手工生成基准数据集的繁琐,同时大大提高了以往现有技术中单一地利用本机运行信息或已有DPI设备识别结果的局限性。(二)特征库的维护方法本专利技术的最大创新是提出一种基于无回路有向图的特征库维护方法。该方法能够有效维护多个应用程序的业务流特征,并动态地根据不同参数为DPI设备优化所选择的业务流特征。同时,通过图中节点的关系映射,可以反映出各个不同业务流特征之间的包容关系,尤其能够描述多个特征在同一类型业务中同时出现的情况,同时还可以表述多个特征在同一条业务流中的特征序列特点。因此,本专利技术方法填补了以往针对网络业务流量进行特征提取的研究中特征维护的空白。总之,本专利技术具有很好的推广应用前景。附图说明图1是本专利技术互联网业务流特征的提取方法的操作步骤示意图。图2是本专利技术方法在校园网中实施试验的实际部署系统示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和实施例对本专利技术作进一步的详细描述。本专利技术是先设置分布式多个流量采集器,用于获取、选择和提纯原始数据样本,再上传并存储于流量数据服务器;流量特征提取器在已经获得的纯净数据基础上,提取或生成网络业务流量特征,并建立业务流特征库,以便管理和维护业务流特征;流量特征提取器还要选择适宜的业务流特征,以辅助研究人员或网络管理者进一步分析,并提供给DPI设备利用。参见图1,介绍本专利技术方法的三个具体操作步骤步骤1,提取特征前的准备操作获取、选择和提纯业务流量的数据样本。该步骤1 包括下列操作内容(11)获取数据样本在网络中分布式设置多个流量采集器、即运行流量采集客户端程序的Windows PC机,用于采集待研究的网络流量及其系统运行的五元组和进程名,同时还采集该PC机自身产生的流量;然后,该多个流量采集器将其抓取的网络流量IP数据包及其五元组、进程名上传到流量数据服务器。(12)选择数据样本流量数据服务器根据进程名和已有DPI设备的识别结果对每条业务流进行标记识别,并分离出待分析业务流的数据作为待分析数据集M(其为本专利技术方法的研究对象,即网络特征研究人员感兴趣的应用程序所产生的流量,其为单一应用程序产生的业务流量数据的集合),以及不包含待分析业务流的数据作为背景数据集N、即标准数据集(它是除了网络特征研究人员感兴趣的应用程序以外的、所有其他应用程序产生的网络流量的集合)。(13)提纯数据样本流量数据服务器先计算每条业务流的统计属性特征,然后根据统计属性利用K-Mean聚类算法对采集的业务流中待分析数据集M进行初步汇聚,以保障其中的待分析业务流是单一应用程序同一类型的网络业务。步骤2,提取特征流量特征提取器生成业务流特征,并维护业务流特征库。该步骤2包括下列操作内容(21)生成业务流特征流量特征提取器利用后缀矩阵从待分析数据集M中的待分析业务流中提取或生成可变长度的字符串Token,以便基于Token方法将该待分析业务流中出现次数大于设定阈值的所有Token提取出来,再利用贪婪算法选择其中长度最大和出现最频繁的多个Tokens,作为业务流特征输出。本专利技术中的Token是长度大于1字节、且在待分析业务流量中频繁出现的不固定长度的字符串,每个Token都有可能对应于待分析业务流中的一个特征片段。(22)维护业务流特征因DPI设备需要维护多达上百个应用程序的业务流特征, 而每个应用程序都与一个待分析数据集M相对应,故流量特征提取器必须采用无回路有向图的方法建立业务流特征库,以便能够同时维护多个应用程序的多个业务流特征;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网业务流特征的提取方法,其特征在于先设置分布式多个流量采集器, 用于获取、选择和提纯原始数据样本,再上传并存储于流量数据服务器;流量特征提取器在已经获得的纯净数据基础上,提取或生成网络业务流量特征,并建立业务流特征库,以便管理和维护业务流特征;流量特征提取器还要选择适宜的业务流特征,以辅助研究人员或网络管理者进一步分析,并提供给DPI设备利用;所述方法包括如下三个操作步骤(1)提取特征前的准备操作获取、选择和提纯业务流量的数据样本;(2)提取特征流量特征提取器生成业务流特征,并维护业务流特征库;(3)提取特征后的整理操作流量特征提取器选择和优化所提取的业务流特征,以供深度包检测DPI (De印Packet Inspect)设备使用。2.根据权利要求1所述的方法,其特征在于所述步骤(1)包括下列操作内容(11)获取数据样本在网络中分布式设置多个流量采集器、即运行流量采集客户端程序的Windows PC机,用于采集待研究的网络流量及其系统运行的五元组和进程名,同时还采集该PC机自身产生的流量;然后,该多个流量采集器将其抓取的网络流量IP数据包及其五元组、进程名上传到流量数据服务器;(12)选择数据样本流量数据服务器根据进程名和已有DPI设备的识别结果对每条业务流进行标记识别,并分离出待分析业务流的数据作为待分析数据集M,以及不包含待分析业务流的数据作为背景数据集N、即标准数据集;(13)提纯数据样本流量数据服务器先计算每条业务流的统计属性特征,然后根据统计属性利用K-Mean聚类算法对采集的业务流中待分析数据集M进行初步汇聚,以保障其中的待分析业务流是单一应用程序同一类型的网络业务。3.根据权利要求2所述的方法,其特征在于所述待分析数据集M是网络特征研究人员感兴趣的应用程序所产生的流量,即所述方法的研究对象,其为单一应用程序产生的业务流量数据的集合;所述背景数据集N是除了网络特征研究人员感兴趣的应用程序以外的、所有其他应用程序产生的网络流量的集合。4.根据权利要求1所述的方法,其特征在于所述步骤(2)包括下列操作内容(21)生成业务流特征流量特征提取器利用后缀矩阵从待分析数据集M中的待分析业务流中提取或生成可变长度的字符串Token,以便基于Token方法将该待分析业务流中出现次数大于设定阈值的所有Token提取出来,再利用贪婪算法选择其中长度最大和出现最频繁的多个Tokens,作为业务流特征输出;(22)维护业务流特征因DPI设备需要维护多达上百个应用程序的业务...

【专利技术属性】
技术研发人员:黄小红马严田旭王振华赵钦吴军林昭文苏玉洁
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术