一种高效的P2P应用流量分类方法及系统技术方案

技术编号:13339510 阅读:212 留言:0更新日期:2016-07-13 13:34
本发明专利技术公开了一种高效的P2P应用流量分类方法及系统。本方法为:1)P2P分类服务器从采集的每一数据包中获取四元组信息、协议信息、包长信息对该数据包进行标记并存储在信息结构体中;2)P2P分类服务器从信息结构体中提取每条指定流的N个数据包,并计算每条流的基本统计特征;3)对得到的基本统计特征进行分类,并根据得到的结果计算单位时间窗口内每条流的通信属性;4)根据当前窗口内同一流的通信属性计算该流的卡方统计量;如果超过设定阈值,则去除该流的应用分类标记;如果出现未识别的流,则将该未识别的流标记为当前窗口内具有相同IP和端口PORT的P2P应用流。本发明专利技术分类稳定高,可以满足大多数系统在线识别需求。

【技术实现步骤摘要】

本专利技术涉及P2P网络信息安全领域,是一种能够应用于P2P网络的,高效识别P2P应用流量的方法及系统。
技术介绍
随着互联网应用的广泛使用,网络应用已经呈现出很多类别,尤其是P2P应用流量的暴增,占据了巨大的网络带宽,不利于高质量的服务,同时给网络运营商带来很多管理问题。P2P是一种分布式网络,网络的参与者共享他们所拥有的一部分硬件资源(处理能力、存储能力、网络连接能力等),这些资源能被其他对等点peer直接访问而无须经过中间实体。P2P网络结构复杂,网络拓扑具有动态性,绝大多数流量在传输过程中进行加密,为了提高P2P应用流量分类准确率和稳定性,科学管理规划网络,各类P2P应用识别技术应运而生。(1)基于P2P端口的分类技术。在P2P网络通信过程中,无论是客户端还是服务端,或者是一个Peer节点,必须提供IP地址和端口和另一方进行通信。该方法需要截取数据包头的五元组,并判断端口是否为P2P网络应用的端口即可。基于端口的识别方法优点是简单,容易实现,分类性能很高,具有较高的实时性,所以可以应用于高速网络环境下。但是对于P2P应用来说,大多采用了端口跳变的技术,该方法主要存在的缺点是受限于注册端口数目识别数量有限并且随着新的网络应用的不断增多其可以识别应用的比重越来越低,分类准确率不稳定。(2)基于有效负载的P2P应用分类技术。通过具体分析有效载荷中包含特定字符串(签名信息)用以标识应用,识别有效载荷中一些协商固定信息,比如消息类型T、长度字段L、版本字段Version、各类保留字段等,如果匹配则识别成对应的P2P应用。基于P2P应用负载内容的分类由于其具有较高的准确率,该分类方法的优点是可以应用于实时的流分类识别系统,且具有较高的识别准确率。缺点是需要及时跟进P2P应用的发展变化,新应用的特征提取工作量较大,而且很多P2P流量是私有协议以及加密流量,比如迅雷就采用了私有协议来传输数据,很难挖掘其负载特征。所以使用该方法还是无法有效的识别P2P应用,无法确保一些特征的有效性和实时性。(3)基于网络行为的P2P应用分类技术。通过交互双方的网络行为特征,提取P2P网络应用的通信特征,主要包括流量连续性,应用多连接性,协议混淆性,端口离散性以及输入输出流量均衡性等P2P应用通信特征,分类不同的P2P应用。该方法优点是不用考虑端口号,而且不用对数据包进行深度解析,有效提高了分类性能。缺点是不能精细化分类P2P应用,只能有效的判断P2P类流量,也因为P2P应用在交互过程中路由具有动态性,致使该方法分类稳定性不高,有其局限性,故检测准确率也因系统而异。(4)基于机器学习的P2P应用分类技术。目前研究热点主要在基于机器学习的分类方法,不同应用网络流量具有一定的流特征,将流特征提取出来并用机器学习算法来训练建立分类模型,然后对在线应用流量进行分类。以统计理论为基础的机器学习算法由于其广泛的应用背景和成熟的理论框架在流分类研究中被越来越多的使用。尽管P2P应用分类的统计学习方法具有成熟的理论模型,但是机器学习的方法比较依赖数据集,不同网络环境可能会影响分类准确率,而且在计算一些流特征的时候,需要计算流中每个包的特征,在网络流量暴涨情况下,应用识别的性能有所下降,分类准确率不稳定。
技术实现思路
针对上述已有方法存在的问题,本专利技术公开了一种基于滑动时间窗口的多流关联P2P应用分类方法及系统。本专利技术公开了一种基于滑动时间窗口的多流关联P2P应用分类方法,具体步骤包括:(1)初始化参数:P2P流量统计基本特征的结构体flowAttr,初始化为0,四个P2P流量通信行为:端口离散性f1,初始化为0;输入输出流量比特征f2,初始化为1;大窗口连续性f3,初始化为0;小窗口短暂性f4,初始化为0;多元误识别流统计卡方变量χ2,初始化为1。s_attrRule,初始化0,卡方遍历参数,初始化0.6(阈值可以在初始化阶段设定,也可根据需求配置更新阈值);(2)接收数据包并进行会话重组和解析:在指定的网卡进行数据包的捕获。将当前捕获的数据包的四元组、协议、包长等信息进行标记,并存储在信息结构体flowAttr中,后续步骤将根据标记信息对当前数据包的相关信息进行详细的数据分析;(3)流基本统计特征计算:从指定结构体flowAttr中读取数据包,过滤出每条指定流的前N个(N<10,本专利技术N为9)数据包,对数据包数据进行详细分析,计算每条流的基本统计特征flowAttr,这里TCP和UDP协议统计不一样的特征,计算的特征包括:1)P2P流量中的TCP统计特征:min_fpktl前向最小包长;win_fbytes前向初始窗口;win_bbytes后向初始窗口;first_fpktl前向第一个包长;min_bpktl后向最小包长度;third_fpktl前向第三个包长;max_fpktl最大前向包长度;mean_bpktl后向平均包长;fpsh_cnt前向psh包数;duration流持续时间。2)P2P流量中的UDP统计特征:max_fpktl前向最大包长度;max_bpktl后向最大包长度;mean_bpktl平均后向包长度;first_fpktl前向第一个包长;sec_bpktl后向第二个包长;third_bpktl后向第三个包长;mean_fpktl平均前向包长度;first_diff双向第一个包长度差;min_bpktl后向最小包长度;duration流持续时间。(4)使用分类特征流进行初步分类根据离线配置好的分类特征数值对网络数据流进行检测判定,首先判断当前网络数据流是TCP协议还是UDP协议,然后针对TCP或UDP分别使用不同的规则对在线流的基本统计特征进行初步快速地分类,并将每条P2P应用流的分类结果,及每条流的协议、五元组信息、包数、流量、应用编码记录在日志中。(5)P2P应用流量的分类在每个时间单位窗口中,利用步骤(4)数据分类的结果,进行计算分别量化四个P2P通信属性。1)计算每条流每个端口的端口离散性:端口离散性记录每个流客户端端口ClientPort值,由于P2P应用通信端口一般比较大,为平衡各个属性的权重,使用hash函数将客户端端口hash到0到1区间内。f1=Hash(ClientPort)2)计算每条流的输入输出流量比:输入/输出流量比使用每条流的输入字节数fbytes除以输出字节数bbytes量化;f2=fbytesbbytes]]>3)计算每条流大窗口的连续性:大窗口连续属性使用每条流中包负载长度本文档来自技高网
...

【技术保护点】
一种高效的P2P应用流量分类方法,其步骤为:1)P2P分类服务器从采集的每一数据包中获取四元组信息、协议信息、包长信息对该数据包进行标记,然后将标记的数据包存储在信息结构体中;2)P2P分类服务器从信息结构体中提取每条指定流的N个数据包,并计算每条P2P应用流的基本统计特征;3)根据离线配置好的分类特征数值对步骤2)得到的基本统计特征进行分类;4)根据步骤3)得到的结果计算单位时间窗口内每条P2P应用流的通信属性;5)根据当前窗口内同一P2P应用流的通信属性计算该P2P应用流的卡方统计量χ2;如果卡方统计量χ2超过设定阈值,则去除该P2P应用流的应用分类标记;如果出现未识别的P2P应用流,则将该未识别的P2P应用流标记为当前窗口内具有相同IP和端口PORT的P2P应用流。

【技术特征摘要】
1.一种高效的P2P应用流量分类方法,其步骤为:
1)P2P分类服务器从采集的每一数据包中获取四元组信息、协议信息、包长信息对该数
据包进行标记,然后将标记的数据包存储在信息结构体中;
2)P2P分类服务器从信息结构体中提取每条指定流的N个数据包,并计算每条P2P应用
流的基本统计特征;
3)根据离线配置好的分类特征数值对步骤2)得到的基本统计特征进行分类;
4)根据步骤3)得到的结果计算单位时间窗口内每条P2P应用流的通信属性;
5)根据当前窗口内同一P2P应用流的通信属性计算该P2P应用流的卡方统计量χ2;如果
卡方统计量χ2超过设定阈值,则去除该P2P应用流的应用分类标记;如果出现未识别
的P2P应用流,则将该未识别的P2P应用流标记为当前窗口内具有相同IP和端口
PORT的P2P应用流。
2.如权利要求1所述的方法,其特征在于,所述通信属性包括端口离散性f1、输入输出流量
比f2、大窗口连续性f3、小窗口短暂性f4。
3.如权利要求2所述的方法,其特征在于,端口离散性f1=Hash(ClientPort),ClientPort为
客户端端口值;输入输出流量比fbytes为输入字节数、bbytes为输出字节数;
大窗口连续性big_wins为包负载长度大于初始化窗口长度的包的数
量,flow_packets为整条流的包数;小窗口短暂性small_wins为包负
载小于流前三个包长的包数。
4.如权利要求1或2或3所述的方法,其特征在于,卡方统计量其中,
EWi是当前窗口前N-1窗口内被标记为同一P2P应用流的第i个通信属性的均值,n为通
信属性总数。
5.如权利要求1或2或3所述的方法,其特征在于,每条流的基本统计特征包括P2P流量中
的TCP统计特征和P2P流量中的UDP统计特征。
6.如权利要求1所述的方法,其特征在于,所述步骤3)中,P2P分类服务器将每条P2P应
用流的分...

【专利技术属性】
技术研发人员:常鹏张永铮庹宇鹏
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1