一种基于深度特征的P2P流量细粒度识别方法技术

技术编号:22471200 阅读:205 留言:0更新日期:2019-11-06 12:58
本发明专利技术公开了一种基于深度特征的P2P流量细粒度识别方法,包括训练过程和识别过程;训练过程包括收集和处理数据集、提取深度特征、训练二分类器及构建识别辅助器;识别过程具体为:利用深度卷积神经网络对所述P2P流量数据进行特征提取,将训练好的多个二分类器和识别辅助器组合得到细粒度流量识别模型,利用细粒度流量识别模型对所述深度特征进行分类。本发明专利技术提高了P2P流量数据分类的效率和准确率,可扩展性高。

A method of P2P traffic fine-grained identification based on depth feature

【技术实现步骤摘要】
一种基于深度特征的P2P流量细粒度识别方法
本专利技术涉及一种网络安全管理与流量分析
,更具体的说,是涉及一种基于深度特征的P2P流量细粒度识别方法。
技术介绍
P2P技术,又称点对点技术,是一种网络新技术,依赖网络中参与者的计算能力和带宽,而不是把依赖都聚集在较少的几台服务器上。这类网络可以用于多种用途,各种档案分享软件已经得到了广泛的使用。P2P技术的快速发展和应用虽然方便了人们的生活生产,但是也对网络管理和安全造成了重大影响。首先,快速增长的P2P流量给网络带宽造成严重的负担和加剧了网络的拥塞状况;其次,由于缺乏对用户的管理和共享信息的控制,P2P已成为非法内容共享活动的主要来源,这引起了资源滥用与侵权等问题;还有基于P2P的恶意僵尸网络的频繁出现,一方面,其大量的非法连接加快了带宽的消耗,另一方面,由于P2P恶意流量隐匿在合法的巨量P2P流量中,使得网络攻击越来越多。因此,P2P网络安全和管理是一个首先要解决的问题,而对P2P流量的细粒度识别是进行P2P网络安全和管理中必不可少的一步。现有技术中,基于统计特征识别法进行P2P流量识别,由于直接使用基于载荷特征方法而导致计算量大,即系统时空开销大;基于混合方法的多步式识别器用以分步地识别P2P流量,虽然取得了不错的成效,但各种单步方法的缺点仍制约着整个方法的性能,由于结合了基于统计特征方法,导致对于细粒度识别方面效果也不理想,且难以进行扩展用于识别新型或未知P2P流量。
技术实现思路
本专利技术公开一种基于深度特征的P2P流量细粒度识别方法,避免了类似特征统计方法的大量耗费资源和统计不全面的缺点,可以提高P2P流量识别的效率和准确性。为实现上述目的,本专利技术的具体技术方案为:一种基于深度特征的P2P流量细粒度识别方法,其特征在于,包括训练过程和识别过程;所述训练过程包括:收集和处理数据集,标记并训练不同应用类别的P2P流量数据;提取深度特征,利用深度卷积神经网络提取所述P2P流量数据的深度特征;训练二分类器,利用所述深度特征训练特定应用的支持向量机SVM,识别特定应用的所述P2P流量数据;构建识别辅助器,所述识别辅助器包括细粒度启发式规则和歧义消除识别器;所述识别过程包括:利用深度卷积神经网络对所述P2P流量数据进行特征提取,得到深度特征;将训练好的多个二分类器和识别辅助器组合得到细粒度流量识别模型;利用所述细粒度流量识别模型对所述深度特征进行分类。进一步地,收集和处理数据集,标记不同应用类别的P2P流量数据具体包括:把所述P2P流量数据划分为训练集和测试集。进一步地,收集和处理数据集,标记不同应用类别的P2P流量数据具体还包括:对所述训练集和所述测试集进行训练和测试。进一步地,提取深度特征,利用深度卷积神经网络提取所述P2P流量数据的深度特征之前还包括:把所述P2P流量数据转化为图片格式。进一步地,训练二分类器,利用所述深度特征训练特定应用的支持向量机SVM,识别特定应用的所述P2P流量数据包括:按不同的应用类别标记所述深度特征。进一步地,将训练好的多个二分类器和识别辅助器组合得到细粒度流量识别模型包括:将所述多个二分类识别器并列设置。进一步地,利用所述识别模型对所述深度特征进行分类包括:利用细粒度启发式规则,对误分类的所述P2P流量数据进行校正。进一步地,利用所述识别模型对所述深度特征进行分类包括:所述深度特征利用所述多个二分类器中的每个二分类器进行分类。进一步地,利用所述识别模型对所述深度特征进行分类具体还包括:当所述多个二分类器中有两个或两个以上二分类器的输出结果相同时,表明分类结果产生歧义。进一步地,利用所述识别模型对所述深度特征进行分类具体还包括:当所述分类结果产生歧义时,触发所述识别辅助器。本专利技术是基于深度卷积神经网络自动提取P2P流量数据的深度特征,避免了类似特征统计方法的大量耗费资源和统计不全面的缺点,可以更全面、更高效的提取出P2P流量中的深度特征,利用深度特征构建和训练的二分类器、识别辅助器的准确率高;本专利技术提出的细粒度流量识别模型,把新的数据添加到数据集中,提取新的深度特征构建新的二分类器和训练识别辅助器,添加新的二分类器和利用新的识别辅助器,就能识别新种类的P2P流量,具有高扩展性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例公开的二分类器训练的流程示意图;图2为本专利技术实施例公开的识别辅助器训练的流程示意图;图3为本专利技术实施例公开的P2P流量细粒度识别的流程示意图;图4为本专利技术实施例公开的粗粒度识别的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提出的基于深度特征的P2P流量细粒度识别模型,基于深度卷积神经网络提取出P2P流量数据的深度特征,首先对P2P流量进行粗粒度识别,粗粒度的P2P流量识别是指在复杂多样的流量中,识别出P2P流量和非P2P流量,粗粒度识别的具体流程如图4所示。然后将粗粒度识别得到的P2P流量,输入到深度卷积神经网络提取出深度特征,再进行细粒度的识别,将传统多分类识别转化为多个基于深度学习的二分类识别,利用多个二分类器对深度特征进行分类,同时结合识别辅助器,提高流量识别的准确率和效率,具有较高的可扩展性。本专利技术提供的一种基于深度特征的P2P流量细粒度识别方法,主要分为训练过程和识别过程,具体流程如图3所示。训练过程包括这些步骤:收集和处理数据集、提取深度特征、训练二分类器及构建识别辅助器。收集和处理数据集:在计算机网络模型中,应用层的协议有HTTP、FTP、SMTP、DNS等,本专利技术将P2P流量按照其应用领域把归为以下四种类别,分别为:由文件共享软件产生的下载流量,即时聊天软件产生的通讯流量,多媒体应用产生的音视频流量,还有P2P僵尸网络产生的恶意流量等。在P2P流量细粒度识别中,可以根据使用的协议不同识别出某一种特定应用的流量,按不同类别把数据标记好,并把数据划分为训练集和测试集。将数据集D划分为k个大小相似的互斥子集,即D=D1∪D2∪…∪Dk,Di∩Dj=空集(i≠j),每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集;这样就可获得k组训练或测试集,从而可进行k次训练和测试,最终返回的是这k个测试结果的均值。提取深度特征:把流量数据转化为图片格式,使用卷积神经网络提取流量数据的深度特征,卷积神经网络的模型的inceptionV3,把原模型的最后三个回归层(softmax层)和全连接层(FC)去掉,最后一个inception模块为最终的输出,输出为深度特征。训练二分类器:利用所提取出的深度特征,按不同的类别做好标记,训练特定的支持向量机本文档来自技高网...

【技术保护点】
1.一种基于深度特征的P2P流量细粒度识别方法,其特征在于,包括训练过程和识别过程;所述训练过程包括:收集和处理数据集,标记并训练不同应用类别的P2P流量数据;提取深度特征,利用深度卷积神经网络提取所述P2P流量数据的深度特征;训练二分类器,利用所述深度特征训练特定应用的支持向量机SVM,识别特定应用的所述P2P流量数据;构建识别辅助器,所述识别辅助器包括细粒度启发式规则和歧义消除识别器;所述识别过程包括:利用深度卷积神经网络对所述P2P流量数据进行特征提取,得到深度特征;将训练好的多个二分类器和识别辅助器组合得到细粒度流量识别模型;利用所述细粒度流量识别模型对所述深度特征进行分类。

【技术特征摘要】
1.一种基于深度特征的P2P流量细粒度识别方法,其特征在于,包括训练过程和识别过程;所述训练过程包括:收集和处理数据集,标记并训练不同应用类别的P2P流量数据;提取深度特征,利用深度卷积神经网络提取所述P2P流量数据的深度特征;训练二分类器,利用所述深度特征训练特定应用的支持向量机SVM,识别特定应用的所述P2P流量数据;构建识别辅助器,所述识别辅助器包括细粒度启发式规则和歧义消除识别器;所述识别过程包括:利用深度卷积神经网络对所述P2P流量数据进行特征提取,得到深度特征;将训练好的多个二分类器和识别辅助器组合得到细粒度流量识别模型;利用所述细粒度流量识别模型对所述深度特征进行分类。2.根据权利要求1所述的基于深度特征的P2P流量细粒度识别方法,其特征在于,收集和处理数据集,标记并训练不同应用类别的P2P流量数据,包括:把所述P2P流量数据划分为训练集和测试集。3.根据权利要求2所述的基于深度特征的P2P流量细粒度识别方法,其特征在于,收集和处理数据集,标记并训练不同应用类别的P2P流量数据,还包括:对所述训练集和所述测试集进行训练和测试。4.根据权利要求1所述的基于深度特征的P2P流量细粒度识别方法,其特征在于,提取深度特征,利用深度卷积神经网络提取所述P2P流量数据的深度特征之前包括:将所述P2P流量数据转化为图...

【专利技术属性】
技术研发人员:叶武剑吴荣华刘怡俊李学易翁韶伟
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1