【技术实现步骤摘要】
一种基于深度判别特征的网络流量分类系统及方法
本专利技术涉及一种基于深度判别特征的网络流量分类系统及方法,属于计算机网络,网络流量分类
技术介绍
网络流量分类作为增强网络可控性的基础技术之一,在网络监管和网络安全中发挥着至关重要的作用。例如,网络服务提供商通过对网络流量进行分类来分析网络流量分布,进而进行更好的QoS(QualityofService)控制;企业网络通过流量识别技术来控制应用访问;一些国家政府对非法或敏感流量的合法拦截需要首先了解通过其网络传输的内容类型。在网络安全方面,网络流量分类是入侵检测系统的核心部分,其可发现网络中的异常流量,以便于及时采取有效的防御措施。鉴于以上各种需求,实现准确高效的流量分类与识别具有极其重要的意义。当前,网络流量分类方法主要可以被归纳为四个类别:基于端口的方法、基于包负载内容的方法、基于统计学习的方法和基于深度学习的方法。基于端口的方法通过检查网络数据包的传输层端口号,然后根据互联网数字分配机构(IANA)定制的端口号与应用的对应关系来对网络流量进行分类。虽然基于端口的分类方法简单、快速,但是随着端口混淆、网络地址转换(NAT)、端口转发、协议嵌入和随机端口分配等技术的出现,使得其分类性能显著下降。考虑到基于端口的分类方法的不足,相关研究人员提出了基于包负载内容的分类方法。该类方法以深度包检测(DPI)技术为代表,其通过分析数据包应用层载荷内容来对已知的应用签名进行匹配。DPI技术具有识别准确率高的优点,但是与此同时其面临着以下不足:(1 ...
【技术保护点】
1.一种基于深度判别特征的网络流量分类系统,其特征在于,包括:预处理模块和模型学习模块;/n预处理模块:以不同应用产生的长度不一的网络流作为输入,将每条网络流表示为固定大小的流矩阵,以满足卷积神经网络CNN的输入格式要求;将经过预处理的满足CNN输入格式要求的流矩阵称为网络流样本,其中,每个应用产生的网络流对应一个类别,不同应用产生的网络流属于不同的类别;/n模型学习模块:将已收集的所有应用产生的网络流样本作为训练集,以训练集中的网络流样本作为输入,在度量学习正则化项和交叉熵损失项共同构成的目标函数的监督下,对CNN进行训练,使得CNN对输入的网络流样本学习得到更具判别性的特征表示,从而使得分类结果更加准确。/n
【技术特征摘要】
1.一种基于深度判别特征的网络流量分类系统,其特征在于,包括:预处理模块和模型学习模块;
预处理模块:以不同应用产生的长度不一的网络流作为输入,将每条网络流表示为固定大小的流矩阵,以满足卷积神经网络CNN的输入格式要求;将经过预处理的满足CNN输入格式要求的流矩阵称为网络流样本,其中,每个应用产生的网络流对应一个类别,不同应用产生的网络流属于不同的类别;
模型学习模块:将已收集的所有应用产生的网络流样本作为训练集,以训练集中的网络流样本作为输入,在度量学习正则化项和交叉熵损失项共同构成的目标函数的监督下,对CNN进行训练,使得CNN对输入的网络流样本学习得到更具判别性的特征表示,从而使得分类结果更加准确。
2.根据权利要求1所述的基于深度判别特征的网络流量分类系统,其特征在于:所述预处理模块具体处理流程如下:
(1)网络流为具有相同IP五元组<源IP,源端口,目的IP,目的端口,传输层协议>的一组连续的数据包;对于基于tcp连接的网络流来说,前3个数据包是相同的用来建立tcp连接的握手数据包,若网络流长度,即包含的数据包个数小于4,则丢弃,否则跳转至步骤(2);
(2)截取每条网络流前n个数据包和每个数据包的前m个字节,将每条网络流表示为特征向量;优选截取网络流的前32个数据包,并且对于每个数据包,截取从传输层头开始的512个字节,若网络流长度小于32或者IP包长度小于512,则用0填充,将网络流表示成大小为32*512的矩阵;
(3)将步骤(2)中所得矩阵的每个元素除以255来对该矩阵进行归一化处理;
(4)将步骤(3)中所得矩阵大小重新调整为128*128;
经过以上预处理过程,每条网络流被表示为了大小为128*128的流矩阵。
3.根据权利要求1所述的基于深度判别特征的网络流量分类系统,其特征在于:所述模型学习模块中,目标函数如下:
J=min(J1(X,Y,θce)+λJ2(X,θml))(1)
其中,J1和J2分别为交叉熵损失项和度量学习正则化项,所述交叉熵损失项指在最小化给定训练样本上的经验风险;λ是一个用来控制J1和J2相对重要性的权衡系数;X={xi|i=1,2,...,N}是训练样本集,Y={yi|i=1,2,...,N}是训练样本集对应的标签集合,N是训练样本集中包含的样本个数;是一个只有一个元素为1,其余元素都为0的标签向量;k是类别个数;θce和θml分别是交叉熵损失项和度量学习正则化项需要学习的参数。
4.根据权利要求2所述的基于深度判别特征的网络流量分类系统,其特征在于:所述交叉熵损失项如下:
其中,表示标签向量yn的第i个元素,f(·)是一个由CNN建模表示的非线性映射函数,是CNN为样本xn提取到的特征向量,Wj是softmax层权重的第j列,是相应的偏置项。
5.根据权利要求2所述的基于深度判别特征的网络流量分类系统,其特征在于:所述模型学习模块中,度量学习正则化项的目标是寻找一个合适的保持输入数据对之间距离结构的相似性度量,采用对比嵌入(contrastiveembedding)函...
【专利技术属性】
技术研发人员:于爱民,赵力欣,蔡利君,马建刚,孟丹,徐震,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。