【技术实现步骤摘要】
一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法
[0001]本专利技术涉及无线通信
,具体而言,涉及一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法。
技术介绍
[0002]截至2020年12月底,我国市场上可以监测到的移动互联网应用(Application)数量可以达到345万款,2020年移动互联网的流量消费达1656亿GB。视频、文字等通信流量爆炸式增长,给通信网络管理尤其是网络带宽分配带来了极大的挑战。具有相同的源站点IP地址、源站点端口号、目的站点IP地址、目的站点端口号和相同的传输协议的数据包在一段时间内形成一组通信流量。对通信流量正确的分类可以方便运维人员对网络进行监管,比如在某个站点可以根据流量分类结果判断该站点是否受到恶意流量的攻击;对于数据量较大的某一类流量,可以为之分配更大的通信带宽,以满足相应用户的服务质量要求。
[0003]常见的流量分类方法可以分为基于端口号、基于深度包检测以及基于机器学习的流量分类方法。基于端口号的分类方法是出现最早的一种方法,由于不同的协议对应着不同的端口, ...
【技术保护点】
【技术特征摘要】
1.一种基于知识蒸馏与自蒸馏的通信网络加密流量分类方法,其特征在于,包括如下步骤:S10,获取通信网络中的加密流量;S20,构建并训练流量分类的基本模型;S30,压缩训练好的基本模型,获取流量分类压缩模型;S40,采用教师网络更新策略的知识蒸馏方式训练流量分类压缩模型;S50,利用训练好的流量分类压缩模型进行通信网络加密流量分类。2.根据权利要求1所述的基于知识蒸馏与自蒸馏的通信网络加密流量分类方法,其特征在于,步骤S10包括如下子步骤:S11,通过捕获工具CapAnalysis或爬虫工具获取通信网络中的加密流量;S12,对获取的通信网络中的加密流量进行类别标记;S13,对每一类别的加密流量进行截断或补零处理,使得处理后的加密流量总长度为L字节;包括L1字节的TCP数据,L2字节的UDP数据以及L3字节的有效载荷数据;其中,L,L1,L2,L3均为正整数且L=L1+L2+L3;S14,对加密流量的每一个字节进行归一化,即对每一字节除以255使每一字节的取值范围为[0,1];S15,完成归一化后获得加密流量数据库,将加密流量数据库按照训练集p1%、测试集p2%、验证集p3%的比例进行划分,其中,p1%+p2%+p3%=100%。3.根据权利要求2所述的基于知识蒸馏与自蒸馏的通信网络加密流量分类方法,其特征在于,步骤S20包括如下子步骤:S21,构建流量分类的基本模型:(1)记用于通信网络加密流量分类的基本模型为M,该基本模型M包括N个浅层部分,分别记作M1,M2,...,M
N
;每一个浅层部分均包括卷积层和batchnorm层;在每一个浅层部分最后的卷积层后面额外添加子模块,将N个浅层部分后的N个子模块分别记作M1′
,M2′
,...,M
N
′
;每个子模块包含一个具有V
g
个卷积核的卷积层以及一个softmax层;该softmax层的作用是使用softmax函数将输入到该softmax层的未归一化的每一类别对应的概率值映射为归一化的概率值;(2)对于一个浅层部分M
i
而言,其输入为特征图X
i
,经过其对应的子模块的卷积层以后的输出为特征图F
i
,经过其子模块对应的softmax层(T>1)以后输出软概率向量经过其子模块对应的softmax层(T=1)以后输出硬概率向量S22,训练流量分类的基本模型:(3)将训练集中的每一条加密流量,输入到基本模型中,采用所述损失函数进行训练,将损失函数的值对基本模型进行反向更新直到基本模型收敛后结束训练;(4)训练结束以后,使用测试集对基本模型进行测试,以验证其泛化能力,对基本模型的结构以及训练得到的参数值进行保存,得到训练好的基本模型为E0。4.根据权利要求3所述的基于知识蒸馏与自蒸馏的通信网络加密流量分类方法,其特征在于,所述softmax层中的softmax函数的表达式如下:
其中,a=1,2,...,C,b=1,2,...,C,C表示加密流量的类别总数;p∈[0,1]是一个概率值;T∈R表示温度值;z
a
和z
b
表示输入到softmax层中的未归一化的每一类别对应的几率,当T=1时,对应的输出称为硬概率;当T>1时,对应的输出称为软概率。5.根据权利要求4所述的基于知识蒸馏与自蒸馏的通信网络加密流量分类方法,其特征在于,所述流量分类的基本模型的训练方...
【专利技术属性】
技术研发人员:卜智勇,赵宇,鲁敏,周斌,
申请(专利权)人:成都中科微信息技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。