基于主动学习的网络流量分类方法及装置制造方法及图纸

技术编号:27481232 阅读:15 留言:0更新日期:2021-03-02 17:52
本发明专利技术公开了一种基于主动学习的网络流量分类方法及装置,包括:离线训练过程:在历史积累的网络流量数据集上对初始化训练得到的网络流量分类模型进行多轮次的主动学习和性能评估,直至达到预设评估要求,输出达到预设评估要求的网络流量分类模型,并结束离线训练过程;在线预测过程:利用离线训练过程获得的网络流量分类模型对实时网络流量数据进行在线预测,同时对网络流量分类模型自身进行在线主动学习。本发明专利技术基于主动学习的网络流量分类方法,在降低人力物力开销的同时,能够保证网络流量分类模型很好的分类性能,且基于主动学习训练获得的网络流量分类模型特别适用于不平衡网络流量数据的分类预测。平衡网络流量数据的分类预测。平衡网络流量数据的分类预测。

【技术实现步骤摘要】
基于主动学习的网络流量分类方法及装置


[0001]本专利技术属于网络流量管理领域,具体是涉及到一种基于主动学习的网络流量分类方法及装置。

技术介绍

[0002]随着互联网行业的快速发展和应用创新的突飞猛进,网络流量的类型多样性、演变性和复杂性都随着新型网络应用及网络协议的不断涌现而日益增长,同时网络运营服务商和网络监管部门对了解网络流量构成、实施网络差异化服务,以及净化网络环境等诉求也愈来愈多。因此,如何对源源不断的未知网络流量进行准确分类,支持快速再分配网络资源,从而提高网络资源的利用率和客户个性化服务的满意度是当前网络流量管理领域面临的一大挑战,迫切需要提出新的高效网络流量分类方法,以满足网络运营服务商和网络监管部门对网络服务与管理的新需求。
[0003]现有基于传统机器学习的网络流量分类方法,分类性能很大程度上依赖于基于包特征或者基于流特征的设计。这些传统方法一方面需要大量带有真实标签的训练样本来训练分类器,但获取大量真实标签需要耗费大量人力及物力,且一旦发生类型演变,往往会导致原先训练得到的分类器性能急剧降低。另一方面,随着新型网络应用层出不穷,流量类型不断出新,各种类型的流量占比总在动态演化,而传统方法往往偏向于不平衡流量中的大类数据,易于忽略新型网络应用在初期阶段所产生的小类流量数据,更难以识别伪装善变的恶意流量数据,这种恶意流量数据虽然占比小但危害大,是网络监管的重点目标。

技术实现思路

[0004]本专利技术的目的是克服现有技术存在的上述问题,提供一种基于主动学习的网络流量分类方法及装置。
[0005]基于上述目的,第一方面,本专利技术提供一种基于主动学习的网络流量分类方法,包括基于主动学习的网络流量分类模型离线训练过程和基于主动学习的网络流量分类模型在线预测过程,所述基于主动学习的网络流量分类模型离线训练过程,包括:获取初始化训练样本集,通过预设的有监督学习算法对初始化训练样本集进行有监督学习,得到初始网络流量分类模型;根据获取的历史网络流量数据集,对所述初始网络流量分类模型进行预设总标签请求比例下的主动学习;获取主动学习过程中随机标签请求策略得到的性能评估样本集,并根据所述性能评估样本集进行模型分类预测性能评估,以得到离线评估结果;检测离线评估结果是否达到预设评估要求;在所述离线评估结果达到预设评估要求时,获得达到所述预设评估要求的网络流量分类模型,并结束所述基于主动学习的网络流量分类模型离线训练过程;
所述基于主动学习的网络流量分类模型在线预测过程,包括:获取离线训练得到的所述网络流量分类模型,并获取实时网络流量数据;通过所述网络流量分类模型对所述实时网络流量数据进行在线分类预测,获得分类预测结果;同时对所述网络流量分类模型进行所述预设总标签请求比例下的主动学习;获取主动学习过程中所述随机标签请求策略得到的所述性能评估样本集,并在预设时间周期内进行模型分类预测性能评估,以得到周期性评估结果;根据所述周期性评估结果和所述预设评估要求判断是否按照所述预设时间周期输出所述网络流量分类模型。
[0006]优选地,所述基于主动学习的网络流量分类模型离线训练过程,还包括:在所述离线评估结果未达到预设评估要求时,对未达到所述预设评估要求的所述网络流量分类模型进行下一轮的主动学习,直至检测到所述离线评估结果达到所述预设评估要求,获得达到所述预设评估要求的网络流量分类模型,并结束所述基于主动学习的网络流量分类模型离线训练过程。
[0007]优选地,所述通过预设的学习算法对初始化训练得到的网络流量分类模型进行预设总标签请求比例下的主动学习,包括:通过所述网络流量分类模型,对不包含流量类型标签的网络流量数据进行分类预测,得到预测结果数据;所述预测结果数据为包含预测类型标签的网络流量数据;判断所述预测结果数据是否被混合标签请求策略选中;所述混合标签请求策略为由随机标签请求策略、不确定性标签请求策略和选择性标签请求策略组合的标签请求策略;若所述预测结果数据被混合标签请求策略选中,则请求人工标注类型,以获得同时包含预测类型标签和真实类型标签的训练样本;若判断到是被混合标签请求策略中的所述随机标签请求策略选中,则将获得的训练样本复制为性能评估样本插入至预设缓存滑窗中;否则,将预设占位符插入至预设缓存滑窗中;若所述预测结果数据未被混合标签请求策略选中,则将预设占位符插入至预设缓存滑窗中;基于所述预设缓存滑窗计算所述网络流量数据的各种流量类型的不平衡率,并获得不平衡率向量;根据所述不平衡率向量和所述训练样本的预测难度获得所述训练样本的训练权重,并获得赋权后的训练样本;根据赋权后的所述训练样本对所述网络流量分类模型进行训练学习,以更新所述网络流量分类模型。
[0008]优选地,所述基于所述预设缓存滑窗计算所述网络流量数据的各种流量类型的不平衡率,并获得不平衡率向量,包括:获得所述预设缓存滑窗中的所述性能评估样本的数量;通过计算所述预设缓存滑窗中的各种真实类型的标签数量与所述性能评估样本的数量的商值,得到各种所述真实类型的占比值;通过计算各种所述真实类型的占比值与流量类型总数之间的乘积值,得到各种所述真实类型的不平衡率,并组合得到不平衡率向量。
[0009]优选地,所述根据所述不平衡率向量和所述训练样本的预测难度获得所述训练样
本的训练权重,并获得赋权后的训练样本,包括:对t时刻的所述训练样本进行数学描述,训练样本为,其中为所述网络流量数据的预测类型, 为所述网络流量数据的真实类型;获取所述网络流量分类模型对所述网络流量数据进行预测时,在所述预测类型上的预测概率,以及在所述真实类型上的预测概率,计算与之间的差值;根据所述差值计算所述训练样本的预测难度,所述预测难度的计算公式为:;根据所述训练样本的真实类型,在所述不平衡率向量中获得真实类型的不平衡率;根据所述训练样本的真实类型的不平衡率和所述预测难度,计算所述训练样本的训练权重,所述训练权重的计算公式为:。
[0010]优选地,所述判断所述预测结果数据是否被混合标签请求策略选中,包括:判断所述预测结果数据是否被所述随机标签请求策略选中;若所述预测结果数据未被所述随机标签请求策略选中,则判断所述预测结果数据是否被所述不确定性标签请求策略选中;若所述预测结果数据未被所述不确定性标签请求策略选中,则判断实际标签请求比例是否达到所述预设总标签请求比例;若实际标签请求比例未达到所述预设总标签请求比例,则判断所述预测结果数据是否被所述选择性标签请求策略选中;若所述预测结果数据未被所述选择性标签请求策略中选中,则确定所述预测结果数据未被所述混合标签请求策略中的任意一种标签请求策略选中。
[0011]优选地,所述判断所述预测结果数据是否被所述随机标签请求策略选中,包括:产生第一随机数;检测所述第一随机数是否小于所述随机标签请求策略中的预设随机标签请求比例;若所述第一随机数小于预设随机标签请求比例,则确定所述预测结果数据被所述随机标签请求策略选中;若所述第一随机数大于或等于预设随机标签请求比例,则确定所述预测结果数据未被所述随机标签请求策略选中。...

【技术保护点】

【技术特征摘要】
1.一种基于主动学习的网络流量分类方法,其特征在于,包括基于主动学习的网络流量分类模型离线训练过程和基于主动学习的网络流量分类模型在线预测过程,所述基于主动学习的网络流量分类模型离线训练过程,包括:获取初始化训练样本集,通过预设的有监督学习算法对初始化训练样本集进行有监督学习,得到初始网络流量分类模型;根据获取的历史网络流量数据集,对所述初始网络流量分类模型进行预设总标签请求比例下的主动学习;获取主动学习过程中随机标签请求策略得到的性能评估样本集,并根据所述性能评估样本集进行模型分类预测性能评估,以得到离线评估结果;检测离线评估结果是否达到预设评估要求;在所述离线评估结果达到预设评估要求时,获得达到所述预设评估要求的网络流量分类模型,并结束所述基于主动学习的网络流量分类模型离线训练过程;所述基于主动学习的网络流量分类模型在线预测过程,包括:获取离线训练得到的所述网络流量分类模型,并获取实时网络流量数据;通过所述网络流量分类模型对所述实时网络流量数据进行在线分类预测,获得分类预测结果;同时对所述网络流量分类模型进行所述预设总标签请求比例下的主动学习;获取主动学习过程中所述随机标签请求策略得到的所述性能评估样本集,并在预设时间周期内进行模型分类预测性能评估,以得到周期性评估结果;根据所述周期性评估结果和所述预设评估要求判断是否按照所述预设时间周期输出所述网络流量分类模型。2.根据权利要求1所述的基于主动学习的网络流量分类方法,其特征在于,所述基于主动学习的网络流量分类模型离线训练过程,还包括:在所述离线评估结果未达到预设评估要求时,对未达到所述预设评估要求的所述网络流量分类模型进行下一轮的主动学习,直至检测到所述离线评估结果达到所述预设评估要求,获得达到所述预设评估要求的网络流量分类模型,并结束所述基于主动学习的网络流量分类模型离线训练过程。3.根据权利要求1所述的基于主动学习的网络流量分类方法,其特征在于,所述对所述网络流量分类模型进行所述预设总标签请求比例下的主动学习,包括:通过所述网络流量分类模型,对不包含流量类型标签的网络流量数据进行分类预测,得到预测结果数据;所述预测结果数据为包含预测类型标签的网络流量数据;判断所述预测结果数据是否被混合标签请求策略选中;所述混合标签请求策略为由随机标签请求策略、不确定性标签请求策略和选择性标签请求策略组合的标签请求策略;若所述预测结果数据被混合标签请求策略选中,则请求人工标注类型,以获得同时包含预测类型标签和真实类型标签的训练样本;若判断到是被混合标签请求策略中的所述随机标签请求策略选中,则将获得的训练样本复制为性能评估样本插入至预设缓存滑窗中;否则,将预设占位符插入至预设缓存滑窗中;若所述预测结果数据未被混合标签请求策略选中,则将预设占位符插入至预设缓存滑窗中;基于所述预设缓存滑窗计算所述网络流量数据的各种流量类型的不平衡率,并获得不
平衡率向量;根据所述不平衡率向量和所述训练样本的预测难度获得所述训练样本的训练权重,并获得赋权后的训练样本;根据赋权后的所述训练样本对所述网络流量分类模型进行训练学习,以更新所述网络流量分类模型。4.根据权利要求3所述的基于主动学习的网络流量分类方法,其特征在于,所述基于所述预设缓存滑窗计算所述网络流量数据的各种流量类型的不平衡率,并获得不平衡率向量,包括:获得所述预设缓存滑窗中的所述性能评估样本的数量;通过计算所述预设缓存滑窗中的各种真实类型的标签数量与所述性能评估样本的数量的商值,得到各种所述真实类型的占比值;通过计算各种所述真实类型的占比值与流量类型总数之间的乘积值,得到各种所述真实类型的不平衡率,并组合得到不平衡率向量。5.根据权利要求3所述的基于主动学习的网络流量分类方法,其特征在于,所述根据所述不平衡率向量和所述训练样本的预测难度获得所述训练样本的训练权重,并获得赋权后的训练样本,包括:对t时刻的所述训练样本进行数学描述,训练样本为,其中为所述网络流量数据的预测类型,为所述网络流量数据的真实类型;获取所述网络流量分类模型对所述网络流量数据进行预测时,在所述预测类型上的预测概率,以及在所述真实类型上的预测概率,计算与之间的差值;根据所述差值计算所述训练样本的预测难度,所述预测难度的计算公式为:;根据所述训练样本的真实类型,在所述不平衡率向量中获得真实类型的不平衡率;根据所述训练样本的真实类型的不平衡率和所述预测难度,计算所述训练样本的训练权重,所述训练权重的计算公式为:。6.根据权利要求3所述的基于主动学习的网络流量分类方法,其特征在于,所述判断所述预测结果数据是否被混合标签请求策略选中,包括:
判断...

【专利技术属性】
技术研发人员:刘蔚柯朱承刘青宝丁兆云
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1