流量识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39034078 阅读:41 留言:0更新日期:2023-10-10 11:47
本申请实施例涉及网络流量识别与监控领域,公开了一种流量识别方法、装置、电子设备及存储介质,方法包括:基于识别模型的验证结果,获取识别模型识别失误的目标业务,验证结果包括:多个流量所属的真实业务和识别模型对流量的识别结果;使用社区发现算法对冲突关系图进行处理,得到冲突业务簇集合,根据冲突业务簇集合,得到目标业务的识别失误原因;其中,冲突关系图用于表示各个业务的冲突关系,冲突业务簇用于表示冲突程度大于预设门限的业务;根据目标业务的识别失误原因,对识别模型进行修正,得到修正后的识别模型;在修正后的识别模型达到预设识别准确率的情况下,基于修正后的识别模型进行流量识别,提高了流量识别的准确率。率。率。

【技术实现步骤摘要】
流量识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及网络流量识别与监控领域,尤其涉及一种流量识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网的普及与高速发展,激增的网络流量为网络运营商对网络的监控与分析带来了巨大的挑战,相关的网络流量识别方法应运而生。当前主流的流量识别为深度报文检测(Deep Packet Inspection,DPI),该方法着重与获取业务流量的固定模式:如关键字,明文字段等,并基于这些固定信息构建特征规则库,对流量进行正则匹配识别。
[0003]由于构造DPI的规则通常需要花费大量人力,且当流量的规律发生变化后,往往需要反复进行特征的提取。因此近几年基于机器学习(Machine Learning,ML)与深度学习(Deep Learning,DL)的流量识别方法开始被广泛关注起来:前者提取网络流量的统计特征,如包长,包达到时间间隔等统计特征来训练机器学习模型对流量进行分类;而后者则是通过神经网络的表征学习(Representation Learning,RL)手段来自动学习网络流量字节序的特征,实现流量识别的端到端(End to End)自动化。这类识别方法可以有效减轻流量识别的人力成本。
[0004]但无论是DPI这类基于规则的流量识别,还是基于统计学习的自动化识别,都无法做到完全正确的识别,并且由于现有技术中的流量识别方法只能对识别模型的识别效果进行验证,无法从验证结果中获取影响识别效果的因素,并对识别模型进行针对性的优化,因此,确定流量识别过程中哪些应用造成了识别冲突,以及冲突产生的原因,并对其进行反馈纠正,是改善流量识别准确率的关键所在。

技术实现思路

[0005]本专利技术的目的在于解决上述问题,提供一种流量识别方法、装置、电子设备及存储介质,解决了无法从模型识别的验证结果获取影响识别效果的因素,并根据影响因素对识别模型进行优化的问题,提高了流量识别的准确率。
[0006]为解决上述问题,本申请的实施例提供了一种流量识别方法、装置、电子设备及存储介质,方法包括:基于识别模型的验证结果,获取识别模型识别失误的目标业务,验证结果包括:多个流量所属的真实业务和识别模型对流量的识别结果;使用社区发现算法对冲突关系图进行处理,得到冲突业务簇集合,根据冲突业务簇集合,得到目标业务的识别失误原因;其中,冲突关系图用于表示各个业务的冲突关系,冲突业务簇用于表示冲突程度大于预设门限的业务;根据目标业务的识别失误原因,对识别模型进行修正,得到修正后的识别模型;在修正后的识别模型达到预设识别准确率的情况下,基于修正后的识别模型进行流量识别。
[0007]为解决上述问题,本申请的实施例提供了一种流量识别装置,包括:获取模块,用于基于识别模型的验证结果,获取识别模型识别失误的目标业务,所述验证结果包括:多个
流量所属的真实业务和识别模型对流量的识别结果;处理模块,用于使用社区发现算法对冲突关系图进行处理,得到冲突业务簇集合,根据冲突业务簇集合,得到目标业务的识别失误原因;其中,冲突关系图用于表示各个业务的冲突关系,冲突业务簇用于表示冲突程度大于预设门限的业务;修正模块,用于根据目标业务的识别失误原因,对识别模型进行修正,得到修正后的识别模型;识别模块,用于在修正后的识别模型达到预设识别准确率的情况下,基于修正后的识别模型进行流量识别。
[0008]为解决上述问题,本申请的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述流量识别方法。
[0009]为解决上述问题,本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述流量识别方法。
[0010]在本申请实施例中,通过识别模型的验证结果,获取识别模型识别失误的目标业务,来确定需要进行分析获取识别失败原因的目标业务,通过社区发现算法对用于表示各个业务的冲突关系的冲突图进行处理,得到冲突业务簇,即冲突程度大于预设门限的业务,从而可以根据冲突业务簇来判断获取到的目标业务识别失误的原因,通过获取到的识别失误的原因,对识别模型有针对性的进行修正,并将达到预设识别准确率的识别模型,投入到流量识别中去,有效地解决无法从模型识别的验证结果获取影响识别效果的因素,并根据影响因素对识别模型进行优化的问题,提高了流量识别的准确率。
附图说明
[0011]一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
[0012]图1是相关技术手段中流量识别方法的流程图;
[0013]图2是本申请一实施例提供的流量识别方法的流程图;
[0014]图3是本申请一实施例提供的应用于DPI流程识别场景的流量识别方法的流程图;
[0015]图4是本申请一实施例提供的应用于统计学习识别环境的流量识别方法的流程图;
[0016]图5是本申请一实施例提供的流量识别系统的示意图;
[0017]图6是本申请一实施例提供流量识别装置的结构示意图;
[0018]图7是本申请一实施例提供的电子设备的结构示意图。
具体实施方式
[0019]本申请实施例提供的流量识别方法,为对流量识别方案的通用加强手段,用于加强流量识别的准确性,需要搭配一种现有的流量识别系统进行使用,本申请实施例提供的流量识别方法,可以应用到DPI流程识别场景中,也可以适配到端到端的统计学习智能流量识别环境中。基于规则的流量识别和基于统计学习的流量识别的基本流程如图1所示,主要包括如下步骤:业务流量数据的抓包收集、识别模型的构建(规则库/分类模型的构建)和识
别模型的验证(对规则库/分类模型的验证)。
[0020]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
[0021]本申请的一实施例涉及一种流量识别方法,方法包括:基于识别模型的验证结果,获取识别模型识别失误的目标业务,验证结果包括:多个流量所属的真实业务和识别模型对流量的识别结果;使用社区发现算法对冲突关系图进行处理,得到冲突业务簇集合,根据冲突业务簇集合,得到目标业务的识别失误原因;其中,冲突关系图用于表示各个业务的冲突关系,冲突业务簇用于表示冲突程度大于预设门限的业务;根据目标业务的识别失误原因,对识别模型进行修正,得到修正后的识别模型;在修正后的识别模型达到预设识别准确率的情况下,基于修正后的识别模型进行流量识本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流量识别方法,其特征在于,包括:S1,基于所述识别模型的验证结果,获取所述识别模型识别失误的目标业务,其中,所述验证结果包括:多个流量所属的真实业务和所述识别模型对流量的识别结果;S2,使用社区发现算法对冲突关系图进行处理,得到冲突业务簇集合,根据所述冲突业务簇集合,得到所述目标业务的识别失误原因;其中,所述冲突关系图用于表示各个业务的冲突关系,所述冲突业务簇用于表示冲突程度大于预设门限的业务;S3,根据所述目标业务的识别失误原因,对所述识别模型进行修正,得到修正后的识别模型;S4,在所述修正后的识别模型达到预设识别准确率的情况下,基于所述修正后的识别模型进行流量识别。2.根据权利要求1所述的流量识别方法,其特征在于,在所述根据所述目标业务的识别失误原因,对所述识别模型进行修正,得到修正后的识别模型之后,还包括:在所述修正后的识别模型未达到预设识别准确率的情况下,重复执行所述S1至所述S3。3.根据所述权利要求1所述的流量识别方法,其特征在于,所述基于所述识别模型的验证结果,获取所述识别模型识别失误的目标业务,包括:根据识别模型的验证结果计算各个业务的用于表征识别准确率的指标值;将所述各个业务的指标值与预设范围进行比较,并将指标值不在预设范围内的业务作为所述目标业务。4.根据权利要求1所述的流量识别方法,其特征在于,在所述S1之后,且在所述S2之前,还包括:根据所述验证结果生成命中混淆矩阵M;所述命中混淆矩阵的行元素表示流量所属的真实业务;所述命中混淆矩阵的列元素表示所述识别模型对流量的识别结果;所述M的元素值M[i,j]表示第i个真实业务被识别为第j个业务的次数;将每个业务作为一个节点,并根据所述M中的各元素值和第一预设阈值,生成所述冲突关系图;其中,在M[i,j]和M[j,i]均大于所述第一预设阈值的情况下,两个业务之间具有冲突关系。5.根据权利要求1所述的流量识别方法,其特征在于,所述根据所述冲突业务簇集合,得到所述目标业务的识别失误原因,包括;在所述目标业务属于所述冲突业务簇集合的情况下,得到所述目标业务识别失误的原因为存在业务冲突;在所述目标业务不属于所述冲突业务簇集合的情况下,得到所述目标业务识别失误的原因为输入所述识别模型的流量特征的原因。6.根据权利要求5所述的流量识别方法,其特征在于,所述根据所述目标业务的识别失误原因,对所述识别模型进行修正,包括:在所述识别失误的原因为输入所述识别模型的流量特征的原因的情况下,对所述目标业务进行人工分析,并对所述识别模型进行修正;在所述识别失误的原因为存在业务...

【专利技术属性】
技术研发人员:何鸿业
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1