分布式场景下新类型加密网络流量包的挖掘和利用方法技术

技术编号:35098612 阅读:13 留言:0更新日期:2022-10-01 17:03
本发明专利技术公开了一种分布式场景下的新类型加密网络流量包挖掘和利用方法。分布式场景下不同网络节点上检测出来的新类型流量包中,包含了有价值的模式信息。本发明专利技术所设计的方案可以对分布在不同网络流量监测节点上的新类型加密网络流量包进行全局一致的类别划分和类别标签分配。该方案还可以利用这些标注好的新类型流量包样本,对现有各类全局模型(如:特征向量提取模型、新类型加密网络流量包检测模型、现有类型加密网络流量分类模型等模型)进行快速更新,以扩大这些模型的类别识别能力。以扩大这些模型的类别识别能力。以扩大这些模型的类别识别能力。

【技术实现步骤摘要】
分布式场景下新类型加密网络流量包的挖掘和利用方法


[0001]本专利技术涉及网络安全领域,涉及分布式场景下对网络流量包进行监测管理的方法。

技术介绍

[0002]网络流量包分类是网络管理和网络空间安全中一项至关重要的任务。网络管理部门通常需要将网络流量包划分为不同类别,然后针对不同类型的网络流量包采用不同的路由或者防火墙配置策略。例如,我们可以根据应用程序类别对网络流量包进行划分,并为不同类别网络流量包分配不同优先级,以保障高优先级业务的网络服务质量(QoS)。再比如,网络包分类可以用于网络入侵检测。通过将网络数据包分类分为良性流量包和恶意流量包,可以达到网络异常检测的目的。
[0003]目前大多数网络流量都是加密流量。绝大多数网络应用中都引入了安全通信协议,如SSL(Secure Sockets Layer)、TLS(Transport Layer Security),以提高各自的安全性能。与此同时,许多恶意软件通过其网络流量包进行加密,以逃避防火墙和网络入侵检测系统的检测。由于加密网络流量包的负载(payload)处于加密状态,这个给传统基于深度包检测(DPI)等流量分类方法带来了挑战。基于机器学习的网络流量分类器,通常需要手动进行特征设计和选择,实施难度较大,分类精度较低。
[0004]近年来,深度学习技术被引入到加密网络流量分类场景。然而,基于深度学习的网络加密流量分类方案存在诸多与现实场景脱节的挑战。
[0005]首先,深度学习模型的训练需要大量的样本支持,否则容易诱发过拟合问题。深度学习模型普遍比较复杂,待训练的参数众多,构建高精度的基于深度学习的加密流量分类器,需要大量标注好的训练样本的支持。然而收集大量被正确标注的加密流量的并不容易。由于流量包载荷处于加密状态,加密网络流量类型分析和标注的成本非常高。单一监测节点能力有限,所能标注的加密流量包样本数量有限。
[0006]其次,具备应用价值的分类模型应当能够识别尽可能多的流量类别。然而单一网络监测节点覆盖范围有限,所能采集到的样本类型有限,使得模型识别能力有限。网络流量包分布通常具有一定的地域性特点,例如,不同类型的网络用户产生的网络流量类型并不完全一致。再比如,网络病毒通常是在某个区域爆发,然后才向其他区域扩散。
[0007]此外,新类型流量包层出不穷,而基于现有流量包样本训练的模型并不能对它们进行正确分类。真实的应用场景中,网络流量的种类并不是固定的,我们经常会遇到大量的新类型网络流量包。导致新类型网络流量包频繁出现的原因比较多。一方面,各类新型网络应用程序层出不穷,新的网络应用必然会导致产生新的网络流量模式。另一方面,为了逃避网络监测,恶意网络用户通常会改变自身的行为模式,从而导致恶意网络流量模式变化。
[0008]因此有必要研究分布式网络监测场景下,现有类型和新类型的加密网络流量包同时存在,这类与现实状况较为接近的加密网络流量包监测管理问题。在本专利技术所研究的场景中存在多个网络监测节点。多个网络监测节点(简称节点)分布在不同网络区域的入口位
置,对该区域的网络流量进行监测。各个节点分别积累了一定量的已经标注的网络流量样本。我们将这些已标注样本所对应的网络流量类型统称为现有类型。与此对应的,新类型指还没有任何该类别样本被标注。该场景中,现有类型和新类型的加密网络流量包同时存在。新接收到的流量包样本,既可能是现有类型样本,也可能是新类型样本。

技术实现思路

[0009]本专利技术所要解决的技术问题是,针对现有技术不足,提出一种分布式场景下新类型加密网络流量包的挖掘和利用方法。本专利技术的技术方案为:
[0010]一种分布式场景下新类型加密网络流量包的挖掘和利用方法,其特征在于,包括以下步骤:
[0011](1)准备阶段:多个网络流量监测节点(简称为“节点”)分别对各自负责的不同网络区域的网络流量进行监测;各个节点分别独立地收集了一定数量的已经进行类别标注的网络流量包样本(简称为“已标注样本”);多个网络流量监测节点相互协作,训练出一个新类型网络流量包检测模型;所述的新类型网络流量包是指还没有任何该类型的网络流量包样本被进行类别标注;
[0012](2)新类型流量包检测:各个节点分别从各自新接收到的网络流量包中检测出新类型网络流量包;新类型流量包的挖掘和利用以周期性性的形式进行,每一轮挖掘和利用操作都以当前周期内检测出来的所有新类型流量包为基础进行;
[0013](3)子类别发现:各个节点独立对本轮(当前周期时间内)检测出来的新类型流量包进行本地聚类操作;各个节点独立对各自聚类结果各个子类别样本分配标签;本地聚类结果中,相同子类别的新类型流量包样本,将被分配相同的本地标签;不同本地子类别的标签互不相同;
[0014](4)本地子类别特征向量提取:各个节点选择一个全局统一的基准;各个节点以该全局统一的基准为基础,分别为各个本地子类别提取全局一致的类别特征向量;各个节点将本地子类别的特征向量,连同它们所对应的本地子类别标签,一起上传到汇聚节点;
[0015](5)全局一致性类别标注:汇聚节点以收集来自不同节点的子类别特征向量和本地标签信息;汇聚节点对收集到的所有子类别特征向量为基础,进行全局性聚类;汇聚节点为全局性聚类结果中的各个子类别分配全局性标签;汇聚节点为各个节点建立起本地标签和全局标签的映射方案,并将该映射方案分别返回给相应的节点;各个节点利用接收到的映射方案,为各个子类别样本分配全局性标签;
[0016](6)模型更新:多个网络流量监测节点,对模型进行扩展,并利用各自收集的如第(5)步所述的已经分配了全局标签的样本,采用协同合作的方式,对扩展后的模型进行训练,直到模型收敛或者达到一个预先设定的误差阈值。
[0017]作为进一步优化,所述步骤(4)具体步骤如下:
[0018](4.1)全局一致基准模型设计:
[0019]全局一致的基准模型定义为:y=f
μ
(x)=f
e
(f
θ
(x))=argmax(softmax(f
θ
(x)));子模型f
θ
为加密网络流量包特征提取模型;各个节点使用全局最优的模型参数θ
*
对子模型f
θ
进行初始化,子模型f
e
中不包含待优化的参数,不需要进行初始化处理;
[0020](4.2)子类别增量模型的训练:各个节点为各自的不同本地子类别样本,分别独立
训练一个增量模型;用于增量训练的优化方程为:
[0021](4.3)基于增量模型的子类别特征提取:各个节点分别从各个子类别模型参数中,按照相同的规则选择一个参数子集,作为该子类别的特征向量;各个节点将各个本地子类别特征向量和本地子类别标签一起上传到汇聚节点;
[0022](4.4)全局一致的子类别标签分配:汇聚节点以收集到的子类别特征向量为基础进行所有本地子类别进行全局性聚类,并根据全局性聚类结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式场景下新类型加密网络流量包的挖掘和利用方法,其特征在于,包括以下步骤:(1)准备阶段:多个网络流量监测节点(简称为“节点”)分别对各自负责的不同网络区域的网络流量进行监测;各个节点分别独立地收集了一定数量的已经进行类别标注的网络流量包样本(简称为“已标注样本”);多个网络流量监测节点相互协作,训练出一个新类型网络流量包检测模型;所述的新类型网络流量包是指还没有任何该类型的网络流量包样本被进行类别标注;(2)新类型流量包检测:各个节点分别从各自新接收到的网络流量包中检测出新类型网络流量包;新类型流量包的挖掘和利用以周期性性的形式进行,每一轮挖掘和利用操作都以当前周期内检测出来的所有新类型流量包为基础进行;(3)子类别发现:各个节点独立对本轮(当前周期时间内)检测出来的新类型流量包进行本地聚类操作;各个节点独立对各自聚类结果各个子类别样本分配标签;本地聚类结果中,相同子类别的新类型流量包样本,将被分配相同的本地标签;不同本地子类别的标签互不相同;(4)本地子类别特征向量提取:各个节点选择一个全局统一的基准;各个节点以该全局统一的基准为基础,分别为各个本地子类别提取全局一致的类别特征向量;各个节点将本地子类别的特征向量,连同它们所对应的本地子类别标签,一起上传到汇聚节点;(5)全局一致性类别标注:汇聚节点以收集来自不同节点的子类别特征向量和本地标签信息;汇聚节点对收集到的所有子类别特征向量为基础,进行全局性聚类;汇聚节点为全局性聚类结果中的各个子类别分配全局性标签;汇聚节点为各个节点建立起本地标签和全局标签的映射方案,并将该映射方案分别返回给相应的节点;各个节点利用接收到的映射方案,为各个子类别样本分配全局性标签;(6)模型更新:多个网络流量监测节点,对模型进行扩展,并利用各自收集的如第(5)步所述的已经分配了全局标签的样本,采用协同合作的方式,对扩展后的模型进行训练,直到模型收敛或者达到一个预先设定的误差阈值。2.根据权利要求1所述的分布式场景下新类型流量包的挖掘和利用方法,其特征在于,所述步骤(4)具体步骤如下:(1)全局一致基准模型设计:全局一致的基准模型定义为:y=f
μ
(x)=f
e<...

【专利技术属性】
技术研发人员:张平唐艳艳
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1