分布式场景下加密网络流量包特征提取方法技术

技术编号:35896529 阅读:16 留言:0更新日期:2022-12-10 10:30
本发明专利技术公开了一种分布式场景下的加密网络流量特征提取方法。该方法可以自动提取原始加密网络流量包中蕴含的特征信息,不需要手动进行特征信息的设计、选择和提取。该方法采用了一维卷积神经网络和注意力机制等技术,大幅度提升了所提取特征信息的代表能力。该方法适用于分布式场景,可以整合不同网络节点上收集的样本数据,提升模型训练精度,进而在分布式场景中的不同网络节点间,实现模型级别的样本数据共享,可以在一定程度上保障原始数据的安全。该方法可以作为子模块的形式,应用到新类型加密流量包的检测、现有类型加密流量包分类、新类型加密流量包类别标注等不同场景中。新类型加密流量包类别标注等不同场景中。新类型加密流量包类别标注等不同场景中。

【技术实现步骤摘要】
特征提取模型f
θ
,以用于提取网络流量包的特征向量。
[0022]有益效果:
[0023]本专利技术所采用的方案,设计了一种分布式场景下的加密网络流量特征提取方法。该 方案提供了一种端到端的加密网络流量特征提取模式,通过输入原始网络流量包,经过 计算后,自动提取其中蕴含的特征信息,从而免除传统机器学习方案中需要手动进行特 征信息的设计、选择和提取。该方案采用了一维卷积神经网络和注意力机制等技术,大 幅度提升了所提取特征信息的代表能力。该方案提供了一种分布式场景下加密网络流量 特征提取模型的训练方案。该训练方案可以整合不同网络节点上收集的样本数据,提升 模型训练精度,进而在分布式场景中的不同网络节点间,实现模型级别的样本数据共享, 可以在一定程度上保障原始数据的安全。本专利技术可以作为子模块的形式,应用到新类型 加密流量包的检测、现有类型加密流量包分类、新类型加密流量包类别标注等许多不同 的场景中。
附图说明
[0024]图1特征提取模型结构示意图
[0025]图2(a)新类型流量样本的特征向量top

3元素的分布情况
[0026]图2(b)现有类型流量样本的特征向量top

3元素的分布情况
[0027]图3高置信度新类型流量包样本提取模型
[0028]图4增量模型参数的类别表达能力
[0029]图5(a)网络流量包的二维空间视图(特征向量第1大和第2大元素维度)
[0030]图5(b)网络流量包的二维空间视图(特征向量第1大和第3大元素维度)
[0031]图5(c)网络流量包的二维空间视图(特征向量第2大和第3大元素维度)
[0032]图6(a)第一层的bias参数的表达能力
[0033]图6(b)第一层的kernel参数的表达能力
[0034]图7(a)最后一层的bias参数的表达能力
[0035]图7(b)最后一层的kernel参数的表达能力
[0036]图8全局一致的类别标签分配
具体实施方式:
[0037]本专利技术的具体实现过程如下:
[0038]本专利技术研究了一个与现实场景较为相似的,分布式场景下加密网络流量包监测管理 问题。该问题场景中存在多个网络监测节点(简称“节点”),他们各自独立地对所管辖 区域的加密网络流量包进行监测和管理。各个网络监测节点已经积累了一些标注好的加 密网络流量包样本。每个节点上的已标注样本的数量和类型有限,无法独自完成复杂的 深度学习模型的训练。
[0039]各个节点新接收到的加密网络流量包中既有现有类型流量包,也有新类型流量包。 现有类型加密网络流量包(简称为“现有类型流量包”)是指某些该类型加密网络流量 包样本已经被分配了正确的类别标签。此类分配了标签的样本,称为已标注样本,或者 简称为标注样本。新类型加密网络流量包(简称为“新类型流量包”)是指还没有任何 该类型的加密网络流量包样本被分配类别标签。我们假定不同网络监测节点对同一类型 的加密
流量包样本都分配了相同的类别标签。
[0040]为了解决单一网络节点已标注网络流量包数量和类型有限的问题,各个不同节点, 将利用各自的已标注样本,协同进行模型训练。通过对多个节点的样本资源的整合,既 可以增加用于模型训练的已标注样本的数量,以避免出现过拟合问题,还可以使训练出 来的模型学习到不同网络区域的流量模式特征差异。
[0041]专利技术人针对所研究的问题,主要开展了如下三个方面的具体研究。
[0042](1)分布式场景下加密网络流量包特征提取方法:该特征提取模型可以用于新类型 流量包检测、新类型流量包标注、现有类型流量包分类等其他方法中。
[0043](2)分布式场景下新类型加密网络流量包检测方法:新接收到的网络流量中,现有 类型和新类型加密网络流量包共存。若我们直接对新接收到的网络流量进行分类,新类 型流量包将被错误地划分为某个现有类型,导致分类错误。因此,需要从不同节点新接 收到的网络流量中,检测分离出新类型加密网络流量包。
[0044](3)分布式场景下新类型加密网络流量包的挖掘和利用方法:不同网络节点上检测 出来的新类型流量包中,包含了有价值的模式信息。我们将研究如何挖掘这些信息,并 用于对现有模型进行更新。
[0045]一、分布式场景下加密网络流量包特征提取方法
[0046]本小节介绍分布式场景下加密网络流量包特征提取方法。该方法可以用于新类型流 量检测、新类型流量标注、现有类型流量分类等其他方法中。该分布式场景下加密网络 流量包特征提取方法主要包括以下步骤:首先,设计特征提取模型。该模型用于直接将 原始加密流量包转换成特征向量。然后,设计分布式场景下特征提取模型的训练方法。 具体步骤如下:
[0047](1)准备阶段:多个网络流量监测节点分别对各自负责的不同网络区域的网络流量 进行监测;各个节点分别独立地收集了一定数量的已经进行类别标注(分配类别标签) 的网络流量包样本(简称为“已标注样本”);
[0048](2)特征提取模型的构建:网络流量包特征提取模型f
θ
可以表示成v=f
θ
(x),其 中x为加密网络流量包,v是通过模型提取的特征向量;该特征提取模型f
θ
至少包括一个 一维卷积(1D CNN)层和一个注意力(Attention)层;Attention层的输出经过变换后转 化成一组权值;该组权值用作一维卷积层不同通道的权值,用于改变一维卷积层原有输 出值;作为优化,该特征提取模型f
θ
还可以包括一维池化层、全连接层和激活层;图1 展示了特征提取模型中一维卷积层和Attention层的结合方式。具体实现时,特征提取模 型中一般包括多个卷积层。计算机视觉领域比较常用的卷积层结构主要是二维卷积层和 三维卷积层,已有部分研究人员将二维卷积层和三维卷积层应用在加密流量分类场景。 然而,网络流量本质上是顺序数据,它是一维字节流,因此本特征提取模型将采用一维 卷积层、一维池化层作为卷积神经网络的基本组件。与此同时,特征提取模型中,还引 入了Attention层。Attention层使用某个卷积层的输出作为其输入,以捕获卷积层不同通 道的特征差异。Attention层通过和Softmax结合,将捕获到的差异信息转化成一组权值。 该组权值将用作卷积层不同通道的权值,用于改变卷积层原有输出值的权重,从而实现 为卷积层不同输出特征进行动态赋权。作为优化,该特征提取模型f
θ
还可以包括一维池 化层、全连接层和激活层;图1中“1D CNN”代表以一维卷积层为主要组件的人工神经 网络的子网络,图1中的

其他层”通常由一维卷积层、池化层、全连接层等组件构成。
[0049]特征提取模型中间层的层次深度和层次结构,需要根据训练样本数量、机器的性能 等因素综合决定。根据深度学习理论,一般情况下,在样本数量足够多的情况下,模型 结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式场景下加密网络流量包特征提取方法,其特征在于,包括以下步骤:(1)准备阶段:多个网络流量监测节点分别对各自负责的不同网络区域的网络流量进行监测;各个节点分别独立地收集了一定数量的已经进行类别标注(分配类别标签)的网络流量包样本(简称为“已标注样本”);(2)特征提取模型的构建:网络流量包特征提取模型f
θ
可以表示成v=f
θ
(x),其中x为加密网络流量包,v是通过模型提取的特征向量;该特征提取模型f
θ
至少包括一个一维卷积(1D CNN)层和一个注意力(Attention)层;Attention层的输出经过变换后转化成一组权值;该组权值用作一维卷积层不同通道的权值,用于改变一维卷积层原有输出值;作为优化,该特征提取模型f
θ
还可以包括一维池化层、全连接层和激活层;(3)接口模型的构建:接口模型f
e
由softmax和argmax两个模块嵌套构成;该接口模型可以表示成y=f
e
(v)=argmax(softmax(v));(4)优化方程的构建:优化方程可以表示成其中l是损失函数(loss function);(5)模型的分布式训练:多个网络流量监测节点(简称为“节点”),利用第(1)步所述的各自收集的已...

【专利技术属性】
技术研发人员:张平唐艳艳
申请(专利权)人:湖南工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1