基于特征序列化的网络流量分类方法、装置及存储介质制造方法及图纸

技术编号:36202996 阅读:10 留言:0更新日期:2023-01-04 11:57
本发明专利技术提供一种基于特征序列化的网络流量分类方法、装置及存储介质,该方法包括:获取网络流量包含的多条流数据中每个数据包的数据包特征,数据包特征包括包间时间和包大小;依据数据包特征的差别对多条流数据中数据包进行分类并构造数据包映射表,依据数据包映射表将流数据转化为预设长度的离散序列流量数据,每个数据包类别对应一个唯一ID,每个数据包类别包含多个数据包;将网络流量包含的多条流数据对应的离散序列流量数据输入到文本分类模型中,获得网络流量分类的结果作为输出,所述文本分类模型的类型为机器学习模型、多尺度卷积神经网络模型或基于特征转换器的自然语言处理模型中。本发明专利技术能够实现对加密网络流量的高效、准确的流量分类。准确的流量分类。准确的流量分类。

【技术实现步骤摘要】
基于特征序列化的网络流量分类方法、装置及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于特征序列化的网络流量分类方法、装置及存储介质。

技术介绍

[0002]随着数据的快速增长和网络应用的广泛使用,网络安全隐患问题已经引起了越来越多专家学者的关注。网络流量分类是网络规划和网络管理的基础措施,也是能降低网络安全隐患的有效方法。在网络规划领域,根据流量应用协议的分类结果,获取各种网络应用的分布情况,有利于预测网络业务的发展趋势;在网络入侵检测领域,流量分类可以用来识别具有恶意攻击意图的流量,保证网络空间的安全。随着人们的网络安全意识不断增强,加密的网络流量技术成为主要传输形式,但传统的流量分类方法无法很好地处理加密后的流量。
[0003]虽然存在技术方案直接采用流量特征数据通过机器学习算法进行特征学习,实现对流量协议和攻击类别的识别,但该方案需要在特定领域(网络安全
)下能够取得高精度的评估结果。
[0004]为此,如何提供一种在包含加密网络流量的复杂场景下高效、准确的流量分类方法,是一个亟待解决的问题。

技术实现思路

[0005]鉴于此,本专利技术实施例提供了一种基于特征序列化的网络流量分类方法、装置及存储介质,以消除或改善现有技术中存在的一个或更多个缺陷。
[0006]本专利技术的一个方面提供了一种基于特征序列化的网络流量分类方法,该方法包括以下步骤:
[0007]获取网络流量包含的多条流数据中每个数据包的数据包特征,所述数据包特征包括包间时间和包大小;
[0008]依据数据包特征的差别对多条流数据中数据包进行分类并构造数据包映射表,依据所述数据包映射表将所述流数据转化为预设长度的离散序列流量数据,每个数据包类别对应一个唯一ID,每个数据包类别包含多个数据包;
[0009]将所述网络流量包含的多条流数据对应的离散序列流量数据输入到文本分类模型中,获得网络流量分类的结果作为输出,所述文本分类模型的类型为机器学习模型、多尺度卷积神经网络模型或基于特征转换器的自然语言处理模型中。
[0010]在本专利技术的一些实施例中,所述依据数据包特征的差别对流数据中数据包进行分类并构造数据包映射表,包括:使用聚类算法将具有相似数据包特征的数据包聚合到同一个聚类中心,使得每个数据包都具有唯一对应的聚类中心;对每个聚类中心使用唯一ID进行编号,从而构建数据包映射表。
[0011]在本专利技术的一些实施例中,依据所述数据包映射表将所述流数据转化为离散序列
流量数据,包括:查询数据包映射表,并按照流数据中数据包的顺序排列数据包对应的聚类中心的ID,形成离散序列流量数据;对于长度小于预设长度的离散序列流量数据,使用预设符号进行补足;对于长度大于预设长度的离散序列流量数据,删掉超出预设长度部分的内容。
[0012]在本专利技术的一些实施例中,当文本分类模型为机器学习模型时,将所述网络流量包含的多条流数据对应的离散序列流量数据输入到文本分类模型中,获得网络流量分类的结果作为输出,包括:机器学习模型在嵌入层基于所述离散序列流量数据所包含ID的特征随机初始化获得嵌入特征,然后对每条离散序列流量数据所包含ID的嵌入特征进行求和,最后利用支持向量机算法、随机森林算法或梯度提升决策树算法对使用嵌入特征表示的网络流量进行分类得到网络流量分类的结果。
[0013]在本专利技术的一些实施例中,当文本分类模型为多尺度卷积神经网络模型时,将所述网络流量包含的多条流数据对应的离散序列流量数据输入到文本分类模型中,获得网络流量分类的结果作为输出,包括:
[0014]在嵌入层,将输入的离散序列流量数据映射到预设维度的向量,离散序列流量数据映射到的预设维度的向量构成嵌入矩阵;
[0015]在卷积层,使用三种不同大小的卷积核分别从所述嵌入矩阵中提取特征,以获得更多不同的特征组合,并使用最大池化方法分别获得一个具备最大权值的特征,将三个具备最大权值的特征结合起来得到隐层表示;
[0016]在分类层,使用Softmax函数对卷积层输出的隐层表示进行处理,获得网络流量分类的结果。
[0017]在本专利技术的一些实施例中,当文本分类模型为基于特征转换器的自然语言处理模型时,将所述网络流量包含的多条流数据对应的离散序列流量数据输入到文本分类模型中,获得网络流量分类的结果作为输出,包括:
[0018]在嵌入层,将输入的离散序列流量数据映射到预设维度的向量;
[0019]在多层特征转换器的编码器形成的堆栈中,基于自注意力机制对所述预设维度的向量各部分的重要性进行差分加权,基于全局提取重要的特征;
[0020]在分类层,使用Softmax函数对所述多层特征转换器的编码器形成的堆栈输出的结果进行处理,获得网络流量分类的结果。
[0021]在本专利技术的一些实施例中,当所述基于特征转换器的自然语言处理模型为BERT模型时,所述多层特征转换器是由12层特征转换器的编码器组成的堆栈,每个特征转换器的编码器中包含12个注意头。
[0022]在本专利技术的一些实施例中,当所述基特征转换器的自然语言处理模型为ELECTRA模型时,所述多层特征转换器是由12层特征转换器的编码器组成的堆栈,每个特征转换器的编码器中包含4个注意头。
[0023]本专利技术的另一方面提供了一种基于特征序列化的网络流量分类装置,包括处理器核存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如上实施例中任一项所述方法的步骤。
[0024]本专利技术的另一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,
该程序被处理器执行时实现如上实施例中任一项所述方法的步骤。
[0025]本专利技术的基于特征序列化的网络流量分类方法、装置及存储介质,基于类文本化的思想将网络流量包含的流数据转化为离散序列流量数据的形式,从而使用机器学习模型、多尺度卷积神经网络或基于特征转换器的自然语言处理模型,在包含加密流量的场景下进行高效、准确的流量分类。
[0026]本专利技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本专利技术的实践而获知。本专利技术的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
[0027]本领域技术人员将会理解的是,能够用本专利技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本专利技术能够实现的上述和其他目的。
附图说明
[0028]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,并不构成对本专利技术的限定。在附图中:
[0029]图1为本专利技术一实施例中网络流量分类方法流程图。
[0030]图2为本专利技术一实施例中流量分类整体流程图。
[0031]图3为本专利技术一实施例中基于聚类算法生成数据包映射表。
[0032]图4为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征序列化的网络流量分类方法,其特征在于,该方法包括以下步骤:获取网络流量包含的多条流数据中每个数据包的数据包特征,所述数据包特征包括包间时间和包大小;依据数据包特征的差别对多条流数据中数据包进行分类并构造数据包映射表,依据所述数据包映射表将所述流数据转化为预设长度的离散序列流量数据,每个数据包类别对应一个唯一ID,每个数据包类别包含多个数据包;将所述网络流量包含的多条流数据对应的离散序列流量数据输入到文本分类模型中,获得网络流量分类的结果作为输出,所述文本分类模型的类型为机器学习模型、多尺度卷积神经网络模型或基于特征转换器的自然语言处理模型中。2.根据权利要求1所述的方法,其特征在于,所述依据数据包特征的差别对流数据中数据包进行分类并构造数据包映射表,包括:使用聚类算法将具有相似数据包特征的数据包聚合到同一个聚类中心,使得每个数据包都具有唯一对应的聚类中心;对每个聚类中心使用唯一ID进行编号,从而构建数据包映射表。3.根据权利要求2所述的方法,其特征在于,依据所述数据包映射表将所述流数据转化为离散序列流量数据,包括:查询数据包映射表,并按照流数据中数据包的顺序排列数据包对应的聚类中心的ID,形成离散序列流量数据;对于长度小于预设长度的离散序列流量数据,使用预设符号进行补足;对于长度大于预设长度的离散序列流量数据,删掉超出预设长度部分的内容。4.根据权利要求1所述的方法,其特征在于,当文本分类模型为机器学习模型时,将所述网络流量包含的多条流数据对应的离散序列流量数据输入到文本分类模型中,获得网络流量分类的结果作为输出,包括:机器学习模型在嵌入层基于所述离散序列流量数据所包含ID的特征随机初始化获得嵌入特征,然后对每条离散序列流量数据所包含ID的嵌入特征进行求和,最后利用支持向量机算法、随机森林算法或梯度提升决策树算法对使用嵌入特征表示的网络流量进行分类得到网络流量分类的结果。5.根据权利要求1所述的方法,其特征在于,当文本分类模型为多尺度卷积神经网络模型时,将所述网络流量包含的多条流数据对应的离散序...

【专利技术属性】
技术研发人员:王小娟邹纯东何明枢金磊
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1