一种基于网络五元组数据智能分类的方法技术

技术编号:38087619 阅读:10 留言:0更新日期:2023-07-06 08:56
本发明专利技术涉及数据分类技术领域,尤其为一种基于网络五元组数据智能分类的方法,包括以下步骤:S1,接收数据并提取出数据报文中的五元组信息,将五元组信息通过映射表得到五元组id,以batch为单位送入到BatchLoader,并在其中以50%的概率随机替换头实体和尾实体为其他实体id,生成与输入五元组等量的负样,在实数域链路对每个五元组基于预训练模型做词嵌,得到词编码向量,在复数域链路对每个五元组基于随机初始化参数做词嵌,得到特征嵌入向量,使用特征嵌入向量和位置嵌入向量生产联合编码向量,联合编码向量做BatchPooling策略,本发明专利技术可以有效解决目前现有的数据分类方法需要根据数据内容进行分类,智能化程度较低的问题。题。

【技术实现步骤摘要】
一种基于网络五元组数据智能分类的方法


[0001]本专利技术涉及数据分类
,具体为一种基于网络五元组数据智能分类的方法。

技术介绍

[0002]随着计算机技术及信息技术的发展,在分类领域中,目标数据的数量和种类越来越多,通常将待分类的领域称为目标域,而具有大量标记样本的辅助领域称为源域,目前对于目标域中的分类任务或其他任务是将在源域中学习到的知识等应用在目标域,以完成目标域中的分类任务或其他任务。
[0003]目前现有的数据分类方法需要根据数据内容进行分类,智能化程度较低。
[0004]因此,需要一种基于网络五元组数据智能分类的方法来解决上述
技术介绍
中提出的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于网络五元组数据智能分类的方法,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]一种基于网络五元组数据智能分类的方法,包括以下步骤:
[0008]S1,接收数据并提取出数据报文中的五元组信息,将五元组信息通过映射表得到五元组id,以batch为单位送入到BatchLoader,并在其中以50%的概率随机替换头实体和尾实体为其他实体id,生成与输入五元组等量的负样,在实数域链路对每个五元组基于预训练模型做词嵌,得到词编码向量,在复数域链路对每个五元组基于随机初始化参数做词嵌,得到特征嵌入向量,使用特征嵌入向量和位置嵌入向量生产联合编码向量,联合编码向量做BatchPooling策略,并与实数域链路所得的词编码向量相加,得到五元组编码向量;
[0009]S2,基于神经网络建立特征表达模型,将对五元组编码向量输入特征表达模型内,特征表达模型对五元组编码向量进行平均化处理,得到特征项的平均向量,生成特征项向量表达,基于特征项向量表达及神经网络建立数据分类模型;
[0010]S3,将向量化的特征项导入数据分类模型,通过数据分类模型中的分类模块进行分类,得到分类结果。
[0011]作为本专利技术优选的方案,所述S1中五元组信息包括数据的源Ip、源端口、目标Ip、目标端口以及4层通信协议。
[0012]作为本专利技术优选的方案,所述S1中位置嵌入向量的获取方法为:在复数域链路对每个五元组基于从0到2π的初始随机采样得到位置嵌入向量。
[0013]作为本专利技术优选的方案,所述S1中联合编码向量的生产方法为:对特征嵌入向量和位置嵌入向量做复数域乘积,得到实部向量和虚部向量,并通过特征融合将两者融合成得到联合编码向量。
[0014]作为本专利技术优选的方案,所述S2中建立数据分类模型的具体操作步骤为:
[0015]S11,基于特征项向量及神经网络建立数据分类模型,将数据分类模型中的分类模块进行初始化训练;
[0016]S12,获取训练样本,将训练样本进行分类生成训练集,采集训练集的特征,进行随机合并生成新训练样本特征;
[0017]S13,通过训练集及新训练样本特征随机导入分类模块进行训练;
[0018]S14,生成训练后数据分类模型,将特征项向量导入训练后数据分类模型,对待分类数据进行分类预测。
[0019]作为本专利技术优选的方案,所述S13中通过训练集及新训练样本特征随机导入分类模块进行训练的具体操作步骤为:根据随机抽样算法将原始的训练样本分类生成若干训练集,在训练集中,基于特征项向量表达随机生成数据特征,将数据特征生成新训练样本特征子集,将训练集及新训练样本特征子集随机导入分类模块中的子分类器中训练各子分类器;根据各子分类器的获取第一次分类结果,将第一次分类结果再次输入到数据分类模型,并进行多次迭代,得到多次迭代后的若干分类结果,预设数据分类模型的误差阈值,比较计算若干分类结果得到误差值,判断误差值是否小于误差阈值,若小于,则证明数据分类模型训练完毕。
[0020]作为本专利技术优选的方案,所述S2中平均化处理的计算公式为:其中g
p
表示特征项的平均向量,|v|表示特征项项数,g
i
表示第i个特征项的特征项向量,C表示误差常数。
[0021]作为本专利技术优选的方案,所述S2中数据分类模型的数学表达式为:其中,f表示数据分类模型的输出,γ表示数据分类模型中连接隐藏层和输出层的权重向量,y
j
表示隐藏层中特征项映射向量,j表示特征项映射向量项数,μ
i
表示数据集的训练误差,n表示数据集总数,i表示数据集项数,T表示对角矩阵。
[0022]与现有技术相比,本专利技术的有益效果是:
[0023]1、本专利技术中,通过接收数据并提取出数据报文中的五元组信息,将五元组信息通过映射表得到五元组id,以batch为单位送入到BatchLoader,生成与输入五元组等量的负样,在实数域链路对每个五元组进行多次处理,得到词编码向量、特征嵌入向量以及位置嵌入向量,特征嵌入向量和位置嵌入向量融合为联合编码向量,联合编码向量做BatchPooling策略,并与实数域链路所得的词编码向量相加,得到五元组编码向量基于神经网络建立特征表达模型,将对五元组编码向量输入特征表达模型内,特征表达模型对五元组编码向量进行平均化处理,得到特征项的平均向量,生成特征项向量表达,基于特征项向量表达及神经网络建立数据分类模型,将向量化的特征项导入数据分类模型,通过数据分类模型中的分类模块进行分类,得到分类结果,可以根据数据的五元组信息进行分类,智能化程度较高。
具体实施方式
[0024]下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同,本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0026]实施例,本专利技术提供一种技术方案:
[0027]一种基于网络五元组数据智能分类的方法,包括以下步骤:
[0028]S1,接收数据并提取出数据报文中的五元组信息,将五元组信息通过映射表得到五元组id,以batch为单位送入到BatchLoader,并在其中以50%的概率随机替换头实体和尾实体为其他实体id,生成与输入五元组等量的负样,在实数域链路对每个五元组基于预训练模型做词嵌,得到词编码向量,在复数域链路对每个五元组基于随机初始化参数做词嵌,得到特征嵌入向量,使用特征嵌入向量和位置嵌入向量生产联合编码向量,联合编码向量做BatchPooling策略,并与实数域链路所得的词编码向量相加,得到五元组编码向量;
[0029]S2,基于神经网络建立特征表达模型,将对五元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络五元组数据智能分类的方法,其特征在于,包括以下步骤:S1,接收数据并提取出数据报文中的五元组信息,将五元组信息通过映射表得到五元组id,以batch为单位送入到BatchLoader,并在其中以50%的概率随机替换头实体和尾实体为其他实体id,生成与输入五元组等量的负样,在实数域链路对每个五元组基于预训练模型做词嵌,得到词编码向量,在复数域链路对每个五元组基于随机初始化参数做词嵌,得到特征嵌入向量,使用特征嵌入向量和位置嵌入向量生产联合编码向量,联合编码向量做BatchPooling策略,并与实数域链路所得的词编码向量相加,得到五元组编码向量;S2,基于神经网络建立特征表达模型,将对五元组编码向量输入特征表达模型内,特征表达模型对五元组编码向量进行平均化处理,得到特征项的平均向量,生成特征项向量表达,基于特征项向量表达及神经网络建立数据分类模型;S3,将向量化的特征项导入数据分类模型,通过数据分类模型中的分类模块进行分类,得到分类结果。2.根据权利要求1所述的一种基于网络五元组数据智能分类的方法,其特征在于:所述S1中五元组信息包括数据的源Ip、源端口、目标Ip、目标端口以及4层通信协议。3.根据权利要求1所述的一种基于网络五元组数据智能分类的方法,其特征在于:所述S1中位置嵌入向量的获取方法为:在复数域链路对每个五元组基于从0到2π的初始随机采样得到位置嵌入向量。4.根据权利要求1所述的一种基于网络五元组数据智能分类的方法,其特征在于:所述S1中联合编码向量的生产方法为:对特征嵌入向量和位置嵌入向量做复数域乘积,得到实部向量和虚部向量,并通过特征融合将两者融合成得到联合编码向量。5.根据权利要求1所述的一种基于网络五元组数据智能分类的方法,其特征在于:所述S2中建立数据分类模型的具体操作步骤为:S11,基于特征项向量及神经网络建立数据分类模型...

【专利技术属性】
技术研发人员:于亚闪苏海锋
申请(专利权)人:易宝严选科技深圳有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1