特征提取、确定及训练方法、装置、设备及介质制造方法及图纸

技术编号:37352878 阅读:17 留言:0更新日期:2023-04-27 07:04
本申请公开了一种特征提取、确定及训练方法、装置、设备及介质,其中,所述方法包括:对流量数据中的数据包进行分析,得到所述数据包的会话标识;基于所述会话标识对所述流量数据中的数据包进行解析,得到解析结果;对所述解析结果中的数据进行特征提取,得到所述流量数据的特征提取结果。的特征提取结果。的特征提取结果。

【技术实现步骤摘要】
特征提取、确定及训练方法、装置、设备及介质


[0001]本申请涉及网络
,尤其涉及一种特征提取、确定及训练方法、装置、设备及介质。

技术介绍

[0002]相关技术虽然能够从网络流量数据中提取一些流量特征,但这些流量特征无法全方位的精准展示网络流量数据中所包含的整体信息。

技术实现思路

[0003]基于以上问题,本申请实施例提供了一种特征提取、确定及训练方法、装置、设备及介质。
[0004]本申请实施例提供的技术方案是这样的:
[0005]本申请实施例首先提供了一种特征提取方法,所述方法包括:
[0006]对流量数据中的数据包进行分析,得到所述数据包的会话标识;
[0007]基于所述会话标识对所述流量数据中的数据包进行解析,得到解析结果;
[0008]对所述解析结果中的数据进行特征提取,得到所述流量数据的特征提取结果。
[0009]在一些实施例中,所述对所述解析结果中的数据进行特征提取,得到所述流量数据的特征提取结果,包括:
[0010]对第k数据进行上下文语义特征提取,得到与第m会话标识关联的第k特征提取结果;其中,所述第k数据包括所述解析结果中与所述第m会话标识关联的至少部分数据;m以及k均为大于或等于1的整数;
[0011]基于与第m会话标识关联的第k特征提取结果,确定所述流量数据的特征提取结果。
[0012]在一些实施例中,所述对第k数据进行上下文语义特征提取之前,所述方法还包括:
[0013]从所述解析结果中获取与所述第m会话标识关联的数据;
[0014]通过滑动窗口从与所述第m会话标识关联的数据中获取第k初始数据;其中,所述第k初始数据包括第k次从与所述第m会话标识关联的数据中得到的数据;
[0015]关联所述第m会话标识至所述第k初始数据,得到所述第k数据。
[0016]在一些实施例中,所述基于与第m会话标识关联的第k特征提取结果,确定所述流量数据的特征提取结果,包括:
[0017]获取权重集合;
[0018]基于所述权重集合,对与第一会话标识关联的特征提取结果、至与第M会话标识关联的特征提取结果进行处理,得到所述流量数据的特征提取结果;其中,M包括所述会话标识中标识的数量。
[0019]在一些实施例中,所述对流量数据中的数据包进行分析,得到所述数据包的会话
标识,包括:
[0020]从所述数据包中至少获取地址信息以及协议信息;
[0021]对所述地址信息以及所述协议信息进行分析,得到所述数据包的会话标识。
[0022]基于前述实施例,本申请实施例还提供了一种确定方法,所述方法包括:
[0023]对流量数据中的数据包进行分析,得到所述数据包的会话标识;
[0024]基于所述会话标识对所述流量数据中的数据包进行解析,得到解析结果;
[0025]对所述解析结果中的数据进行特征提取,得到所述流量数据的特征提取结果;
[0026]基于所述特征提取结果,确定所述流量数据的安全状态。
[0027]基于前述实施例,本申请实施例还提供了一种训练方法,所述方法包括:
[0028]对流量数据中的数据包进行分析,得到所述数据包的会话标识;
[0029]基于所述会话标识对所述流量数据中的数据包进行解析,得到解析结果;
[0030]对所述解析结果中的数据进行特征提取,得到所述流量数据的特征提取结果;
[0031]基于所述特征提取结果对初始特征提取模型进行训练,得到特征提取模型。
[0032]本申请实施例还提供了一种特征提取装置,所述装置包括:
[0033]处理模块,用于对流量数据中的数据包进行分析,得到所述数据包的会话标识;基于所述会话标识对所述流量数据中的数据包进行解析,得到解析结果;
[0034]特征提取模块,用于对所述解析结果中的数据进行特征提取,得到所述流量数据的特征提取结果。
[0035]本申请实施例还提供了一种电子设备,所述设备包括处理器和存储器,其中,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,能够实现如前任一所述的特征提取方法、确定方法以及训练方法。
[0036]本申请实施例还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序被电子设备的处理器执行时,能够实现如前任一所述的特征提取方法、确定方法以及训练方法。
[0037]本申请实施例提供的特征提取方法,通过对流量数据中的数据包进行分析,得到数据包的会话标识,能够为后续对网络数据中的数据包的解析提供精准的会话标识依据;并且,基于会话标识对流量数据中的数据包进行解析,使得解析结果中的数据能够与会话标识关联,即解析结果中的数据能够全面包含会话标识对应的会话所包含的数据包,从而能够提高解析结果中数据包在会话粒度的完整性;与此同时,对解析结果中的数据进行特征提取,得到的流量数据的特征提取结果能够全面地、时间关联性地、且精准地展示出与会话标识对应的会话的数据包的特征变化状态。
附图说明
[0038]图1为本申请实施例提供的特征提取方法的流程示意图;
[0039]图2为本申请实施例提供的得到第k数据的流程示意图;
[0040]图3为本申请实施例提供的得到分析结果的流程示意图;
[0041]图4为本申请实施例提供的特征提取方法的另一流程示意图;
[0042]图5为本申请实施例提供的确定方法的流程示意图;
[0043]图6为本申请实施例提供的训练方法的流程示意图;
[0044]图7为本申请实施例提供的特征提取装置的结构示意图;
[0045]图8为本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0046]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0047]应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0048]随着网络技术的飞速发展,网络流量呈现爆炸式的增长。网络流量中包含了数据传输过程中的多种信息,比如设备之间的交互信息,因此,对网络流量的分析比如对网络流量的特征提取,是网络带宽规划、网络入侵检测与防御、物联网(Internet of Things,IoT)资产识别、以及恶意流量检测等功能实现的重要前提。
[0049]但由于网络流量的加密性以及随机性等特性的影响,网络流量的解析以及特征提取面临着巨大的挑战。
[0050]在实际应用中,通过基于网络应用类型或协议类型对网络流量进行特征分析的方法,可以从网络流量中提取一些有效数据特征。常见的网络流量特征分析方法包括基于端口的流量分析方法、基于有效负载的流量分析方法、基于流量行为的流量分析方法以及基于机器学习的流量分析方法。
[0051]然而,通过基于端口的流量分析方法虽然能够获取与端口相关的特征,但由于随机端口以及端口伪本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征提取方法,其特征在于,所述方法包括:对流量数据中的数据包进行分析,得到所述数据包的会话标识;基于所述会话标识对所述流量数据中的数据包进行解析,得到解析结果;对所述解析结果中的数据进行特征提取,得到所述流量数据的特征提取结果。2.根据权利要求1所述的方法,其特征在于,所述对所述解析结果中的数据进行特征提取,得到所述流量数据的特征提取结果,包括:对第k数据进行上下文语义特征提取,得到与第m会话标识关联的第k特征提取结果;其中,所述第k数据包括所述解析结果中与所述第m会话标识关联的至少部分数据;m以及k均为大于或等于1的整数;基于与第m会话标识关联的第k特征提取结果,确定所述流量数据的特征提取结果。3.根据权利要求2所述的方法,其特征在于,所述对第k数据进行上下文语义特征提取之前,所述方法还包括:从所述解析结果中获取与所述第m会话标识关联的数据;通过滑动窗口从与所述第m会话标识关联的数据中获取第k初始数据;其中,所述第k初始数据包括第k次从与所述第m会话标识关联的数据中得到的数据;关联所述第m会话标识至所述第k初始数据,得到所述第k数据。4.根据权利要求2所述的方法,其特征在于,所述基于与第m会话标识关联的第k特征提取结果,确定所述流量数据的特征提取结果,包括:获取权重集合;基于所述权重集合,对与第一会话标识关联的特征提取结果、至与第M会话标识关联的特征提取结果进行处理,得到所述流量数据的特征提取结果;其中,M包括所述会话标识中标识的数量。5.根据权利要求1所述的方法,其特征在于,所述对流量数据中的数据包进行分析,得到所述数据包的会话标识,包括:从所述数据包中至少获取地址信息以...

【专利技术属性】
技术研发人员:黄子恒张星李春辉关雪松葛继声
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1