一种流量的识别方法及装置、存储介质制造方法及图纸

技术编号:32829434 阅读:19 留言:0更新日期:2022-03-26 20:39
本申请提供一种流量的识别方法及装置、存储介质。流量的识别方法,包括:获取待识别流量对应的有效载荷数据;所述有效载荷数据包括多个字节;基于所述有效载荷数据,提取目标特征;所述目标特征包括:卡方值、字节平均值、第一误差和第二误差;其中,所述卡方值用于表征所述多个字节的出现频率与预设频率之间的关系,所述字节平均值为所述多个字节的字节值的平均值,所述第一误差用于表征所述多个字节对应的二维坐标点的分布特征,所述第二误差用于表征所述多个字节对应的三维坐标点的分布特征;根据所述目标特征和预先训练好的流量识别模型确定所述待识别流量的流量类型。该识别方法用以实现准确且高效的流量识别。以实现准确且高效的流量识别。以实现准确且高效的流量识别。

【技术实现步骤摘要】
一种流量的识别方法及装置、存储介质


[0001]本申请涉及网络通信
,具体而言,涉及一种流量的识别方法及装置、存储介质。

技术介绍

[0002]近年来,随着网络技术的高速发展,网络安全问题也得到了人们越来越多的关注。一些恶意软件通过加密通道技术绕过防火墙和入侵识别系统将机密信息发送到外网,因此需要对加密流量进行检测。
[0003]对于网络中传输的流量,可能为加密流量,也可能为压缩流量,要实现加密流量的检测,需要对加密流量和压缩流量进行区分。
[0004]现有技术中,基于随机性特征对加密流量和压缩流量进行区分,随机性特征例如:交叉熵、单比特频数、块内频数、游程、最大游程、傅里叶变换等。采用这种方式,需要提取大量数据的随机性特征,并且需要进行随机性测试。因此,现有的识别方案,识别效率较低。

技术实现思路

[0005]本申请实施例的目的在于提供一种流量的识别方法及装置、存储介质,用以实现准确且高效的流量识别。
[0006]第一方面,本申请实施例提供一种流量的识别方法,包括:获取待识别流量对应的有效载荷数据;所述有效载荷数据包括多个字节;基于所述有效载荷数据,提取目标特征;所述目标特征包括:卡方值、字节平均值、第一误差和第二误差;其中,所述卡方值用于表征所述多个字节的出现频率与预设频率之间的关系,所述字节平均值为所述多个字节的字节值的平均值,所述第一误差用于表征所述多个字节对应的二维坐标点的分布特征,所述第二误差用于表征所述多个字节对应的三维坐标点的分布特征;根据所述目标特征和预先训练好的流量识别模型确定所述待识别流量的流量类型。
[0007]在本申请实施例中,利用待识别流量对应的有效载荷数据进行特征提取,所提取的特征包括:卡方值、字节平均值、第一误差和第二误差,从这四个特征的定义可以看出,这四个特征不仅提取方式简单,而且可以较好地表征流量的类型;最后,再将目标特征输入到预先训练好的流量识别模型,便可以实现流量类型的有效识别。因此,通过基于有效载荷数据提取目标特征,实现目标特征的高效提取;通过能够有效表征流量类型的目标特征,和预先训练好的流量识别模型,实现流量类型的准确识别。进而,该方法实现准确且高效的流量识别。
[0008]作为一种可能的实现方式,所述卡方值表示为:其中,i代表所述多个字节中的各个字节,observed为各个字节的出现频率,expected为所述预设频率。
[0009]在本申请实施例中,通过计算字节的出现频率与预设频率的平方差,并计算该平
方差与预设频率之间的比值,再对各个字节对应的比值进行求和,实现卡方值该特征的有效提取。
[0010]作为一种可能的实现方式,所述第一误差表示为:其中,N1为所述多个字节对应的二维坐标点的数量,n1为所述二维坐标点中,满足第一预设条件的二维坐标点的数量,所述第一预设条件为落入所述多个字节的字节值范围对应的内切圆。
[0011]在本申请实施例中,通过多个字节对应的二维坐标点和字节值范围,实现第一误差的有效确定,并且,该第一误差可以代表流量数据的随机性,以便于对流量类型进行有效区分。
[0012]作为一种可能的实现方式,所述多个字节对应多个第一字节组,每个第一字节组中包括两个字节,每个第一字节组对应一个二维坐标点,该第一字节组中的第一字节的字节值为二维坐标点的横坐标,该第一字节组中的第二字节的字节值为二维坐标点的纵坐标。
[0013]在本申请实施例中,将多个字节划分为多个包括两个字节的字节组,利用字节组中的字节值,实现多个字节对应的二维坐标点的有效确定。
[0014]作为一种可能的实现方式,所述第二误差表示为:其中,N2为所述多个字节对应的三维坐标点的数量,n2为所述三维坐标点中,满足第二预设条件的二维坐标点的数量,所述第二预设条件为落入所述多个字节的字节值范围对应的内切球。
[0015]在本申请实施例中,通过多个字节对应的三维坐标点和字节值范围,实现第二误差的有效确定,并且,该第二误差可以代表流量数据的随机性,以便于对流量类型进行有效区分。
[0016]作为一种可能的实现方式,所述多个字节对应多个第二字节组,每个第二字节组中包括三个字节,每个第二字节组对应一个三维坐标点,该第二字节组中的第一字节的字节值为三维坐标点的横坐标,该第二字节组中的第二字节的字节值为三维坐标点的纵坐标,该第二字节组中的第三字节的字节值为三维坐标点的竖坐标。
[0017]在本申请实施例中,将多个字节划分为多个包括三个字节的字节组,利用字节组中的字节值,实现多个字节对应的三维坐标点的有效确定。
[0018]作为一种可能的实现方式,所述识别方法还包括:
[0019]获取训练数据集;所述训练数据集中包括第一数据集和第二数据集,所述第一数据集为:加密流量对应的有效载荷数据,所述第二数据集为压缩流量对应的有效载荷数据;对所述第一数据集进行特征提取,获得加密流量特征,以及对所述第二数据集进行特征提取,获得压缩流量特征;所述加密流量特征和所述压缩流量特征均包括:所述卡方值、所述字节平均值、所述第一误差和所述第二误差;基于所述加密流量特征和所述压缩流量特征对初始的流量识别模型进行训练,获得所述训练好的流量识别模型。
[0020]在本申请实施例中,通过加密流量和压缩流量分别对应的有效载荷数据,进行前述的目标特征的提取,然后利用提取的特征对模型训练,所获得的训练好的流量识别模型可以实现加密流量和压缩流量的准确且高效的区分。
[0021]作为一种可能的实现方式,所述获取待识别流量对应的有效载荷数据,包括:获取所述待识别流量;对所述待识别流量按照预设的协议格式进行解析,获得所述有效载荷数据。
[0022]在本申请实施例中,通过将待识别流量按照预设的协议格式解析,实现有效载荷数据的有效且快速的获取。
[0023]第二方面,本申请实施例提供一种流量的识别装置,包括:用于实现第一方面以及第一方面的任意一种可能的实现方式中所述的流量的识别方法的各个功能模块。
[0024]第三方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时,执行如第一方面以及第一方面的任意一种可能的实现方式中所述的流量的识别方法。
附图说明
[0025]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0026]图1为本申请实施例提供的流量的识别方法的流程图;
[0027]图2为本申请实施例提供的流量的识别装置的结构示意图。
[0028]图标:200

流量的识别装置;210

获取模块;220

处理模块。
具体实施方式...

【技术保护点】

【技术特征摘要】
1.一种流量的识别方法,其特征在于,包括:获取待识别流量对应的有效载荷数据;所述有效载荷数据包括多个字节;基于所述有效载荷数据,提取目标特征;所述目标特征包括:卡方值、字节平均值、第一误差和第二误差;其中,所述卡方值用于表征所述多个字节的出现频率与预设频率之间的关系,所述字节平均值为所述多个字节的字节值的平均值,所述第一误差用于表征所述多个字节对应的二维坐标点的分布特征,所述第二误差用于表征所述多个字节对应的三维坐标点的分布特征;根据所述目标特征和预先训练好的流量识别模型确定所述待识别流量的流量类型。2.根据权利要求1所述的识别方法,其特征在于,所述卡方值表示为:其中,i代表所述多个字节中的各个字节,observed为各个字节的出现频率,expected为所述预设频率。3.根据权利要求1所述的识别方法,其特征在于,所述第一误差表示为:其中,N1为所述多个字节对应的二维坐标点的数量,n1为所述二维坐标点中,满足第一预设条件的二维坐标点的数量,所述第一预设条件为落入所述多个字节的字节值范围对应的内切圆。4.根据权利要求3所述的识别方法,其特征在于,所述多个字节对应多个第一字节组,每个第一字节组中包括两个字节,每个第一字节组对应一个二维坐标点,该第一字节组中的第一字节的字节值为二维坐标点的横坐标,该第一字节组中的第二字节的字节值为二维坐标点的纵坐标。5.根据权利要求1所述的识别方法,其特征在于,所述第二误差表示为:其中,N2为所述多个字节对应的三维坐标点的数量,n2为所述三维坐标点中,满足第二预设条件的二维坐标点的数量,所述第二预设条件为落入所述多个字节的字节值范围对应的内切球。6.根据权利要求5所述的识别方法,其特征在于,所述多个字节对应多个第二字节组,每个第二字节组中包括三个字节,每个第二字节组对应一个三维坐标点,该第二字节组中的第一字节的字节值...

【专利技术属性】
技术研发人员:刘盈
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1