一种编码数据的类型识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32833880 阅读:10 留言:0更新日期:2022-03-26 20:50
本申请实施例提供一种编码数据的类型识别方法、装置、电子设备及存储介质,其中编码数据的类型识别方法包括:获取所述编码数据的字节数据;获取所述字节数据的统计特征;根据所述字节数据的统计特征获取所述字节数据对应的编码类型。在本申请实施例中,根据字节数据的统计特征对数据的编码类型进行识别,不同编码方法对原始数据的匹配方式以及转换方式不同,从而引起导致字节数据的统计特征不同,统计特征对于字节数据是一个比较稳定的特征,通过字节数据的统计特征来获取字节数据对应的编码类型,相比现有技术的基于匹配规则进行识别的方法更加准确,能够提高编码类型识别的准确性。确性。确性。

【技术实现步骤摘要】
一种编码数据的类型识别方法、装置、电子设备及存储介质


[0001]本申请涉及编码数据处理
,具体而言,涉及一种编码数据的类型方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]在网络中传输字节序列时,为了使字节序列被不同类型的网络设备所处理,通常需要对字节进行字符串编码,而Base系列编码方式被广泛采取。Base系列编码方式包括:Base16、Base32、Base58、Base64、Base85、Base91等。能否准确识别字节序列采用的编码方式,对于网络数据分析来讲至关重要。现有的识别Base系列编码的方法大都是基于某种匹配规则。例如,识别Base64编码数据的规则:字符串只可能包含A

Z,a

z,0

9,+,/,=字符;字符串长度是4的倍数;



字符只会出现在字符串最后,可能没有或者一个等号或者两个等号。同理,对于其他Base系列编码字符串,也可以编写类似的规则进行识别。然而,满足上述条件的字符串并非都是Base64编码字符串。因此,这种基于匹配规则的识别方法的识别精度不高。

技术实现思路

[0003]本申请实施例的目的在于提供一种编码数据的类型识别方法、装置、电子设备及存储介质。能够准确识别出字节数据对应的编码类型。
[0004]第一方面,本申请实施例提供一种编码数据的类型识别方法,包括:
[0005]获取所述编码数据的字节数据;
[0006]获取所述字节数据的统计特征;
[0007]根据所述字节数据的统计特征获取所述字节数据对应的编码类型。
[0008]在上述实现过程中,根据字节数据的统计特征对数据的编码类型进行识别,不同编码方法对原始数据的匹配方式以及转换方式不同,从而引起字节数据的统计特征不同,统计特征对于字节数据是一个比较稳定的特征,通过字节数据的统计特征来获取字节数据对应的编码类型,相比现有技术的基于匹配规则进行识别的方法更加准确,能够提高编码类型识别的准确性。
[0009]进一步地,所述根据所述字节数据的统计特征获取所述字节数据对应的编码类型的步骤,包括:
[0010]获取预先训练的机器学习模型;
[0011]将所述字节数据的统计特征输入预先训练的机器学习模型,得到所述字节数据对应的编码类型。
[0012]在上述实现过程中,获取预先训练的机器学习模型,将字节数据的统计特征输入该预先训练的机器学习模型,得到字节数据对应的编码类型。机器学习模型具有自动学习的功能,利用预先训练的机器学习模型的能够准确地获取字节数据的编码类型。
[0013]进一步地,所述获取预先训练的机器学习模型的步骤,包括:
[0014]获取所述编码数据对应的训练样本;
[0015]获取所述训练样本的统计特征对应的第一特征向量;
[0016]根据所述第一特征向量构造第一特征矩阵;
[0017]将所述第一特征矩阵输入机器学习模型进行训练,得到所述预先训练的机器学习模型。
[0018]在上述实现过程中,获取训练样本的统计特征对应的第一特征向量,向量能够反映训练样本的数据特征,进一步地,根据第一特征向量构建第一特征矩阵,第一特征矩阵能够反映不同的数据特征之间的关系。将第一特征矩阵作为输入,能够使得获取的编码类型更加精准。
[0019]进一步地,所述获取所述字节数据的统计特征的步骤,包括:
[0020]根据所述字节数据获取所述训练样本的统计特征对应的第二特征向量;
[0021]根据所述第二特征向量构造第二特征矩阵。
[0022]在上述实现过程中,获取字节数据的统计特征对应的第二特征向量,向量能够反映训练样本的数据特征,进一步地,根据第二特征向量构建第二特征矩阵,第二特征矩阵能够反映不同的数据特征之间的关系。将第二特征矩阵作为输入,能够使得获取的编码类型更加精准。
[0023]进一步地,所述统计特征包括:所述字节数据的最小值、所述字节数据的最大值、所述字节数据的平均值、所述字节数据中的互异字节值的个数、所述字节数据的中位数、所述字节数据的上四分位数、所述字节数据的下四分位数、所述字节数据的连续单字节值熵、所述字节数据的连续双字节值熵、所述字节数据的连续三字节值熵中的一个或多个。
[0024]在上述实现过程中,不同编码数据的数据特征不同,因此,本申请实施例提供了多种能够用于区别字节数据的编码类型的数据特征。上述统计数字特征具有多样性,还能够避免不同的编码类型对应的某一统计特征具有相似性的问题。基于上述实施方式,能够提高对字节数据的编码类型识别的准确性。
[0025]进一步地,在所述根据所述第一特征向量构造第一特征矩阵的步骤之前,还包括:
[0026]对所述第一特征向量进行归一化处理。
[0027]在上述实现过程中,归一化的具体作用是归纳统一样本的统计分布性。不同的统计特征的量纲不一样,将第一特征向量进行归一化处理,能够消除不同的统计特征的量纲而带来的误差。同时,归一化处理使得第一特征向量中的数据的值变小,能够提高模型输出字节数据的结果的速度。
[0028]进一步地,通过以下公式获取所述连续单字节值熵、所述连续双字节值熵、所述连续三字节值熵:
[0029][0030][0031]其中,若S为所述字节数据的连续单字节值熵时,n为所述字节数据中的所述连续单字节值对应的单位的数量,或者,m
i
为所述字节数据中的第i个所述连续单字节值对应的
单位的数量;或者,
[0032]若S为所述字节数据的连续双字节值熵时,n为所述字节数据中的所述连续双字节值对应的单位的数量,或者,m
i
为所述字节数据中的第i个所述连续双字节值对应的单位的数量;或者,
[0033]若S为所述字节数据的连续三字节值熵时,n为所述字节数据中的所述连续三字节值对应的单位的数量;m
i
为所述字节数据中的第i个所述连续三字节值对应的单位的数量。
[0034]在上述过程中,基于上述公式,可以快速地获取字节数据的统计特征。
[0035]第二方面,本申请实施例提供一种编码数据的类型识别装置,该装置包括:
[0036]获取模块,用于获取所述编码数据的字节数据;
[0037]统计模块,用于获取所述字节数据的统计特征;
[0038]识别模块,用于根据所述字节数据的统计特征获取所述字节数据对应的编码类型。
[0039]在上述实现过程中,根据字节数据的统计特征对数据的编码类型进行识别,不同编码方法对原始数据的匹配方式以及转换方式不同,从而引起导致字节数据的统计特征不同,统计特征对于字节数据是一个比较稳定的特征,通过字节数据的统计特征来获取字节数据对应的编码类型,相比现有技术的基于匹配规则进行识别的方法更加准确,能够提高编码类型识别的准确性。
[0040]第三方面,本申请实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种编码数据的类型识别方法,其特征在于,包括:获取所述编码数据的字节数据;获取所述字节数据的统计特征;根据所述字节数据的统计特征获取所述字节数据对应的编码类型。2.根据权利要求1所述的编码数据的类型识别方法,其特征在于,所述根据所述字节数据的统计特征获取所述字节数据对应的编码类型的步骤,包括:获取预先训练的机器学习模型;将所述字节数据的统计特征输入预先训练的机器学习模型,得到所述字节数据对应的编码类型。3.根据权利要求2所述的编码数据的类型识别方法,其特征在于,所述获取预先训练的机器学习模型的步骤,包括:获取所述编码数据对应的训练样本,获取所述训练样本的统计特征对应的第一特征向量;根据所述第一特征向量构造第一特征矩阵;将所述第一特征矩阵输入机器学习模型进行训练,得到所述预先训练的机器学习模型。4.根据权利要求1所述的编码数据的类型识别方法,其特征在于,所述获取所述字节数据的统计特征的步骤,包括:获取所述字节数据的统计特征对应的第二特征向量;根据所述第二特征向量构造第二特征矩阵。5.根据权利要求1

4任一项所述的编码数据的类型识别方法,其特征在于,所述统计特征包括:所述字节数据的最小值、所述字节数据的最大值、所述字节数据的平均值、所述字节数据中的互异字节值的个数、所述字节数据的中位数、所述字节数据的上四分位数、所述字节数据的下四分位数、所述字节数据的连续单字节值熵、所述字节数据的连续双字节值熵、所述字节数据的连续三字节值熵中的一个或多个。6.根据权利要求3所述的编码数据的类型识别方法,其特征在于,在所述根据所述第一特征向量构造第一特征矩阵的步骤之前,还包括:对所述第一特征向量进行归一...

【专利技术属性】
技术研发人员:谢鹏程
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1