【技术实现步骤摘要】
数据分类方法、模型训练方法、装置、终端及存储介质
[0001]本申请涉及计算机
,具体而言,涉及一种数据分类方法、模型训练方法、装置、终端及存储介质。
技术介绍
[0002]随着信息技术的飞速发展,新的应用不断涌现,网络流量更是飞速增长,这给网络流量分析带来了巨大的压力和挑战。为了确保网络管理的有效性和安全性,有效实现对网络流量的监控,要求网络监管机构对各种网络流量数据进行识别、分类和控制,其中,加密数据在网络中占有相当大的比重,因此如何对网络流量中的加密数据和明文数据进行识别,成为当前亟待解决的技术问题。
技术实现思路
[0003]本申请实施例的目的在于提供一种数据分类方法、模型训练方法、装置、终端及存储介质,用以实现对网络流量中加密数据和明文数据的识别。
[0004]本申请实施例提供了一种数据分类方法,所述方法包括:
[0005]获取待测样本数据;
[0006]按预设字节选取规则,从所述待测样本数据中依次进行两个字节的组合选取;
[0007]针对单字节对应的每一预设可 ...
【技术保护点】
【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:获取待测样本数据;按预设字节选取规则,从所述待测样本数据中依次进行两个字节的组合选取;针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的出现频次信息;根据各所述出现频次信息确定与所述待测样本数据对应的目标数据特征向量;将所述目标数据特征向量输入预设的明文
‑
密文数据分类模型,得到对所述待测样本数据的分类结果。2.如权利要求1所述的数据分类方法,其特征在于,所述针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的出现频次信息,包括:针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的所有第一预设字节组合的第一出现频次和,和/或该预设可能取值对应的所有第二预设字节组合的第二出现频次和;所述第一预设字节组合为该预设可能取值位于字节组合中第一位的组合,所述第二预设字节组合为该预设可能取值位于字节组合中第二位的组合;所述根据各所述出现频次信息确定与所述待测样本数据对应的目标数据特征向量,包括:根据各所述预设可能取值对应的所述第一出现频次和、和/或所述第二出现频次和,确定与所述待测样本数据对应的目标数据特征向量。3.如权利要求2所述的数据分类方法,其特征在于,所述针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的所有第一预设字节组合的第一出现频次和,和/或该可能取值对应的所有第二预设字节组合的第二出现频次和,包括:针对第k次从所述待测样本数据中组合选取的两个对应的值,计算对应的字节转移矩阵H
k
;H
k
为将字节转移矩阵H
k
‑1的(m
k
+1,n
k
+1)处的元素值加1得到的矩阵,H0表示256*256的0矩阵,m
k
表示第k次组合选取的两个字节中第一个字节对应的值,n
k
表示第k次组合选取的两个字节中第二个字节对应的值,在按所述预设字节选取规则,完成对所述待测样本数据的组合选取,并计算得到最终的目标字节转移矩阵后,将所述目标字节转移矩阵的元素按行相加,得到每一所述预设可能取值对应的所述第一出现频次和,并将所述目标字节转移矩阵的元素按列相加,得到每一所述预设可能取值对应的所述第二出现频次和;所述根据各所述预设可能取值对应的所述第一出现频次和、和/或所述第二出现频次和,确定与所述待测样本数据对应的目标数据特征向量,包括:将各所述预设可能取值对应的所述第一出现频次和、与所述第二出现频次和拼接得到中间数据特征向量;根据所述中间数据特征向量得到所述目标数据特征向量。4.如权利要求1所述的数据分类方法,其特征在于,所述针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结...
【专利技术属性】
技术研发人员:谢鹏程,李渊,
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。