一种获取恶意代码文件分类模型的方法及文件分类方法技术

技术编号:39302299 阅读:12 留言:0更新日期:2023-11-12 15:52
本申请实施例提供一种获取恶意代码文件分类模型的方法及文件分类方法,所述方法包括:将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像;根据所述初始样本灰度图像得到样本灰度共生矩阵;将所述样本灰度共生矩阵转换为样本共生矩阵灰度图像,并对所述样本共生矩阵灰度图中每个像素值乘以一个增强比例系数,得到目标样本灰度图像;重复上述过程得到多张目标样本灰度图像,并将所述多张目标样本灰度图像作为训练数据对深度学习网络进行训练,得到恶意代码文件分类模型。采用本申请实施例可提高得到的灰度图像的可视化效果与纹理特征进而提升分类结果的准确性。确性。确性。

【技术实现步骤摘要】
一种获取恶意代码文件分类模型的方法及文件分类方法


[0001]本申请涉及文件识别领域,具体而言本申请实施例涉及一种获取恶意代码文件分类模型的方法及文件分类方法。

技术介绍

[0002]恶意软件是指以某种方式对用户或计算机造成破坏的任何软件,又称为恶意代码文件。随着自动化生成工具和恶意软件混淆技术的广泛使用,恶意软件及其变体的数量及其种类不断增加。由此大量新的恶意代码已经迅速生成,它们的入侵方式以及传播方式也不断变化,对网络环境产生了巨大的威胁,传统非可视化检测技术已经不再对其适用。
[0003]近年来,可视化方法,即将恶意代码转化为图像形式展示,作为一种新兴的恶意软件检测和分类技术备受关注。大多数恶意代码变体都是通过使用自动化技术或重用一些重要的模块来生成的,因此它们在二进制代码中具有一些相似之处。通过可视化方法,可以发现恶意软件图像中包含着丰富的信息。同一类别的恶意家族的可视化图像通常具有相似性,而不同家族的可视化图像之间则有较大的差异。
[0004]相对于传统的恶意软件分类方法,可视化方法可以加速恶意软件分类的过程,满足大数据计算、专家系统反馈和认知复杂性等方面的需求,从而能够更加有效地检测和分类恶意软件。然而相关技术的可视化方法需要借助反编译软件而由于反编译软件提供的反编译结果并一定能满足可视化图像的要求因此导致可视化方法得到的识别准确率较低,此外采用相关技术得到的灰度图像存在辨识度低的问题也会降低识别结果。

技术实现思路

[0005]本申请实施例的目的在于提供一种获取恶意代码文件分类模型的方法及文件分类方法,采用本申请实施例可提高得到的灰度图像的可视化效果与纹理特征进而提升分类结果的准确性。
[0006]第一方面,本申请实施例提供一种获取恶意代码文件分类模型的方法,所述方法包括:将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像;根据所述初始样本灰度图像得到样本灰度共生矩阵,其中,所述样本灰度共生矩阵用于记录统计得到的灰度级别相邻的像素对出现的次数且所述样本灰度共生矩阵中的每个元素用于表征一对灰度级别相邻的像素对在0
°
空间位置关系上出现的次数;将所述样本灰度共生矩阵转换为样本共生矩阵灰度图像,并对所述样本共生矩阵灰度图中每个像素值乘以一个增强比例系数,得到目标样本灰度图像;重复上述过程得到多张目标样本灰度图像,并将所述多张目标样本灰度图像作为训练数据对深度学习网络进行训练,得到恶意代码文件分类模型。
[0007]本申请的一些实施例直接通过二进制恶意代码文件得到灰度图像避免了对反编译工具的依赖,同时本申请的实施例还将样本共生矩阵灰度图像中的每个元素乘以增强比例系数可以有效减少黑色像素点的比例,增加图像亮度,使恶意代码图像更加清晰,进而提升特征提取的准确性。
[0008]在一些实施例中,所述将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像,包括:将所述二进制恶意代码样本文件分割为固定长度的子序列;将每个子序列转换为[0,255]之间的一个数,并将所有数按顺序排成一行得到待处理数据序列,并对所述所有数的总数目取平方根再取整得到整数m;将所述待处理数据序列重新排列成一个m
×
m的正方形数组,并将所述正方形数据转化为图像得到所述初始样本灰度图像。
[0009]本申请的实施例直接基于二进制文件通过上述步骤得到初始样本灰度图像进而得到灰度共生矩阵(例如,样本灰度共生矩阵),无需进行反编译预处理,可以针对任意二进制文件进行矢量灰度共生矩阵转换,泛化性好。
[0010]在一些实施例中,所述将所述二进制恶意代码样本文件分割为固定长度的子序列,包括:将所述二进制恶意代码样本文件中所有二进制数字按照在文件中的排列顺序分割为长度为8比特的多个子序列。
[0011]在一些实施例中,所述根据所述初始样本灰度图像得到样本灰度共生矩阵,包括:根据所述初始样本灰度图像提取灰度级别相邻的像素对在0
°
空间位置关系上出现的次数,得到初始样本灰度共生矩阵;对所述初始样本灰度共生矩阵中的每个数值除以所述初始样本灰度共生矩阵中最大数值,得到所述样本灰度共生矩阵。
[0012]本申请的一些实施例在获取目标样本灰度共生矩阵的过程中采用了除以初始样本灰度共生矩阵中最大数值的技术方案,这样使得得到的目标样本灰度共生矩阵可以有效避免数值差异过大导致的图像质量问题,更好地展示灰度共生矩阵的特征。
[0013]在一些实施例中,所述增强比例系数为10
n
,其中,n选取[0,8]之间的整数。
[0014]本申请的一些实施例在获取目标样本灰度图像的过程中还需要乘以增强比例系数,通过该处理可以解决克服图像存在黑色像素点比例较高、暗淡的问题,因为存在这种问题的图像会影响恶意代码分类的效果,这是由于黑色像素点过多会掩盖灰度共生矩阵的细节特征。
[0015]在一些实施例中,所述增强比例系数为100。
[0016]第二方面,本申请的一些实施例提供一种恶意代码分类的方法,所述方法包括:利用如第一方面任意实施例得到的所述恶意代码文件分类模型识别待分类恶意代码的类型,得到分类结果。
[0017]在一些实施例中,所述利用所述恶意代码文件分类模型识别待分类恶意代码的类型,得到分类结果,还包括:将与所述待分类恶意代码对应的二进制文件转换为一张灰度图像,得到初始待识别灰度图像;根据所述初始待识别灰度图像得到目标待识别灰度共生矩阵;将所述目标待识别灰度共生矩阵转换为待识别共生矩阵灰度图像,并对所述待识别共生矩阵灰度图中每个像素值乘以一个增强比例系数,得到目标待识别灰度图像;根据所述目标待识别灰度图像和所述恶意代码文件分类模型得到所述分类结果。
[0018]在一些实施例中,所述根据所述初始待识别灰度图像得到目标待识别灰度共生矩阵,包括:根据所述初始待识别灰度图像提取灰度级别相邻的像素对在0
°
空间位置关系上出现的次数,得到初始待识别灰度共生矩阵;对所述初始待识别灰度共生矩阵中的每个数值除以所述初始待识别灰度共生矩阵中最大数值,得到目标待识别灰度共生矩阵。
[0019]在一些实施例中,所述恶意代码文件分类模型通过提取所述目标待识别灰度图像的图像特征和语义信息得到所述分类结果。
[0020]第三方面,本申请的一些实施例提供一种获取恶意代码文件分类模型的装置,所述装置包括:初始样本灰度图像获取模块,被配置为将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像;目标样本灰度共生矩阵获取模块,被配置为根据所述初始样本灰度图像得到样本灰度共生矩阵,其中,所述样本灰度共生矩阵用于反应统计灰度级别相邻的像素对出现的次数且所述样本灰度共生矩阵中的每个元素用于表征一对灰度级别相邻的像素对在0
°
空间位置关系上出现的次数;目标样本灰度图像获取模块,被配置为将所述样本灰度共生矩阵转换为样本共生矩阵灰度图像,并对所述样本共生矩阵灰度图中每个像素值乘以一个增强比本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种获取恶意代码文件分类模型的方法,其特征在于,所述方法包括:将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像;根据所述初始样本灰度图像得到样本灰度共生矩阵,其中,所述样本灰度共生矩阵用于记录统计得到的灰度级别相邻的像素对出现的次数且所述样本灰度共生矩阵中的每个元素用于表征一对灰度级别相邻的像素对在0
°
空间位置关系上出现的次数;将所述样本灰度共生矩阵转换为样本共生矩阵灰度图像,并对所述样本共生矩阵灰度图中每个像素值乘以一个增强比例系数,得到目标样本灰度图像;重复上述过程得到多张目标样本灰度图像,并将所述多张目标样本灰度图像作为训练数据对深度学习网络进行训练,得到恶意代码文件分类模型。2.如权利要求1所述的方法,其特征在于,所述将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像,包括:将所述二进制恶意代码样本文件分割为固定长度的子序列;将每个子序列转换为[0,255]之间的一个数,并将所有数按顺序排成一行得到待处理数据序列,并对所述所有数的总数目取平方根再取整得到整数m;将所述待处理数据序列重新排列成一个m
×
m的正方形数组,并将所述正方形数据转化为图像得到所述初始样本灰度图像。3.如权利要求2所述的方法,其特征在于,所述将所述二进制恶意代码样本文件分割为固定长度的子序列,包括:将所述二进制恶意代码样本文件中所有二进制数字按照在文件中的排列顺序分割为长度为8比特的多个子序列。4.如权利要求1所述的方法,其特征在于,所述根据所述初始样本灰度图像得到样本灰度共生矩阵,包括:根据所述初始样本灰度图像提取灰度级别相邻的像素对在0
°
空间位置关系上出现的次数,得到初始样本灰度共生矩阵;对所述初始样本灰度共生矩阵中的每个数值除以所述初始样本灰度共生矩阵中最大数值,得到所述样本灰度共生矩阵。5.如权利要求4所述的方法,其特征在于,所述增强比例系数为
10n
,其中,n选取[0,8]之间的整数。6.如权利要求6所述的方法,其特征在于,所述增强比例系数为100。7.一种恶意代码分类的方法,其特征在于,所述方法包括:利用如权利要求1

6中任一项权利要求得到的所述恶意代码文件分类模型识别待分类恶意代码的类型,得到分类结果。8.如权利要求7所述的方法,其特征在于,所述利用所述恶意代码文件分类模型识别待分类恶意代码的类型,得到分类结果,还包括:将与所述待分类恶...

【专利技术属性】
技术研发人员:谢雪安晓宁陈正嘉储琪俞能海
申请(专利权)人:北京天融信网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1