恶意软件可视化分类方法、装置、设备及可读存储介质制造方法及图纸

技术编号:39395656 阅读:7 留言:0更新日期:2023-11-19 15:50
本申请属于网络信息安全的技术领域,公开了一种恶意软件可视化分类方法、装置、设备及可读存储介质,包括:确定预设数据集中所有恶意软件样本.asm文件中各2

【技术实现步骤摘要】
恶意软件可视化分类方法、装置、设备及可读存储介质


[0001]本申请涉及网络信息安全的
,尤其涉及一种恶意软件可视化分类方法、装置、设备及可读存储介质。

技术介绍

[0002]随着互联网技术的快速发展,恶意软件的数量正在迅速增长,严重威胁着网络安全。据瑞星公司《2021年中国网络安全报告》称:2021年瑞星“云安全”系统共截获病毒样本总量1.19亿个。其中,新增木马病毒8,050万个,勒索软件样本32.22万个,挖矿病毒样本总体数量为485.62万个。因而,准确,快速地进行恶意软件分类识别对遏制其增长及扩散具有重要的现实意义。
[0003]目前大部分杀毒软件及其厂商常用静态方法对恶意软件进行分类识别,如特征码和2

gram特征匹配等。此类方法通过反汇编技术提取软件静态特征进行特征匹配以确定其是否为恶意软件。它的优点是速度快,检测率高且误报率低,但是需要及时更新特征语料库,且难以抵御短时间内爆发的0

day恶意软件攻击。此外,此类方法容易受到代码混淆,加壳,加密的干扰,导致分类识别准确率下降,致使安全人员在第一时间内错过对恶意软件进行反制的时机。
[0004]基于动态方法对恶意软件进行分类识别不易受到代码混淆,加壳,加密等技术的影响,但是需要在虚拟机上收集不同恶意软件族类的动态特征,如函数调用序列,运行行为或修改注册表操作等。该方法对0

day等未知的恶意软件的分类识别效果要优于静态方法,但是需要消耗大量的计算机资源和时间,且需要操作人员具备相关的恶意软件领域知识。因而,研究一种分类速度快,能抗混淆,准确率高的恶意软件分类方法具有重要的科研理论价值和实际应用价值。
[0005]恶意软件可视化是指通过图像生成技术将恶意软件分类问题转化为图像分类问题的一种分类方法。当下,大部分新型恶意软件都是在某个原有恶意软件族上增加少量功能模块的变种,两者之间有大量的复用代码和明显的家族特征。恶意软件可视化以此作为理论基础,结合代码同源性分析,提取图像纹理特征,采用智能的方式对恶意软件族进行分类识别。Han等人将恶意软件的二进制信息转换为彩色图像矩阵,并利用图像处理方法对恶意软件族进行分类。Su等人提取恶意软件.asm文件前64个出现频率最高的操作码,组成64*64的操作码2

gram灰度图,并采用深度学习模型进行训练后实现家族分类。Nataraj等人首先使用GIST将恶意软件族的相似性图像分类为灰度图像,计算纹理特征,并使用欧氏距离的k

近邻算法进行分类。
[0006]恶意软件可视化方法不仅在分类速度上优于静态方法,且对最新的变种,加密加壳等恶意软件,在分类准确度上也远远超过动态方法。此外,恶意软件可视化不需要操作者具备恶意软件领域相关知识,极大地降低了分类操作过程的难度。但是,恶意软件可视化方法也有其不足之处:(1)由于恶意软件的大小不一致,需要对生成的恶意软件图像进行裁剪,缩小,放大以确保网络能够正常训练,而这可能会导致图像信息丢失或不同恶意软件家
族图像纹理及图像轮廓相似性过高,进而可能导致模型过拟合等问题出现。(2)采用全局特征计算每个图像矩阵坐标的像素值可能会导致相近恶意软件家族在局部纹理上具有一定的相似性,导致网络出现漏报,误报等情况。

技术实现思路

[0007]本申请提供了一种恶意软件可视化分类方法、装置、设备及可读存储介质,本申请最大程度的保留了恶意软件的特征信息,且生成的恶意软件可视化图像在图像纹理上的区异性更大。
[0008]第一方面,本申请实施例提供了一种恶意软件可视化分类方法,该方法包括:
[0009]确定预设数据集中各个恶意软件样本.asm文件的.text节及.CODE节中2

gram操作码序列频数,并基于所述2

gram操作码序列频数计算确定所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重;
[0010]基于所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重计算确定各个恶意软件样本中各个2

gram操作码序列的TF

IDF权重;
[0011]结合各个恶意软件样本中各个2

gram操作码序列的TF

IDF权重,对各个恶意软件样本中的各个2

gram操作码序列进行Simhash哈希编码,计算得到各个恶意软件样本对应的Simhash序列,并基于各个恶意软件样本对应的Simhash序列生成各个恶意软件样本对应的simhash图像;
[0012]将预设数据集中全部恶意软件样本对应的simhash图像按比例划分为测试集和训练集;
[0013]将训练集中各个恶意软件样本对应的simhash图像输入至CNN分类器进行恶意软件分类的训练;
[0014]将测试集中各个恶意软件样本对应的simhash图像输入至训练完成的CNN分类器进行恶意软件分类,输出各个恶意软件样本对应的恶意软件类型。
[0015]进一步的,所述基于所述2

gram操作码序列频数计算确定所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重的步骤包括:
[0016]将所有恶意软件样本.asm文件中各个2

gram操作码序列的全部频数之和,所有恶意软件样本.asm文件中所有2

gram操作码序列的频数之和输入至第一公式进行计算,得到所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重,所述第一公式为:
[0017][0018]其中,OP
idf
为所有恶意软件样本.asm文件中单个2

gram操作码序列的IDF权重,OP
fre
为所有恶意软件样本.asm文件中单个2

gram操作码序列的全部频数之和,N为所有恶意软件样本.asm文件中所有2

gram操作码序列的频数之和。
[0019]进一步的,所述基于所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重计算确定各个恶意软件样本中各个2

gram操作码序列的TF

IDF权重的步骤包括:
[0020]将所有恶意软件样本.asm文件中.asm文件中各个2

gram操作码序列的IDF权重,各个2

gram操作码序列在全部恶意软件样本.asm文件中的概率输入至第二公式进行计算,
得到各个恶意软件样本中各个2

gram操作码序列的TF

IDF权重,所述第二公式为:
[0021]op
W...

【技术保护点】

【技术特征摘要】
1.一种恶意软件可视化分类方法,其特征在于,所述方法包括:确定预设数据集中各个恶意软件样本.asm文件的.text节及.CODE节中2

gram操作码序列频数,并基于所述2

gram操作码序列频数计算确定所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重;基于所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重计算确定各个恶意软件样本中各个2

gram操作码序列的TF

IDF权重;结合各个恶意软件样本中各个2

gram操作码序列的TF

IDF权重,对各个恶意软件样本中的各个2

gram操作码序列进行Simhash哈希编码,计算得到各个恶意软件样本对应的Simhash序列,并基于各个恶意软件样本对应的Simhash序列生成各个恶意软件样本对应的simhash图像;将预设数据集中全部恶意软件样本对应的simhash图像按比例划分为测试集和训练集;将训练集中各个恶意软件样本对应的simhash图像输入至CNN分类器进行恶意软件分类的训练;将测试集中各个恶意软件样本对应的simhash图像输入至训练完成的CNN分类器进行恶意软件分类,输出各个恶意软件样本对应的恶意软件类型。2.根据权利要求1所述的方法,其特征在于,所述基于所述2

gram操作码序列频数计算确定所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重的步骤包括:将所有恶意软件样本.asm文件中各个2

gram操作码序列的全部频数之和,所有恶意软件样本.asm文件中所有2

gram操作码序列的频数之和输入至第一公式进行计算,得到所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重,所述第一公式为:其中,OP
idf
为所有恶意软件样本.asm文件中单个2

gram操作码序列的IDF权重,OP
fre
为所有恶意软件样本.asm文件中单个2

gram操作码序列的全部频数之和,N为所有恶意软件样本.asm文件中所有2

gram操作码序列的频数之和。3.根据权利要求1所述的方法,其特征在于,所述基于所有恶意软件样本.asm文件中各个2

gram操作码序列的IDF权重计算确定各个恶意软件样本中各个2

gram操作码序列的TF

IDF权重的步骤包括:将所有恶意软件样本.asm文件中.asm文件中各个2

gram操作码序列的IDF权重,各个2

gram操作码序列在全部恶意软件样本.asm文件中的概率输入至第二公式进行计算,得到各个恶意软件样本中各个2

gram操作码序列的TF

IDF权重,所述第二公式为:op
W
=op
idf
*op
tf
其中,OP
W
为单个恶意软件样本中单个2

gram操作码序列的TF

IDF权重,OP
idf
为所有恶意软件样本.asm文件中单个2

gram操作码序列的IDF权重,OP
tf
为单个2

gram操作码序列在单个恶意软件样本.asm文件中的概率。4.根据权利要求1所述的方法,其特征在于:对各个恶意软件样本中的各个2

gram操作码序列进行Simhash哈希编码所采用的哈希编码为sha256和sha512编码两者结合的编码。
5.根据权利要求...

【专利技术属性】
技术研发人员:张瑜黄炜艺潘小明石元泉陈桂宏彭景惠肖茵茵陈艺芳欧阳佳
申请(专利权)人:浙江省电子信息产品检验研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1