基于特征融合的恶意软件分类方法、装置、设备及介质制造方法及图纸

技术编号:39406952 阅读:13 留言:0更新日期:2023-11-19 15:58
本申请属于网络信息安全的技术领域,公开了一种基于特征融合的恶意软件分类方法、装置、设备及介质,该方法包括:基于预设数据集中各恶意软件样本对应.asm文件中的操作码以及.byte文件中的字节码,分别生成各样本对应的TF

【技术实现步骤摘要】
基于特征融合的恶意软件分类方法、装置、设备及介质


[0001]本申请涉及网络信息安全的
,尤其涉及一种基于特征融合的恶意软件分类方法、装置、设备及介质。

技术介绍

[0002]随着信息技术的高速发展,恶意软件的数量迅速增长,严重威胁着网络安全。据2021年卡巴斯基安全公告称:2021年,卡巴斯基检测系统平均每天发现380,000个恶意软件,较2020年增长5.7%,其中木马,蠕虫和病毒同比增长了2.24%,9%和10%。因此,及时,快速地对恶意软件进行分类识别尤为重要。
[0003]目前,对恶意软件分类可概括为两种分析方式:静态分析和动态分析,两者的区别在于是否运行恶意软件进行特征提取。
[0004]静态分析一般无需运行恶意软件提取静态特征,如2

gram序列,API调用频率,特征码等。2012年Salehi等人将恶意软件中调用的API和API参数作为特征,使用降维方法和多分类器对恶意软件进行分类。2018年Andrii等人采用不同的机器学习方法提取并分析了32位恶意PE文件的各种静态特征,如PE头,操作码n

gram,API序列等静态特征,之后采用机器学习进行恶意软件分类。
[0005]动态分析是在恶意软件运行期间提取动态特征,如系统函数调用,程序行为或修改注册表操作等。2015年Canzanese等人利用n

gram语言模型和TF

IDF来跟踪恶意进程的系统调用序列。2015年Naval等人利用与程序语义相关的恶意软件执行路径来辨别程序行为,并将恶意软件执行的API调用顺序抽象为图节点,使用马尔科夫链计算顶点之间的概率,并在节点路径上采用ALBF方法构造特征空间进行机器学习模型的训练以达到对良性软件,恶意软件家族和部分变种病毒进行分类。
[0006]上述提及的恶意软件分类方式,尽管以多视角的方式对静态特征和动态特征进行处理以达到分类识别恶意软件家族目的,但仍存在如下问题:(1)在面对最新的恶意软件变种,或采用加密、加壳的恶意软件时,应用静态分析常用的2

gram序列或特征码来对恶意软件进行分类时,会出现分类误报或漏报的情况。(2)在样本数量较多情况下,静态分析的分类准确率和鲁棒性会出现大幅度下降。(3)采用动态分析可以对部分变种或加壳恶意软件进行分类,但是在收集恶意软件的动态特征上需要人工运用程序进行分析,其操作过程费时费力,且降低了恶意软件分类识别的效率。(4)静态与动态分析方式需要操作人员具备恶意软件领域相关知识,这使得这两种分类方式低效率且高耗时,不适用于实际的运用场景。因此,研究一种分类准确度高,鲁棒性强,时效高的恶意软件分类方法具有重要的科研理论价值和实际应用意义。

技术实现思路

[0007]本申请提供了一种基于特征融合的恶意软件分类方法、装置、设备及介质,降低了对恶意软件分类操作难度,提高了分类效率与准确度。
[0008]第一方面,本申请实施例提供了一种基于特征融合的恶意软件分类方法,该方法包括:基于预设数据集中各个恶意软件样本对应.asm文件中的操作码,生成各个恶意软件样本对应的TF

IDF转移熵图图像;基于预设数据集中各个恶意软件样本对应.byte文件中的字节码,生成各个恶意软件样本对应的字节码图像;将预设数据集中全部恶意软件样本对应的TF

IDF转移熵图图像和字节码图像按比例划分为测试集和训练集;将训练集中各个恶意软件样本对应的TF

IDF转移熵图图像与字节码图像融合后输入至CNN分类器进行恶意软件分类的训练:将测试集中各个恶意软件样本对应的TF

IDF转移熵图图像和字节码图像融合后输入至训练完成的CNN分类器进行恶意软件分类,输出各个恶意软件样本对应的恶意软件类型。
[0009]进一步的,所述基于预设数据集中各个恶意软件样本对应.asm文件中的操作码,生成各个恶意软件样本对应的TF

IDF转移熵图图像的步骤包括:计算确定各个操作码在IDF语料库中的IDF权重;基于各个操作码在各个恶意软件样本.asm文件中的频数之和、所有操作码在各个恶意软件样本.asm文件中的频数之和,计算确定各个操作码在各个恶意软件样本.asm文件中的概率;以各个操作码在各个恶意软件样本.asm文件中的概率与各个操作码在IDF语料库中的IDF权重的乘积,作为各个操作码的TF

IDF权重;选取各个恶意软件样本中从大到小排序中前n个TF

IDF权重对应的操作码,并根据前n个操作码的TF

IDF权重由大到小递增组成各个恶意软件样本对应的n
×
n的二维矩阵,二维矩阵中每个坐标对应一个2

garm操作码序列;基于预设数据集各个恶意软件样本.asm文件中的2

garm操作码序列的频数之和,确定二维矩阵每个坐标对应2

garm操作码序列的频数值;基于二维矩阵每个坐标对应2

garm操作码序列的频数值,计算确定二维矩阵中每个坐标对应2

garm操作码序列的转移概率;基于每个坐标对应2

garm操作码序列的转移概率以及各个操作码的TF

IDF权重,计算得到二维矩阵中每个坐标处的TF

IDF转移熵值,并基于二维矩阵中每个坐标处的TF

IDF转移熵值进行灰度图像转换,生成各个恶意软件样本对应的TF

IDF转移熵图图像。
[0010]进一步的,所述计算确定各个操作码在IDF语料库中的IDF权重的步骤包括:确定预设数据集中各个恶意软件样本对应.asm文件中的操作码;基于第一公式计算确定各个操作码在IDF语料库中的IDF权重,所述第一公式为:其中,为单个操作码在IDF语料库中的IDF权重,为全部良性软件对应.asm文件中所有操作码的全部频数之和,为全部良性软件对应.asm文件中单个操作码的
全部频数之和。
[0011]进一步的,所述基于二维矩阵每个坐标对应2

garm操作码序列的频数值,计算确定二维矩阵中每个坐标对应2

garm操作码序列的转移概率的步骤包括:将二维矩阵每个坐标对应2

garm操作码序列的频数值输入至第二公式,计算确定二维矩阵中每个坐标对应2

garm操作码序列的转移概率,所述第二公式为:其中,为二维矩阵中每个坐标对应2

garm操作码序列的转移概率,为二维矩阵每个坐标对应2

garm操作码序列的频数值,为二维矩阵第x行所有列的各个坐标对应2

garm操作码序列的频数值之和,n是二维矩阵第x行对应的列总数,I = 1 为二维矩阵的第一列。
[0012]进一步的,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征融合的恶意软件分类方法,其特征在于,所述方法包括:基于预设数据集中各个恶意软件样本对应.asm文件中的操作码,生成各个恶意软件样本对应的TF

IDF转移熵图图像;基于预设数据集中各个恶意软件样本对应.byte文件中的字节码,生成各个恶意软件样本对应的字节码图像;将预设数据集中全部恶意软件样本对应的TF

IDF转移熵图图像和字节码图像按比例划分为测试集和训练集;将训练集中各个恶意软件样本对应的TF

IDF转移熵图图像与字节码图像融合后输入至CNN分类器进行恶意软件分类的训练:将测试集中各个恶意软件样本对应的TF

IDF转移熵图图像和字节码图像融合后输入至训练完成的CNN分类器进行恶意软件分类,输出各个恶意软件样本对应的恶意软件类型。2.根据权利要求1所述的方法,其特征在于,所述基于预设数据集中各个恶意软件样本对应.asm文件中的操作码,生成各个恶意软件样本对应的TF

IDF转移熵图图像的步骤包括:计算确定各个操作码在IDF语料库中的IDF权重;基于各个操作码在各个恶意软件样本.asm文件中的频数之和、所有操作码在各个恶意软件样本.asm文件中的频数之和,计算确定各个操作码在各个恶意软件样本.asm文件中的概率;以各个操作码在各个恶意软件样本.asm文件中的概率与各个操作码在IDF语料库中的IDF权重的乘积,作为各个操作码的TF

IDF权重;选取各个恶意软件样本中从大到小排序中前n个TF

IDF权重对应的操作码,并根据前n个操作码的TF

IDF权重由大到小递增组成各个恶意软件样本对应的n
×
n的二维矩阵,二维矩阵中每个坐标对应一个2

garm操作码序列;基于预设数据集各个恶意软件样本.asm文件中的2

garm操作码序列的频数之和,确定二维矩阵每个坐标对应2

garm操作码序列的频数值;基于二维矩阵每个坐标对应2

garm操作码序列的频数值,计算确定二维矩阵中每个坐标对应2

garm操作码序列的转移概率;基于每个坐标对应2

garm操作码序列的转移概率以及各个操作码的TF

IDF权重,计算得到二维矩阵中每个坐标处的TF

IDF转移熵值,并基于二维矩阵中每个坐标处的TF

IDF转移熵值进行灰度图像转换,生成各个恶意软件样本对应的TF

IDF转移熵图图像。3.根据权利要求2所述的方法,其特征在于,所述计算确定各个操作码在IDF语料库中的IDF权重的步骤包括:确定预设数据集中各个恶意软件样本对应.asm文件中的操作码;基于第一公式计算确定各个操作码在IDF语料库中的IDF权重,所述第一公式为:其中,为单个操作码在IDF语料库中的IDF权重,为全部良性软件对应.asm文件
中所有操作码的全部频数之和,为全部良性软件对应.asm文件中单个操作码的全部频数之和。4.根据权利要求2所述的方法,其特征在于,所述基于二维矩阵每个坐标对应2

garm操作码序列的频数值,计算确定二维矩阵中每个坐标对应2

garm操作码序列的转移概率的步骤包括:将二维矩阵每个坐标对应2

garm操作码序列的频数值输入至第二公式,计算确定二维矩阵中每个坐标对应2

garm操作码序列的转移概率,所述第二公式为:其中,为二维矩阵中每个坐标对应2

garm操作码序列的转移概率,为二维矩阵每个坐标对应2

garm操作码序列的频数值,为二维矩阵第x行所有列的各个坐标对应2

garm操作码...

【专利技术属性】
技术研发人员:张瑜黄炜艺潘小明石元泉陈桂宏彭景惠肖茵茵陈艺芳欧阳佳
申请(专利权)人:浙江省电子信息产品检验研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1