【技术实现步骤摘要】
基于特征融合的恶意软件分类方法、装置、设备及介质
[0001]本申请涉及网络信息安全的
,尤其涉及一种基于特征融合的恶意软件分类方法、装置、设备及介质。
技术介绍
[0002]随着信息技术的高速发展,恶意软件的数量迅速增长,严重威胁着网络安全。据2021年卡巴斯基安全公告称:2021年,卡巴斯基检测系统平均每天发现380,000个恶意软件,较2020年增长5.7%,其中木马,蠕虫和病毒同比增长了2.24%,9%和10%。因此,及时,快速地对恶意软件进行分类识别尤为重要。
[0003]目前,对恶意软件分类可概括为两种分析方式:静态分析和动态分析,两者的区别在于是否运行恶意软件进行特征提取。
[0004]静态分析一般无需运行恶意软件提取静态特征,如2
‑
gram序列,API调用频率,特征码等。2012年Salehi等人将恶意软件中调用的API和API参数作为特征,使用降维方法和多分类器对恶意软件进行分类。2018年Andrii等人采用不同的机器学习方法提取并分析了32位恶意PE文件的各种静态特征,如PE头,操作码n
‑
gram,API序列等静态特征,之后采用机器学习进行恶意软件分类。
[0005]动态分析是在恶意软件运行期间提取动态特征,如系统函数调用,程序行为或修改注册表操作等。2015年Canzanese等人利用n
‑
gram语言模型和TF
‑
IDF来跟踪恶意进程的系统调用序列。2015年Naval等人利用与程序语义 ...
【技术保护点】
【技术特征摘要】
1.一种基于特征融合的恶意软件分类方法,其特征在于,所述方法包括:基于预设数据集中各个恶意软件样本对应.asm文件中的操作码,生成各个恶意软件样本对应的TF
‑
IDF转移熵图图像;基于预设数据集中各个恶意软件样本对应.byte文件中的字节码,生成各个恶意软件样本对应的字节码图像;将预设数据集中全部恶意软件样本对应的TF
‑
IDF转移熵图图像和字节码图像按比例划分为测试集和训练集;将训练集中各个恶意软件样本对应的TF
‑
IDF转移熵图图像与字节码图像融合后输入至CNN分类器进行恶意软件分类的训练:将测试集中各个恶意软件样本对应的TF
‑
IDF转移熵图图像和字节码图像融合后输入至训练完成的CNN分类器进行恶意软件分类,输出各个恶意软件样本对应的恶意软件类型。2.根据权利要求1所述的方法,其特征在于,所述基于预设数据集中各个恶意软件样本对应.asm文件中的操作码,生成各个恶意软件样本对应的TF
‑
IDF转移熵图图像的步骤包括:计算确定各个操作码在IDF语料库中的IDF权重;基于各个操作码在各个恶意软件样本.asm文件中的频数之和、所有操作码在各个恶意软件样本.asm文件中的频数之和,计算确定各个操作码在各个恶意软件样本.asm文件中的概率;以各个操作码在各个恶意软件样本.asm文件中的概率与各个操作码在IDF语料库中的IDF权重的乘积,作为各个操作码的TF
‑
IDF权重;选取各个恶意软件样本中从大到小排序中前n个TF
‑
IDF权重对应的操作码,并根据前n个操作码的TF
‑
IDF权重由大到小递增组成各个恶意软件样本对应的n
×
n的二维矩阵,二维矩阵中每个坐标对应一个2
‑
garm操作码序列;基于预设数据集各个恶意软件样本.asm文件中的2
‑
garm操作码序列的频数之和,确定二维矩阵每个坐标对应2
‑
garm操作码序列的频数值;基于二维矩阵每个坐标对应2
‑
garm操作码序列的频数值,计算确定二维矩阵中每个坐标对应2
‑
garm操作码序列的转移概率;基于每个坐标对应2
‑
garm操作码序列的转移概率以及各个操作码的TF
‑
IDF权重,计算得到二维矩阵中每个坐标处的TF
‑
IDF转移熵值,并基于二维矩阵中每个坐标处的TF
‑
IDF转移熵值进行灰度图像转换,生成各个恶意软件样本对应的TF
‑
IDF转移熵图图像。3.根据权利要求2所述的方法,其特征在于,所述计算确定各个操作码在IDF语料库中的IDF权重的步骤包括:确定预设数据集中各个恶意软件样本对应.asm文件中的操作码;基于第一公式计算确定各个操作码在IDF语料库中的IDF权重,所述第一公式为:其中,为单个操作码在IDF语料库中的IDF权重,为全部良性软件对应.asm文件
中所有操作码的全部频数之和,为全部良性软件对应.asm文件中单个操作码的全部频数之和。4.根据权利要求2所述的方法,其特征在于,所述基于二维矩阵每个坐标对应2
‑
garm操作码序列的频数值,计算确定二维矩阵中每个坐标对应2
‑
garm操作码序列的转移概率的步骤包括:将二维矩阵每个坐标对应2
‑
garm操作码序列的频数值输入至第二公式,计算确定二维矩阵中每个坐标对应2
‑
garm操作码序列的转移概率,所述第二公式为:其中,为二维矩阵中每个坐标对应2
‑
garm操作码序列的转移概率,为二维矩阵每个坐标对应2
‑
garm操作码序列的频数值,为二维矩阵第x行所有列的各个坐标对应2
‑
garm操作码...
【专利技术属性】
技术研发人员:张瑜,黄炜艺,潘小明,石元泉,陈桂宏,彭景惠,肖茵茵,陈艺芳,欧阳佳,
申请(专利权)人:浙江省电子信息产品检验研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。