基于特征融合的恶意软件分类方法、装置、设备及介质制造方法及图纸

技术编号：39406952 阅读：13 留言：0更新日期：2023-11-19 15:58

本申请属于网络信息安全的技术领域，公开了一种基于特征融合的恶意软件分类方法、装置、设备及介质，该方法包括：基于预设数据集中各恶意软件样本对应.asm文件中的操作码以及.byte文件中的字节码，分别生成各样本对应的TF

全部详细技术资料下载

【技术实现步骤摘要】
基于特征融合的恶意软件分类方法、装置、设备及介质

[0001]本申请涉及网络信息安全的
，尤其涉及一种基于特征融合的恶意软件分类方法、装置、设备及介质。

技术介绍

[0002]随着信息技术的高速发展，恶意软件的数量迅速增长，严重威胁着网络安全。据2021年卡巴斯基安全公告称:2021年，卡巴斯基检测系统平均每天发现380,000个恶意软件，较2020年增长5.7%，其中木马，蠕虫和病毒同比增长了2.24%，9%和10%。因此，及时，快速地对恶意软件进行分类识别尤为重要。
[0003]目前，对恶意软件分类可概括为两种分析方式：静态分析和动态分析，两者的区别在于是否运行恶意软件进行特征提取。
[0004]静态分析一般无需运行恶意软件提取静态特征，如2
‑
gram序列，API调用频率，特征码等。2012年Salehi等人将恶意软件中调用的API和API参数作为特征，使用降维方法和多分类器对恶意软件进行分类。2018年Andrii等人采用不同的机器学习方法提取并分析了32位恶意PE文件的各种静态特征，如PE头，操作码n
‑
gram，API序列等静态特征，之后采用机器学习进行恶意软件分类。
[0005]动态分析是在恶意软件运行期间提取动态特征，如系统函数调用，程序行为或修改注册表操作等。2015年Canzanese等人利用n
‑
gram语言模型和TF
‑
IDF来跟踪恶意进程的系统调用序列。2015年Naval等人利用与程序语义...

【技术保护点】

【技术特征摘要】
1.一种基于特征融合的恶意软件分类方法，其特征在于，所述方法包括：基于预设数据集中各个恶意软件样本对应.asm文件中的操作码，生成各个恶意软件样本对应的TF
‑
IDF转移熵图图像；基于预设数据集中各个恶意软件样本对应.byte文件中的字节码，生成各个恶意软件样本对应的字节码图像；将预设数据集中全部恶意软件样本对应的TF
‑
IDF转移熵图图像和字节码图像按比例划分为测试集和训练集；将训练集中各个恶意软件样本对应的TF
‑
IDF转移熵图图像与字节码图像融合后输入至CNN分类器进行恶意软件分类的训练：将测试集中各个恶意软件样本对应的TF
‑
IDF转移熵图图像和字节码图像融合后输入至训练完成的CNN分类器进行恶意软件分类，输出各个恶意软件样本对应的恶意软件类型。2.根据权利要求1所述的方法，其特征在于，所述基于预设数据集中各个恶意软件样本对应.asm文件中的操作码，生成各个恶意软件样本对应的TF
‑
IDF转移熵图图像的步骤包括：计算确定各个操作码在IDF语料库中的IDF权重；基于各个操作码在各个恶意软件样本.asm文件中的频数之和、所有操作码在各个恶意软件样本.asm文件中的频数之和，计算确定各个操作码在各个恶意软件样本.asm文件中的概率；以各个操作码在各个恶意软件样本.asm文件中的概率与各个操作码在IDF语料库中的IDF权重的乘积，作为各个操作码的TF
‑
IDF权重；选取各个恶意软件样本中从大到小排序中前n个TF
‑
IDF权重对应的操作码，并根据前n个操作码的TF
‑
IDF权重由大到小递增组成各个恶意软件样本对应的n
×
n的二维矩阵，二维矩阵中每个坐标对应一个2
‑
garm操作码序列；基于预设数据集各个恶意软件样本.asm文件中的2
‑
garm操作码序列的频数之和，确定二维矩阵每个坐标对应2
‑
garm操作码序列的频数值；基于二维矩阵每个坐标对应2
‑
garm操作码序列的频数值，计算确定二维矩阵中每个坐标对应2
‑
garm操作码序列的转移概率；基于每个坐标对应2
‑
garm操作码序列的转移概率以及各个操作码的TF
‑
IDF权重，计算得到二维矩阵中每个坐标处的TF
‑
IDF转移熵值，并基于二维矩阵中每个坐标处的TF
‑
IDF转移熵值进行灰度图像转换，生成各个恶意软件样本对应的TF
‑
IDF转移熵图图像。3.根据权利要求2所述的方法，其特征在于，所述计算确定各个操作码在IDF语料库中的IDF权重的步骤包括：确定预设数据集中各个恶意软件样本对应.asm文件中的操作码；基于第一公式计算确定各个操作码在IDF语料库中的IDF权重，所述第一公式为：其中，为单个操作码在IDF语料库中的IDF权重，为全部良性软件对应.asm文件
中所有操作码的全部频数之和，为全部良性软件对应.asm文件中单个操作码的全部频数之和。4.根据权利要求2所述的方法，其特征在于，所述基于二维矩阵每个坐标对应2
‑
garm操作码序列的频数值，计算确定二维矩阵中每个坐标对应2
‑
garm操作码序列的转移概率的步骤包括：将二维矩阵每个坐标对应2
‑
garm操作码序列的频数值输入至第二公式，计算确定二维矩阵中每个坐标对应2
‑
garm操作码序列的转移概率，所述第二公式为：其中，为二维矩阵中每个坐标对应2
‑
garm操作码序列的转移概率，为二维矩阵每个坐标对应2
‑
garm操作码序列的频数值，为二维矩阵第x行所有列的各个坐标对应2
‑
garm操作码...

【专利技术属性】
技术研发人员：张瑜，黄炜艺，潘小明，石元泉，陈桂宏，彭景惠，肖茵茵，陈艺芳，欧阳佳，
申请(专利权)人：浙江省电子信息产品检验研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人