The invention belongs to the field of information security, and specifically relates to a malware classification method for optimizing feature extraction. The invention optimizes the extraction method of malware and takes convolutional neural network in deep learning as the main classifier. Single static features can not fully reflect the characteristics of malicious software, such as gray-scale image can only represent the overall outline of malicious software, API call graph can only represent the control structure of malicious software. To solve the above problems, the method of the present invention extracts these two features and combines them into a two-channel picture feature matrix as input of convolution neural network, which can not only show the overall outline of malware, but also show the possible execution process of malware. The method of the invention effectively solves the problem that the malware itself can not be fully reflected when extracting sample features, and has good classification effect.
【技术实现步骤摘要】
一种优化特征提取的恶意软件分类方法
本专利技术属于信息安全领域,具体涉及一种优化特征提取的恶意软件分类方法。
技术介绍
恶意软件是指各种形式的恶意或者入侵软件,例如计算机病毒、蠕虫、间谍软件、木马、广告软件等。这些恶意软件通常以可执行程序、脚本等形式存在。在计算机系统安全领域,一个重要问题是进行恶意软件的检测与识别,以便能在恶意软件运行之前将其清除,避免给计算机系统造成破坏或者给用户造成损失。不仅仅黑帽黑客或者其他怀有恶意的软件作者,即使是信用良好的供应商提供的软件也可能包含恶意代码。比如索尼曾经在其出售的唱片中植入了Rootkit。这是一种特洛伊木马,它静默安装并隐藏在购买者的计算机上,目的是防止唱片被非法复制。它还收集用户的聆听习惯,并无意中创建了可以被其他恶意软件所利用的漏洞。恶意软件检测现今面临的主要挑战是需要对大量有潜在恶意目的的数据和文件进行评估。例如,微软的实时检测反恶意软件产品部署在全球超过1.6亿台计算机上,每天会产生数千万个数据点,需要作为潜在的恶意软件进行分析。传统的反病毒和恶意软件检测产品通常使用特征值扫描技术,这种方法有很大的局限性。越来越多的恶意软件通过加密、混淆或者打包等方法躲避基于特征值的检测,这给传统的恶意软件分析和检测方法带来挑战。恶意软件检测问题可以通过分类良性软件和恶意软件来解决,因此,研究高效的恶意软件分类方法对恶意软件分析技术具有极为重要的意义。然而,传统的恶意软件检测方法通常使用数字签名技术,在应对恶意软件数量激增的情况时存在一定的局限性。同时,越来越多的恶意软件通过混淆或打包等技术避免基于签名方法的检测。因此 ...
【技术保护点】
1.一种优化特征提取的恶意软件分类方法,其特征在于,包括以下步骤:(1)原始数据特征处理,建立恶意代码的整体API调用图存储在邻接矩阵数据结构中;(2)将原始恶意软件二进制文件样本转化为十六进制流格式,将恶意软件二进制文件转化为灰度图特征矩阵;(3)将API调用图矩阵作为一个像素通道,将灰度图矩阵作为一个像素通道,如果这两个矩阵大小不同,则将小的那个矩阵的左边界和上边界与大矩阵对齐,其余位置上补0,然后合并为双通道特征图作为卷积神经网络的输入;(4)原始数据集中的样本都带有标签,首先将所有样本的特征矩阵每一行进行随机乱序排列,根据乱序排列数组,将标签对应追加到样本矩阵的最后一列,这样就完成了带有标签的样本乱序处理,再将所有样本进行数据集拆分,一部分作为训练样本,其余的作为测试样本,再对训练样本做交叉验证,将训练样本分成k分并且编号,取k‑1份组合数据集作为训练样本,剩下1份作为验证数据集;(5)将k‑1份数据中的每个样本都做双通道卷积处理,得到每个样本对应的特征图,再将特征图做最大池化处理,得到新的特征图,将新的特征图全连接并且输入到神经网络中,得到分类结果,将输出的分类结果和原始标签 ...
【技术特征摘要】
1.一种优化特征提取的恶意软件分类方法,其特征在于,包括以下步骤:(1)原始数据特征处理,建立恶意代码的整体API调用图存储在邻接矩阵数据结构中;(2)将原始恶意软件二进制文件样本转化为十六进制流格式,将恶意软件二进制文件转化为灰度图特征矩阵;(3)将API调用图矩阵作为一个像素通道,将灰度图矩阵作为一个像素通道,如果这两个矩阵大小不同,则将小的那个矩阵的左边界和上边界与大矩阵对齐,其余位置上补0,然后合并为双通道特征图作为卷积神经网络的输入;(4)原始数据集中的样本都带有标签,首先将所有样本的特征矩阵每一行进行随机乱序排列,根据乱序排列数组,将标签对应追加到样本矩阵的最后一列,这样就完成了带有标签的样本乱序处理,再将所有样本进行数据集拆分,一部分作为训练样本,其余的作为测试样本,再对训练样本做交叉验证,将训练样本分成k分并且编号,取k-1份组合数据集作为训练样本,剩下1份作为验证数据集;(5)将k-1份数据中的每个样本都做双通道卷积处理,得到每个样本对应的特征图,再将特征图做最大池化处理,得到新的特征图,将新...
【专利技术属性】
技术研发人员:李静梅,吕图,吴辉,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。