对恶意代码检测的方法及系统技术方案

技术编号：22330527 阅读：30 留言：0更新日期：2019-10-19 12:21

本发明专利技术涉及对恶意代码检测的方法及系统，方法包括：A.对训练数据集中单个PE文件的二进制数据提取相应特征；B.对所述特征降维处理；C.通过门控卷积网络提取二进制数据的特征为深度学习模型前半部分；D.将降维后的特征与步骤C得到的特征向量组合后，输入到作为深度学习模型后半部分的全连接神经网络中，生成最终的待分类特征向量；E.所有的PE文件都生成了对应的待分类特征向量；F.对所有待分类特征向量分类后与测试数据集中已知的类别进行比较以验证深度学习模型的正确性，并通过调整参数获得最优的深度学习模型。本发明专利技术能够不受恶意代码指令变换的影响，准确检测出未知软件中是否包含恶意代码，并且还提高了检测效率。

全部详细技术资料下载

【技术实现步骤摘要】
对恶意代码检测的方法及系统
本专利技术涉及软件安全检测的方法和系统，具体讲是对恶意代码检测的方法及系统。
技术介绍
在反病毒研究与恶意代码的对抗过程中，恶意代码技术的不断发展也促使了恶意程序检测技术的不断发展与进步，新型恶意代码编写技术也导致了新型检测技术的出现。深度学习在计算机视觉和语音识别方面都取得了良好的效果。在计算机视觉方面，Krizhevsky等人提出了采用深度卷积神经网络来进行图片分类，Farabet提出了层次学习场景标签的方法，Kavukcuoglu提出了视觉功能的卷积识别方法。n-gram是自然语言处理领域的概念，早期的语音识别技术和统计语言模型与它密不可分。n-gram基于一个简单的假设，即认为一个词出现的概率仅与它之前的n-1个词有关，这个概率可从大量语料中统计得到。例如“吃”的后面出现“苹果”或“披萨”的概率就会比“公路”的概率大(正常的语料中基本不会出现“吃公路”这种组合)。可以看出n-gram在一定程度上包含了部分语言特征。将n-gram应用于恶意代码识别的想法最早由Tony等人在2004年的论文N-gram-basedDetectionofNewMaliciousCode中提出，不过他们的方法是基于ByteCode的。2008年Moskovitch等人的论文UnknownMalcodeDetectionUsingOPCODERepresentation中提出利用opcode(操作码)代替ByteCode更加科学。传统的基于机器学习进行恶意代码的检测分类方法基本都是进行精确检测，一般方式为提取恶意代码中具有相同点的opcode序列...

【技术保护点】
1.对恶意代码检测的方法，其特征包括步骤：A.预处理：将预先已获取的包含PE文件的训练数据集中具有恶意代码的PE文件和正常PE文件分开，对单个PE文件的二进制数据提取相应的特征，包括对应的操作码、API调用序列和PE文件头部字段；B.对所述特征通过层叠降噪自编码器进行降维处理，得到降维后的特征向量；C.将门控卷积网络作为深度学习模型的前半部分，通过门控卷积网络提取二进制数据的特征，作为深度学习模型前半部分的特征向量；D.将步骤B得到的降维后的特征向量输入到所述门控卷积网络中，与步骤C得到的深度学习模型前半部分的特征向量进行组合后，作为新的特征输入到作为深度学习模型后半部分的全连接神经网络中，生成最终的待分类特征向量；E.循环步骤A～步骤D，直到所有的PE文件都生成了对应的待分类特征向量；F.设置测试数据集，在测试数据集中包含正常PE文件和具有恶意代码的PE文件；将测试数据集中的PE文件通过步骤A～步骤E得到的所有待分类特征向量输入分类器进行分类，并将分类结果与测试数据集中已知的PE文件类别进行比较以验证深度学习模型的正确性是否达到期望值，并通过对所述门控卷积网络和全连接神经网络的参数调...

【技术特征摘要】
1.对恶意代码检测的方法，其特征包括步骤：A.预处理：将预先已获取的包含PE文件的训练数据集中具有恶意代码的PE文件和正常PE文件分开，对单个PE文件的二进制数据提取相应的特征，包括对应的操作码、API调用序列和PE文件头部字段；B.对所述特征通过层叠降噪自编码器进行降维处理，得到降维后的特征向量；C.将门控卷积网络作为深度学习模型的前半部分，通过门控卷积网络提取二进制数据的特征，作为深度学习模型前半部分的特征向量；D.将步骤B得到的降维后的特征向量输入到所述门控卷积网络中，与步骤C得到的深度学习模型前半部分的特征向量进行组合后，作为新的特征输入到作为深度学习模型后半部分的全连接神经网络中，生成最终的待分类特征向量；E.循环步骤A～步骤D，直到所有的PE文件都生成了对应的待分类特征向量；F.设置测试数据集，在测试数据集中包含正常PE文件和具有恶意代码的PE文件；将测试数据集中的PE文件通过步骤A～步骤E得到的所有待分类特征向量输入分类器进行分类，并将分类结果与测试数据集中已知的PE文件类别进行比较以验证深度学习模型的正确性是否达到期望值，并通过对所述门控卷积网络和全连接神经网络的参数调整获得最优化的深度学习模型。2.如权利要求1所述的对恶意代码检测的方法，其特征为：步骤A中将训练数据集中具有恶意代码的PE文件和正常PE文件分开后，分别对单个PE文件进行查壳处理，并做标记，然后根据标记确定每类壳的脱壳工具，得到各PE文件...

【专利技术属性】
技术研发人员：张小松，牛伟纳，赵凌园，李子豪，罗宇恒，杨淳，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人