一种PE恶意软件对抗样本自动生成方法、系统及设备技术方案

技术编号：40524202 阅读：11 留言：0更新日期：2024-03-01 13:43

本发明专利技术属于互联网安全技术领域，公开了一种PE恶意软件对抗样本自动生成方法、系统及设备，根据特征空间的修改操作映射回真实样本的修改，生成可以绕过主流恶意软件检测器检测的高质量恶意软件对抗样本，并保留其原始恶意功能，能够帮助研究人员深入理解恶意软件的结构原理和分析现有检测器的缺陷，从而改进并提高恶意软件检测器的鲁棒性。本发明专利技术提供的二进制良性函数插入方法有效的提高了恶意软件对抗样本的生成质量，生成的对抗样本能绕过商业检测引擎高达50个、静态检测模型恶意检测率低至25.49％，并且保证恶意软件的恶意功能完整和恶意软件的可执行性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网安全，尤其涉及一种pe恶意软件对抗样本自动生成方法、系统及设备。

技术介绍

1、机器学习的引入使恶意软件检测方法的原有技术框架得到改变，其可以充分利用特征之间的关联性，对提取到的恶意软件特征进行训练，使恶意软件检测模型的识别率得到大幅度提高。机器学习算法已经被广泛应用于恶意软件检测并取得了较好的检测效果。然而，基于机器学习的恶意软件检测模型极易受到对抗样本的攻击，几乎所有原始样本的周围都能够找到可以“愚弄”和“欺骗”模型的对抗样本。此外，大部分对抗样本有很强的“移植性”，即针对某一网络模型所构造的对抗样本可以导致不同结构和参数的网络发生相同的错误，甚至连错分类的类别都有很高的一致性。因此，进一步研究恶意软件对抗样本实际上有利于恶意软件智能检测技术以及机器学习、深度学习领域的进步。

2、针对恶意软件智能检测的对抗样本相关工作主要分为两类，即白盒攻击和黑盒攻击。白盒攻击是指攻击者知道检测目标模型的所有信息，随后在此基础上对目标模型进行攻击；而黑盒攻击则意味着攻击者不知道模型内部的任何信息，相比于白盒攻击，黑盒攻击场景更加符合现实。

3、通过上述分析，现有技术存在的问题及缺陷为：

4、(1)现有的黑盒攻击操作生成的对抗性恶意软件质量不高，难以逃过现有的检测器，且生成效率低；

5、(2)大多数恶意软件对抗性攻击先对恶意软件进行特征提取，并将提取的特征组成特征向量。然后,向特征向量中添加或修改与功能无关的特征以逃避机器学习模型的检测，但在特征空间的对抗攻击无法有效映射回问

6、(3)生成的对抗样本质量差，包括生成的对抗样本不可执行、恶意功能被破坏、检测逃避率低等问题。

技术实现思路

1、针对现有技术存在的问题，本专利技术提出了一种pe恶意软件对抗样本自动生成方法、系统及设备，实现根据特征空间的修改操作映射回真实样本的修改，并保留样本原始恶意功能，生成的对抗样本能够绕过静态检测器和商业检测器。通过生成高质量对抗性恶意软件，帮助了解恶意软件的结构原理和分析现有检测模型的缺陷，进而提高恶意软件检测模型的鲁棒性。

2、本专利技术是这样实现的，一种pe恶意软件对抗样本自动生成方法，从良性pe文件中提取二进制函数构建函数库，利用ida pro反编译pe文件并提取函数代码特征，使用shap可解释性技术设计特征选择策略，通过re库方法匹配和插入适合的二进制函数到恶意样本中生成对抗样本，利用静态恶意软件检测模型评估对抗样本的有效性，以及在保证功能完整性的同时，在virustotal检测网站验证对抗样本的逃避率。这一系列操作合在一起，实现了自动化、有效生成能绕过恶意软件检测的对抗样本的目标。

3、进一步，包括：

4、s1，选择pe良性文件，提取pe良性文件中的二进制函数，构建二进制良性函数库；

5、s2，pe恶意/良性文件进行反汇编操作，利用反编译工具ida pro进行pe文件反编译并生成反编译后的asm文件，使用的ida pro版本为7.5；

6、s3，选择pe文件的反汇编asm文件，对反汇编asm文件进行函数代码特征提取操作；

7、s4，利用可解释性技术shap设计特征及值选择策略筛选合适用于函数插入的代码特征，生成候选函数代码特征集合；

8、s5，利用re库方法对候选函数代码特征集合与良性函数库进行匹配，找到符合函数代码特征的二进制函数，生成待插入函数集合；

9、s6，将待插入函数集合中的二进制函数插入至pe恶意样本，生成该pe恶意软件的对抗样本，将生成的对抗样本添加至目标恶意软件对抗样本集合中；

10、s7，将上述两种特征选择和三种值选择策略一一组合，共有6种组合方法，每次使用一种组合方法筛选合适用于函数插入的代码特征，生成新的候选函数代码特征集合，并重复s5、s6，重复此操作6次；

11、s8，利用静态恶意软件检测模型对上述生成的恶意软件对抗样本集合进行评估；

12、s9，对s8中筛选出的能够绕过静态恶意软件检测模型的对抗样本进行功能完整性测试，在windows系统的虚拟机中动态运行原始pe恶意软件样本和目标对抗性pe恶意软件样本，对比检测目标对抗性pe恶意软件样本恶意功能是否完整，输出功能完整的对抗样本；

13、s10，将s9中筛选出的功能完整的对抗样本上传至virustotal恶意软件检测网站进行评估，验证对抗样本的变异逃避率。

14、进一步，s1具体包括：

15、s101，采用lief库方法提取pe良性文件中的二进制函数；

16、s102，检验提取的二进制函数语法是否准确、功能是否完整；

17、s103，将处理后的二进制函数无重复的存储形成二进制良性函数库。

18、进一步，s3具体包括：

19、s301，从反汇编asm文件中提取出操作码信息，并利用n-元操作码方法构建操作码特征序列，具体操作为：

20、(1)从反汇编asm文件的.text节表中按序提取出该pe文件中的全部二进制函数的操作码部分；

21、(2)n-元操作码表示：n-元操作码中的n设置为5，即用5-元语法组合操作码；

22、(3)生成操作码特征序列：操作码特征序列由5-元操作码和5-元操作码在pe文件中出现的频数组成的序列；

23、s302，从反汇编asm文件中提取出操作码-寄存器信息，并构建汇编指令特征序列，具体操作为：

24、(1)从反汇编asm文件的.text节表中按序提取出该pe文件中符合要求的汇编指令，其中，提取汇编指令的要求是汇编指令的操作数部分必须是寄存器，寄存器的类型需是数据寄存器、指针寄存器或者变址寄存器，若汇编指令的操作码是调用函数指令“call”，则无需考虑操作数内容，亦提取该条汇编指令；

25、(2)生成汇编指令特征序列：汇编指令特征序列由汇编指令和汇编指令在pe文件中出现的频数组成的序列。

26、进一步，s4具体包括：

27、s401，特征序列表示pe样本集x，根据训练数据集的函数代码特征序列输入x和静态检测模型训练结果输出，利用可解释性技术shap生成各个样本的各个函数代码特征对检测模型决策的贡献度矩阵shap_values；

28、s402，选取一种特征选择策略，计算得到各个特征f的shap值列表，对sh ap值列表从高到低进行排序，筛选出前m个特征用于后续的对抗攻击；

29、s403，对s402筛选出的m个特征，选取一种值选择策略，筛选出前m个特征对应的合适的特征值；

30、s404，根据s402和s403生成候选函数代码特征集合{f1:v1,f2:v2,...,fm:vm}。

31、进一步，s5具体包括：

32、假设s4生成的候选函数代码特征集合为{本文档来自技高网...

【技术保护点】

1.一种PE恶意软件对抗样本自动生成方法，其特征在于，从良性PE文件中提取二进制函数构建函数库，利用IDA Pro反编译PE文件并提取函数代码特征，使用SHAP可解释性技术设计特征选择策略，通过re库方法匹配和插入适合的二进制函数到恶意样本中生成对抗样本，利用静态恶意软件检测模型评估对抗样本的有效性，以及在保证功能完整性的同时，在VirusTotal检测网站验证对抗样本的逃避率。

2.如权利要求1所述的PE恶意软件对抗样本自动生成方法，其特征在于，包括：

3.如权利要求2所述的PE恶意软件对抗样本自动生成方法，其特征在于，S1具体包括：

4.如权利要求2所述的PE恶意软件对抗样本自动生成方法，其特征在于，S3具体包括：

5.如权利要求2所述的PE恶意软件对抗样本自动生成方法，其特征在于，S4具体包括：

6.如权利要求2所述的PE恶意软件对抗样本自动生成方法，其特征在于，S5具体包括：

7.如权利要求2所述的PE恶意软件对抗样本自动生成方法，其特征在于，S6具体包括：

8.一种应用如权利要求1～7任

9.一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如权利要求1～7任意一项所述的PE恶意软件对抗样本自动生成方法的步骤。

10.一种信息数据处理终端，信息数据处理终端用于实现如权利要求8所述的PE恶意软件对抗样本自动生成系统。

...

【技术特征摘要】

1.一种pe恶意软件对抗样本自动生成方法，其特征在于，从良性pe文件中提取二进制函数构建函数库，利用ida pro反编译pe文件并提取函数代码特征，使用shap可解释性技术设计特征选择策略，通过re库方法匹配和插入适合的二进制函数到恶意样本中生成对抗样本，利用静态恶意软件检测模型评估对抗样本的有效性，以及在保证功能完整性的同时，在virustotal检测网站验证对抗样本的逃避率。

2.如权利要求1所述的pe恶意软件对抗样本自动生成方法，其特征在于，包括：

3.如权利要求2所述的pe恶意软件对抗样本自动生成方法，其特征在于，s1具体包括：

4.如权利要求2所述的pe恶意软件对抗样本自动生成方法，其特征在于，s3具体包括：

5.如权利要求...

【专利技术属性】
技术研发人员：彭浩，袁金沙，王哲，钟鸣，赵丹丹，韩建民，
申请(专利权)人：浙江师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人