面向工业互联网的语义增强型恶意软件检测方法技术

技术编号：40334508 阅读：7 留言：0更新日期：2024-02-09 14:25

本发明专利技术公开了一种针对工业互联网的语义增强型恶意软件检测方法，主要解决了目前恶意软件识别领域中语义信息获取不足和API调用关系不明确的问题。其实现方案是：利用软件初始特征数据通过动态运行分析和序列嵌入技术，构建API调用序列图以全面捕获API调用序列之间的结构依赖关系；使用掩码语言模型对官方API文档进行语义增强，并对增强后的API语义信息进行综合嵌入；基于现有GAT结构的图神经网络构建恶意软件分类器；将带有API节点属性的API序列调用图传递给GAT分类器，以执行对恶意软件的检测任务。本发明专利技术减少了对分析工具的依赖，提高了对恶意软件检测的准确性，可用于对工业互联网环境下计算机系统的安全保护。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络安全，更进一步涉及一种语义增强型恶意软件检测方法，可用于对工业互联网环境下计算机系统的安全保护。

技术介绍

1、随着工业互联网的兴起，恶意软件的检测和分类问题变得至关重要。在这一环境下，恶意软件通常使用各种代码混淆技术，传统的手动特征提取和机器学习检测和分类方法受到一定限制。近年来，基于深度学习的恶意软件检测方法备受瞩目，尤其是在工业互联网应用中。这些方法能够自动学习程序的特征，对抗各种代码混淆技术。特别是基于深度图学习的恶意软件检测方法，在工业互联网应用中具有广泛的潜力。与传统方法相比，深度图学习方法能够端到端地学习程序特征，对抗代码混淆，并且可扩展到零日恶意软件检测。通过设计更优的图神经网络结构，以及选择和构建适合工业互联网程序语义的图结构，有望提高工业互联网系统的安全性和恶意软件检测的效率。

2、中国电建集团成都勘测设计研究院有限公司在申请号为：cn202310498717.2的专利文献中公开了“一种基于图的恶意软件混合检测方法”，其实现步骤是，第一步：提取可执行文件中代码表示信息，并标记所有函数；第二步：使用入口点函数将函数集中的函数初始化成函数列队，获得可执行文件的函数调用图；第三步：通过监视可执行文件在沙箱中实际执行时的行为对可执行文件进行动态行为分析，所述行为包括系统调用、文件系统交互、库请求、权限请求和网络行为；第四步：结合顶点集中每个函数名称的根子图，以及各个函数之间的调用关系，采用word2vec或subgraph2vec模型将所有根子图转换为向量；第五步：将特征矩阵投入机器学习

3、电子科技大学在申请号为：cn202210544808.0的专利文献中公开了“一种基于多模态图特征的安卓恶意软件检测方法及系统”，其实现步骤是，第一步：对android apk文件进行静态分析，使用静态分析工具获取其静态特征，得到权限特征、api、类、接口特征、文件特征以及组件特征；第二步：对android apk文件进行动态分析，使用动态分析沙箱获取其动态特征，得到系统调用特征；第三步：将得到的静态特征与动态特征作为多维度特征进行处理，对于多维特征中的每一种特征基于每一种特征的依赖关系将每一种特征转化为图结构特征数据，得到多维度图结构特征；第四步：使用图嵌入方法对获取到的多维度图结构特征进行向量化处理，得到多维度图特征向量；第五步：使用注意力机制和图神经网络对获取的多维度图特征向量进行学习，得到训练好的智能分类器；第六步：使用训练好的智能分类器对待测android apk进行分类，得到该apk的分类结果。该方法由于在实现流程中包括了多个计算密集的步骤，尤其在资源消耗型apk文件分类时，需要大量的计算资源和时间；此外由于该方法有很强的数据依赖性，很依赖静态和动态分析工具的准确性和完整性，如果这些工具出现错误或不完善，将会导致分类结果的不准确。

技术实现思路

1、本专利技术的目的在于针对上述现有技术的不足，提出一种面向工业互联网的语义增强型恶意软件检测方法，以避免对分析工具的依赖，提高恶意软件检测的精确性，保护工业互联网下的计算机系统安全性，为工业生产提供更安全的数字化环境。

2、实现本专利技术目的的技术思路是：通过引入序列嵌入技术，捕获api调用序列之间的关系，通过采用掩码语言模型对api文档进行嵌入生成，并使用bert模型实现api2vec嵌入层的输入，同时将api节点转化为具有语义信息的嵌入向量，以减少对本专利技术对分析工具的依赖；通过构建基于图神经网络的分类器，提高恶意软件检测的精确性。

3、根据上述思路，本专利技术的实现步骤包括如下：

4、1)在工业互联网环境下收集软件样本，并对收集到的软件信息数据进行动态分析以获取运行数据，并从该数据中提取关键信息得到软件的初始特征数据；

5、2)利用软件初始特征数据通过动态运行分析和序列嵌入技术，构建api调用序列图，以全面捕获api调用序列之间的结构依赖关系；

6、3)使用掩码语言模型对官方api文档进行语义增强；

7、4)对增强后的api语义信息进行综合嵌入：

8、4a)对现有的bert模型采用数据增强策略进行微调，以提高模型的泛化能力并避免对分析工具的依赖；

9、4b)使用掩码语言模型mlm算法对bert模型进行优化，通过优化后的bert模型生成官方api文档中特定api节点的语义信息嵌入向量h；

10、4c)将从bert生成的api节点的语义信息嵌入向量h转化为api2vec嵌入向量；

11、4d)使用word2vec模型将自然语言处理算法中涉及的标识符和api调用序列转化为向量表示；

12、5)基于现有gat结构的图神经网络构建恶意软件分类器：

13、5a)给定两个连接的api节点i和j，计算注意头t和第l层结构处的注意力权重α：

14、

15、其中表示节点i在第l层处的api节点的隐藏表示，是节点i在神经网络第l层处的隐藏表示矩阵，wt表示第t个注意力头部处的可学习参数，fa是前馈神经网络，relu表示整流器激活函数，||表示级联操作，ri表示api节点i的邻居节点；

16、5b)每个api节点通过gat的多层的迭代更新，以捕获软件的行为特征，其中每个api节点嵌入向量使用基于注意力机制进行更新，其公式如下：

17、

18、其中，t为注意力头的数量，t为第t个注意力头，σ表示softmax激活函数，表示节点i的第l+1层处的api节点的隐藏表示，表示节点j的第l层处的api节点的隐藏表示；

19、5c)对api节点的嵌入向量进行汇总，得到api的语义嵌入图sg：

20、

21、其中，ng是所有api节点的数量，是最后一层的api节点的隐藏表示；

22、5d)基于语义嵌入图sg，在gat结构的图神经网络中添加多个全连接层，并应用softmax激活函数激活，构成恶意软件分类器；

23、6)利用恶意软件分类器进行恶意软件判断：

24、6a)将步骤2)获取到的待检测样本api调用序列图、步骤3)得到的api语义信息增强向量h和步骤5c)得到的语义嵌入图sg输入到恶意软件分类器中，输出一个特征参数θ；

25、6b)将语义嵌入图sg和特征参数θ输入到现有的多层感知器mlp中，得到待检测软件的二元分类结果：y＝mlp(sg|θ)，其中y＝0表示恶意软件，y＝1表示良性软件。...

【技术保护点】

1.一种面向工业互联网的语义增强型恶意软件检测方法，其特征在于：包括：

2.根据权利要求1所述的方法，其特征在于，步骤1)中对收集到的软件信息数据进行动态分析以获取运行数据，并从该数据中提取关键信息得到软件的初始特征数据，其实现包括如下：

3.根据权利要求1所述的方法，其特征在于，步骤2)中利用软件初始特征数据通过动态运行分析和序列嵌入技术，构建API调用序列图，实现步骤包括如下：

4.根据权利要求1所述的方法，其特征在于，步骤3)中使用掩码语言模型对官方API文档进行语义增强，其实现包括如下：

5.根据权利要求1所述的方法，其特征在于，步骤4a)对现有的BERT模型采用数据增强策略进行微调，其实现包括如下：

6.根据权利要求1所述的方法，其特征在于，步骤4b)中使用掩码语言模型MLM算法对BERT模型进行优化，实现如下：

7.根据权利要求1所述的方法，其特征在于，步骤4c)中将BERT生成的API节点语义信息嵌入向量h转化为API2Vec嵌入向量，是先创建API节点语义信息数据集，以便API2Vec模型学习

8.根据权利要求1所述的方法，其特征在于，步骤4d)中使用Word2Vec模型将自然语言处理算法中涉及的标识符和API调用序列转化为向量表示，实现如下：

9.根据权利要求1所述的方法，其特征在于，步骤5d)中基于语义嵌入图sG，在GAT结构的图神经网络中添加多个全连接层，是将神经网络中每一层的所有神经元与下一层的所有神经元相连，构成全连接层，以捕获节点之间的复杂关系，进一步加强特征的表示。

10.根据权利要求1所述的方法，其特征在于，步骤5d)中应用softmax激活函数激活，构成恶意软件分类器，实现如下：

...

【技术特征摘要】

1.一种面向工业互联网的语义增强型恶意软件检测方法，其特征在于：包括：

3.根据权利要求1所述的方法，其特征在于，步骤2)中利用软件初始特征数据通过动态运行分析和序列嵌入技术，构建api调用序列图，实现步骤包括如下：

4.根据权利要求1所述的方法，其特征在于，步骤3)中使用掩码语言模型对官方api文档进行语义增强，其实现包括如下：

5.根据权利要求1所述的方法，其特征在于，步骤4a)对现有的bert模型采用数据增强策略进行微调，其实现包括如下：

6.根据权利要求1所述的方法，其特征在于，步骤4b)中使用掩码语言模型mlm算法对bert模型进行优化，实现如下：

7.根据权利要求1所述...

【专利技术属性】
技术研发人员：冯鹏斌，盖乐，习宁，魏大卫，马建峰，李腾，马鑫迪，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人