恶意代码检测模型生成及检测方法、装置、设备及介质制造方法及图纸

技术编号：40027710 阅读：10 留言：0更新日期：2024-01-16 17:45

本发明专利技术公开了恶意代码检测模型生成及检测方法、装置、设备及介质，应用于计算机技术领域，包括：获取训练样本代码语料库；其中，训练样本代码语料库中包括恶意代码数据集和良性代码数据集；对训练样本代码语料库中的代码进行词法分析处理，得到词法单元序列；基于词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型；目标恶意代码检测模型为利用词嵌入模型和文本分类神经网络模型构建得到的模型。可见，和当前依赖人工总结规则进行规则匹配进行检测的方法相比，本发明专利技术可以利用恶意代码数据集和良性代码数据集对目标恶意代码检测模型进行训练，得到可以直接进行代码检测的目标恶意代码检测模型，从而提高恶意代码检测效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，特别涉及一种恶意代码检测模型生成及检测方法、装置、设备及介质。

技术介绍

1、javascript(轻量级的解释性编程语言)脚本的跨平台性和动态性在浏览器前端开发中具有很大的优势，但同时也是黑客攻击的主要载体之一。例如跨站脚本攻击(xss)、堆喷射攻击(heap spraying attacks)、点击劫持攻击(clickjacking)等恶意攻击。这些攻击能够窃取用户的数据、创造能够自我复制的恶意蠕虫、控制用户的浏览器下载恶意软件，对互联网用户的信息安全造成了极大的威胁。当前主流javascript恶意代码静态检测技术主要为正则匹配和语义分析技术，比较依赖于网络安全研究人员的总结能力，其次随着攻击方式日益增多，特征库的维护难度也在增大。

2、因此，当前恶意代码检测方法存在针对过度依赖安全工作者的总结能力，未能充分提取语义信息，导致恶意代码检测效果较差的技术问题。

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种恶意代码检测模型生成及检测方法、装置、设备及介质，解决了现有技术中恶意代码检测效果较差的技术问题。

2、为解决上述技术问题，本专利技术提供了一种恶意代码检测模型生成方法，包括：

3、获取训练样本代码语料库；其中，所述训练样本代码语料库中包括恶意代码数据集和良性代码数据集；

4、对所述训练样本代码语料库中的代码进行词法分析处理，得到词法单元序列；

5、基于所述词法单元序列对待训练模型进行

6、可选的，所述对所述训练样本代码语料库中的代码进行词法分析处理，得到词法单元序列，包括：

7、对所述训练样本代码语料库中的代码进行反混淆处理，得到结构树代码数据；

8、对所述结构树代码数据进行所述词法分析处理，得到所述词法单元序列。

9、可选的，所述对所述训练样本代码语料库中的代码进行词法分析处理，得到词法单元序列，包括：

10、对所述训练样本代码语料库中同一含义的代码进行统一标记名处理，得到统一名称样本代码语料库；

11、对所述统一名称样本代码语料库进行所述词法分析处理，得所述到词法单元序列。

12、可选的，所述基于所述词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型，包括：

13、将所述词法单元序列作为输入训练所述词嵌入模型，得到词嵌入模型中每一层的句向量；

14、将所述词嵌入模型中每一层的句向量作为输入训练所述文本分类神经网络模型，得到所述目标恶意代码检测模型。

15、可选的，所述基于所述词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型，包括：

16、基于所述词法单元序列和动态掩码技术对待训练模型中的所述词嵌入模型进行训练，同时对所述文本分类神经网络模型进行训练，得到所述目标恶意代码检测模型。

17、可选的，所述基于所述词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型，包括：

18、基于所述词法单元序列对所述待训练模型进行训练，得到所述目标恶意代码检测模型；其中，所述目标恶意代码检测模型的检测结果为类别概率值。

19、本专利技术还提供了一种恶意代码检测方法，其特征在于，包括：

20、获取待检测代码；

21、对待检测代码进行词法分析处理，得到待检测词法单元序列；

22、基于恶意代码检测模型对所述待检测词法单元序列进行检测，得到检测结果；其中，所述恶意代码检测模型为基于上述的目标恶意代码检测模型。

23、本专利技术还提供了一种恶意代码检测模型生成装置，包括：

24、训练样本获取模块，用于获取训练样本代码语料库；其中，所述训练样本代码语料库中包括恶意代码数据集和良性代码数据集；

25、词法单元序列确定模块，用于对所述训练样本代码语料库中的代码进行词法分析处理，得到词法单元序列；

26、检测模型训练模块，用于基于所述词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型；其中，所述目标恶意代码检测模型为利用词嵌入模型和文本分类神经网络模型构建得到的模型。

27、本专利技术还提供了一种电子设备，包括：

28、存储器，用于存储计算机程序；

29、处理器，用于执行所述计算机程序时实现上述的恶意代码检测模型生成方法，和/或上述的恶意代码检测方法的步骤。

30、本专利技术还提供了一种介质，所述介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的恶意代码检测模型生成方法，和/或上述的恶意代码检测方法的步骤。

31、可见，本专利技术通过获取训练样本代码语料库；其中，训练样本代码语料库中包括恶意代码数据集和良性代码数据集。对训练样本代码语料库中的代码进行词法分析处理，得到词法单元序列。基于词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型；其中，目标恶意代码检测模型为利用词嵌入模型和文本分类神经网络模型构建得到的模型。本专利技术和当前仅仅根据人工总结的规则进行匹配对代码进行检测的方法相比，本专利技术可以利用包括恶意代码数据集和良性代码数据集的训练样本代码语料库，对目标恶意代码检测模型进行训练，得到可以直接检测代码的目标恶意代码检测模型，由于目标恶意代码检测模型是基于机器训练得到的，故可以提高后续恶意代码检测的准确性和效率。

32、此外，本专利技术还提供了一种恶意代码检测模型生成装置、设备及介质，恶意代码检测方法、装置、设备及介质，同样具有上述有益效果。

本文档来自技高网...

【技术保护点】

1.一种恶意代码检测模型生成方法，其特征在于，包括：

2.根据权利要求1所述的恶意代码检测模型生成方法，其特征在于，所述对所述训练样本代码语料库中的代码进行词法分析处理，得到词法单元序列，包括：

3.根据权利要求1所述的恶意代码检测模型生成方法，其特征在于，所述对所述训练样本代码语料库中的代码进行词法分析处理，得到词法单元序列，包括：

4.根据权利要求1至3任一项所述的恶意代码检测模型生成方法，其特征在于，所述基于所述词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型，包括：

5.根据权利要求1所述的恶意代码检测模型生成方法，其特征在于，所述基于所述词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型，包括：

6.根据权利要求1所述的恶意代码检测模型生成方法，其特征在于，所述基于所述词法单元序列对待训练模型进行训练，得到目标恶意代码检测模型，包括：

7.一种恶意代码检测方法，其特征在于，包括：

8.一种恶意代码检测模型生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种介质，其特征在于，所述介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的恶意代码检测模型生成方法，和/或权利要求7所述的恶意代码检测方法的步骤。

...

【技术特征摘要】

1.一种恶意代码检测模型生成方法，其特征在于，包括：

5.根据权利要求1所述的恶意代码检测模型生成方法，其特征在于，所述...

【专利技术属性】
技术研发人员：毕云鹏，叶章龙，
申请(专利权)人：杭州安恒信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人