一种基于大数据的恶意代码检测方法技术

技术编号：39144065 阅读：11 留言：0更新日期：2023-10-23 14:56

本发明专利技术属于深度学习领域，具体涉及一种基于大数据的恶意代码检测方法，包括：获取的代码文本数据，对代码文本进行拆分和处理得到灰度图像，对灰度图像进行数据增强，构建恶意代码检测初步模型并训练的得到最终模型；本发明专利技术采用Word2Vec模型的训练方法解决了恶意代码在转化为灰度图时文本特征遭到破坏的难题，并使用带有辨别器的变分自编码器进行数据增强，缓解了了恶意代码检测领域图像提取特征单一，抗混淆能力不足的困难，可以高效、可靠地完成恶意代码检测。恶意代码检测。恶意代码检测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的恶意代码检测方法

[0001]本专利技术属于深度学习领域，具体涉及一种基于大数据的恶意代码检测方法。

技术介绍

[0002]随着我国互联网科技的飞速发展，由恶意代码所引发的安全问题也越来越多。根据国家互联网应急中心的报告,近几年恶意代码的数量迅速增长,恶意代码带来的威胁也日益严重。恶意代码检测,旨在对计算机或终端中的恶意程序进行识别,以阻止恶意程序产生更大的危害。
[0003]传统的恶意代码检测技术分为动态分析技术和静态分析技术。动态分析技术是一种在软件或系统运行时观察、监控和分析其行为的方法，如通过沙箱分析、行为分析、代码追踪等，来检测其恶意活动。这种方法可以捕捉到恶意代码的实际执行行为，但需要在实时运行中进行监测，需要耗费大量的时间和硬件成本。静态分析方法是一种在软件或系统静态状态下对其进行分析的技术，与动态分析技术相对，它需要研究员根据专家知识手工提取恶意代码的特征码，并将其与数据库中已知特征码进行逐一比对。随着恶意代码混淆、加壳等技术的发展，恶意代码繁衍出大量变种。传统检测方法效率较低，并且难以有效地检测与识别恶意代码的变种。因此，如何准确、高效地对恶意代码及其变种进行检测、分类成为了该领域的研究热点。
[0004]随着深度学习的发展,有学者提出了一种基于图像处理的恶意代码检测方法。这种方法摆脱了传统方法耗时费力的缺点,通过将恶意代码转换成图像的方式,利用深度学习神经网络对图像进行分类,从而对恶意代码进行检测。目前，恶意代码转换为图像的方法,通常是将其中的操作码或者字节码映射成...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的恶意代码检测方法，其特征在于，包括：获取未标注的代码文本数据U，将未标注的代码文本数据U转换为灰度图像输入到训练好的恶意代码分类模型中，得到代码文本数据的分类结果；所述恶意代码分类模型的训练过程包括：S1、获取标注的代码文本数据T，采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D；S2、使用改进的变分自编码器对灰度图像D做数据增强，得到增强后的灰度图像数据D
′
；所述改进的变分自编码器包括：编码器、解码器和分类器；S3、将增强后的灰度图像数据D
′
输入Swin
‑
Transformer模型，得到代码文件的特征向量表示H，使用全连接神经网络对特征向量H进行分类；S4、根据编码器、解码器和分类器的输出构建模型的损失函数，并采用图像标签优化损失函数，当损失函数最小时完成训练，得到训练好的恶意代码分类模型。2.根据权利要求1所述的一种基于大数据的恶意代码检测方法，其特征在于，采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D，包括：S11、将代码文本T按函数进行切分，转换为多个代码文本序列T
′
；S12、使用所有的代码文本序列T
′
训练Word2Vec模型，同时设置词向量维度为k，得到代码文本数据中每个单词的词编码表示w；S13、对每个词编码w的所有特征维度求均值，得到每个词的数值表示d；S14、将所有词的数值表示d进行归一化，映射范围0到255之间，将标准化后的数值乘以255并取整，得到代码文本的初始灰度图像表示G；S15、使用Lanczos插值算法对所有灰度图像G的尺寸进行归一化，得到灰度图像D。3.根据权利要求2所述的一种基于大数据的恶意代码检测方法，其特征在于，设置词向量维度为k，包括：计算代码文本序列T
′
中每个词的TF
‑
IDF值，设置阈值α，词向量维度k等于TF
‑
IDF值大于阈值α的词的数量，其中，α为通过文本长度和信息熵计算出的一个阈值，H表示文本信息熵，n表示代码文本总数，u表示代码文本长度的平均值，σ表示文本长度的标准差。4.根据权利要求1所述的一种基于大数据的恶意代码检测方法，其特征在于，使用改进的变分自编码器对灰度图像D做数据增强，得到增强后的灰度图像数据D
′
，包括：S21、构建编码器，其结构包括输入层、卷积层和全连接层，其中输入层用于接受代码灰度图像D；卷积层包含3个尺寸为4
×
4的卷积核，步长为2，用于捕获局部特征表示；全连接层包含两个全连接神经网络，用于将池化层输出的特征向量转换为潜在空间的均值μ和方差σ2，通过潜在空间的均值μ和方差σ2得到潜在向量；S22、构建解码器，其结构包括输入层、重塑层、转置卷积层和全连接层，其中输入层用于接收潜在特征；重塑层用于将潜在特征重塑为适合转置卷积层处理的形状；转置卷积层包含3个尺寸为4
×
4的卷积核，步长为2，对潜在特征进行上采样；全连接层包含一个全连接神经网络，将上采样后的潜在特征的维度映射到与输入编码器时相同后生成灰度...

【专利技术属性】
技术研发人员：苏柯润，牟以恒，王进，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人