一种基于大数据的恶意代码检测方法技术

技术编号:39144065 阅读:11 留言:0更新日期:2023-10-23 14:56
本发明专利技术属于深度学习领域,具体涉及一种基于大数据的恶意代码检测方法,包括:获取的代码文本数据,对代码文本进行拆分和处理得到灰度图像,对灰度图像进行数据增强,构建恶意代码检测初步模型并训练的得到最终模型;本发明专利技术采用Word2Vec模型的训练方法解决了恶意代码在转化为灰度图时文本特征遭到破坏的难题,并使用带有辨别器的变分自编码器进行数据增强,缓解了了恶意代码检测领域图像提取特征单一,抗混淆能力不足的困难,可以高效、可靠地完成恶意代码检测。恶意代码检测。恶意代码检测。

【技术实现步骤摘要】
一种基于大数据的恶意代码检测方法


[0001]本专利技术属于深度学习领域,具体涉及一种基于大数据的恶意代码检测方法。

技术介绍

[0002]随着我国互联网科技的飞速发展,由恶意代码所引发的安全问题也越来越多。根据国家互联网应急中心的报告,近几年恶意代码的数量迅速增长,恶意代码带来的威胁也日益严重。恶意代码检测,旨在对计算机或终端中的恶意程序进行识别,以阻止恶意程序产生更大的危害。
[0003]传统的恶意代码检测技术分为动态分析技术和静态分析技术。动态分析技术是一种在软件或系统运行时观察、监控和分析其行为的方法,如通过沙箱分析、行为分析、代码追踪等,来检测其恶意活动。这种方法可以捕捉到恶意代码的实际执行行为,但需要在实时运行中进行监测,需要耗费大量的时间和硬件成本。静态分析方法是一种在软件或系统静态状态下对其进行分析的技术,与动态分析技术相对,它需要研究员根据专家知识手工提取恶意代码的特征码,并将其与数据库中已知特征码进行逐一比对。随着恶意代码混淆、加壳等技术的发展,恶意代码繁衍出大量变种。传统检测方法效率较低,并且难以有效地检测与识别恶意代码的变种。因此,如何准确、高效地对恶意代码及其变种进行检测、分类成为了该领域的研究热点。
[0004]随着深度学习的发展,有学者提出了一种基于图像处理的恶意代码检测方法。这种方法摆脱了传统方法耗时费力的缺点,通过将恶意代码转换成图像的方式,利用深度学习神经网络对图像进行分类,从而对恶意代码进行检测。目前,恶意代码转换为图像的方法,通常是将其中的操作码或者字节码映射成数字作为图像中的像素值;然而,这种方法生成的图像提取的特征单一,抗混淆能力不足。直接将操作码或者字节码映射成数字作为图像中的像素值会导致其文本特征遭到破坏,因此后续使用神经网络提取不了恶意代码的文本特征,从而导致识别率下降。

技术实现思路

[0005]为解决上述技术问题,本专利技术提出一种基于大数据的恶意代码检测方法,包括以下步骤:
[0006]获取未标注的代码文本数据U,将未标注的代码文本数据U转换为灰度图像输入到训练好的恶意代码分类模型中,得到代码文本数据的分类结果;
[0007]所述恶意代码分类模型的训练过程包括:
[0008]S1、获取标注的代码文本数据T,采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D;
[0009]S2、使用改进的变分自编码器对灰度图像D做数据增强,得到增强后的灰度图像数据D


[0010]所述改进的变分自编码器包括:编码器、解码器和分类器;
[0011]S3、将增强后的灰度图像数据D

输入Swin

Transformer模型,得到代码文件的特征向量表示H,使用全连接神经网络对特征向量H进行分类;
[0012]S4、根据编码器、解码器和分类器的输出构建模型的损失函数,并采用图像标签优化损失函数,当损失函数最小时完成训练,得到训练好的恶意代码分类模型。
[0013]本专利技术的有益效果:
[0014]本专利技术使用Word2Vec提取代码文本特征,再将其转换为灰度图片,相比传统方法直接将代码二进制文件转换为灰度图像,更好的保留了代码的语义信息;采用带有辨别器的变分编码器对灰度图像进行数据增强,以补全图像中缺失的细节信息;使用Swin

Transformer模型进行分类,融合了不同Stage阶段的特征,深度挖掘不同位置代码之间的关联,提高了代码检测的准确性。
附图说明
[0015]图1为本专利技术实施例一提供一种基于大数据的恶意代码检测方法的流程图;
[0016]图2为本专利技术实施例一提供一种基于大数据的恶意代码检测方法中预训练方法流程图;
[0017]图3为本专利技术实施例一提供一种基于大数据的恶意代码检测方法中灰度图像数据增强模型结构示意图;
[0018]图4为本专利技术实施例一提供一种基于大数据的恶意代码检测方法中分类模型结构示意图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]一种基于大数据的恶意代码检测方法,如图1所示,包括:
[0021]获取未标注的代码文本数据U,将未标注的代码文本数据U转换为灰度图像输入到训练好的恶意代码分类模型中,得到代码文本数据的分类结果;
[0022]所述恶意代码分类模型的训练过程,如图2所示,包括:
[0023]S1、获取标注的代码文本数据T,采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D;
[0024]S2、使用改进的变分自编码器对生成的灰度图像D做数据增强,得到增强后的灰度图像数据D


[0025]S3、将增强数据D

输入Swin

Transformer模型,得到代码文件的特征向量表示H,使用全连接神经网络对特征向量H进行分类;
[0026]S4、根据训练集标签优化损失函数,当损失函数最小时完成训练,得到恶意代码分类模型。
[0027]在本实施例中,采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D包括以下步骤:
[0028]S11、将代码文本T按函数进行切分,转换为多个代码文本序列T


[0029]S12、使用所有的代码文本序列训练Word2Vec模型,设置词向量维度为k,得到代码文本数据中每个单词的词编码表示w;
[0030]S13、对每个词编码w的所有特征维度求均值,得到每个词的数值表示d;
[0031]S14、将所有词的数值表示d进行归一化,映射范围0到255之间,将标准化后的数值乘以255并取整,得到代码文本的初始灰度图像表示G;
[0032]S15、使用Lanczos插值算法对所有灰度图像G的尺寸进行归一化,得到灰度图像D。
[0033]设置词向量维度为k,包括:
[0034]计算代码文本序列T

中每个词的TF

IDF值,设置阈值α,词向量维度k等于TF

IDF值大于阈值α的词的数量;其中,k是在训练word2vec模型的时候的一个参数,表示用多少个分量来表示一个词,即词编码w的维度是k。
[0035]其中,α为通过文本长度和信息熵计算出的一个阈值:
[0036][0037]其中,H表示文本信息熵,n表示代码文本总数,u表示代码文本长度的平均值,σ表示文本长度的标准差。
[0038]使用Lanczos插值算法对所有灰度图像G的尺寸进行归一化,包括:
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的恶意代码检测方法,其特征在于,包括:获取未标注的代码文本数据U,将未标注的代码文本数据U转换为灰度图像输入到训练好的恶意代码分类模型中,得到代码文本数据的分类结果;所述恶意代码分类模型的训练过程包括:S1、获取标注的代码文本数据T,采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D;S2、使用改进的变分自编码器对灰度图像D做数据增强,得到增强后的灰度图像数据D

;所述改进的变分自编码器包括:编码器、解码器和分类器;S3、将增强后的灰度图像数据D

输入Swin

Transformer模型,得到代码文件的特征向量表示H,使用全连接神经网络对特征向量H进行分类;S4、根据编码器、解码器和分类器的输出构建模型的损失函数,并采用图像标签优化损失函数,当损失函数最小时完成训练,得到训练好的恶意代码分类模型。2.根据权利要求1所述的一种基于大数据的恶意代码检测方法,其特征在于,采用基于Word2Vec模型的训练方法将代码文本T数据转换为灰度图像D,包括:S11、将代码文本T按函数进行切分,转换为多个代码文本序列T

;S12、使用所有的代码文本序列T

训练Word2Vec模型,同时设置词向量维度为k,得到代码文本数据中每个单词的词编码表示w;S13、对每个词编码w的所有特征维度求均值,得到每个词的数值表示d;S14、将所有词的数值表示d进行归一化,映射范围0到255之间,将标准化后的数值乘以255并取整,得到代码文本的初始灰度图像表示G;S15、使用Lanczos插值算法对所有灰度图像G的尺寸进行归一化,得到灰度图像D。3.根据权利要求2所述的一种基于大数据的恶意代码检测方法,其特征在于,设置词向量维度为k,包括:计算代码文本序列T

中每个词的TF

IDF值,设置阈值α,词向量维度k等于TF

IDF值大于阈值α的词的数量,其中,α为通过文本长度和信息熵计算出的一个阈值,H表示文本信息熵,n表示代码文本总数,u表示代码文本长度的平均值,σ表示文本长度的标准差。4.根据权利要求1所述的一种基于大数据的恶意代码检测方法,其特征在于,使用改进的变分自编码器对灰度图像D做数据增强,得到增强后的灰度图像数据D

,包括:S21、构建编码器,其结构包括输入层、卷积层和全连接层,其中输入层用于接受代码灰度图像D;卷积层包含3个尺寸为4
×
4的卷积核,步长为2,用于捕获局部特征表示;全连接层包含两个全连接神经网络,用于将池化层输出的特征向量转换为潜在空间的均值μ和方差σ2,通过潜在空间的均值μ和方差σ2得到潜在向量;S22、构建解码器,其结构包括输入层、重塑层、转置卷积层和全连接层,其中输入层用于接收潜在特征;重塑层用于将潜在特征重塑为适合转置卷积层处理的形状;转置卷积层包含3个尺寸为4
×
4的卷积核,步长为2,对潜在特征进行上采样;全连接层包含一个全连接神经网络,将上采样后的潜在特征的维度映射到与输入编码器时相同后生成灰度...

【专利技术属性】
技术研发人员:苏柯润牟以恒王进
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1