System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多特征融合的抗混淆恶意代码分类方法及系统技术方案_技高网

基于多特征融合的抗混淆恶意代码分类方法及系统技术方案

技术编号:41226464 阅读:2 留言:0更新日期:2024-05-09 23:44
本公开提供了基于多特征融合的抗混淆恶意代码分类方法及系统,涉及网络安全技术领域,根据恶意代码的.asm文件和.bytes文件;分别利用.asm文件和.bytes文件获取加权平均值和灰度图像;将所述加权平均值和灰度图像分别输入至改进的CNN模型中进行特征提取,并将提取出的特征进行融合,生成多特征融合特征表示,将所述多特征融合特征表示输入至引入双向注意力机制的Bi‑LSTM模型中,在前向和后向方向上分别计算注意力权重,并将两个方向的上下文信息进行整合,输出恶意代码分类结果。

【技术实现步骤摘要】

本公开涉及网络安全,具体涉及基于多特征融合的抗混淆恶意代码分类方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。

2、混淆技术早期主要时通过手工修改二进制代码来实现的,但是随着计算机技术的发展,自动化的代码混淆工具已经广泛地应用于恶意软件的开发中。恶意软件检测技术一般可以分为静态分析方法和动态分析方法两种,经过混淆后,恶意代码的结构和特征通常会被修改,一些常见的静态分析和反汇编技术就很难生效,动态分析效率又比较低,而恶意代码可视化技术可以更深入的理解和分析恶意代码的行为和特征,从而对混淆技术进行反制。此外,可以利用可视化技术对提取的有价值的特征进行可视化,生成视觉解释,帮助解释检测和分类的结果。

3、近年来,深度学习在检测恶意软件方面迅速发展,混淆技术对恶意代码进行变形和加密,导致单一深度学习模型进行恶意代码分类的准确率不高,通常在数据预处理后再采用cnn模型进行特征提取,来进一步提高性能并获得更好的结果,在一定程度上抵抗恶意代码混淆所带来的影响,增强泛化能力,提高分类准确率。但是目前已知这种恶意代码分类方法,对恶意代码数据的处理是仅提取操作码,而没有关注操作码上下文信息以及恶意代码混淆攻击会改变代码的结构和特征,导致传统模型的分类性能下降等问题。


技术实现思路

1、本公开为了解决上述问题,提出了基于多特征融合的抗混淆恶意代码分类方法及系统,利用恶意文件数据,构建有向图,并利用接近中心性计算节点的权重和边的权重进行加权平均,突出恶意代码的特征表示,并利用双向长短期记忆网络(bi-directional longshort-term memorybi-lstm,bi-lstm)中引入双向注意力机制,在前向和后向方向上分别计算注意力权重,并将两个方向的上下文信息进行整合,从而更全面地捕捉输入特征表示序列的关联和重要性,提高模型的表征能力。

2、根据一些实施例,本公开采用如下技术方案:

3、基于多特征融合的抗混淆恶意代码分类方法,包括:

4、获取原始恶意代码文件,对其反编译转换为.asm文件和.bytes文件;

5、提取.asm文件的操作码以及操作码的前两位十六进制数字,并构建操作码结构有向图,并计算操作码结构有向图节点和边的加权平均值;

6、读取.bytes文件,根据.bytes文件的大小确定行宽,转换为向量表示,并将整个向量转换成二维数组,将二维数组中的每个元素作为图像的灰度值,将整个二维数组映射为灰度图像;

7、将所述加权平均值和灰度图像分别输入至改进的cnn模型中进行特征提取,并将提取出的特征进行融合,生成多特征融合特征表示,将所述多特征融合特征表示输入至引入双向注意力机制的bi-lstm模型中,在前向和后向方向上分别计算注意力权重,并将两个方向的上下文信息进行整合,输出恶意代码分类结果。

8、根据一些实施例,本公开采用如下技术方案:

9、基于多特征融合的抗混淆恶意代码分类系统,包括:

10、数据获取模块,用于获取原始恶意代码文件,对其反编译转换为.asm文件和.bytes文件;

11、数据预处理模块,用于提取.asm文件的操作码以及操作码的前两位十六进制数字,并构建操作码结构有向图,并计算操作码结构有向图节点和边的加权平均值;读取.bytes文件,根据.bytes文件的大小确定行宽,转换为向量表示,并将整个向量转换成二维数组,将二维数组中的每个元素作为图像的灰度值,将整个二维数组映射为灰度图像;

12、特征提取模块,用于将所述加权平均值和灰度图像分别输入至改进的cnn模型中进行特征提取;

13、特征融合模块,用于将提取出的特征进行融合,生成多特征融合特征表示;

14、分类模块,用于将所述多特征融合特征表示输入至引入双向注意力机制的bi-lstm模型中,在前向和后向方向上分别计算注意力权重,并将两个方向的上下文信息进行整合,输出恶意代码分类结果。

15、与现有技术相比,本公开的有益效果为:

16、本公开的基于多特征融合的抗混淆恶意代码分类方法,首先将操作码和其前两位十六进制数字视为源节点,下一个操作码和其前两位十六进制数字视为目标节点,并计算出现的频率,作为边的权重,构建了一个有向图g,并利用接近中心性计算节点的权重和边的权重进行加权平均,以此来突出重要节点,过滤掉一些较低权重的节点,提供更全面和准确的特征表示。

17、本公开的基于多特征融合的抗混淆恶意代码分类方法,对于灰度图像,采用了lanczos插值算法对灰度图进行缩放,可以保留更多的细节信息,提高图像质量。利用加权平均值和灰度图像两种特征提取方式,并将它们分别放入改进后的cnn模型中进行特征提取,之后将提取到的特征融合在一起,这样能够更全面地捕捉恶意代码的特征,从而提高分类准确率。

18、本公开的基于多特征融合的抗混淆恶意代码分类方法,在bi-lstm中引入双向注意力机制,可以在前向和后向方向上分别计算注意力权重,并将两个方向的上下文信息进行整合,从而更全面地捕捉输入序列的关联和重要性,提高模型的表征能力。

本文档来自技高网...

【技术保护点】

1.基于多特征融合的抗混淆恶意代码分类方法,其特征在于,包括:

2.如权利要求1所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,提取.asm文件的操作码以及操作码的前两位十六进制数字,然后统计十六进制数字和操作码组成的结构所出现的频率,构建操作码结构有向图,对于每个操作码,将当前操作码作为源节点,下一个操作码作为目标节点,计算边的权重,权重是通过计算每个节点的接近中心性得到的,接近中心性用来衡量节点在其连通分量中到其它各点的最短距离的平均值。

3.如权利要求2所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,接近中心性的取值范围是[0,1],数值越大越靠近中心,对于每个节点,根据它的出边权重和目标节点的接近中心性,计算该节点的加权平均值,通过加权平均值,对节点进行排序,将具有高权重的节点排在前面。

4.如权利要求1所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,根据.bytes文件,将.bytes文件中每个8位二进制数转化为对应的10进制整数,然后,根据的.bytes文件大小确定行宽,并将整个向量转换成二维数组,将二维数组中的每个元素作为图像的灰度值,将整个二维数组映射为灰度图像。

5.如权利要求4所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,对所述灰度图像利用Lanczos插值算法进行缩放到设定的尺寸大小。

6.如权利要求1所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,对于获取的加权平均值,并利用改进的CNN模型对加权平均值进行特征提取,将每类恶意代码中的加权平均值进行提取,获取每一类恶意代码中的第一特征表示。

7.如权利要求1所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,对于获取的灰度图像,并利用改进的CNN模型对灰度图像进行特征提取,将每类恶意代码中的灰度图像进行提取,获取每一类恶意代码中的作为第二特征表示。

8.如权利要求1所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,将第一特征表示和第二特征表示进行连接,生成多特征融合特征表示,并输入至引入双向注意力机制的Bi-LSTM模型中,Bi-LSTM模型由两个Bi-LSTM层组成,包括一个前向的Bi-LSTM层和后向的Bi-LSTM层,将多特征融合特征表示按照正序和逆序输入到这两个Bi-LSTM中,得到它们的隐藏状态,前向 Bi-LSTM从序列的开始处开始学习并捕获序列中的上下文信息,而后向 Bi-LSTM从序列的末尾处开始学习并捕获序列中的上下文信息。

9.如权利要求8所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,对于前向Bi-LSTM的隐藏状态和后向Bi-LSTM的隐藏状态,分别计算注意力权重,根据注意力权重,将前向Bi-LSTM的隐藏状态和后向Bi-LSTM的隐藏状态进行加权求和,得到前向上下文向量和后向上下文向量,最后将前向上下文向量和后向上下文向量进行拼接得到最终的双向上下文向量,将最终的双向上下文向量输入到softmax函数中进行分类,得到恶意代码分类结果。

10.基于多特征融合的抗混淆恶意代码分类系统,其特征在于,包括:

...

【技术特征摘要】

1.基于多特征融合的抗混淆恶意代码分类方法,其特征在于,包括:

2.如权利要求1所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,提取.asm文件的操作码以及操作码的前两位十六进制数字,然后统计十六进制数字和操作码组成的结构所出现的频率,构建操作码结构有向图,对于每个操作码,将当前操作码作为源节点,下一个操作码作为目标节点,计算边的权重,权重是通过计算每个节点的接近中心性得到的,接近中心性用来衡量节点在其连通分量中到其它各点的最短距离的平均值。

3.如权利要求2所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,接近中心性的取值范围是[0,1],数值越大越靠近中心,对于每个节点,根据它的出边权重和目标节点的接近中心性,计算该节点的加权平均值,通过加权平均值,对节点进行排序,将具有高权重的节点排在前面。

4.如权利要求1所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,根据.bytes文件,将.bytes文件中每个8位二进制数转化为对应的10进制整数,然后,根据的.bytes文件大小确定行宽,并将整个向量转换成二维数组,将二维数组中的每个元素作为图像的灰度值,将整个二维数组映射为灰度图像。

5.如权利要求4所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,对所述灰度图像利用lanczos插值算法进行缩放到设定的尺寸大小。

6.如权利要求1所述的基于多特征融合的抗混淆恶意代码分类方法,其特征在于,对于获取的加权平均值,并利用改进的cnn模型对加权平均值进行特...

【专利技术属性】
技术研发人员:赵大伟孙晨宇杨淑棉徐丽娟李鑫于福强杨永琪
申请(专利权)人:山东省计算中心国家超级计算济南中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1