一种基于细粒度标注模型的恶意代码基因检测方法及装置制造方法及图纸

技术编号:39799674 阅读:10 留言:0更新日期:2023-12-22 02:30
本公开是关于一种基于细粒度标注模型的恶意代码基因检测方法及装置

【技术实现步骤摘要】
一种基于细粒度标注模型的恶意代码基因检测方法及装置


[0001]本公开涉及恶意代码基因检测领域,具体而言,涉及一种基于细粒度标注模型的恶意代码基因检测方法及装置


技术介绍

[0002]实际网络环境中的恶意代码自身会兼具多种恶意代码特征,而且多种恶意代码会通过一定的方式实现组合化

复杂化,增加破坏力

这样的恶意代码样本,往往包含一个或多个基因,例如某一个恶意代码可能既具有
Trojan
的特点,又具有
Virus
的特点,还有一些恶意代码兼具蠕虫和感染式恶意代码的特性,既能通过网络进行自我复制,又具有本地感染能力,即,同时具有通过网络进行自我复制能力和本地感染能力的恶意代码,这种情况下,仅仅通过计算整个恶意代码的相似性来判断其来源或同源性,无法得到准确结论

[0003]而现有技术的几种分类方法中:(1)现有将恶意代码转换成图像的方法,使用分类算法模型对恶意代码进行分类,通过分类结果判定恶意代码类型或家族来源

但都是对整个恶意代码样本转换成的图像直接进行分类,对具有多种基因的恶意代码直接判定为其中一个类别,没有对细粒度基因的检测识别,不能解决前面所描述的恶意代码基因复杂多样的问题

[0004](2)现有基于卷积神经网络的恶意代码图像分类方法中,由于卷积神经网络模型的输入尺寸固定,为了解决恶意代码大小不一,无法输入的问题,通常使用裁剪或补充的方法,将恶意代码图像裁剪成相同大小,或者补充无关像素将恶意代码图像变成相同大小,裁剪方法会使原始信息丢失,补充像素的方法会在原始信息中增加扰乱信息

[0005]因此,需要一种或多种方法解决上述问题

[0006]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息


技术实现思路

[0007]本公开的目的在于提供一种基于细粒度标注模型的恶意代码基因检测方法

装置

电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题

[0008]根据本公开的一个方面,提供一种基于细粒度标注模型的恶意代码基因检测方法,包括:基于二进制的字节流图像化编码技术,通过对恶意代码样本进行图像矢量映射,生成恶意代码矢量图像,通过预设图像处理方法对所述恶意代码矢量图像进行处理,生成恶意代码特征图像

[0009]通过设立滑动窗口对所述恶意代码特征图像进行切分,生成恶意代码特征图像小块集,基于所述恶意代码特征图像小块集的细粒度基因检测,对
Transformer
模型中的
encoder

decoder
结构进行构建,生成细粒度模型

[0010]基于恶意代码标签数据集,通过对所述细粒度模型进行训练,生成细粒度标注模型,基于所述细粒度标注模型,完成对恶意代码的基因检测

[0011]在本公开的一种示例性实施例中,所述方法还包括,基于二进制的字节流图像化编码技术,通过对二进制字节流进行信息提取,生成二进制字节流数值矩阵;基于二进制的字节流图像化编码技术,通过对字节结构化进行特征提取,生成字节结构化特征数值矩阵;基于二进制的字节流图像化编码技术,通过对二进制字节流进行噪音添加,生成噪音字节流数值矩阵;通过对所述二进制字节流数值矩阵

字节结构化特征数值矩阵

噪音字节流数值矩阵进行复合,生成恶意代码矢量图像

[0012]在本公开的一种示例性实施例中,所述方法还包括,通过预设图像处理方法对所述恶意代码矢量图像进行视觉突出处理,生成恶意代码视觉突出图像;基于小波与
Retinex
算法的图像增强处理方法,通过对所述恶意代码视觉突出图像进行特征预设增强处理,生成恶意代码特征图像

[0013]在本公开的一种示例性实施例中,所述方法还包括,基于恶意代码特征图像尺寸

预设恶意代码特征图像小块尺寸,对所述滑动窗口进行设置,生成滑动窗口步长;基于所述滑动窗口步长,将所述滑动窗口按照从左到右

从上到下在所述恶意代码特征图像上进行移动,生成恶意代码特征图像小块集

[0014]在本公开的一种示例性实施例中,所述方法还包括,基于
Transformer
模型,通过线性投射层将所述恶意代码特征图像小块集进行拉伸

投影变换,生成输入向量;通过在所述输入向量中添加位置信息编码

重叠信息编码,生成编码输入向量;基于
Transformer
模型,通过
Transformer
模型中的
Encoder
结构,通过对所述编码输入向量进行编码,生成编码输出向量

[0015]在本公开的一种示例性实施例中,所述方法还包括,基于
Transformer
模型,通过引入置信度向量

类别向量

位置向量对所述
Transformer
模型中
Decoder
结构进行设置,生成预测
Decoder
结构;基于所述预测
Decoder
结构,对所述编码输出向量进行解码,生成解码输出向量;通过多层感知神经网络,对所述解码输出向量进行分类,生成基因检测图像块,完成细粒度模型的构建

[0016]在本公开的一种示例性实施例中,所述方法还包括,通过恶意代码情报库渠道

网络收集渠道

自行捕获渠道,对恶意代码进行收集,生成恶意代码数据集;基于专家知识分析样本,通过对所述恶意代码数据集进行基因标注,生成所述恶意代码标签数据集;基于所述恶意代码标签数据集,对所述细粒度模型进行训练,生成所述细粒度标注模型

[0017]在本公开的一个方面,提供一种基于细粒度标注模型的恶意代码基因检测装置,包括:图像转换模块,用于对恶意代码样本进行预设处理,生成恶意代码特征图像;细粒度基因检测模块,用于通过滑动窗口将恶意代码特征图像分解成恶意代码特征图像小块集,对恶意代码特征图像小块集进行细粒度基因检测;训练模块,用于对所述细粒度基因检测模块进行训练

[0018]在本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理
器执行时实现根据上述任意一项所述的方法

[0019]在本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于细粒度标注模型的恶意代码基因检测方法,其特征在于,所述方法包括:基于二进制的字节流图像化编码技术,通过对恶意代码样本进行图像矢量映射,生成恶意代码矢量图像,通过预设图像处理方法对所述恶意代码矢量图像进行处理,生成恶意代码特征图像;通过设立滑动窗口对所述恶意代码特征图像进行切分,生成恶意代码特征图像小块集,基于所述恶意代码特征图像小块集的细粒度基因检测,通过对
Transformer
模型中的
encoder

decoder
结构进行构建,生成细粒度模型;基于恶意代码标签数据集,通过对所述细粒度模型进行训练,生成细粒度标注模型,基于所述细粒度标注模型,完成对恶意代码的基因检测
。2.
如权利要求1所述的基于细粒度标注模型的恶意代码基因检测方法,其特征在于,所述方法还包括:基于二进制的字节流图像化编码技术,通过对二进制字节流进行信息提取,生成二进制字节流数值矩阵;基于二进制的字节流图像化编码技术,通过对字节结构化进行特征提取,生成字节结构化特征数值矩阵;基于二进制的字节流图像化编码技术,通过对二进制字节流进行噪音添加,生成噪音字节流数值矩阵;通过对所述二进制字节流数值矩阵

字节结构化特征数值矩阵

噪音字节流数值矩阵进行复合,生成所述恶意代码矢量图像
。3.
如权利要求2所述的基于细粒度标注模型的恶意代码基因检测方法,其特征在于,所述方法还包括:通过预设图像处理方法对所述恶意代码矢量图像进行视觉突出处理,生成恶意代码视觉突出图像;基于小波与
Retinex
算法的图像增强处理方法,通过对所述恶意代码视觉突出图像进行特征预设增强处理,生成所述恶意代码特征图像
。4.
如权利要求1所述的基于细粒度标注模型的恶意代码基因检测方法,其特征在于,所述方法还包括:基于恶意代码特征图像尺寸

预设恶意代码特征图像小块尺寸,对所述滑动窗口进行设置,生成滑动窗口步长;基于所述滑动窗口步长,将所述滑动窗口按照从左到右

从上到下在所述恶意代码特征图像上进行移动,生成所述恶意代码特征图像小块集
。5.
如权利要求4所述的基于细粒度标注模型的恶意代码基因检测方法,其特征在于,所述方法还包括:基于
Transformer
模型,通过线性投射层将所述恶意代码...

【专利技术属性】
技术研发人员:黄娜任祥辉姜海
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1