System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及网络安全,具体而言,涉及一种恶意代码同源检测方法、装置、设备及存储介质。
技术介绍
1、随着互联网和数字技术的普及,恶意代码是网络安全领域中的一个持续存在的问题。对于恶意代码的检测有各种各样的方法,随着恶意代码的日益变化和演进,传统的基于签名或是基于行为的检测技术已经难以识别复杂多变的恶意代码。基于图像分类的识别技术是一种较为先进的恶意代码同源分析方法,其核心思想是将待测代码转化为图像形式,然后应用图像处理和机器学习技术进行分析和分类。
2、目前,基于图像分类的恶意代码检测技术高度依赖于已有的标注数据,对于大量未标注的数据缺乏特征学习能力,导致无法对恶意代码进行有效的同源分析,因此恶意代码同源检测的灵活性不高。
技术实现思路
1、本申请实施例的目的在于提供一种恶意代码同源检测方法、装置、设备及存储介质,用以提高基于图像分类技术的恶意代码同源检测的灵活性。
2、第一方面,本申请实施例提供了一种恶意代码同源检测方法,包括:
3、获取待检测恶意代码,并将所述待检测恶意代码转化为待检测图像;
4、将所述待检测图像输入至预先训练好的特征提取模型,得到所述特征提取模型输出的对应于所述待检测图像的图像特征;其中,所述特征提取模型为基于预设的恶意代码数据集通过自监督学习的方式进行训练得到;
5、利用预设的分类模型对所述图像特征进行分类,得到对应于所述待检测恶意代码的同源检测结果。
6、在本申请实施例中,通过基于自监督
7、在一些可能的实施例中,所述特征提取模型的训练过程包括:
8、从所述恶意代码数据集中加载恶意代码图像样本;
9、基于预设的掩码策略对所述恶意代码图像样本进行掩码处理;
10、利用经过掩码处理的恶意代码图像样本对预先构建的自监督学习模型进行训练,得到所述特征提取模型。
11、在本申请实施例中,通过对恶意代码图像样本进行掩码处理,能够提高训练模型的特征提取能力,从而提取得到恶意代码样本更深层的特征信息,提高了基于图像分类技术的恶意代码同源检测的灵活性。
12、在一些可能的实施例中,所述利用经过掩码处理的恶意代码图像样本对预先构建的自监督学习模型进行训练,得到所述特征提取模型,包括:
13、将经过掩码处理的恶意代码图像样本输入至预先构建的自监督学习模型,以使所述自监督学习模型的编码器学习并输出相应的特征信息;
14、利用所述自监督学习模型的解码器基于所述编码器输出的特征信息进行样本重构得到解码图像样本;
15、基于预设的损失函数确定所述解码图像样本与相应的恶意代码图像样本的损失指标,以所述损失指标最小化为目标对所述自监督学习模型进行训练;
16、当对所述自监督学习模型的训练过程达到预设的训练完成条件时,得到所述特征提取模型。
17、在本申请实施例中,通过利用编码器学习和提取的特征信息进行重构为解码图像样本,并最小化重构图像与原始图像的损失进行模型训练,从而进一步提高了恶意代码同源检测的灵活性。
18、在一些可能的实施例中,所述当对所述自监督学习模型的训练过程达到预设的训练完成条件时,得到所述特征提取模型,具体为:
19、当对所述自监督学习模型的训练过程达到预设的训练完成条件时,将训练得到的自监督学习模型的编码器作为所述特征提取模型。
20、在本申请实施例中,通过直接采用训练好的自监督学习模型的编码器部分作为特征提取模型,从而简化了对恶意代码样本的特征提取过程,进一步提高恶意代码同源检测的灵活性。
21、在一些可能的实施例中,所述预设的损失函数包括像素损失、感知损失和对抗损失的至少一种;所述基于预设的损失函数确定所述解码图像样本与相应的恶意代码图像样本的损失指标,包括:
22、基于预设的至少一种损失函数及其对应的超参数确定所述解码图像样本与相应的恶意代码图像样本的损失指标。
23、在本申请实施例中,通过综合多种损失函数来确定训练损失指标,能够提高模型学习及提取特征的效果,从而进一步提高恶意代码同源检测的准确性。
24、在一些可能的实施例中,所述利用预设的分类模型对所述图像特征进行分类,得到对应于所述待检测恶意代码的同源检测结果,包括:
25、利用预设的多类支持向量机基于已知的恶意代码家族信息对所述图像特征进行分类,确定所述待检测恶意代码是否属于已知的恶意代码家族;
26、当判断所述待检测恶意代码不属于已知的恶意代码家族时,则利用所述多类支持向量机基于预先收集的待分类代码样本对所述图像特征进行分类,得到所述待检测恶意代码相对于所述待分类代码样本的同源检测结果。
27、在本申请实施例中,通过首先基于已知的恶意代码家族对待检测恶意代码进行同源检测,当其不属于已知恶意代码家族时再检测是否与其他代码样本同源,从而进一步提高恶意代码同源检测的灵活性。
28、在一些可能的实施例中,在所述获取待检测恶意代码,并将所述待检测恶意代码转化为待检测图像之后,在所述将所述待检测图像输入至预先训练好的特征提取模型之前,还包括:
29、基于预设的图像尺寸对转化得到的待检测图像进行缩放,得到尺寸统一的待检测图像。
30、在本申请实施例中,通过对待检测图像转换为统一尺寸大小的图像,提高了模型的计算效率,从而进一步提高恶意代码同源检测的灵活性。
31、第二方面,本申请实施例提供了一种恶意代码同源检测装置,包括:
32、图像转换模块,用于获取待检测恶意代码,并将所述待检测恶意代码转化为待检测图像;
33、特征提取模块,用于将所述待检测图像输入至预先训练好的特征提取模型,得到所述特征提取模型输出的对应于所述待检测图像的图像特征;其中,所述特征提取模型为基于预设的恶意代码数据集通过自监督学习的方式进行训练得到;
34、同源检测模块,用于利用预设的分类模型对所述图像特征进行分类,得到对应于所述待检测恶意代码的同源检测结果。
35、第三方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时可实现第一方面任一实施例所述的方法。
36、第四方面,本申请实施例提供了一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现第一方面任一实施例所述的方法。
37、第五方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现第一方面任一实施例所述的方法。
...【技术保护点】
1.一种恶意代码同源检测方法,其特征在于,包括:
2.根据权利要求1所述的恶意代码同源检测方法,其特征在于,所述特征提取模型的训练过程包括:
3.根据权利要求2所述的恶意代码同源检测方法,其特征在于,所述利用经过掩码处理的恶意代码图像样本对预先构建的自监督学习模型进行训练,得到所述特征提取模型,包括:
4.根据权利要求3所述的恶意代码同源检测方法,其特征在于,所述当对所述自监督学习模型的训练过程达到预设的训练完成条件时,得到所述特征提取模型,具体为:
5.根据权利要求3所述的恶意代码同源检测方法,其特征在于,所述预设的损失函数包括像素损失、感知损失和对抗损失的至少一种;所述基于预设的损失函数确定所述解码图像样本与相应的恶意代码图像样本的损失指标,包括:
6.根据权利要求1所述的恶意代码同源检测方法,其特征在于,所述利用预设的分类模型对所述图像特征进行分类,得到对应于所述待检测恶意代码的同源检测结果,包括:
7.根据权利要求1所述的恶意代码同源检测方法,其特征在于,在所述获取待检测恶意代码,并将所述待检测恶意代
8.一种恶意代码同源检测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现权利要求1-7任一所述的恶意代码同源检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一所述的恶意代码同源检测方法。
...【技术特征摘要】
1.一种恶意代码同源检测方法,其特征在于,包括:
2.根据权利要求1所述的恶意代码同源检测方法,其特征在于,所述特征提取模型的训练过程包括:
3.根据权利要求2所述的恶意代码同源检测方法,其特征在于,所述利用经过掩码处理的恶意代码图像样本对预先构建的自监督学习模型进行训练,得到所述特征提取模型,包括:
4.根据权利要求3所述的恶意代码同源检测方法,其特征在于,所述当对所述自监督学习模型的训练过程达到预设的训练完成条件时,得到所述特征提取模型,具体为:
5.根据权利要求3所述的恶意代码同源检测方法,其特征在于,所述预设的损失函数包括像素损失、感知损失和对抗损失的至少一种;所述基于预设的损失函数确定所述解码图像样本与相应的恶意代码图像样本的损失指标,包括:
6.根据权利要求1所述的恶意代码同源检测方...
【专利技术属性】
技术研发人员:吴畑,安晓宁,
申请(专利权)人:北京天融信网络安全技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。