恶意软件识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37152459 阅读:12 留言:0更新日期:2023-04-06 22:10
本申请实施例提供恶意软件识别方法、装置、电子设备和存储介质,其中,方法包括:运行待分析软件,获取待分析软件在运行时调用的应用程序接口序列;确定所述应用程序接口序列的权重值;基于所述应用程序接口序列的权重值构建可视化图像;将所述可视化图像输入到预先训练好的分类模型,得到所述待分析软件的恶意软件分析结果。实施上述实施例,能够最大化保留有用信息,提高恶意软件识别精度。提高恶意软件识别精度。提高恶意软件识别精度。

【技术实现步骤摘要】
恶意软件识别方法、装置、电子设备和存储介质


[0001]本申请涉及网络与信息安全
,具体而言,涉及恶意软件识别方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网的急速发展,恶意程序也在不断地发展,根据恶意软件不同的行为特征可以分为病毒、蠕虫、特洛伊木马、间谍软件、勒索软件等。不同的恶意软件的传播方式、所需的处置方式都不相同,各种恶意软件随着网络的普及,已经沦为不法分子的盈利工具及武器。一旦遭受到恶意攻击,有时候会造成巨大的损失。
[0003]当前,恶意软件识别与分类研究主要分为静态检测与动态检测。静态检测主要是通过样本的字节码、汇编码、文件结构等进行分析,但是恶意软件经过加壳、加密等变形技术处理后,其文件结构等都将发生巨大变化,设置找不到程序入口点进行后续分析。在静态分析难以奏效的时候,大部分研究者采用动态分析进行,提取动态行为特征,建立特征库,非常依赖研究者的手动特征经验,无法适用于大规模恶意软件样本。随着深度学习技术的发展,图像识别、语音识别、文字翻译中的优秀表现,基于恶意软件图像和深度学习的分类成为一个重要的研究方向。省去传统分析中大量的特征工程工作,但是,现在的基于恶意软件图像与深度学习分类的方法,是直接将样本的二进制字节转换为灰度图像,使用深度学习神经网络进行训练的时候需要对图像进行处理,保持统一大小,恶意软件样本的大小各异,一般采用截断或者缩放的方式进行处理,这种处理方式原始的二进制信息在处理过程中会存在缺失,对恶意软件分类的准确率会有一定影响。另外,不是所有二进制字节都对恶意样本的分类有帮助,直接将二进制转换为灰度图的时候会存在大量的冗余信息,造成模型误判,且需要大量已标记的数据进行训练,因此,当前的恶意软件检测技术仍然存在很多不足。

技术实现思路

[0004]有鉴于此,本申请实施例的目的在于提供一种恶意软件识别方法,避免对文件结果进行破坏,不需要对图像进行裁剪,避免保留大量的冗余信息,最大化地保留有用信息,提高识别的精度。
[0005]第一方面,本申请实施例提供了一种恶意软件识别方法,包括:
[0006]运行待分析软件,获取待分析软件在运行时调用的应用程序接口序列;
[0007]确定所述应用程序接口序列的权重值;
[0008]基于所述应用程序接口序列的权重值构建可视化图像;
[0009]将所述可视化图像输入到预先训练好的分类模型,得到所述待分析软件的恶意软件分析结果。
[0010]在上述实现过程中,获取待分析软件在运行时调用得到应用软件接口序列,不是直接基于恶意软件本身的结构进行分析,避免对恶意软件本身的结构进行破坏,也不是直
接基于二进制字节文件生成灰度图像,因此,生成的可视化图像不会存在大量的冗余信息,造成模型误判。从权重值这个角度出发,发现恶意软件调用的不同应用程序接口在一定程度上代表了恶意软件的恶意行为,也体现了恶意软件的共性行为。基于上述实施方式,能够最大化保留有用信息,提高恶意软件识别精度。
[0011]进一步地,所述确定所述应用程序接口序列的权重值的步骤,包括:
[0012]获取所述应用程序接口序列对应的文本;
[0013]将所述接口序列对应的文本进行向量化,得到第一矩阵;
[0014]将所述第一矩阵输入到多个相互连接的基于自注意力机制的编码器,得到所述应用程序接口序列对应的第一权重矩阵,所述权重矩阵的元素为所述应用程序接口序列的权重值。
[0015]进一步地,所述基于自注意力机制的编码器的训练步骤,包括:
[0016]将训练样本进行向量化,得到第二矩阵;
[0017]将所述第二矩阵的输入到所述基于自注意力机制的编码器,得到所述训练样本对应的第二权重矩阵;
[0018]将所述第二权重矩阵输入到多个全连接层,得到输出矩阵;
[0019]根据所述输出矩阵和所述第二矩阵获取交叉熵;
[0020]根据所述交叉熵对所述基于自注意力机制的编码器进行训练,得到训练后的基于自注意力机制的编码器。
[0021]进一步地,所述分基于所述应用程序接口序列的权重值构建可视化图像的步骤,包括:
[0022]生成所述应用程序接口序列的文本图像;
[0023]在所述文本图像中为所述应用程序接口序列中的权重值对应的文本添加颜色。
[0024]进一步地,所述运行待分析软件,获取待分析软件在运行时调用的应用程序接口序列的步骤,包括:
[0025]将所述待分析软件在虚拟操作系统环境中运行;
[0026]获取所述待分析软件在所述虚拟操作系统环境中调用的多个应用程序接口、所述多个应用程序接口的调用顺序;
[0027]根据所述多个应用程序接口、所述多个应用程序接口的调用顺序生成所述应用程序接口序列。
[0028]进一步地,所述获取待分析软件在运行时调用的应用程序接口序列的步骤之后,还包括:
[0029]对所述应用程序接口序列中的多个应用程序接口进行去重处理。
[0030]进一步地,所述预先训练好的分类模型包括:依次连接的13个卷积层和3个全连接层。
[0031]第二方面,本申请实施例提供一种恶意软件识别装置,包括:
[0032]运行模块,用于运行待分析软件,获取待分析软件在运行时调用的应用程序接口序列;
[0033]权重值获取模块,用于确定所述应用程序接口序列的权重值;
[0034]可视化图像构建模块,用于基于所述应用程序接口序列的权重值构建可视化图
像;
[0035]分析模块,用于将所述可视化图像输入到预先训练好的分类模型,得到所述待分析软件的恶意软件分析结果。
[0036]第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
[0037]第四方面,本申请实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
[0038]本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
[0039]为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0040]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0041]图1为本申请实施例提供的恶意软件识别方法的流程示意图;
[0042]图2为本申请实施例提供的编码器对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种恶意软件识别方法,其特征在于,包括:运行待分析软件,获取待分析软件在运行时调用的应用程序接口序列;确定所述应用程序接口序列的权重值;基于所述应用程序接口序列的权重值构建可视化图像;将所述可视化图像输入到预先训练好的分类模型,得到所述待分析软件的恶意软件分析结果。2.根据权利要求1所述的恶意软件识别方法,其特征在于,所述确定所述应用程序接口序列的权重值的步骤,包括:获取所述应用程序接口序列对应的文本;将所述接口序列对应的文本进行向量化,得到第一矩阵;将所述第一矩阵输入到多个相互连接的基于自注意力机制的编码器,得到所述应用程序接口序列对应的第一权重矩阵,所述权重矩阵的元素为所述应用程序接口序列的权重值。3.根据权利要求2所述的恶意软件识别方法,其特征在于,所述基于自注意力机制的编码器的训练步骤,包括:将训练样本进行向量化,得到第二矩阵;将所述第二矩阵的输入到所述基于自注意力机制的编码器,得到所述训练样本对应的第二权重矩阵;将所述第二权重矩阵输入到多个全连接层,得到输出矩阵;根据所述输出矩阵和所述第二矩阵获取交叉熵;根据所述交叉熵对所述基于自注意力机制的编码器进行训练,得到训练后的基于自注意力机制的编码器。4.根据权利要求1所述的恶意软件识别方法,其特征在于,所述分基于所述应用程序接口序列的权重值构建可视化图像的步骤,包括:生成所述应用程序接口序列的文本图像;在所述文本图像中为所述应用程序接口序列中的权重值对应的文本添加颜色。5.根据权利要求1所述的恶意软件识别方法,其特征在于,所述运行待分析软件,获取待分析软...

【专利技术属性】
技术研发人员:苏香艳
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1