恶意程序检测模型的更新方法、装置、设备及介质制造方法及图纸

技术编号:35143727 阅读:13 留言:0更新日期:2022-10-05 10:20
本公开涉及恶意程序检测模型的更新方法、装置、设备及介质,该方法包括:通过恶意程序检测模型检测目标程序样本为恶意程序的概率值;在概率值低于预设概率阈值的情况下,将目标程序样本对应的API序列添加至训练集;训练集中的API序列样本包括目标程序样本和预先存在的多组恶意程序样本各自对应的API序列;使用密度聚类算法对训练集中的API序列样本进行聚类,并对每一类进行样本抽取,得到验证集;基于训练集和验证集对恶意程序检测模型进行训练更新。本公开能够在保证模型性能的同时节省人力消耗、空间消耗。空间消耗。空间消耗。

【技术实现步骤摘要】
恶意程序检测模型的更新方法、装置、设备及介质


[0001]本公开涉及计算机
,尤其涉及恶意程序检测模型的更新方法、装置、设备及介质。

技术介绍

[0002]随着互联网的急速发展,恶意程序也在不断地发展。动态检测是针对恶意程序的一种主要检测方法,是基于恶意程序运行过程中的行为进行研究,通过对已知的恶意程序行为进行学习,找出规律,从而可以识别新的恶意程序。通过机器学习方法进行学习检测是恶意程序检测的重要方式,随着恶意程序的不断更新,模型对于恶意程序的检测性能会下降,老旧的模型满足不了新的检测需求,如果想要模型适应新的恶意程序,则需要使用包括新样本和老样本在内的全部数据集,从头训练一个新的模型版本。使用全部的数据重新训练会消耗大量的时间和计算资源,如果数据量巨大,甚至无法使用批量学习算法。

技术实现思路

[0003]为了解决上述技术问题,本公开提供了一种恶意程序检测模型的更新方法、装置、设备及介质。
[0004]本公开提供了一种恶意程序检测模型的更新方法,包括:
[0005]通过恶意程序检测模型检测目标程序样本为恶意程序的概率值;
[0006]在所述概率值低于预设概率阈值的情况下,将所述目标程序样本对应的API序列添加至训练集;所述训练集中的API序列样本包括所述目标程序样本和预先存在的多组恶意程序样本各自对应的API序列;
[0007]使用密度聚类算法对所述训练集中的API序列样本进行聚类,并对每一类进行样本抽取,得到验证集;
[0008]基于所述训练集和所述验证集对所述恶意程序检测模型进行训练更新。
[0009]可选的,所述通过恶意程序检测模型检测目标程序样本为恶意程序的概率值,包括:
[0010]提取目标程序样本在运行过程中的动态行为API序列;
[0011]对所述动态行为API序列进行MD5编码和向量化处理,得到目标样本向量;
[0012]将所述目标样本向量输入至恶意程序检测模型进行检测,得到所述目标程序样本为恶意程序的概率值。
[0013]可选的,所述提取目标程序样本在运行过程中的动态行为API序列,包括:
[0014]在预设的虚拟操作系统环境中运行目标程序样本;
[0015]提取所述目标程序样本在运行过程中产生的动态行为日志;
[0016]从所述动态行为日志中提取动态行为API序列。
[0017]可选的,所述从所述动态行为日志中提取动态行为API序列,包括:
[0018]从所述动态行为日志中提取初始API序列;
[0019]对所述初始API序列进行剪枝和去重操作,得到最终的动态行为API序列。
[0020]可选的,当初次模型训练时,所述基于所述训练集和所述验证集对所述恶意程序检测模型进行训练更新,包括:
[0021]根据预先训练好的初始API词库对所述训练集中的API序列样本进行向量化,得到第一训练样本向量;
[0022]根据所述初始API词库对所述验证集中的API序列样本进行向量化,得到第一验证样本向量;
[0023]基于所述第一训练样本向量和所述第一验证样本向量对预设的文本卷积神经网络进行训练;
[0024]将训练好的文本卷积神经网络作为所述恶意程序检测模型。
[0025]可选的,当非初次模型训练时,所述基于所述训练集和所述验证集对所述恶意程序检测模型进行训练更新,包括:
[0026]分别基于所述训练集和所述验证集得到对应的第二训练样本向量和第二验证样本向量;
[0027]基于所述第二训练样本向量对第一恶意程序检测模型进行训练,得到第二恶意程序检测模型;其中,所述第一恶意程序检测模型是上一次模型训练后得到的模型;
[0028]基于所述第二验证样本向量验证所述第二恶意程序检测模型的模型性能是否提升;
[0029]如果是,则将所述第二恶意程序检测模型更新为新的恶意程序检测模型,并从预设的缓冲空间中删除所述第一恶意程序检测模型;
[0030]如果否,则从所述缓冲空间中回滚至所述第一恶意程序检测模型。
[0031]可选的,所述分别基于所述训练集和所述验证集得到对应的第二训练样本向量和第二验证样本向量,包括:
[0032]对第一API词库进行更新,得到第二API词库;其中,所述第一API词库是上一次模型训练时得到的API词库;
[0033]根据主成分分析纵向降维算法对所述训练集中的API序列样本进行降维,生成API序列训练样本;
[0034]根据所述主成分分析纵向降维算法对所述验证集中的API序列样本进行降维,生成API序列验证样本;
[0035]分别对所述API序列训练样本和所述API序列验证样本进行向量化,得到各自对应的第二训练样本向量和第二验证样本向量。
[0036]本公开还提供了一种恶意程序检测模型的更新装置,包括:
[0037]程序检测模块,用于通过恶意程序检测模型检测目标程序样本为恶意程序的概率值;
[0038]训练集更新模块,用于在所述概率值低于预设概率阈值的情况下,将所述目标程序样本对应的API序列添加至训练集;所述训练集中的API序列样本包括所述目标程序样本和预先存在的多组恶意程序样本各自对应的API序列;
[0039]验证集更新模块,用于使用密度聚类算法对所述训练集中的API序列样本进行聚类,并对每一类进行样本抽取,得到验证集;
[0040]模型更新模块,用于基于所述训练集和所述验证集对所述恶意程序检测模型进行训练更新。
[0041]本公开还提供了一种电子设备,所述电子设备包括:
[0042]处理器;
[0043]用于存储所述处理器可执行指令的存储器;
[0044]所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述方法。
[0045]本公开还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述方法。
[0046]本公开实施例提供的技术方案与现有技术相比具有如下优点:
[0047]本公开实施例提供的恶意程序检测模型的更新方法、装置、设备及介质,包括:通过恶意程序检测模型检测目标程序样本为恶意程序的概率值;在概率值低于预设概率阈值的情况下,将目标程序样本对应的API序列添加至训练集;使用密度聚类算法对训练集中的API序列样本进行聚类,并对每一类进行样本抽取,得到验证集;基于训练集和验证集对恶意程序检测模型进行训练更新。本公开能够在保证模型性能的同时节省人力消耗、空间消耗。
附图说明
[0048]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0049]为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种恶意程序检测模型的更新方法,其特征在于,包括:通过恶意程序检测模型检测目标程序样本为恶意程序的概率值;在所述概率值低于预设概率阈值的情况下,将所述目标程序样本对应的API序列添加至训练集;所述训练集中的API序列样本包括所述目标程序样本和预先存在的多组恶意程序样本各自对应的API序列;使用密度聚类算法对所述训练集中的API序列样本进行聚类,并对每一类进行样本抽取,得到验证集;基于所述训练集和所述验证集对所述恶意程序检测模型进行训练更新。2.根据权利要求1所述的方法,其特征在于,所述通过恶意程序检测模型检测目标程序样本为恶意程序的概率值,包括:提取目标程序样本在运行过程中的动态行为API序列;对所述动态行为API序列进行MD5编码和向量化处理,得到目标样本向量;将所述目标样本向量输入至恶意程序检测模型进行检测,得到所述目标程序样本为恶意程序的概率值。3.根据权利要求2所述的方法,其特征在于,所述提取目标程序样本在运行过程中的动态行为API序列,包括:在预设的虚拟操作系统环境中运行目标程序样本;提取所述目标程序样本在运行过程中产生的动态行为日志;从所述动态行为日志中提取动态行为API序列。4.根据权利要求3所述的方法,其特征在于,所述从所述动态行为日志中提取动态行为API序列,包括:从所述动态行为日志中提取初始API序列;对所述初始API序列进行剪枝和去重操作,得到最终的动态行为API序列。5.根据权利要求1所述的方法,其特征在于,当初次模型训练时,所述基于所述训练集和所述验证集对所述恶意程序检测模型进行训练更新,包括:根据预先训练好的初始API词库对所述训练集中的API序列样本进行向量化,得到第一训练样本向量;根据所述初始API词库对所述验证集中的API序列样本进行向量化,得到第一验证样本向量;基于所述第一训练样本向量和所述第一验证样本向量对预设的文本卷积神经网络进行训练;将训练好的文本卷积神经网络作为所述恶意程序检测模型。6.根据权利要求1所述的方法,其特征在于,当非初次模型训练时,所述基于所述训练集和所述验证集对所述恶意程序检测模型进行训练更新,包括:分别基于所述训练集和所述验证集得到对应的第二训练样本向量和第二验证样本...

【专利技术属性】
技术研发人员:苏香艳
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1