模型训练方法、软件检测方法及装置制造方法及图纸

技术编号:38468929 阅读:26 留言:0更新日期:2023-08-11 14:45
本申请涉及网络安全技术领域,提供一种模型训练方法、软件检测方法及装置。所述方法包括:根据各类恶意软件的特征样本的数量,确定各类恶意软件的特征样本所属的预设类别组;根据与所述预设类别组对应的特征提取数量,从所述预设类别组中提取数量与所述特征提取数量一致的特征样本;根据从各所述预设类别组中提取到的特征样本进行模型训练,得到分类模型。本申请实施例提供的模型训练方法,能够提高分类模型对恶意软件的识别准确率。类模型对恶意软件的识别准确率。类模型对恶意软件的识别准确率。

【技术实现步骤摘要】
模型训练方法、软件检测方法及装置


[0001]本申请涉及网络安全
,具体涉及一种模型训练方法、软件检测方法及装置。

技术介绍

[0002]恶意软件是当今主要的互联网安全威胁之一。为实现恶意软件的识别,可通过将软件的特征数据输入分类模型来对特征数据进行识别,以根据特征数据的识别结果来判断该软件是否为某个类别的恶意软件。因此,恶意软件的识别准确率依赖于该分类模型。
[0003]相关技术中,对于进行软件检测的分类模型的训练,是将恶意软件的特征数据作为特征样本,然后通过将多种恶意软件的特征样本组成的样本集,输入到初始模型中进行训练以得到分类模型。然而,在实际情况中,不同种类的恶意软件呈现长尾分布,样本极不均衡,导致模型在面临更多类别的样本时分类能力下降,训练难度提升。同时,由于不同种类的恶意软件的样本不均衡,大部分种类的恶意软件的样本数量通常较少,因此在训练过程中,模型会偏向于样本数量较多的恶意软件类别,数量较少的恶意软件类别得不到充分的学习。虽然可采用降采样的方法使类别较少的样本被反复使用,但这种方式容易造成模型的过拟合,影响分类模型对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:根据各类恶意软件的特征样本的数量,确定各类恶意软件的特征样本所属的预设类别组;根据与所述预设类别组对应的特征提取数量,从所述预设类别组中提取数量与所述特征提取数量一致的特征样本;根据从各所述预设类别组中提取到的特征样本进行模型训练,得到分类模型。2.根据权利要求1所述的模型训练方法,其特征在于,根据从各所述预设类别组中提取到的特征样本进行模型训练,得到分类模型,包括:根据从各所述预设类别组中提取到的特征样本,得到由任意两个所述软件类别一致的所述特征样本构成的正样本对,以及得到由任意两个所述软件类别不一致的所述特征样本构成的负样本对;根据各所述正样本对以及各所述负样本对进行模型训练,得到所述分类模型。3.根据权利要求2所述的模型训练方法,其特征在于,所述得到由任意两个所述软件类别一致的所述特征样本构成的正样本对,包括:对从各所述预设类别组中各特征样本的类别进行随机采样,得到目标类别;对从各所述预设类别组中提取到的特征样本进行随机采样,得到软件类别为所述目标类别的任意两个的所述特征样本构成正样本对。4.根据权利要求3所述的模型训练方法,其特征在于,所述得到由任意两个所述软件类别不一致的所述特征样本构成的负样本对,包括:对从各所述预设类别组中各特征样本的类别进行随机采样,得到第一目标类别和与第一目标类别不一致的第二目标类别;对从各所述预设类别组中提取到的特征样本进行随机采样,得到软件类别为所述第一目标类别的所述特征样本,以及软件类别为所述第二目标类别的所述特征样本构成负样本对。5.根据权利要求2所述的模型训练方法,其特征在于,根据各所述正样本对以及各所述负样本对进行模型训练,得到所述分类模型,包括:将各所述正样本对以及各所述负样本对输入孪生网络模型进行对比训练,得到所述分类模型。6.根据权利要求2所述的模型训练方法,其特征在于,根据从各所述预设类别组中提取到的特征样本进行模型训练,得到分类模型,包括:将各所述正样本对以及各所述负样本对输入孪生网络模型进行对比训练,得到目标模型;对所述目标模型中的分类层进行替换操作,得到预设模型;根据从各所述预设类别组中提取到的特征样本,对所述预设模型进行训练,得到所述分类模型。7.根...

【专利技术属性】
技术研发人员:李亚康安晓宁
申请(专利权)人:北京天融信网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1