样本构建方法、装置、设备以及存储介质制造方法及图纸

技术编号:39037842 阅读:14 留言:0更新日期:2023-10-10 11:50
本申请实施例公开了一种样本构建方法、装置、设备以及存储介质,可适用于计算机技术领域。该方法包括:确定多个初始特征组合,每个初始特征组合包括预设特征集合中第一数量的进程行为特征,任意两个初始特征组合不相同;从各初始特征组合中确定出符合预设风险条件的第一特征组合;根据每个第一特征组合的目标特征广度从各第一特征组合中确定出风险样本;每个目标特征广度用于表征与对应第一特征组合关联的对象主体的数量;风险样本用于训练风险预测模型,风险预测模型用于预测特征组合的风险情况。采用本申请实施例,可全面构建用于风险预测模型训练的风险样本,适用性高。适用性高。适用性高。

【技术实现步骤摘要】
样本构建方法、装置、设备以及存储介质


[0001]本申请涉及人工智能领域,尤其涉及一种样本构建方法、装置、设备以及存储介质。

技术介绍

[0002]在系统平台的自动化运营过程中,需要通过风险预测模型来预测不同进程行为特征所组成的特征组合的风险情况,以保证系统平台的安全运行。
[0003]现有技术中,用于训练风险预测模型的训练样本往往来源于已知的高级风险样本,由于样本量不足,模型很难学习到所有的特征组合,导致模型预测效果较差。简单的将各种进程行为特征自由组合很难确定其是否为真实存在,不能直接用于模型训练。
[0004]基于此,如何全面有效地构建风险样本成为亟需解决的问题。

技术实现思路

[0005]本申请实施例提供一种样本构建方法、装置、设备以及存储介质,可全面构建用于风险预测模型训练的风险样本,适用性高。
[0006]一方面,本申请实施例提供一种样本构建方法,该方法包括:确定多个初始特征组合,每个上述初始特征组合包括预设特征集合中第一数量的进程行为特征,且任意两个上述初始特征组合不相同;从各上述初始特征组合中确定出符合预设风险条件的第一特征组合;确定每个上述第一特征组合的目标特征广度,根据每个上述第一特征组合的目标特征广度从各上述第一特征组合中确定出风险样本;其中,每个上述目标特征广度用于表征与对应第一特征组合关联的对象主体的数量,每个上述对象主体用于表征以下至少一项:一个设备以及该设备运行的一个进程;一个设备以及该设备运行的一个进程树;其中,上述风险样本用于训练风险预测模型,上述风险预测模型用于预测特征组合的风险情况。
[0007]另一方面,本申请实施例提供了一种样本构建装置,该装置包括:特征处理模块,用于确定多个初始特征组合,每个上述初始特征组合包括预设特征集合中第一数量的进程行为特征,且任意两个上述初始特征组合不相同;组合筛选模块,用于从各上述初始特征组合中确定出符合预设风险条件的第一特征组合;样本确定模块,用于确定每个上述第一特征组合的目标特征广度,根据每个上述第一特征组合的目标特征广度从各上述第一特征组合中确定出风险样本;其中,每个上述目标特征广度用于表征与对应第一特征组合关联的对象主体的数量,每个上述对象主体用于表征以下至少一项:
一个设备以及该设备运行的一个进程;一个设备以及该设备运行的一个进程树;其中,上述风险样本用于训练风险预测模型,上述风险预测模型用于预测特征组合的风险情况。
[0008]另一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,该处理器和存储器相互连接;上述存储器用于存储计算机程序;上述处理器用于在调用上述计算机程序时,执行本申请实施例提供的样本构建方法。
[0009]另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行以实现本申请实施例提供的样本构建方法。
[0010]另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,上述计算机程序被处理器执行时实现本申请实施例提供的样本构建方法。
[0011]在本申请实施例中,通过将预设特征集合内的进程行为特征以第一数量进行组合得到多个初始特征组合,可使得符合预设风险条件的第一特征组合可以覆盖多种进程行为特征的组合方式,有利于发现未知且符合预设风险条件的第一特征组合。进一步地,每个第一特征组合的目标特征广度用于表征与该第一特征组合关联的不同对象主体的数量,从而可确定出现每个第一特征组合内所有进程行为特征的主体对象的范围,并以此为基础从第一特征组合中筛选出的风险样本更符合风险特征,进而可提升风险预测模型的训练效果。
附图说明
[0012]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1是本申请实施例提供的样本构建方法的场景示意图;图2是本申请实施例提供的样本构建方法的流程示意图;图3是本申请实施例提供的确定初始特征组合的场景示意图;图4是本申请实施例提供的确定初始特征组合的场景还示意图;图5是本申请实施提供的确定第二特征组合的场景示意图;图6是本申请实施例提供的特征组合存储形式的场景示意图;图7是本申请实施例提供的确定目标特征广度的流程框架示意图;图8是本申请实施例提供的行为特征日志处理的流程框架示意图;图9是本申请实施例提供的样本构建装置的结构示意图;图10是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0014]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0015]本申请实施例提供的样本构建方法可适用于计算机
,可构建用于模型训练的风险样本,以得到可以预测特征组合风险情况的风险预测模型。
[0016]本申请实施例提供的风险样本构建方法可应用于安全运营中心(Security Operations Center,SOC)、运维管理平台、分布式系统以及其他多设备联合运行的相关场景,在此不做限制。
[0017]参见图1,图1是本申请实施例提供的样本构建方法的场景示意图。如图1所示,在构建风险样本之前,可先确定多个初始特征组合,每个初始特征组合包括预设特征集合中第一数量的进程行为特征,任意两个初始特征组合不相同。
[0018]也即,在构建风险样本之前,每次可从预设特征集合内的选择第一数量的进程行为特征作为一个初始特征组合,并且任意两次从预设特征集合内选择的进程行为特征不完全相同。
[0019]基于上述实现方式可确定出多个互不相同的初始特征组合。
[0020]进一步地,可从确定出的初始特征组合中确定出符合预设风险条件的第一特征组合,并确定每个第一特征组合的目标特征广度。
[0021]其中,每个目标特征广度用于表征与对应第一特征组合关联的不同对象主体的数量,每个对象主体用于表征以下至少一项:一个设备以及该设备运行的一个进程;一个设备以及该设备运行的一个进程树。
[0022]基于此,可基于各第一特征组合对应的目标特征广度,从各第一特征组合中筛选出最终的风险样本。
[0023]其中,本申请实施例中的风险样本用于训练风险预测模型,训练得到的风险预测模型可用于预测特征组合的风险情况。
[0024]其中,本申请实施例提供的样本构建方法可通过设备100实现,也可以基于分布式网络中的各个设备实现,具体可基于实际应用场景需求确定,在此不做限制。
[0025]其中,设备100可以是应用于安全运营中心(Security Operations Center,S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本构建方法,其特征在于,所述方法包括:确定多个初始特征组合,每个所述初始特征组合包括预设特征集合中第一数量的进程行为特征,且任意两个所述初始特征组合不相同;从各所述初始特征组合中确定出符合预设风险条件的第一特征组合;确定每个所述第一特征组合的目标特征广度,根据每个所述第一特征组合的目标特征广度从各所述第一特征组合中确定出风险样本;其中,每个所述目标特征广度用于表征与对应第一特征组合关联的对象主体的数量,每个所述对象主体用于表征以下至少一项:一个设备以及该设备运行的一个进程;一个设备以及该设备运行的一个进程树;其中,所述风险样本用于训练风险预测模型,所述风险预测模型用于预测特征组合的风险情况。2.根据权利要求1所述的方法,其特征在于,所述确定多个初始特征组合,包括:确定第二数量的特征生成程序,其中,每个所述特征生成程序用于基于所述预设特征集合生成初始特征组合;确定每个所述特征生成程序对应的特征分布条件;其中,每个所述特征分布条件用于表示每个预设进程行为特征在相应特征生成程序生成的初始特征组合内的特征存在状态,任意两个所述特征分布条件表示不同的特征存在状态,每个所述预设进程行为特征属于所述预设特征集合;根据每个所述特征生成程序生成符合相应特征分布条件的初始特征组合。3.根据权利要求1所述的方法,其特征在于,所述从各所述初始特征组合中确定出符合预设风险条件的第一特征组合,包括以下至少一项:确定每个所述初始特征组合的组合类型,将组合类型属于预设组合类型的初始特征组合确定为符合预设风险条件的第一特征组合;确定每个所述初始特征组合的风险系数,将风险系数高于系数阈值的初始特征组合确定为符合预设风险条件的第一特征组合。4.根据权利要求1所述的方法,其特征在于,对于每个所述第一特征组合,确定该第一特征组合对应的目标特征广度,包括:确定第一特征集合,所述第一特征集合包括每个对象主体对应的至少一个第二特征组合;每个对象主体的每个所述第二特征组合包括所述预设特征集合中的至少一个进程行为特征,且每个对象主体对应的任意两个所述第二特征组合不相同;从第一特征集合中确定出包括该第一特征组合内的所有进程行为特征的目标特征组合,将每个所述目标特征组合对应的对象主体确定为与该第一特征组合关联的对象主体;根据与该第一特征组合关联的不同对象主体的数量,确定该第一特征组合的目标特征广度。5.根据权利要求4所述的方法,其特征在于,确定每个对象主体对应的第二特征组合,包括:确定每个对象主体的行为特征日志,每个所述行为特征日志用于指示对应对象主体在预设历史时间段内产生的所有属于所述预设特征集合的进程行为特征;
确定每个所述行为特征日志所指示的进程行为特征的第三数量;对于每个所述行为特征日志,根据该行为特征日志对应的第三数量,生成第二特征组合。6.根据权利要求5所述的方法,其特征在于,对于每个所述行为特征日志,...

【专利技术属性】
技术研发人员:赵云皓
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1