一种模型训练方法、文件识别方法及电子装置制造方法及图纸

技术编号:27685954 阅读:23 留言:0更新日期:2021-03-17 03:56
本发明专利技术提供一种模型训练方法、文件识别方法及电子装置,所述模型训练方法包括:确定负样本及正样本,所述负样本由多个恶意文件形成,所述正样本由多个非恶意文件形成;确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,所述动态行为签名包括所述负样本或正样本被签名的动态行为信息;至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据;建立目标模型架构;基于所述训练数据训练所述目标模型架构,以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。基于本发明专利技术提供的模型训练方法使得训练出的模型能够自动进行文件识别,判断文件是否为恶意文件,提升了识别效率及准确率。

【技术实现步骤摘要】
一种模型训练方法、文件识别方法及电子装置
本专利技术实施例涉及计算机安全领域,特别涉及一种模型训练方法、文件识别方法及电子装置。
技术介绍
沙箱是一种安全机制,为运行中的程序提供隔离环境,通常是作为一些来源不可信、具破坏力或无法判定程序意图的程序提供实验之用。当待识别的文件被投递到沙箱后,文件将会被沙箱自动执行,与此同时,沙箱将记录及显示文件在虚拟环境中执行行为的日志,于是分析人员能够对上述行为日志进行分析,最终识别该文件是否属于恶意文件。使用机器学习模型,能够模拟分析人员对行为日志的分析过程,进而代替人工,实现恶意文件的自动识别。恶意文件和非恶意文件在沙箱中的行为存在较为明显的区别:恶意文件一般会在系统执行多种敏感行为,如通过注册表、系统服务、计划任务等建立自启动项,实现驻留,又如通过注入系统其他进程的方式躲避检测等;而非恶意文件一般不存在类似的敏感行为。当前,基于沙箱行为识别恶意文件多采用规则过滤的方式,如对指定的行为进行签名,并根据文件触发签名的次数或级别编写相关的规则,若符合该规则,则直接判定文件为恶意,该方式在国内外已有广泛应用。其过程包括:沙箱分析-行为签名收集-规则过滤-样本判定。但是当前对于网络签名,大部分采用触发规则个数或等级来设置相关阈值,此方法虽然具有一定的通用性,但存在以下两个缺陷:(1)相关阈值设置过高时,导致部分木马及恶意木马无法被检测,即漏报。(2)相关阈值设置过低时,导致大批非恶意文件被识别为恶意文件,即误报。(3)动态行为签名类型非常丰富,理论上难以通过人工编写出较为完备的规则,导致在迭代多轮的情况下,仍然只能覆盖一部分甚至一小部分实际场景,产出的规则可用性不强。
技术实现思路
为了解决上述技术问题,本专利技术实施例提供了一种模型训练方法,包括:确定负样本及正样本,所述负样本由多个恶意文件形成,所述正样本由多个非恶意文件形成;确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,所述动态行为签名包括所述负样本或正样本被签名的动态行为信息;至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据;建立目标模型架构;基于所述训练数据训练所述目标模型架构,以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。作为优选,所述确定负样本及正样本,包括:基于包含经沙箱进行分析处理并确定了文件识别结果的历史数据中获得第一数量的恶意文件以及第二数量的非恶意文件;标注所述恶意文件为所述负样本;标注所述非恶意文件为正样本。作为优选,所述确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,包括:确定所述负样本及正样本中各文件的原始数据及文件识别结果;确定所述负样本及正样本在分别经由沙箱运行、分析所述原始数据过程中生成的动态行为签名;基于所述原始数据、文件识别结果以及动态行为签名确定命中的所述动态行为签名及其记录的动态行为信息。作为优选,所述至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据,包括:基于特征工程至少对部分原始数据以及命中的所述动态行为签名中记录的动态行为信息进行特征提取及转化,以得到能够表征对应的动态行为恶意行为的特征数据;至少基于所述特征数据以及与所述特征数据对应的文件的识别结果确定所述训练数据。作为优选,所述建立目标模型架构,包括:建立随机森林模型架构。作为优选,所述基于所述训练数据训练所述目标模型架构,包括:基于随机森林算法以及所述训练数据训练所述目标模型架构。本专利技术同时提供一种文件识别方法,包括:沙箱接收并处理目标文件;文件识别模型接收所述沙箱的处理结果,并基于所述处理结果对所述目标文件进行文件识别,输出文件识别结果。作为优选,所述沙箱接收并处理目标文件,包括:接收所述目标文件;运行并分析所述目标文件;至少记录运行过程中被签名的动态行为信息;基于特征工程处理所述被签名的动态行为信息,生成用于传输至所述文件识别模型中,并能够被所述文件识别模型识别的信息。本专利技术还提供一种电子装置,包括:处理模块,用于确定负样本及正样本,所述负样本由多个恶意文件形成,所述正样本由多个非恶意文件形成;确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,所述动态行为签名包括所述负样本或正样本被签名的动态行为信息;至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据;建立目标模型架构;基于所述训练数据训练所述目标模型架构,以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。本专利技术还提供一种电子装置,包括:沙箱,用于接收并处理目标文件;文件识别模型,用于接收所述沙箱的处理结果,并基于所述处理结果对所述目标文件进行文件识别,输出文件识别结果。基于上述实施例的公开可以获知,本专利技术实施例具备的有益效果包括通过基于多个不同的样本数据以及在基于沙箱处理该样本数据时生成的动态行为签名构造训练数据,以基于该训练数据训练模型架构,得到能够快速准确地进行文件识别的模型,通过该模型能够实现对未知文件是否为恶意的自动化识别,不仅解决了传统的过滤方法中无法规避的漏报和误报情报,同时解决了人工编写不同签名规则时因覆盖度不够而致使漏报和误报的问题,大幅降低工作人员的操作量。另一方面,使用机器学习进行判定,模拟了人工判定的过程,显著提升了恶意文件的识别准确率以及识别效率。附图说明图1为本专利技术实施例中的模型训练方法的流程图。图2为本专利技术实施例中的行为签名示意图。图3为本专利技术实施例中的特征记录图。图4为本专利技术实施例中的文件识别方法的流程图。图5为本专利技术实施例中的文件识别方法的实际应用流程图。图6为本专利技术实施例中的电子装置的结构框图。图7为本专利技术另一实施例中的电子装置的结构框图。具体实施方式下面,结合附图对本专利技术的具体实施例进行详细的描述,但不作为本专利技术的限定。应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本专利技术的这些和其它特性将会变得显而易见。还应当理解,尽管已经参照一些具体实例对本专利技术进行了描述,但本领域技术人员能够确定地实现本专利技术的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。当结合附图时,鉴于以下详细说明,本公开的本文档来自技高网
...

【技术保护点】
1.一种模型训练方法,包括:/n确定负样本及正样本,所述负样本由多个恶意文件形成,所述正样本由多个非恶意文件形成;/n确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,所述动态行为签名包括所述负样本或正样本被签名的动态行为信息;/n至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据;/n建立目标模型架构;/n基于所述训练数据训练所述目标模型架构,以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。/n

【技术特征摘要】
1.一种模型训练方法,包括:
确定负样本及正样本,所述负样本由多个恶意文件形成,所述正样本由多个非恶意文件形成;
确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,所述动态行为签名包括所述负样本或正样本被签名的动态行为信息;
至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据;
建立目标模型架构;
基于所述训练数据训练所述目标模型架构,以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。


2.根据权利要求1所述的方法,其中,所述确定负样本及正样本,包括:
基于包含经沙箱进行分析处理并确定了文件识别结果的历史数据中获得第一数量的恶意文件以及第二数量的非恶意文件;
标注文件识别结果为恶意的所述恶意文件为所述负样本;
标注文件识别结果为非恶意的所述非恶意文件为正样本。


3.根据权利要求1所述的方法,其中,所述确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名,包括:
确定所述负样本及正样本中各文件的原始数据及文件识别结果;
确定所述负样本及正样本在分别经由沙箱运行、分析所述原始数据过程中生成的动态行为签名;
基于所述原始数据、文件识别结果以及动态行为签名确定命中的所述动态行为签名及其记录的动态行为信息。


4.根据权利要求3所述的方法,其中,所述至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据,包括:
基于特征工程至少对部分原始数据以及命中的所述动态行为签名中记录的动态行为信息进行特征提取及转化,以得到能够表征对应的动态行为恶意行为的特征数据;
至少基于所述特征数据以及与...

【专利技术属性】
技术研发人员:鲁玮克
申请(专利权)人:北京微步在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1