一种模型训练方法、文件识别方法及电子装置制造方法及图纸

技术编号：27685954 阅读：23 留言：0更新日期：2021-03-17 03:56

本发明专利技术提供一种模型训练方法、文件识别方法及电子装置，所述模型训练方法包括：确定负样本及正样本，所述负样本由多个恶意文件形成，所述正样本由多个非恶意文件形成；确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，所述动态行为签名包括所述负样本或正样本被签名的动态行为信息；至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据；建立目标模型架构；基于所述训练数据训练所述目标模型架构，以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。基于本发明专利技术提供的模型训练方法使得训练出的模型能够自动进行文件识别，判断文件是否为恶意文件，提升了识别效率及准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、文件识别方法及电子装置
本专利技术实施例涉及计算机安全领域，特别涉及一种模型训练方法、文件识别方法及电子装置。
技术介绍
沙箱是一种安全机制，为运行中的程序提供隔离环境，通常是作为一些来源不可信、具破坏力或无法判定程序意图的程序提供实验之用。当待识别的文件被投递到沙箱后，文件将会被沙箱自动执行，与此同时，沙箱将记录及显示文件在虚拟环境中执行行为的日志，于是分析人员能够对上述行为日志进行分析，最终识别该文件是否属于恶意文件。使用机器学习模型，能够模拟分析人员对行为日志的分析过程，进而代替人工，实现恶意文件的自动识别。恶意文件和非恶意文件在沙箱中的行为存在较为明显的区别：恶意文件一般会在系统执行多种敏感行为，如通过注册表、系统服务、计划任务等建立自启动项，实现驻留，又如通过注入系统其他进程的方式躲避检测等；而非恶意文件一般不存在类似的敏感行为。当前，基于沙箱行为识别恶意文件多采用规则过滤的方式，如对指定的行为进行签名，并根据文件触发签名的次数或级别编写相关的规则，若符合该规则，则直接判定文件为恶意，该方式在国内外已有广泛应用。其过程包括：沙箱分析-行为签名收集-规则过滤-样本判定。但是当前对于网络签名，大部分采用触发规则个数或等级来设置相关阈值，此方法虽然具有一定的通用性，但存在以下两个缺陷：(1)相关阈值设置过高时，导致部分木马及恶意木马无法被检测，即漏报。(2)相关阈值设置过低时，导致大批非恶意文件被识别为恶意文件，即误报。(3)动态行为签名类...

【技术保护点】
1.一种模型训练方法，包括：/n确定负样本及正样本，所述负样本由多个恶意文件形成，所述正样本由多个非恶意文件形成；/n确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，所述动态行为签名包括所述负样本或正样本被签名的动态行为信息；/n至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据；/n建立目标模型架构；/n基于所述训练数据训练所述目标模型架构，以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。/n

【技术特征摘要】
1.一种模型训练方法，包括：
确定负样本及正样本，所述负样本由多个恶意文件形成，所述正样本由多个非恶意文件形成；
确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，所述动态行为签名包括所述负样本或正样本被签名的动态行为信息；
至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据；
建立目标模型架构；
基于所述训练数据训练所述目标模型架构，以形成用于识别文件为恶意文件或非恶意文件的文件识别模型。

2.根据权利要求1所述的方法，其中，所述确定负样本及正样本，包括：
基于包含经沙箱进行分析处理并确定了文件识别结果的历史数据中获得第一数量的恶意文件以及第二数量的非恶意文件；
标注文件识别结果为恶意的所述恶意文件为所述负样本；
标注文件识别结果为非恶意的所述非恶意文件为正样本。

3.根据权利要求1所述的方法，其中，所述确定所述负样本及正样本在分别经由沙箱运行过程中生成的动态行为签名，包括：
确定所述负样本及正样本中各文件的原始数据及文件识别结果；
确定所述负样本及正样本在分别经由沙箱运行、分析所述原始数据过程中生成的动态行为签名；
基于所述原始数据、文件识别结果以及动态行为签名确定命中的所述动态行为签名及其记录的动态行为信息。

4.根据权利要求3所述的方法，其中，所述至少基于部分所述动态行为签名记载的信息以及所述负样本和负样本的原始数据确定训练数据，包括：
基于特征工程至少对部分原始数据以及命中的所述动态行为签名中记录的动态行为信息进行特征提取及转化，以得到能够表征对应的动态行为恶意行为的特征数据；
至少基于所述特征数据以及与...

【专利技术属性】
技术研发人员：鲁玮克，
申请(专利权)人：北京微步在线科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人