数据集构建、恶意软件识别、识别模型构建方法及装置制造方法及图纸

技术编号：32438639 阅读：31 留言：0更新日期：2022-02-26 07:57

本发明专利技术提供一种数据集构建、恶意软件识别、识别模型构建方法及装置，基于新样本以及种子集中的样本，采用异常检测算法若确定新的样本为异常样本，则将新样本添加至所述种子集中，直至种子集中的样本数量满足预设条件。本发明专利技术基于异常检测算法确定异常样本，使异常样本与种子集中的样本具有较高的异常度，剔除与种子集异常度较低的新样本，减少了种子集中的冗余数据，缩小了种子集的规模，进而节约了数据存储空间。同时具有较小规模的种子集应用于恶意软件识别时，还可以缩短恶意软件识别模型的训练时间，而且剔除冗余数据之后的种子集各样本具有较强的代表性，避免传统方法中数据集包含过多冗余数据带来的噪声导致影响识别模型准确度的问题。型准确度的问题。型准确度的问题。

全部详细技术资料下载

【技术实现步骤摘要】
数据集构建、恶意软件识别、识别模型构建方法及装置

[0001]本专利技术涉及计算机
，尤其涉及一种数据集构建、恶意软件识别、识别模型构建方法及装置。

技术介绍

[0002]随着计算机编程技术的不断发展，基于各式计算机语言编程得到的软件也使得人们能够更加方便的在计算机中完成各式任务和工作，但携带恶意内容的恶意软件也随之出现，恶意的攻击正常数据文件或盗取他人劳动成果。因此，对待测软件进行是否为恶意软件的识别是十分重要的。
[0003]现有的智能恶意软件识别技术中通常采用机器学习的方法识别恶意软件，而机器学习算法的应用离不开训练数据集。现有的智能恶意软件识别技术中训练数据集包括大量的恶意及非恶意软件，但训练数据集内部同质化现象比较严重(两个相似软件之间仅有非常小的差异)，即数据集的冗余程度很高，而冗余数据不但浪费数据存储空间，拉长恶意软件识别模型训练时间，甚至还可能降低恶意软件识别模型的精度。

技术实现思路

[0004]本专利技术提供一种数据集构建、恶意软件识别、识别模型构建方法及装置，用以解决现有技...

【技术保护点】

【技术特征摘要】
1.一种用于恶意软件识别的数据集构建方法，其特征在于，包括：新样本获取步骤：获取新样本；其中，所述新样本的样本类型与预先构建的种子集中的样本类型一致，其中所述种子集中包含恶意样本，和/或，非恶意样本；异常样本确定步骤：基于所述新样本以及种子集中的样本，采用异常检测算法确定所述新样本是否为异常样本，若是，则将所述新样本添加至所述种子集中；更新步骤：循环执行所述新样本获取步骤和所述异常样本确定步骤，直至种子集中的样本数量满足预设条件。2.根据权利要求1所述的数据集构建方法，其特征在于，所述异常样本确定步骤，具体包括：基于所述新样本以及种子集中的样本，采用孤立森林算法确定所述新样本是否为异常样本，若是，则将所述新样本添加至所述种子集中。3.根据权利要求2所述的数据集构建方法，其特征在于，基于所述新样本以及种子集中的样本，采用孤立森林算法确定所述新的样本是否为异常样本，若是，则将所述新样本添加至所述种子集中，包括：采用孤立森林算法或扩展孤立森林算法，基于种子集构建N个孤立树；基于所述N个孤立树，对所述新样本进行异常值打分，若分值高于预设阈值，则将新样本添加至所述种子集中。4.根据权利要求3所述的数据集构建方法，其特征在于，基于所述N个孤立树，对所述新样本进行异常值打分，包括：基于所述N个孤立树，确定所述新样本在各孤立树上的深度值；根据各深度值，采用异常值打分函数，对所述新样本进行异常值打分。5.一种恶意软件识别方法，其特征在于，包括：获取待识别的软件；将所述软件输入至恶意软件识别模型中，获取所述软件的识别结果；其中，所述恶意软件识别模型为采用如权利要求1～4任一项所述的数据集构建方法构建的包含恶意样本的第一种子集，和/或，采用如权利要求1～4任一项所述的数据集构建方法构建的包含非恶意样本的第二种子集进行机器学习训练后得到。6.一种恶意软件识别模型构建方法，其特征在于，包括：采用如权利要求1～4任一项所述的数据集构建方法构建包含恶意样本的第一种子集；和/或,采用如权利要求1～4任一项所述的数据集构建方法构建包含非恶意样本的第二种子集；基于所述第一种子集,和/或,所述第二种子集，采用机器学习的方式对机器学习模型进行训练，得到恶意软件识别模型。7.一种用于恶意软件识别的数据集构建装置，其特征在于，包括：新样本获取单元，用于获取新样本；其中，所述新样本的样本类型与预先构建的种子集中的样本类型一致，其中...

【专利技术属性】
技术研发人员：赵毅强，王志刚，刘恒，齐向东，吴云坤，
申请(专利权)人：网神信息技术北京股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人