基于机器学习的恶意文件检测方法及系统技术方案

技术编号：28872054 阅读：16 留言：0更新日期：2021-06-15 23:04

本发明专利技术提供一种基于机器学习的恶意文件检测方法及系统，属于信息安全技术领域。所述方法包括：识别待测文件的文件类型；提取所述待测文件的特征；将所述待测文件的特征输入与所述待测文件的文件类型对应的训练好的分类器中分类计算，得到所述待测文件的分类结果。使用该方法在文件发生变种、混淆的情况下依然可以识别出恶意文件，且占用资源少，能够快速得到检测结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的恶意文件检测方法及系统
本专利技术涉及信息安全
，具体地涉及一种基于机器学习的恶意文件检测方法以及一种基于机器学习的恶意文件检测系统。
技术介绍
恶意文件检测是网络安全领域重要的课题，近年来，恶意文件的数量呈指数增长，传统的处理方式已经不能及时有效的处理鉴定海量的数据。传统的恶意文件检测技术无外乎两种，一种是基于静态特征的检测分析，例如，基于应用程序编程接口序列的检测方法，将文件的编程接口特征提取出来，建立特征库用于恶意文件的检测。这一类的检测技术虽然对软件代码的分析速度比较快，但恶意文件可以通过代码混淆、变种等方式对抗这些检测。因此静态检测存在误报率高，无法识别混淆、变种的文件，容易被绕过的问题。另一种是基于动态特征的检测方式，例如，基于沙箱的恶意文件检测，通过在沙箱环境中观察恶意文件的行为特征，从而判断出文件是否是恶意的。这种方法虽然能够解决在静态检测中存在的准确率不够的问题，但是这种算法消耗大量的资源，耗时较为严重。因此动态检测存在检测效率低，资源消耗严重问题。
技术实现思路
本专利技术实施方式的目的是提供一种基于机器学习的恶意文件检测方法及系统，使用该方法在文件发生变种、混淆的情况下依然可以识别出恶意文件，且占用资源少，能够快速得到检测结果。为了实现上述目的，本专利技术第一方面提供一种基于机器学习的恶意文件检测方法，所述方法包括：识别待测文件的文件类型；提取所述待测文件的特征；将所述待测文件的特征输入与所述待测文件的文件类...

【技术保护点】
1.一种基于机器学习的恶意文件检测方法，其特征在于，所述方法包括：/n识别待测文件的文件类型；/n提取所述待测文件的特征；/n将所述待测文件的特征输入与所述待测文件的文件类型对应的训练好的分类器中分类计算，得到所述待测文件的分类结果。/n

【技术特征摘要】
1.一种基于机器学习的恶意文件检测方法，其特征在于，所述方法包括：
识别待测文件的文件类型；
提取所述待测文件的特征；
将所述待测文件的特征输入与所述待测文件的文件类型对应的训练好的分类器中分类计算，得到所述待测文件的分类结果。

2.根据权利要求1所述的基于机器学习的恶意文件检测方法，其特征在于，所述识别待测文件的文件类型，包括：
获取待测文件的文件头数据；
根据所述文件头数据识别所述待测文件的文件类型。

3.根据权利要求1所述的基于机器学习的恶意文件检测方法，其特征在于，所述特征包括：所述待测文件的熵序列的统计特征、所述待测文件中每个字符的字符占比以及所述待测文件中的“https”字段个数。

4.根据权利要求3所述的基于机器学习的恶意文件检测方法，其特征在于，所述提取所述待测文件的特征，包括：
将所述待测文件转换为二进制数据；
将所述二进制数据划分为预设长度的数据块；
计算每个所述数据块的信息熵，得到所述待测文件的熵序列；
计算所述熵序列的统计特征；
计算所述待测文件中每个字符的字符占比；
计算所述待测文件中的“https”字段个数。

5.根据权利要求4所述的基于机器学习的恶意文件检测方法，其特征在于，所述统计特征包括：平均值、方差、最大值以及最小值。

6.根据权利要求1所述的基于机器学习的恶意文件检测方法，其特征在于，所述训练好的分类器的训练过程包括：
收集一定数量的训练数据文件；
识别训练数据文件的文件类型；
根据所述文件...

【专利技术属性】
技术研发人员：王卓超，于金龙，王智民，王高杰，
申请(专利权)人：北京六方云信息技术有限公司，北京六方云科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人