文件安全性识别方法和装置制造方法及图纸

技术编号：16500671 阅读：29 留言：0更新日期：2017-11-04 11:36

本申请公开了文件安全性识别方法和装置。该方法的一具体实施方式包括：获取待识别文件的特征信息；将特征信息中每一个类型的特征信息转换为特征信息对应的预设机器学习模型的输入向量；基于预设机器学习模型的输出向量，确定待识别文件是否为病毒文件。实现了针对待识别文件的每一类型的特征，分别获取特征信息以及根据特征信息的特点分别创建机器学习模型进行训练和识别。一方面，较为全面地覆盖了病毒文件的特征，从而较为全面地对病毒文件进行识别。另一方面，通过对机器学习模型的训练使得机器学习模型确定病毒文件的模式，从而在病毒文件的特征进行变更时，依然可以根据病毒文件的模式识别出病毒文件，进一步提升文件安全性识别的适用性。

File security identification method and device

The invention discloses a file security identification method and device. One embodiment of the method includes: obtaining feature information file for recognition; feature information conversion of each type of feature information in the input vector preset machine learning model characteristic information corresponding to the preset output vector; machine learning model based on the determined files to be identified whether the virus file. The features of each type of recognition file are obtained, and the feature information is acquired respectively, and the machine learning model is created and trained according to the characteristics of the feature information. On the one hand, it comprehensively covers the characteristics of virus files, so as to identify virus files in a more comprehensive way. On the other hand, based on machine learning model training the machine learning model to determine the virus file mode, change to feature in the virus file, still can according to the pattern recognition of the virus file virus file, to further enhance the applicability of the file security identification.

全部详细技术资料下载

【技术实现步骤摘要】
文件安全性识别方法和装置
本申请涉及计算机领域，具体涉及安全
，尤其涉及文件安全性识别方法和装置。
技术介绍
随着互联网的快速发展，用户可下载的网络资源也越来越丰富。用户在需要安装某个应用时，仅需下载该应用的安装包文件，然后对应用进行安装即可。在这一过程中，确保用户下载的安装包文件是否安全是重中之重。目前，通常采用的检查安装包文件是否安全的方式为：预先提取病毒样本中的一些特征，然后，提取待识别文件中的与该特征相同类型的特征，当提取出的待识别文件中的特征与预先获取的病毒样本的特征匹配时，则判断为病毒文件。然而，当采用上述方式检查安装包文件是否安全时，一方面，受到病毒样本个数的限制，难以全面覆盖所有的攻击类型，造成病毒文件的漏检。另一方面，病毒文件通常在短时间内通过个别特征的变化即可生成新的病毒文件，仅依靠预先提取的病毒文件的特征，无法对新生成的病毒文件进行识别。
技术实现思路
本申请提供了文件安全性识别方法和装置，用于解决上述
技术介绍
部分存在的技术问题。第一方面，本申请提供了文件安全性识别方法，该方法包括：获取待识别文件的特征信息；分别将特征信息中每一个类型的特征信息转换为特征信息对应的预设机器学习模型的输入向量，其中，每一个类型的特征信息预先对应一个机器学习模型；基于预设机器学习模型的输出向量，确定待识别文件是否为病毒文件。第二方面，本申请提供了文件安全性识别装置，该装置包括：获取单元，配置用于获取待识别文件的特征信息；转换单元，配置用于分别将特征信息中每一个类型的特征信息转换为特征信息对应的预设机器学习模型的输入向量，其中，每一个类型的特征信息预先对应...
文件安全性识别方法和装置

【技术保护点】
一种文件安全性识别方法，其特征在于，所述方法包括：获取待识别文件的特征信息；分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量，其中，每一个类型的特征信息预先对应一个机器学习模型；基于所述预设机器学习模型的输出向量，确定待识别文件是否为病毒文件。

【技术特征摘要】
1.一种文件安全性识别方法，其特征在于，所述方法包括：获取待识别文件的特征信息；分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量，其中，每一个类型的特征信息预先对应一个机器学习模型；基于所述预设机器学习模型的输出向量，确定待识别文件是否为病毒文件。2.根据权利要求1所述的方法，其特征在于，所述待识别文件为安卓安装包Apk文件，所述特征信息包括Apk文件的结构特征信息；以及获取待识别文件的特征信息包括：将确定出的Apk文件中名称的长度小于阈值的包的个数作为结构特征信息；将统计出的Apk文件中的类的名称的长度的最大值、最小值、总和值、平均值、方差值、类的个数与Apk文件中的所有类的个数的比例作为结构特征信息；将统计出的Apk文件中的成员变量的名称的长度的最大值、最小值、平均值、方差值、成员变量的个数与Apk文件中的所有成员变量的个数的比例作为结构特征信息；将统计出的Apk文件中的成员函数的名称的长度的最大值、最小值、总和值、平均值、方差值、成员函数的个数与Apk文件中的所有成员函数的个数中所占的比例作为结构特征信息；将统计出的Apk文件中成员变量的类型、成员函数的返回值的类型与Apk文件中所有数据的类型的比例作为结构特征信息；将统计出的Apk文件中成员函数的输入参数的个数的分布、输入参数的名称的长度小于阈值的参数的个数作为结构特征信息；将判断Apk文件中是否存在预设字符串、url、电话号码、数字而得到的判断结果作为结构特征信息；将统计出的Apk文件中的窗口的个数、窗口的名称的长度的最大值、最小值、总和值、平均值、方差值、窗口的尺寸作为结构特征信息；将统计出的Apk文件中的菜单的个数、菜单的名称的长度的最大值、最小值、总和值、平均值、方差值作为结构特征信息；将统计出的Apk文件中动画的个数、动画的名称的长度的最大值、最小值、总和值、平均值、方差值和获取到的动画中的图像的像素特征作为结构特征信息；将统计出的Apk文件中图片的个数、图片的名称的长度的最大值、最小值、总和值、平均值、方差值和获取到的图片中的图像的像素特征作为结构特征信息；以及分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量包括：将所述结构特征信息转换为预设定长输入的机器学习模型的输入向量，其中，每一个类型的结构特征信息对应所述输入向量中的一个分量。3.根据权利要求2所述的方法，其特征在于，所述待识别文件为安卓安装包Apk文件，所述特征信息包括函数特征信息；以及获取待识别文件的特征信息包括：生成Apk文件对应的函数森林，其中，函数森林中包含多个节点，每一个节点对应Apk文件中的一个函数；对函数森林中的树的长度进行排序，确定排序之后排名在预设名次之前的树；采用深度优先算法遍历所述树中预设深度之上的节点；将所述节点对应的函数的名称或函数中的指令作为函数特征信息；将采用相似度哈希算法计算出的所述函数名称或函数中的指令对应的哈希值作为函数特征信息；以及分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量包括：将所述哈希值转换为预设变长输入的机器学习模型的输入向量。4.根据权利要求3所述的方法，其特征在于，所述待识别文件为安卓安装包Apk文件，特征信息包括权限特征信息；以及获取待识别文件的特征信息包括：判断Apk文件中是否包含预设权限；基于判断结果，生成权限特征信息；以及分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量包括：将所述权限特征信息转换为预设定长输入的机器学习模型的输入向量，其中，所述预设权限对应的分量的数值为1，除所述预设权限对应的分量之外的分量的数值为0。5.根据权利要求4所述的方法，其特征在于，所述待识别文件为安卓安装包Apk文件，特征信息包括服务特征信息；以及获取待识别文件的特征信息包括：判断Apk文件中是否包含预设服务；基于判断结果，生成服务特征信息；以及分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量包括：将所述服务特征信息转换为预设定长输入的机器学习模型的输入向量，其中，所述预设服务对应的分量的数值为1，除所述预设服务对应的分量之外的分量的数值为0。6.根据权利要求5所述的方法...

【专利技术属性】
技术研发人员：陈治宇，周吉文，郭疆，徐超，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人