文件安全性识别方法和装置制造方法及图纸

技术编号：13739856 阅读：48 留言：0更新日期：2016-09-22 16:14

本申请公开了文件安全性识别方法和装置。所述方法的一具体实施方式包括：提取待识别文件的至少一种用于文件安全性识别的特征信息，得到与各种特征信息分别对应的特征向量，其中，每种特征信息所对应的特征向量的类型是预先设定的，特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量；将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型，其中，定长特征向量与定长输入学习模型对应，变长特征向量与变长输入学习模型对应；通过各个机器学习模型的输出向量，确定所述待识别文件为病毒文件或安全文件。该实施方式提高了文件安全性识别的应用范围。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机
，具体涉及信息安全
，尤其涉及文件安全性识别方法和装置。
技术介绍
计算机病毒(Computer Virus)是编制者在计算机程序中插入的破坏计算机功能或者数据的代码，能影响计算机使用，能自我复制的一组计算机指令或者程序代码。现有技术中通常通过人工添加文件的匹配规则来识别应用程序是否为病毒文件。然而，由于传统的病毒识别是完全依赖于人工预先添加好的规则进行识别，对于人工未能识别的病毒文件，由于客户端缺乏识别的逻辑规则，则不能够有效的识别，因此亟需提高病毒识别的应用范围。
技术实现思路
本申请的目的在于提出一种改进的文件安全性识别方法和装置，来解决以上
技术介绍
部分提到的技术问题。第一方面，本申请提供了一种文件安全性识别方法，所述方法包括：提取待识别文件的至少一种用于文件安全性识别的特征信息，得到与各种特征信息分别对应的特征向量，其中，每种特征信息所对应的特征向量的类型是预先设定的，特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量；将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型，其中，定长特征向量与定长输入学习模型对应，变长特征向量与变长输入学习模型对应；通过各个机器学习模型的输出向量，确定所述待识别文件为病毒文件或安全文件。第二方面，本申请提供了一种文件安全性识别装置，所述装置包
括：提取单元，用于提取待识别文件的至少一种用于文件安全性识别的特征信息，得到与各种特征信息分别对应的特征向量，其中，每种特征信息所对应的特征向量的类型是预先设定的，特征向量的类型包括长度不...

【技术保护点】
一种文件安全性识别方法，其特征在于，所述方法包括：提取待识别文件的至少一种用于文件安全性识别的特征信息，得到与各种特征信息分别对应的特征向量，其中，每种特征信息所对应的特征向量的类型是预先设定的，特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量；将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型，其中，定长特征向量与定长输入学习模型对应，变长特征向量与变长输入学习模型对应；通过各个机器学习模型的输出向量，确定所述待识别文件为病毒文件或安全文件。

【技术特征摘要】
1.一种文件安全性识别方法，其特征在于，所述方法包括：提取待识别文件的至少一种用于文件安全性识别的特征信息，得到与各种特征信息分别对应的特征向量，其中，每种特征信息所对应的特征向量的类型是预先设定的，特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量；将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型，其中，定长特征向量与定长输入学习模型对应，变长特征向量与变长输入学习模型对应；通过各个机器学习模型的输出向量，确定所述待识别文件为病毒文件或安全文件。2.根据权利要求1所述的方法，其特征在于，所述待识别文件为安卓安装包APK文件。3.根据权利要求2所述的方法，其特征在于，所述特征向量中包括至少一个对以下任一特征信息进行提取所获得的定长特征向量：APK文件的结构特征信息；APK文件的权限信息；APK文件所提供服务的信息；APK文件所监听事件的信息；APK文件中各个类的类名、各个函数的函数名或所引用的字符串的信息；APK文件中各个文件的文件类型的分布特征的特征信息。4.根据权利要求3所述的方法，其特征在于，所述结构特征信息包括以下一项或多项：APK文件中名称的长度小于阈值的包的个数；APK文件中的类的名称的长度的最大值、最小值、总和值、平均值、方差值、所述类的个数与APK文件中的所有类的个数的比例；APK文件中的成员变量的名称的长度的最大值、最小值、平均值、方差值、所述成员变量的个数与APK文件中的所有成员变量的个数的
\t比例；APK文件中的成员函数的名称的长度的最大值、最小值、总和值、平均值、方差值、所述成员函数的个数在APK文件中的所有成员函数的个数中所占的比例；APK文件中成员变量的类型、成员函数的返回值的类型与APK文件中所有数据的类型的比例；APK文件中成员函数的输入参数的个数的分布、输入参数的名称的长度小于阈值的参数的个数；APK文件中是否存在预设字符串、url、电话号码、数字；APK文件中的窗体的个数、窗体的名称的长度的最大值、最小值、总和值、平均值、方差值、窗体的尺寸以及确定窗口；APK文件中的菜单的个数、菜单的名称的字符串长度的最大值、最小值、总和值、平均值、方差值；APK文件中动画的个数、动画的名称的长度的最大值、最小值、总和值、平均值、方差值和动画中的图像的像素特征；APK文件中图片的个数、图片的名称的长度的最大值、最小值、总和值、平均值、方差值和图片中的图像的像素特征。5.根据权利要求2所述的方法，其特征在于，所述特征向量中包括至少一个对以下任一特征信息进行提取所获得的变长特征向量：APK文件的函数调用关系的信息；APK文件中各个窗口的的控件类型以及控件名称的信息；APK文件中各个文件的更新时间的分布特征的信息；APK文件中所包含的证书类别的信息。6.根据权利要求1所述的方法，其特征在于，所述定长输入学习模型为神经网络模型，所述变长输入学习模型为循环神经网络模型。7.根据权利要求1所述的方法，其特征在于，所述通过各个机器学习模型的输出向量，确定待识别文件为病毒文件或安全文件，包括：将所述输出向量作为输入向量输入至预设定长输入机器学习模
\t型；通过所述预设定长输入机器学习模型的输出向量确定所述待识别文件为病毒文件或安全文件。8.根据权利要求1所述的方法，其特征在于，各个机器学习模型是通过以下步骤预先进行训练生成的：针对训练用样本中的各个文件，分别提取文件的各种特征信息，以得到对应的各个特征向量，其中，所述训练用样本包括至少一个带有安全类别标签的文件，所述安全类别标签用于表征文件为病毒文件或安全文件，各种特征信息...

【专利技术属性】
技术研发人员：陈治宇，周吉文，徐超，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人