文件安全性识别方法和装置制造方法及图纸

技术编号:13739856 阅读:48 留言:0更新日期:2016-09-22 16:14
本申请公开了文件安全性识别方法和装置。所述方法的一具体实施方式包括:提取待识别文件的至少一种用于文件安全性识别的特征信息,得到与各种特征信息分别对应的特征向量,其中,每种特征信息所对应的特征向量的类型是预先设定的,特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量;将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型,其中,定长特征向量与定长输入学习模型对应,变长特征向量与变长输入学习模型对应;通过各个机器学习模型的输出向量,确定所述待识别文件为病毒文件或安全文件。该实施方式提高了文件安全性识别的应用范围。

【技术实现步骤摘要】

本申请涉及计算机
,具体涉及信息安全
,尤其涉及文件安全性识别方法和装置
技术介绍
计算机病毒(Computer Virus)是编制者在计算机程序中插入的破坏计算机功能或者数据的代码,能影响计算机使用,能自我复制的一组计算机指令或者程序代码。现有技术中通常通过人工添加文件的匹配规则来识别应用程序是否为病毒文件。然而,由于传统的病毒识别是完全依赖于人工预先添加好的规则进行识别,对于人工未能识别的病毒文件,由于客户端缺乏识别的逻辑规则,则不能够有效的识别,因此亟需提高病毒识别的应用范围。
技术实现思路
本申请的目的在于提出一种改进的文件安全性识别方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种文件安全性识别方法,所述方法包括:提取待识别文件的至少一种用于文件安全性识别的特征信息,得到与各种特征信息分别对应的特征向量,其中,每种特征信息所对应的特征向量的类型是预先设定的,特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量;将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型,其中,定长特征向量与定长输入学习模型对应,变长特征向量与变长输入学习模型对应;通过各个机器学习模型的输出向量,确定所述待识别文件为病毒文件或安全文件。第二方面,本申请提供了一种文件安全性识别装置,所述装置包
括:提取单元,用于提取待识别文件的至少一种用于文件安全性识别的特征信息,得到与各种特征信息分别对应的特征向量,其中,每种特征信息所对应的特征向量的类型是预先设定的,特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量;输入单元,用于将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型,其中,定长特征向量与定长输入学习模型对应,变长特征向量与变长输入学习模型对应;确定单元,用于通过各个机器学习模型的输出向量,确定所述待识别文件为病毒文件或安全文件。本申请提供的文件安全性识别方法和装置,可以通过针对提取特征信息所形成的不同类型的特征向量,均能够通过相应的机器学习模型进行处理,从而对文件的安全性进行识别,能提高文件安全性识别的应用范围。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的文件安全性识别方法的一个实施例的流程图;图3是根据本申请图2所描述的文件安全性识别方法的一个应用场景的示意图;图4是根据本申请的文件安全性识别方法的又一个实施例的流程图;图5是根据本申请图4所描述的文件安全性识别方法的一个应用场景的示意图;图6是根据本申请的文件安全性识别装置的一个实施例的结构示意图;图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的文件安全性识别方法或文件安全性识别装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如安全类应用等。终端设备101、102、103可以是各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的数据提供支持的后台服务器。例如,后台服务器可以对接收到的数据进行分析等处理,并将处理结果(例如识别结果)反馈给终端设备。需要说明的是,图2对应实施例所提供的文件安全性识别方法一般由终端设备101、102、103执行,一些步骤也可以由服务器105执行;相应地,图4对应实施例中的文件安全性识别装置一般设置于终
端设备101、102、103中,一些单元也可以设置在服务器105。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。继续参考图2,示出了根据本申请的文件安全性识别方法的一个实施例的流程200。所述的文件安全性识别方法,包括以下步骤:步骤201,提取待识别文件的至少一种用于文件安全性识别的特征信息,得到与各种特征信息对应的特征向量。在本实施例中,文件安全性识别方法运行于其上的电子设备(例如图1所示的终端设备)可以针对待识别文件的至少一种用于文件安全性识别的特征信息进行信息提取,获取到用于表征特征信息对应的特征向量。其中,这些特征信息可以包括但不限应用程序中各个文件的大小信息、时间信息、文件名信息。特征向量是用于表征这些特征的向量,是对这些特征通过量化处理而形成的。其中,特征向量的类型包括长度固定的固定长特征向量和长度不固定的变长特征向量。例如,有些特征可以使用长度能预先确定的特征向量进行表征,则相应的特征向量为定长特征向量;有些特征可以使用长度无法预先确定的特征向量进行表征,则相应的特征向量为变长特征向量。每种特征信息所对应的特征向量的类型可以是根据特征信息的特点预先设定的。可选的,所生成的特征向量是由0、1组成的特征向量。需要说明的是,针对各个特征信息得到的特征向量可能都是定长特征向量,也可能都是变长特征向量,也可能两者皆有。在本实施例的一些可选实现方式中,上述待识别文件为安卓安装包APK文件。在本实施例的一些可选实现方式中,当待识别文件为安卓安装包APK文件,该特征向量中包括至少一个对以下任一特征信息进行提取所获得的特征向量:APK文件的结构特征信息;APK文件的权限信息;APK文件的所提供服务的信息;APK文件的所监听事件的信息;APK文件中各个类的类名、各个函数的函数名或所引用的字符串的信息;APK文件中各个文件的文件类型的分布特征的特征信息。上述结构特征包括但不限于:包、类、成员函数、成员变量、输入参数、菜单、
动画、图片的特征。在本实施例的一些可选实现方式中,结构特征信息包括以下一种或多种:APK文件中名称的长度小于阈值的包的个数;APK文件中的类的名称的长度的最大值、最小值、总和值、平均值、方差值、类的个数与本文档来自技高网
...

【技术保护点】
一种文件安全性识别方法,其特征在于,所述方法包括:提取待识别文件的至少一种用于文件安全性识别的特征信息,得到与各种特征信息分别对应的特征向量,其中,每种特征信息所对应的特征向量的类型是预先设定的,特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量;将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型,其中,定长特征向量与定长输入学习模型对应,变长特征向量与变长输入学习模型对应;通过各个机器学习模型的输出向量,确定所述待识别文件为病毒文件或安全文件。

【技术特征摘要】
1.一种文件安全性识别方法,其特征在于,所述方法包括:提取待识别文件的至少一种用于文件安全性识别的特征信息,得到与各种特征信息分别对应的特征向量,其中,每种特征信息所对应的特征向量的类型是预先设定的,特征向量的类型包括长度不变的定长特征向量和长度可变的变长特征向量;将所得到的各个特征向量作为输入向量分别输入至与所述特征向量的类型对应的机器学习模型,其中,定长特征向量与定长输入学习模型对应,变长特征向量与变长输入学习模型对应;通过各个机器学习模型的输出向量,确定所述待识别文件为病毒文件或安全文件。2.根据权利要求1所述的方法,其特征在于,所述待识别文件为安卓安装包APK文件。3.根据权利要求2所述的方法,其特征在于,所述特征向量中包括至少一个对以下任一特征信息进行提取所获得的定长特征向量:APK文件的结构特征信息;APK文件的权限信息;APK文件所提供服务的信息;APK文件所监听事件的信息;APK文件中各个类的类名、各个函数的函数名或所引用的字符串的信息;APK文件中各个文件的文件类型的分布特征的特征信息。4.根据权利要求3所述的方法,其特征在于,所述结构特征信息包括以下一项或多项:APK文件中名称的长度小于阈值的包的个数;APK文件中的类的名称的长度的最大值、最小值、总和值、平均值、方差值、所述类的个数与APK文件中的所有类的个数的比例;APK文件中的成员变量的名称的长度的最大值、最小值、平均值、方差值、所述成员变量的个数与APK文件中的所有成员变量的个数的
\t比例;APK文件中的成员函数的名称的长度的最大值、最小值、总和值、平均值、方差值、所述成员函数的个数在APK文件中的所有成员函数的个数中所占的比例;APK文件中成员变量的类型、成员函数的返回值的类型与APK文件中所有数据的类型的比例;APK文件中成员函数的输入参数的个数的分布、输入参数的名称的长度小于阈值的参数的个数;APK文件中是否存在预设字符串、url、电话号码、数字;APK文件中的窗体的个数、窗体的名称的长度的最大值、最小值、总和值、平均值、方差值、窗体的尺寸以及确定窗口;APK文件中的菜单的个数、菜单的名称的字符串长度的最大值、最小值、总和值、平均值、方差值;APK文件中动画的个数、动画的名称的长度的最大值、最小值、总和值、平均值、方差值和动画中的图像的像素特征;APK文件中图片的个数、图片的名称的长度的最大值、最小值、总和值、平均值、方差值和图片中的图像的像素特征。5.根据权利要求2所述的方法,其特征在于,所述特征向量中包括至少一个对以下任一特征信息进行提取所获得的变长特征向量:APK文件的函数调用关系的信息;APK文件中各个窗口的的控件类型以及控件名称的信息;APK文件中各个文件的更新时间的分布特征的信息;APK文件中所包含的证书类别的信息。6.根据权利要求1所述的方法,其特征在于,所述定长输入学习模型为神经网络模型,所述变长输入学习模型为循环神经网络模型。7.根据权利要求1所述的方法,其特征在于,所述通过各个机器学习模型的输出向量,确定待识别文件为病毒文件或安全文件,包括:将所述输出向量作为输入向量输入至预设定长输入机器学习模
\t型;通过所述预设定长输入机器学习模型的输出向量确定所述待识别文件为病毒文件或安全文件。8.根据权利要求1所述的方法,其特征在于,各个机器学习模型是通过以下步骤预先进行训练生成的:针对训练用样本中的各个文件,分别提取文件的各种特征信息,以得到对应的各个特征向量,其中,所述训练用样本包括至少一个带有安全类别标签的文件,所述安全类别标签用于表征文件为病毒文件或安全文件,各种特征信息...

【专利技术属性】
技术研发人员:陈治宇周吉文徐超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1