文件安全性识别方法和装置制造方法及图纸

技术编号:16500671 阅读:29 留言:0更新日期:2017-11-04 11:36
本申请公开了文件安全性识别方法和装置。该方法的一具体实施方式包括:获取待识别文件的特征信息;将特征信息中每一个类型的特征信息转换为特征信息对应的预设机器学习模型的输入向量;基于预设机器学习模型的输出向量,确定待识别文件是否为病毒文件。实现了针对待识别文件的每一类型的特征,分别获取特征信息以及根据特征信息的特点分别创建机器学习模型进行训练和识别。一方面,较为全面地覆盖了病毒文件的特征,从而较为全面地对病毒文件进行识别。另一方面,通过对机器学习模型的训练使得机器学习模型确定病毒文件的模式,从而在病毒文件的特征进行变更时,依然可以根据病毒文件的模式识别出病毒文件,进一步提升文件安全性识别的适用性。

File security identification method and device

The invention discloses a file security identification method and device. One embodiment of the method includes: obtaining feature information file for recognition; feature information conversion of each type of feature information in the input vector preset machine learning model characteristic information corresponding to the preset output vector; machine learning model based on the determined files to be identified whether the virus file. The features of each type of recognition file are obtained, and the feature information is acquired respectively, and the machine learning model is created and trained according to the characteristics of the feature information. On the one hand, it comprehensively covers the characteristics of virus files, so as to identify virus files in a more comprehensive way. On the other hand, based on machine learning model training the machine learning model to determine the virus file mode, change to feature in the virus file, still can according to the pattern recognition of the virus file virus file, to further enhance the applicability of the file security identification.

【技术实现步骤摘要】
文件安全性识别方法和装置
本申请涉及计算机领域,具体涉及安全
,尤其涉及文件安全性识别方法和装置。
技术介绍
随着互联网的快速发展,用户可下载的网络资源也越来越丰富。用户在需要安装某个应用时,仅需下载该应用的安装包文件,然后对应用进行安装即可。在这一过程中,确保用户下载的安装包文件是否安全是重中之重。目前,通常采用的检查安装包文件是否安全的方式为:预先提取病毒样本中的一些特征,然后,提取待识别文件中的与该特征相同类型的特征,当提取出的待识别文件中的特征与预先获取的病毒样本的特征匹配时,则判断为病毒文件。然而,当采用上述方式检查安装包文件是否安全时,一方面,受到病毒样本个数的限制,难以全面覆盖所有的攻击类型,造成病毒文件的漏检。另一方面,病毒文件通常在短时间内通过个别特征的变化即可生成新的病毒文件,仅依靠预先提取的病毒文件的特征,无法对新生成的病毒文件进行识别。
技术实现思路
本申请提供了文件安全性识别方法和装置,用于解决上述
技术介绍
部分存在的技术问题。第一方面,本申请提供了文件安全性识别方法,该方法包括:获取待识别文件的特征信息;分别将特征信息中每一个类型的特征信息转换为特征信息对应的预设机器学习模型的输入向量,其中,每一个类型的特征信息预先对应一个机器学习模型;基于预设机器学习模型的输出向量,确定待识别文件是否为病毒文件。第二方面,本申请提供了文件安全性识别装置,该装置包括:获取单元,配置用于获取待识别文件的特征信息;转换单元,配置用于分别将特征信息中每一个类型的特征信息转换为特征信息对应的预设机器学习模型的输入向量,其中,每一个类型的特征信息预先对应一个机器学习模型;确定单元,配置用于基于预设机器学习模型的输出向量,确定待识别文件是否为病毒文件。本申请提供的文件安全性识别方法和装置,通过获取待识别文件的特征信息;分别将特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量;基于预设机器学习模型的输出向量,确定待识别文件是否为病毒文件。实现了针对待识别文件的每一类型的特征,分别获取特征信息以及根据特征信息的特点分别创建机器学习模型进行训练和识别。一方面,较为全面地覆盖了病毒文件的特征,从而较为全面地对病毒文件进行识别。另一方面,通过对机器学习模型的训练使得机器学习模型确定病毒文件的模式,从而在病毒文件的特征进行变更时,依然可以根据病毒文件的模式识别出病毒文件,从而进一步提升文件安全性识别的适用性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2示出了根据本申请的文件安全性识别方法的一个实施例的流程图;图3示出了根据本申请的文件安全性识别方法的另一个实施例的流程图;图4示出了根据本申请的文件安全性识别方法的再一个实施例的流程图;图5示出了适用于本申请中的文件安全性识别方法的一个示例性架构图;图6示出了根据本申请的文件安全性识别装置的一个实施例的结构示意图;图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的文件安全性识别方法或装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供传输链路的介质。网络104可以包括各种连接类型,例如有线、无线传输链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯应用,例如、即时通讯类应用、浏览器类应用、搜索类应用、文字处理类应用等。终端设备101、102、103可以是具有显示屏并且支持网络通信的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务器105可以利用从海量的安装包文件样本中提取出的特征信息进行训练,生成文件安全性识别模型。当接收到终端设备101、102、103发送的安装包文件下载请求时,可以将经过安全性识别模型识别之后确认为安全的安装包文件反馈给终端设备。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。请参考图2,其示出了根据本申请的文件安全性识别方法的一个实施例的流程200。需要说明的是,本申请实施例所提供的文件安全性识别方法一般由图1中的服务器105执行。该方法包括以下步骤:步骤201,获取待识别文件的特征信息。在本实施例中,当需要对待识别文件的安全性进行识别时,可以首先获取待识别文件的特征信息。在本实施例中,待识别文件的特征信息的类型可以为多个。例如,特征信息可以为用于描述待识别文件中的控件的名称和类型的特征的特征信息。又例如,特征信息的类型可以为用于描述待识别文件的修改时间的分布的特征的特征信息。步骤202,分别将特征信息中每一个类型的特征信息转换为对应的预设机器学习模型的输入向量。在本实施例中,每一个类型的特征信息预先对应一个机器学习模型。在本实施例中,可以根据特征信息的类型的不同,预先分别创建机器学习模型,分别对不同类型的机器学习模型进行训练。在本实施例中,在利用特征信息对机器学习模型进行训练时,需要首先将特征信息转换为机器学习模型的输入向量。在本实施例中,可以根据特征信息的长度特点,在输入到特征信息对应的机器学习模型时,输入方式可以分为定长输入与变长输入。相应地,可以创建特征信息对应的定长输入的机器学习模型或特征信息对应的变长的机器学习模型。例如,针对用于描述待识别文件中的控件的名称和类型的特征的特征信息,可以创建定长输入的机器学习模型,例如深度学习模型进行训练和识别。又例如,针对用于描述待识别文件的修改时间的分布的特征信息,可以创建变长输入的机器学习模型,例如LSTM模型进行训练和识别。步骤203,基于预设机器学习模型的输出向量,确定待识别文件是否为病毒文件。在本实施例中,在通过步骤202将每一个特征信息转换为该特征信息对应的预设机器学习模型的输入向量之后,可以得到每一个特征信息对应的预设机器模型的输出向量。可以根据每一个特征信息对应的预设机器模型的输出向量,确定待识别文件是否为病毒文件。请参考图3,其示出了根据本申请的文件安全性识别方法的另一个实施例的流程图300。需要说明的是,本本文档来自技高网...
文件安全性识别方法和装置

【技术保护点】
一种文件安全性识别方法,其特征在于,所述方法包括:获取待识别文件的特征信息;分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量,其中,每一个类型的特征信息预先对应一个机器学习模型;基于所述预设机器学习模型的输出向量,确定待识别文件是否为病毒文件。

【技术特征摘要】
1.一种文件安全性识别方法,其特征在于,所述方法包括:获取待识别文件的特征信息;分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量,其中,每一个类型的特征信息预先对应一个机器学习模型;基于所述预设机器学习模型的输出向量,确定待识别文件是否为病毒文件。2.根据权利要求1所述的方法,其特征在于,所述待识别文件为安卓安装包Apk文件,所述特征信息包括Apk文件的结构特征信息;以及获取待识别文件的特征信息包括:将确定出的Apk文件中名称的长度小于阈值的包的个数作为结构特征信息;将统计出的Apk文件中的类的名称的长度的最大值、最小值、总和值、平均值、方差值、类的个数与Apk文件中的所有类的个数的比例作为结构特征信息;将统计出的Apk文件中的成员变量的名称的长度的最大值、最小值、平均值、方差值、成员变量的个数与Apk文件中的所有成员变量的个数的比例作为结构特征信息;将统计出的Apk文件中的成员函数的名称的长度的最大值、最小值、总和值、平均值、方差值、成员函数的个数与Apk文件中的所有成员函数的个数中所占的比例作为结构特征信息;将统计出的Apk文件中成员变量的类型、成员函数的返回值的类型与Apk文件中所有数据的类型的比例作为结构特征信息;将统计出的Apk文件中成员函数的输入参数的个数的分布、输入参数的名称的长度小于阈值的参数的个数作为结构特征信息;将判断Apk文件中是否存在预设字符串、url、电话号码、数字而得到的判断结果作为结构特征信息;将统计出的Apk文件中的窗口的个数、窗口的名称的长度的最大值、最小值、总和值、平均值、方差值、窗口的尺寸作为结构特征信息;将统计出的Apk文件中的菜单的个数、菜单的名称的长度的最大值、最小值、总和值、平均值、方差值作为结构特征信息;将统计出的Apk文件中动画的个数、动画的名称的长度的最大值、最小值、总和值、平均值、方差值和获取到的动画中的图像的像素特征作为结构特征信息;将统计出的Apk文件中图片的个数、图片的名称的长度的最大值、最小值、总和值、平均值、方差值和获取到的图片中的图像的像素特征作为结构特征信息;以及分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量包括:将所述结构特征信息转换为预设定长输入的机器学习模型的输入向量,其中,每一个类型的结构特征信息对应所述输入向量中的一个分量。3.根据权利要求2所述的方法,其特征在于,所述待识别文件为安卓安装包Apk文件,所述特征信息包括函数特征信息;以及获取待识别文件的特征信息包括:生成Apk文件对应的函数森林,其中,函数森林中包含多个节点,每一个节点对应Apk文件中的一个函数;对函数森林中的树的长度进行排序,确定排序之后排名在预设名次之前的树;采用深度优先算法遍历所述树中预设深度之上的节点;将所述节点对应的函数的名称或函数中的指令作为函数特征信息;将采用相似度哈希算法计算出的所述函数名称或函数中的指令对应的哈希值作为函数特征信息;以及分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量包括:将所述哈希值转换为预设变长输入的机器学习模型的输入向量。4.根据权利要求3所述的方法,其特征在于,所述待识别文件为安卓安装包Apk文件,特征信息包括权限特征信息;以及获取待识别文件的特征信息包括:判断Apk文件中是否包含预设权限;基于判断结果,生成权限特征信息;以及分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量包括:将所述权限特征信息转换为预设定长输入的机器学习模型的输入向量,其中,所述预设权限对应的分量的数值为1,除所述预设权限对应的分量之外的分量的数值为0。5.根据权利要求4所述的方法,其特征在于,所述待识别文件为安卓安装包Apk文件,特征信息包括服务特征信息;以及获取待识别文件的特征信息包括:判断Apk文件中是否包含预设服务;基于判断结果,生成服务特征信息;以及分别将所述特征信息中每一个类型的特征信息转换为所述特征信息对应的预设机器学习模型的输入向量包括:将所述服务特征信息转换为预设定长输入的机器学习模型的输入向量,其中,所述预设服务对应的分量的数值为1,除所述预设服务对应的分量之外的分量的数值为0。6.根据权利要求5所述的方法...

【专利技术属性】
技术研发人员:陈治宇周吉文郭疆徐超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1