垃圾文件识别装置和方法制造方法及图纸

技术编号:15436846 阅读:41 留言:0更新日期:2017-05-25 19:06
本发明专利技术公开了一种垃圾文件识别装置,所述装置包括:字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。本发明专利技术还公开了一种垃圾文件识别方法。本发明专利技术减少了垃圾文件的遗漏,提高了垃圾文件的识别率。

Garbage file recognition device and method

The invention discloses a junk file identification device, the device comprises a dictionary module, used to obtain the parent folder path of the file to be identified, whether the path is located in the predetermined garbage in the dictionary; extraction module, for if the path is not in the dictionary is garbage, extracting the files to the identification of feature information and the parent folder information; probability for module, according to the characteristics of information and documents to identify the parent folder information, a pre configured classifier and garbage file storage rules, the calculation of identification documents for comprehensive probability garbage files; marking module, used for comprehensive probability if the documents that need to be recognized for the junk files is equal to or greater than a predetermined threshold, then the identification mark files as junk files. The invention also discloses a garbage document recognition method. The invention reduces the omission of junk files and improves the recognition rate of garbage files.

【技术实现步骤摘要】
垃圾文件识别装置和方法
本专利技术涉及信息识别
,尤其涉及一种垃圾文件识别装置和方法。
技术介绍
随着手机使用时间的增长,手机中的文件会越来越多,引发手机的卡顿问题,严重影响使用者使用手机的用户体验。因此,识别并删除对用户无用的文件(即垃圾文件),一直是手机管家类软件研究的重点问题。目前,现有的识别垃圾文件的方法都是采用基于垃圾字典的方法。此方法需要通过大量测试找到各个常用应用软件产生垃圾文件的路径信息,然后将这些路径信息整理成垃圾路径数据库(垃圾字典)。清理垃圾文件时,判断垃圾文件的标准是此文件的父文件夹路径是否在垃圾字典中,如果在垃圾字典中,则此文件为垃圾文件,可以清理;反之,则不是垃圾文件,不能清理。但是,由于市场上应用软件繁多,很难对每个应用软件都进行测试来寻找其垃圾路径,而且即使对于常用的应用软件,也很难测试出其所有的垃圾路径。这些种种因素导致目前的基于垃圾字典的识别方法遗漏大量垃圾路径,垃圾文件识别率不高。因此,在保证识别的垃圾文件的准确性基础上,如何减少垃圾文件的遗漏,提高垃圾文件的识别率,成为亟待解决的问题。
技术实现思路
本专利技术的主要目的在于提供一种垃圾文件识别装置和方法,旨在解决如何提高垃圾文件的识别率的技术问题。为实现上述目的,本专利技术提供一种垃圾文件识别装置,所述垃圾文件识别装置包括:字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。在一个实施例中,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述概率模块还用于,根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率;将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率;依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。在一个实施例中,所述垃圾文件识别装置还包括:配置模块,用于依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典;根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集;根据所述样本文件训练分类器模型得到所述分类器。在一个实施例中,所述配置模块还用于,获取所述样本文件的标识,所述样本文件的标识表征了所述样本文件是否为垃圾文件;提取所述样本文件的特征信息及所述样本文件父文件夹的特征信息;将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息的权重;根据所述各特征信息及对应的权重配置得到所述分类器。在一个实施例中,所述标记模块还用于,若所述待识别文件为垃圾文件的综合概率小于所述预设阀值,则将所述待识别文件标记为非垃圾文件。此外,为实现上述目的,本专利技术还提供一种垃圾文件识别方法,所述垃圾文件识别方法包括以下步骤:获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。在一个实施例中,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述计算所述待识别文件为垃圾文件的综合概率的步骤的包括:根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率;将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率;依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。在一个实施例中,所述垃圾文件识别方法还包括:依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典;根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集;根据所述样本文件训练分类器模型得到所述分类器。在一个实施例中,所述根据所述样本文件训练分类器模型得到所述分类器的步骤包括:获取所述样本文件的标识,所述样本文件的标识表征了所述样本文件是否为垃圾文件;提取所述样本文件的特征信息及所述样本文件父文件夹的特征信息;将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息的权重;根据所述各特征信息及对应的权重配置得到所述分类器。在一个实施例中,所述垃圾文件识别方法还包括:若所述待识别文件为垃圾文件的综合概率小于所述预设阀值,则将所述待识别文件标记为非垃圾文件。本专利技术提出的一种垃圾文件识别装置和方法,通过字典模块使用垃圾字典识别待识别文件;若待识别文件的父文件夹名称和路径不在垃圾字典中,则提取模块提取待识别文件的特征信息和父文件夹信息;然后,概率模块根据待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算此待识别文件为垃圾文件的综合概率;若该待识别文件为垃圾文件的综合概率大于或等于预设阀值,则标记模块将该待识别文件标记为垃圾文件。本专利技术在垃圾字典识别的基础上,增加了垃圾文件存储规则集和分类器,对垃圾字典未识别出的文件进行了进一步的识别、校验,得到待识别文件为垃圾文件综合概率,通过比较综合概率与预设阀值来确定待识别文件是否为垃圾文件,减少了对正常文件的误判,实现了对待识别文件的多维度分析、校验,在保证识别的垃圾文件的准确性基础上,有效减少了垃圾文件的遗漏,提高了垃圾文件的识别率。附图说明图1为实现本专利技术各个实施例一个可选的移动终端的硬件结构示意图;图2为如图1所示的移动终端的无线通信系统示意图;图3为本专利技术垃圾文件识别装置第一实施例、第二实施例、第四实施例的模块示意图;图4为本专利技术垃圾文件识别装置第三实施例的模块示意图;图5为本专利技术垃圾文件识别方法第一实施例的流程示意图;图6为本专利技术垃圾文件识别方法第二实施例的流程示意图;图7为本专利技术垃圾文件识别方法第三实施例的流程示意图;图8为图7中根据所述样本文件训练分类器模型得到所述分类器的步骤的细化流程示意图;图9为本专利技术垃圾文件识别方法第四实施例的流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。现在将参考附图描述实现本专利技术各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本专利技术的说明,其本身并没有特定的意义。因此,"模块"与"本文档来自技高网...
垃圾文件识别装置和方法

【技术保护点】
一种垃圾文件识别装置,其特征在于,所述垃圾文件识别装置包括:字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。

【技术特征摘要】
1.一种垃圾文件识别装置,其特征在于,所述垃圾文件识别装置包括:字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。2.如权利要求1所述垃圾文件识别装置,其特征在于,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述概率模块还用于,根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率;将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率;依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。3.如权利要求2所述的垃圾文件识别装置,其特征在于,所述垃圾文件识别装置还包括:配置模块,用于依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典;根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集;根据所述样本文件训练分类器模型得到所述分类器。4.如权利要求3所述垃圾文件识别装置,其特征在于,所述配置模块还用于,获取所述样本文件的标识,所述样本文件的标识表征了所述样本文件是否为垃圾文件;提取所述样本文件的特征信息及所述样本文件父文件夹的特征信息;将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息的权重;根据所述各特征信息及对应的权重配置得到所述分类器。5.如权利要求1-4任一项所述垃圾文件识别装置,其特征在于,所述标记模块还用于,若所述待识别文件为垃圾文件的综合概率小于所述预设阀值,则将所述待识别文件标记为非垃圾文件。6.一种垃圾...

【专利技术属性】
技术研发人员:张龙
申请(专利权)人:努比亚技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1