The invention discloses a junk file identification device, the device comprises a dictionary module, used to obtain the parent folder path of the file to be identified, whether the path is located in the predetermined garbage in the dictionary; extraction module, for if the path is not in the dictionary is garbage, extracting the files to the identification of feature information and the parent folder information; probability for module, according to the characteristics of information and documents to identify the parent folder information, a pre configured classifier and garbage file storage rules, the calculation of identification documents for comprehensive probability garbage files; marking module, used for comprehensive probability if the documents that need to be recognized for the junk files is equal to or greater than a predetermined threshold, then the identification mark files as junk files. The invention also discloses a garbage document recognition method. The invention reduces the omission of junk files and improves the recognition rate of garbage files.
【技术实现步骤摘要】
垃圾文件识别装置和方法
本专利技术涉及信息识别
,尤其涉及一种垃圾文件识别装置和方法。
技术介绍
随着手机使用时间的增长,手机中的文件会越来越多,引发手机的卡顿问题,严重影响使用者使用手机的用户体验。因此,识别并删除对用户无用的文件(即垃圾文件),一直是手机管家类软件研究的重点问题。目前,现有的识别垃圾文件的方法都是采用基于垃圾字典的方法。此方法需要通过大量测试找到各个常用应用软件产生垃圾文件的路径信息,然后将这些路径信息整理成垃圾路径数据库(垃圾字典)。清理垃圾文件时,判断垃圾文件的标准是此文件的父文件夹路径是否在垃圾字典中,如果在垃圾字典中,则此文件为垃圾文件,可以清理;反之,则不是垃圾文件,不能清理。但是,由于市场上应用软件繁多,很难对每个应用软件都进行测试来寻找其垃圾路径,而且即使对于常用的应用软件,也很难测试出其所有的垃圾路径。这些种种因素导致目前的基于垃圾字典的识别方法遗漏大量垃圾路径,垃圾文件识别率不高。因此,在保证识别的垃圾文件的准确性基础上,如何减少垃圾文件的遗漏,提高垃圾文件的识别率,成为亟待解决的问题。
技术实现思路
本专利技术的主要目的在于提供一种垃圾文件识别装置和方法,旨在解决如何提高垃圾文件的识别率的技术问题。为实现上述目的,本专利技术提供一种垃圾文件识别装置,所述垃圾文件识别装置包括:字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分 ...
【技术保护点】
一种垃圾文件识别装置,其特征在于,所述垃圾文件识别装置包括:字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。
【技术特征摘要】
1.一种垃圾文件识别装置,其特征在于,所述垃圾文件识别装置包括:字典模块,用于获取待识别文件的父文件夹路径,判断所述路径是否位于预设的垃圾字典中;提取模块,用于若所述路径不位于所述垃圾字典中,则提取所述待识别文件的特征信息和父文件夹信息;概率模块,用于根据所述待识别文件的特征信息和父文件夹信息,预先配置的分类器及垃圾文件存储规则集,计算所述待识别文件为垃圾文件的综合概率;标记模块,用于若所述待识别文件为垃圾文件的综合概率大于或等于预设阀值,则将所述待识别文件标记为垃圾文件。2.如权利要求1所述垃圾文件识别装置,其特征在于,所述待识别文件的父文件夹信息包括父文件夹的名称、路径和特征信息,所述概率模块还用于,根据所述垃圾文件存储规则集和所述待识别文件的父文件夹名称、路径,计算所述待识别文件为垃圾文件的第一概率;将所述待识别文件的特征信息和所述待识别文件父文件夹的特征信息输入所述分类器,获取所述分类器输出的所述待识别文件为垃圾文件的第二概率;依据所述第一概率、第二概率及预设的权重值,计算所述待识别文件为垃圾文件的综合概率。3.如权利要求2所述的垃圾文件识别装置,其特征在于,所述垃圾文件识别装置还包括:配置模块,用于依据采集的样本应用软件的垃圾文件路径信息,配置所述垃圾字典;根据预先配置的样本文件中各类别垃圾文件的父文件夹名称和路径,配置所述垃圾文件存储规则集;根据所述样本文件训练分类器模型得到所述分类器。4.如权利要求3所述垃圾文件识别装置,其特征在于,所述配置模块还用于,获取所述样本文件的标识,所述样本文件的标识表征了所述样本文件是否为垃圾文件;提取所述样本文件的特征信息及所述样本文件父文件夹的特征信息;将所述样本文件的特征信息、所述样本文件父文件夹的特征信息,以及所述样本文件的标识输入分类器模型,以供所述分类器模型训练得到各特征信息的权重;根据所述各特征信息及对应的权重配置得到所述分类器。5.如权利要求1-4任一项所述垃圾文件识别装置,其特征在于,所述标记模块还用于,若所述待识别文件为垃圾文件的综合概率小于所述预设阀值,则将所述待识别文件标记为非垃圾文件。6.一种垃圾...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。