模型生成方法、垃圾文件识别方法及装置制造方法及图纸

技术编号:18458747 阅读:17 留言:0更新日期:2018-07-18 12:41
本发明专利技术公开了一种模型生成方法、垃圾文件识别方法及装置,属于数据处理领域。所述方法包括:获取第一数据集和第二数据集,计算第一数据集对应的第一特征矩阵和第二数据集对应的第二特征矩阵,第一特征矩阵用于指示第一目录信息的文本特征,第二特征矩阵用于指示第二目录信息的文本特征;根据第一特征矩阵和第二特征矩阵,训练得到目标分类模型。本发明专利技术通过对特征矩阵进行训练得到用于确定待检测文件是否为所述垃圾文件的目标分类模型,使得后续过程中能够直接使用该目标分类模型智能识别垃圾文件,减轻了相关技术中人工维护配置文件的工作量。

Model generation method, garbage file identification method and device

The invention discloses a model generation method, a garbage file identification method and a device, and belongs to the field of data processing. The method includes: obtaining the first data set and the second data set, calculating the first feature matrix corresponding to the first data set and the second feature matrix corresponding to the second data set, and the first feature matrix for indicating the text features of the first directory information, and the second feature matrix for indicating the text features of the second directory information; The first characteristic matrix and the second characteristic matrix are trained to get the target classification model. By training the feature matrix to determine whether the file to be detected as the garbage file is the target classification model, the following process can directly use the target classification model to intelligently identify the garbage files, and reduce the workload of the manual maintenance of the configuration files in the related technology.

【技术实现步骤摘要】
模型生成方法、垃圾文件识别方法及装置
本专利技术实施例涉及数据处理领域,特别涉及一种模型生成方法、垃圾文件识别方法及装置。
技术介绍
随着智能终端的普及,各种终端应用软件层出不穷,伴随而来的是终端上经常存在各种垃圾文件,如浏览器缓存文件、蓝牙文件、图片缓存等,这些垃圾文件很容易导致终端运行缓慢或增大耗电量。因此,有必要对垃圾文件进行及时的识别并清理。目前使用较为广泛的垃圾文件识别方法是基于配置文件的垃圾文件识别方法。基于配置文件的垃圾文件识别方法的核心思想包括:预先通过人工观察各个应用程序运行中所产生的垃圾文件,确定出n个垃圾文件的垃圾类型和所在路径的路径信息等目录信息,将这n个垃圾文件对应的目录信息记录在配置文件中;客户端程序将按照该配置文件中的路径依次进行扫描,若扫描到的文件的类型与垃圾类型一致,则识别出该文件为垃圾文件。但是,在上述方法中,配置文件是需要人工实时维护的,即每当出现新的垃圾类型时,均需要先经过人工观察和确定该垃圾类型,再对配置文件进行编辑和更新。在配置文件更新完成后,客户端程序才能基于更新后的配置文件识别垃圾文件。而随着垃圾类型的增多,人工维护配置文件不仅非常烦琐,而且不容易操作,导致垃圾文件的识别效果不佳。
技术实现思路
为了解决相关技术中人工维护配置文件导致基于配置文件的垃圾文件识别方法的识别效果不佳的问题,本专利技术实施例提供了模型生成方法、垃圾文件识别方法及装置。所述技术方案如下:第一方面,提供了一种模型生成方法,所述方法包括:获取第一数据集和第二数据集,所述第一数据集包括至少一个垃圾文件的第一目录信息,所述第二数据集包括至少一个非垃圾文件的第二目录信息,所述第一数据集和所述第二数据集不存在交集;根据所述至少一个垃圾文件的所述第一目录信息,计算所述第一数据集对应的第一特征矩阵,所述第一特征矩阵用于指示所述第一目录信息的文本特征;根据所述至少一个非垃圾文件的所述第二目录信息,计算所述第二数据集对应的第二特征矩阵,所述第二特征矩阵用于指示所述第二目录信息的文本特征;根据所述第一特征矩阵和所述第二特征矩阵,训练得到目标分类模型,所述目标分类模型用于确定待检测文件是否为所述垃圾文件。第二方面,提供了一种垃圾文件识别方法,采用如第一方面所述的模型生成方法所生成的所述目标分类模型,所述方法包括:获取待检测文件的目录信息,所述待检测文件的目录信息包括所述待检测文件的扩展名信息和所述待检测文件所在路径的路径信息;根据所述待检测文件的扩展名信息和对应的所述路径信息,采用所述目标分类模型得到所述待检测文件的识别结果,所述识别结果用于指示所述待检测文件是垃圾文件或者非垃圾文件。第三方面,提供了一种模型生成装置,所述装置包括:获取模块,用于获取第一数据集和第二数据集,所述第一数据集包括至少一个垃圾文件的第一目录信息,所述第二数据集包括至少一个非垃圾文件的第二目录信息,所述第一数据集和所述第二数据集不存在交集;第一计算模块,用于根据所述至少一个垃圾文件的所述第一目录信息,计算所述第一数据集对应的第一特征矩阵,所述第一特征矩阵用于指示所述第一目录信息的文本特征;第二计算模块,用于根据所述至少一个非垃圾文件的所述第二目录信息,计算所述第二数据集对应的第二特征矩阵,所述第二特征矩阵用于指示所述第二目录信息的文本特征;训练模块,用于根据所述第一特征矩阵和所述第二特征矩阵,训练得到目标分类模型,所述目标分类模型用于确定待检测文件是否为所述垃圾文件。在一种可能的实现方式中,所述获取模块,包括:获取单元和第一确定单元;所述获取单元,用于获取垃圾配置文件,所述垃圾配置文件包括预设的所述至少一个垃圾文件的第一扩展名信息和所在路径的第一路径信息;所述第一确定单元,用于对于每个所述垃圾文件,将所述垃圾文件的所述第一扩展名信息和所述第一路径信息确定为所述垃圾文件的所述第一目录信息,得到包括所述至少一个第一目录信息的所述第一数据集。在一种可能的实现方式中,所述获取模块,包括:遍历单元、第二确定单元和得到单元;所述遍历单元,用于遍历所述操作系统中的k个磁盘文件各自对应的目录信息,所述目录信息包括所述磁盘文件的扩展名信息和所述磁盘文件所在路径的路径信息,所述k为正整数;所述第二确定单元,用于当检测到第i个磁盘文件为所述非垃圾文件时,将所述第i个磁盘文件的所述目录信息确定为所述第二目录信息,将所述第二目录信息添加至所述第二数据集中,所述i为正整数,所述i≤k;所述得到单元,用于得到包括所述至少一个第二目录信息的所述第二数据集。在一种可能的实现方式中,所述至少一个垃圾文件的第一目录信息包括所述至少一个垃圾文件的第一扩展名信息和第一路径信息,所述获取模块,还用于当所述第i个磁盘文件的所述目录信息满足第一预设条件时,确定所述第i个磁盘文件为所述非垃圾文件;其中,所述第一预设条件包括所述第i个磁盘文件的所述扩展名信息与所述至少一个第一扩展名信息均不同,和/或所述第i个磁盘文件对应的所述路径信息与所述至少一个第一路径信息均不同。在一种可能的实现方式中,所述第一计算模块,包括:第一分词单元、第一计算单元和第一生成单元;所述第一分词单元,用于对所述至少一个第一目录信息进行分词处理,得到m个第一特征词语,所述m为正整数;所述第一计算单元,用于计算所述m个第一特征词语各自对应的第一特征值,所述第一特征值用于指示所述第一特征词语对所述垃圾文件判定的区别能力;所述第一生成单元,用于根据所述m个第一特征词语各自对应的所述第一特征值,生成所述第一数据集对应的所述第一特征矩阵。在一种可能的实现方式中,所述第二计算模块,包括:第二分词单元、第二计算单元和第二生成单元;所述第二分词单元,用于对所述至少一个第二目录信息进行分词处理,得到n个第二特征词语,所述n为正整数;所述第二计算单元,用于计算所述n个第二特征词语各自对应的第二特征值,所述第二特征值用于指示所述第二特征词语对所述非垃圾文件判定的区别能力;所述第二生成单元,用于根据所述n个第二特征词语各自对应的所述第二特征值,生成所述第二数据集对应的所述第二特征矩阵。在一种可能的实现方式中,所述装置,还包括:分类模块,用于将所述第一数据集分成第一训练集和第一测试集,将所述第二数据集分成第二训练集和第二测试集,所述第一训练集和所述第二训练集用于训练得到所述目标分类模型,所述第一测试集和所述第二测试集用于对所述目标分类模型进行测试得到分类准确率;所述训练模块,包括:第三确定单元、第四确定单元和训练单元;所述第三确定单元,用于根据所述第一特征矩阵,确定所述第一训练集对应的第一特征子矩阵;所述第四确定单元,用于根据所述第二特征矩阵,确定所述第二训练集对应的第二特征子矩阵;所述训练单元,用于根据所述第一特征子矩阵和所述第二特征子矩阵,训练得到所述目标分类模型。在一种可能的实现方式中,所述训练单元,还用于将所述第一特征子矩阵和所述第二特征子矩阵输入逻辑回归模型中,训练得到所述目标分类模型。第四方面,提供了一种垃圾文件识别装置,采用如第一方面所述的模型生成装置所生成的所述目标分类模型,所述装置包括:获取模块,用于获取待检测文件的目录信息,所述待检测文件的目录信息包括所述待检测文件的扩展名信息和所述待检测文件所在路径的路径信息;本文档来自技高网...

【技术保护点】
1.一种模型生成方法,其特征在于,所述方法包括:获取第一数据集和第二数据集,所述第一数据集包括至少一个垃圾文件的第一目录信息,所述第二数据集包括至少一个非垃圾文件的第二目录信息,所述第一数据集和所述第二数据集不存在交集;根据所述至少一个垃圾文件的所述第一目录信息,计算所述第一数据集对应的第一特征矩阵,所述第一特征矩阵用于指示所述第一目录信息的文本特征;根据所述至少一个非垃圾文件的所述第二目录信息,计算所述第二数据集对应的第二特征矩阵,所述第二特征矩阵用于指示所述第二目录信息的文本特征;根据所述第一特征矩阵和所述第二特征矩阵,训练得到目标分类模型,所述目标分类模型用于确定待检测文件是否为所述垃圾文件。

【技术特征摘要】
1.一种模型生成方法,其特征在于,所述方法包括:获取第一数据集和第二数据集,所述第一数据集包括至少一个垃圾文件的第一目录信息,所述第二数据集包括至少一个非垃圾文件的第二目录信息,所述第一数据集和所述第二数据集不存在交集;根据所述至少一个垃圾文件的所述第一目录信息,计算所述第一数据集对应的第一特征矩阵,所述第一特征矩阵用于指示所述第一目录信息的文本特征;根据所述至少一个非垃圾文件的所述第二目录信息,计算所述第二数据集对应的第二特征矩阵,所述第二特征矩阵用于指示所述第二目录信息的文本特征;根据所述第一特征矩阵和所述第二特征矩阵,训练得到目标分类模型,所述目标分类模型用于确定待检测文件是否为所述垃圾文件。2.根据权利要求1所述的方法,其特征在于,所述获取第一数据集,包括:获取垃圾配置文件,所述垃圾配置文件包括预设的所述至少一个垃圾文件的第一扩展名信息和所在路径的第一路径信息;对于每个所述垃圾文件,将所述垃圾文件的所述第一扩展名信息和所述第一路径信息确定为所述垃圾文件的所述第一目录信息,得到包括所述至少一个第一目录信息的所述第一数据集。3.根据权利要求1所述的方法,其特征在于,所述获取第二数据集,包括:遍历所述操作系统中的k个磁盘文件各自对应的目录信息,所述目录信息包括所述磁盘文件的扩展名信息和所述磁盘文件所在路径的路径信息,所述k为正整数;当检测到第i个磁盘文件为所述非垃圾文件时,将所述第i个磁盘文件的所述目录信息确定为所述第二目录信息,将所述第二目录信息添加至所述第二数据集中;得到包括所述至少一个第二目录信息的所述第二数据集,所述i为正整数,所述i≤k。4.根据权利要求3所述的方法,其特征在于,所述至少一个垃圾文件的第一目录信息包括所述至少一个垃圾文件的第一扩展名信息和第一路径信息,所述当检测到第i个磁盘文件为所述非垃圾文件时,将所述第i个磁盘文件的目录信息确定为所述第二目录信息之前,包括:当所述第i个磁盘文件的所述目录信息满足第一预设条件时,确定所述第i个磁盘文件为所述非垃圾文件;其中,所述第一预设条件包括所述第i个磁盘文件的所述扩展名信息与所述至少一个第一扩展名信息均不同,和/或所述第i个磁盘文件对应的所述路径信息与所述至少一个第一路径信息均不同。5.根据权利要求1至4任一所述的方法,其特征在于,所述根据所述至少一个垃圾文件的所述第一目录信息,计算所述第一数据集对应的第一特征矩阵,包括:对所述至少一个第一目录信息进行分词处理,得到m个第一特征词语,所述m为正整数;计算所述m个第一特征词语各自对应的第一特征值,所述第一特征值用于指示所述第一特征词语对所述垃圾文件判定的区别能力;根据所述m个第一特征词语各自对应的所述第一特征值,生成所述第一数据集对应的所述第一特征矩阵。6.根据权利要求1至4任一所述的方法,其特征在于,所述根据所述至少一个非垃圾文件的所述第二目录信息,计算所述第二数据集对应的第二特征矩阵,包括:对所述至少一个第二目录信息进行分词处理,得到n个第二特征词语,所述n为正整数;计算所述n个第二特征词语各自对应的第二特征值,所述第二特征值用于指示所述第二特征词语对所述非垃圾文件判定的区别能力;根据所述n个第二特征词语各自对应的所述第二特征值,生成所述第二数据集对应的所述第二特征矩阵。7.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征矩阵和所述第二特征矩阵,训练得到目标分类模型之前,还包括:将所述第一数据集分成第一训练集和第一测试集,将所述第二数据集分成第二训练集和第二测试集,所述第一训练集和所述第二训练集用于训练得到所述...

【专利技术属性】
技术研发人员:曹一聪魏雪
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1