一种文件分类方法及装置制造方法及图纸

技术编号:16644903 阅读:21 留言:0更新日期:2017-11-26 17:24
本发明专利技术公开了一种文件分类方法及装置,分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。从本发明专利技术实施例可见,实现了自动对文件分类,避免了占用人力资源进行文件分类,提高了文件分类的效率。

File classification method and device

The invention discloses a device and a file classification method, respectively using the machine samples in the training set of the other document learning algorithm characteristics of the total number of statistical categories respectively; document the common characteristics of the feature and classification to the same file; according to the statistics of the number of the partition to be the classification of document categories. The example of the invention shows that the automatic classification of files can be realized, and the classification of files can be avoided by using human resources, and the efficiency of file classification can be improved.

【技术实现步骤摘要】
一种文件分类方法及装置
本专利技术涉及但不限于数据处理技术,尤指一种文件分类方法及装置。
技术介绍
目前云平台广泛被使用,用户可以将文件上传到云平台上,但是在将文件上传时需要用户手动对上传的文件进行分类,分类起来非常麻烦。特别是随着大数据时代的到来,上传的文件数量非常大,用户手动对文件分类不但需要耗费大量的人力资源,而且分类的效率比较低。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种文件分类方法及装置,实现了自动对文件分类,避免了占用人力资源进行文件分类。为了达到本专利技术目的,本专利技术提供了一种文件分类方法,包括:分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。进一步地,在所述提取样本训练集合中的各类别文件的共有特征之前,还包括:根据所述样本训练集合中每个文件的功能,将具有相同功能的文件划分为一个类别。进一步地,所述机器学习算法为支持向量机、K-Means算法或者贝叶斯算法。进一步地,所述根据统计出的个数划分待分类文件的类别,包括:将所述待分类文件划分为所述统计出的个数最多的特征所属文件的类别。本专利技术还提供了一种文件分类装置,包括:提取模块,用于分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;统计模块,用于分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;第一划分模块,用于根据统计出的个数划分待分类文件的类别。进一步地,还包括:第二划分模块,用于根据所述样本训练集合中每个文件的功能,将具有相同功能的文件划分为一个类别。进一步地,所述机器学习算法为支持向量机、K-Means算法或者贝叶斯算法。进一步地,所述第一划分模块具体用于,将所述待分类文件划分为所述统计出的个数最多的特征所属文件的类别。本专利技术至少包括分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。从本专利技术实施例可见,通过机器学习算法学习各类别文件的共有特征,利用该共有特征对待分类文件自动进行分类,避免了占用人力资源进行文件分类,特别是待分类文件的数量非常大时,有效地提高了文件分类的效率。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本专利技术的技术方案,并不构成对本专利技术技术方案的限制。图1为本专利技术实施例提供的一种文件分类方法的流程示意图;图2为本专利技术实施例提供的一种文件分类装置的结构示意图;图3为本专利技术实施例提供的另一种文件分类装置的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本专利技术实施例提供一种文件分类方法,如图1所示,该方法包括:步骤101、分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征。具体地,使用机器学习算法对样本训练集合中的各类别文件进行学习,以学习各类别文件的分类规则,其中该分类规则就是指各类别文件的共有特征。在对各类别文件进行学习时,可以基于各类别文件的格式进行学习,例如,样本训练集合中的所有Word文档属于同一种类别,学习到该类别文件的共有特征就是文件的后缀名为doc或者docx;所有ISO格式的文件属于同一种类别,学习到该类别文件的共有特征就是文件的后缀名为iso;所有txt格式的文件属于同一种类别,学习到该类别文件的共有特征就是文件的后缀名为txt。还可以基于各类别文件的内容进行学习,例如,样本训练集合中的所有邮件属于同一种类别,学习到该类别文件的共有特征就是文件的内容包括收件人和发件人。其中,各类别文件的具体学习内容,可以根据用户的需求来定。其中样本训练集合中的文件包括但不限于以下之一或任意多种的组合:音频、图片、视频、文档、邮件、软件安装包、系统文件、用于下达分发命令的文件。样本训练集合中文件的数量超过预定数量,例如样本训练集合中文件的数量超过10000件,即样本训练集合中的文件量比较大,这样可以保证提取到该类别文件的共有特征更加准确。步骤102、分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数。具体地,提取待分类文件的特征;对于各类别文件的共有特征,分别将待分类文件的特征与各类别文件的共有特征一一进行比较,也就是说,分别比较出各类别文件的共有特征中哪些共有特征与待分类文件的特征相同,以分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数。对于提取待分类文件的特征,以下进行具体说明,提取的特征不仅包括待分类文件的格式特征,还包括待分类文件的内容特征。例如,若待分类文件是文档,则文档的内容特征包括特征词;若待分类文件是图像,则图像的内容特征包括纹理特征和灰度共生矩阵;若待分类文件是音频,则音频的内容特征包括声强、声强级、响度、音高、基音周期、基音频率和信噪比;若待分类文件是视频,则视频的内容特征特征包括音频的内容特征和图像的内容特征,上述已经介绍了音频的内容特征和图像的内容特征,在此不再重复赘述;若待分类文件是邮件,则邮件的内容特征包括收件人、发件人、特征词;若待分类文件是软件安装包,则软件安装包的内容特征包括软件安装包中的文件和每个文件的代码;若待分类文件是系统文件或者用于下达分发命令的文件,则该文件的内容特征包括文件的代码。步骤103、根据统计出的个数划分待分类文件的类别。具体地,统计出的个数越多,越多个数的特征所属文件与待分类文件越相似,待分类文件就越有可能属于越多个数的特征所属文件的类别。进一步地,在图1对应实施例的基础上,在步骤101之后,还包括:根据提取到的各类别文件的共有特征生成分类器,该分类器包括各类别文件的共有特征。提取样本训练集合中的各类别的文件的共有特征和分类器的生成可以在云平台上生成,也可以在云平台之外生成。若在云平台之外生成,在生成分类器后,将生成的分类器应用到云平台上,当用户向云平台上传待分类文件时,分类器根据各类别文件的共有特征对待分类文件进行分类,无需用户手动对待分类文件进行分类,简化用户操作,提升用户的使用体验,解决了云平台对批量上传的文件难分类的问题。当然,也可以根据用户的需求修改待分类文件的类别,以实现手动对待分类文件进行分类。进一步地,在图1对应实施例的基础上,在步骤101之前,还包括:根据样本训练集合中每个文件的功能,将具有相同功能的文件划分为一个类别。具体地,样本训练集合中的每个文件上都有标记,该标记用于标识该文件的功能,相同功能的文件的标记相同,将具有相同标记的文件划分为一个类别,即实现本文档来自技高网...
一种文件分类方法及装置

【技术保护点】
一种文件分类方法,其特征在于,包括:分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。

【技术特征摘要】
1.一种文件分类方法,其特征在于,包括:分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。2.根据权利要求1所述的文件分类方法,其特征在于,在所述提取样本训练集合中的各类别文件的共有特征之前,还包括:根据所述样本训练集合中每个文件的功能,将具有相同功能的文件划分为一个类别。3.根据权利要求1或2所述的文件分类方法,其特征在于,所述机器学习算法为支持向量机、K-Means算法或者贝叶斯算法。4.根据权利要求1或2所述的文件分类方法,其特征在于,所述根据统计出的个数划分待分类文件的类别,包括:将所述待分类文件划分为所述统计出的个数最多的特征所属文件的...

【专利技术属性】
技术研发人员:杨瑞
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1