一种文件分类方法及装置制造方法及图纸

技术编号:16644903 阅读:32 留言:0更新日期:2017-11-26 17:24
本发明专利技术公开了一种文件分类方法及装置,分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。从本发明专利技术实施例可见,实现了自动对文件分类,避免了占用人力资源进行文件分类,提高了文件分类的效率。

File classification method and device

The invention discloses a device and a file classification method, respectively using the machine samples in the training set of the other document learning algorithm characteristics of the total number of statistical categories respectively; document the common characteristics of the feature and classification to the same file; according to the statistics of the number of the partition to be the classification of document categories. The example of the invention shows that the automatic classification of files can be realized, and the classification of files can be avoided by using human resources, and the efficiency of file classification can be improved.

【技术实现步骤摘要】
一种文件分类方法及装置
本专利技术涉及但不限于数据处理技术,尤指一种文件分类方法及装置。
技术介绍
目前云平台广泛被使用,用户可以将文件上传到云平台上,但是在将文件上传时需要用户手动对上传的文件进行分类,分类起来非常麻烦。特别是随着大数据时代的到来,上传的文件数量非常大,用户手动对文件分类不但需要耗费大量的人力资源,而且分类的效率比较低。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种文件分类方法及装置,实现了自动对文件分类,避免了占用人力资源进行文件分类。为了达到本专利技术目的,本专利技术提供了一种文件分类方法,包括:分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。进一步地,在所述提取样本训练集合中的各类别文件的共有特征之前,还包括:根据所述样本训练集合中每个文件的功能,将具有相同功能的文件划分为一个类别。进一步地,所述机器学习算法为支持向量机、K-Means算法或者贝叶斯算法。进一步地,所述根据统计出的个数划分待分类文件的类别,包括:将所述待分类文件划分本文档来自技高网...
一种文件分类方法及装置

【技术保护点】
一种文件分类方法,其特征在于,包括:分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。

【技术特征摘要】
1.一种文件分类方法,其特征在于,包括:分别使用机器学习算法提取样本训练集合中的各类别的文件的共有特征;分别统计各类别的文件的共有特征中与待分类文件的特征相同的特征的个数;根据统计出的个数划分待分类文件的类别。2.根据权利要求1所述的文件分类方法,其特征在于,在所述提取样本训练集合中的各类别文件的共有特征之前,还包括:根据所述样本训练集合中每个文件的功能,将具有相同功能的文件划分为一个类别。3.根据权利要求1或2所述的文件分类方法,其特征在于,所述机器学习算法为支持向量机、K-Means算法或者贝叶斯算法。4.根据权利要求1或2所述的文件分类方法,其特征在于,所述根据统计出的个数划分待分类文件的类别,包括:将所述待分类文件划分为所述统计出的个数最多的特征所属文件的...

【专利技术属性】
技术研发人员:杨瑞
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1