一种文件分类方法、存储介质及设备技术

技术编号：17705213 阅读：48 留言：0更新日期：2018-04-14 18:06

本发明专利技术公开了一种文件分类方法、存储介质及设备，所述方法包括：读取至少一个部门的文本数据，其中至少一部分所述文本数据带有类别标签；学习所述文本数据，生成与部门对应的两类分类器；调用所述分类器扫描未知文档，并判断未知文档所属的类别。本发明专利技术可提高文件分类的准确率和效率，减少误分类，能够保证不同部门之间的数据独立性，更利于部门的保密。

全部详细技术资料下载

【技术实现步骤摘要】
一种文件分类方法、存储介质及设备
本专利技术涉及数据处理领域，尤其涉及一种文件分类方法、存储介质及设备。
技术介绍
一般要保护的文件不只一个类别，而且分布在多个部门，如果按照通常的文本分类器设计方法，利用所有的训练文档训练一个多类分类器，利用多类分类器对未知文档进行判定，判定该未知文档所属的类别是否属于要保护的类别集合，以此来决定是否对其过滤。由于每个部门各自都有需要保护的文件或不需要保护的文件，而且部门之间的数据互相保密，这种方法的不足在于它会破坏各部门之间的数据独立性，不利于保密，也会造成大量的误分类。
技术实现思路
针对现有技术中的缺陷，本专利技术提供一种文件分类方法、存储介质及设备，可提高文件分类的准确率和效率，减少误分类，能够保证不同部门之间的数据独立性，更利于部门的保密。第一方面，本专利技术提供了一种文件分类方法，所述方法包括：读取至少一个部门的文本数据，其中至少一部分所述文本数据带有类别标签；学习所述文本数据，生成与部门对应的两类分类器；调用所述分类器扫描未知文档，并判断未知文档所属的类别。进一步地，所述类别标签包括正例和反例。进一步地，所述学习所述文本数据，生成与部门对应的两类分类器，具体包括：对所述文本数据进行分词处理和特征选择，并构造每个所选择的词语的特征向量；学习各个词语的特征向量，生成对应部门的分类模型文件和两类分类器。进一步地，所述调用所述分类器扫描未知文档，并判断未知文档所属的类别，具体包括：调用训练生成一个或多个部门的两类分类器扫描未知文档；对所述未知文档进行分词处理，并对分词后的每个词语构造其特征向量；将所述特征向量输入所述两类...
一种文件分类方法、存储介质及设备

【技术保护点】
一种文件分类方法，其特征在于，所述方法包括：读取至少一个部门的文本数据，其中至少一部分所述文本数据带有类别标签；学习所述文本数据，生成与部门对应的两类分类器；调用所述分类器扫描未知文档，并判断未知文档所属的类别。

【技术特征摘要】
1.一种文件分类方法，其特征在于，所述方法包括：读取至少一个部门的文本数据，其中至少一部分所述文本数据带有类别标签；学习所述文本数据，生成与部门对应的两类分类器；调用所述分类器扫描未知文档，并判断未知文档所属的类别。2.根据权利要求1所述的文件分类方法，其特征在于，所述类别标签包括正例和反例。3.根据权利要求1所述的文件分类方法，其特征在于，所述学习所述文本数据，生成与部门对应的两类分类器，具体包括：对所述文本数据进行分词处理和特征选择，并构造每个所选择的词语的特征向量；学习各个词语的特征向量，生成对应部门的分类模型文件和两类分类器。4.根据权利要求1所述的文件分类方法，其特征在于，所述调用所述分类器扫描未知文档，并判断未知文档所属的类别，具体包括：调用训练生成一个或多个部门的两类分类器扫描未知文档；对所述未知文档进行分词处理，并对分词后的每个词语构造其特征向量；将所述特征向量输入所述两类分类器中，采用所述两类分类器对所述未知文档进行分类。5.根据权利要求4所述的文件...

【专利技术属性】
技术研发人员：刘立军，罗海涛，汪楫人，
申请(专利权)人：云易天成北京安全科技开发有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人