一种文件分类方法、存储介质及设备技术

技术编号:17705213 阅读:48 留言:0更新日期:2018-04-14 18:06
本发明专利技术公开了一种文件分类方法、存储介质及设备,所述方法包括:读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;学习所述文本数据,生成与部门对应的两类分类器;调用所述分类器扫描未知文档,并判断未知文档所属的类别。本发明专利技术可提高文件分类的准确率和效率,减少误分类,能够保证不同部门之间的数据独立性,更利于部门的保密。

【技术实现步骤摘要】
一种文件分类方法、存储介质及设备
本专利技术涉及数据处理领域,尤其涉及一种文件分类方法、存储介质及设备。
技术介绍
一般要保护的文件不只一个类别,而且分布在多个部门,如果按照通常的文本分类器设计方法,利用所有的训练文档训练一个多类分类器,利用多类分类器对未知文档进行判定,判定该未知文档所属的类别是否属于要保护的类别集合,以此来决定是否对其过滤。由于每个部门各自都有需要保护的文件或不需要保护的文件,而且部门之间的数据互相保密,这种方法的不足在于它会破坏各部门之间的数据独立性,不利于保密,也会造成大量的误分类。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种文件分类方法、存储介质及设备,可提高文件分类的准确率和效率,减少误分类,能够保证不同部门之间的数据独立性,更利于部门的保密。第一方面,本专利技术提供了一种文件分类方法,所述方法包括:读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;学习所述文本数据,生成与部门对应的两类分类器;调用所述分类器扫描未知文档,并判断未知文档所属的类别。进一步地,所述类别标签包括正例和反例。进一步地,所述学习所述文本数据,生成与部门对应的两类分类器,具体包括:对所述文本数据进行分词处理和特征选择,并构造每个所选择的词语的特征向量;学习各个词语的特征向量,生成对应部门的分类模型文件和两类分类器。进一步地,所述调用所述分类器扫描未知文档,并判断未知文档所属的类别,具体包括:调用训练生成一个或多个部门的两类分类器扫描未知文档;对所述未知文档进行分词处理,并对分词后的每个词语构造其特征向量;将所述特征向量输入所述两类分类器中,采用所述两类分类器对所述未知文档进行分类。进一步地,采用所述两类分类器对所述未知文档进行分类,具体包括:采用所述两类分类器将所述特征向量与所述类别标签进行匹配,判断所述未知文档的类别是否是正例,并反馈匹配结果。进一步地,若所述特征向量和所述类别标签匹配成功则反馈1,匹配失败则反馈-1,未匹配则反馈0。第二方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;学习所述文本数据,生成与部门对应的两类分类器;调用所述分类器扫描未知文档,并判断未知文档所属的类别。第三方面,本专利技术还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;学习所述文本数据,生成与部门对应的两类分类器;调用所述分类器扫描未知文档,并判断未知文档所属的类别。由上述技术方案可知,本专利技术提供一种文件分类方法、存储介质及设备,对每个部门均训练与之对应的两类分类器,采用两类分类器来对未知文档进行分类,可提高文件分类的准确率和效率,减少误分类;能够保证不同部门之间的数据独立性,更利于部门的保密目的。附图说明图1示出了本专利技术提供的文件分类方法的流程示意图。图2示出了对训练文档进行训练的流程示意图。图3示出了对未知文档进行分类的流程示意图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。实施例一图1示出了本专利技术实施例一提供的文件分类方法的流程示意图。如图1所示,所述方法包括:步骤S1,读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签。文本数据由运行训练程序的计算机从另一台计算机上的共享目录中读取,读取的文本数据作为训练文档,用于训练相应的分类器。类别标签有两种,分别是正例(positive)和反例(negative),正例指该训练文本数据需要保护或需要过滤,反例指该训练文本数据不需要保护或不需要过滤。每个部门的训练文档按照其类别标签不同,可以形成三类文件夹:正例文件夹、反例文件夹以及未标记文件夹;其中,正例文件夹中的文本数据的类别标签为正例,反例文件夹中的文本数据的类别标签为反例,未标记文件夹中的文本数据未指定具体的类别标签;其中,正例文件夹和反例文件夹用于训练分类器的分类模型文件,未标记文件夹用于实现半监督学习。步骤S2,学习所述文本数据,生成该部门的两类分类器。所读取至少一个部门的文本数据作为训练样本,经学习和训练后,生成该部门的分类模型文件和对应的两类分类器。本专利技术实施例采用正例文件夹和反例文件夹的文件集作为训练集进行训练,训练过程如图2所示:首先,对训练样本中的文本数据基于预设词典进行分词处理,对分词后的每个词语根据预设的特征选择规则进行特征选择,后根据部门特征词典对所选取的词语构造其特征向量,学习各个词语的特征向量,结合类别标签,训练生成对应部门的分类模型文件和两类分类器。训练生成的分类模型文件中包含该部门的部门ID(部门编号),部门ID为正整数,由管理员统一分配并保持唯一,以便与其它部门的分类模型文件相区别。所述两类分类器优选为SVM分类器,支持向量机学习算法。若在训练时只指定正例文件夹进行训练,则生成的分类器在分类时将所有识别的文件均判定为正类;若在训练时只指定反例文件夹进行训练,则生成的分类器在分类时将所有识别的文件均判定为反类。步骤S3,调用所述分类器扫描未知文档,并判断未知文档所属的类别。步骤S3的具体过程如图3所示:调用训练生成一个或多个部门的两类分类器分别扫描未知文档,对扫描到的文件名或文件内容等数据基于预设词典进行分词处理,并将要匹配的部门的部门ID作为参数输入该分类器,如输入部门ID为i;分词后对每个词语分别根据部门i特征词典构造其特征向量,并将特征向量输入部门i分类器;分类器将特征向量与类别标签进行匹配,确定未知文档是否属于正例,并反馈匹配结果;匹配成功则反馈1,表示该未知文档为正例;匹配失败则反馈-1,表示该未知文档为反例;未匹配则反馈0,表示无法确定该未知文档是否为正例或反例。根据预设过滤规则,即正例则过滤,反例则不过滤,对不同类别的未知文档进行过滤。基于以上内容,本专利技术实施例一可以实现的技术效果为:对每个部门均训练与之对应的两类分类器,采用两类分类器来对未知文档进行分类,可提高文件分类的准确率和效率,减少误分类;能够保证不同部门之间的数据独立性,更利于部门的保密目的。实施例二对本专利技术实施例一对应地,本专利技术实施例二提供一种计算机可读存储介质,其上存储有计算机程序(指令),该程序(指令)被处理器执行时实现以下步骤:读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;学习所述文本数据,生成与部门对应的两类分类器;调用所述分类器扫描未知文档,并判断未知文档所属的类别。上述存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。上述关于计算机可读存储介质的具体限定可以参见实施例一,在此不再赘述。实施例三对本专利技术实施例一对应地,本专利技术实施例三提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处本文档来自技高网...
一种文件分类方法、存储介质及设备

【技术保护点】
一种文件分类方法,其特征在于,所述方法包括:读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;学习所述文本数据,生成与部门对应的两类分类器;调用所述分类器扫描未知文档,并判断未知文档所属的类别。

【技术特征摘要】
1.一种文件分类方法,其特征在于,所述方法包括:读取至少一个部门的文本数据,其中至少一部分所述文本数据带有类别标签;学习所述文本数据,生成与部门对应的两类分类器;调用所述分类器扫描未知文档,并判断未知文档所属的类别。2.根据权利要求1所述的文件分类方法,其特征在于,所述类别标签包括正例和反例。3.根据权利要求1所述的文件分类方法,其特征在于,所述学习所述文本数据,生成与部门对应的两类分类器,具体包括:对所述文本数据进行分词处理和特征选择,并构造每个所选择的词语的特征向量;学习各个词语的特征向量,生成对应部门的分类模型文件和两类分类器。4.根据权利要求1所述的文件分类方法,其特征在于,所述调用所述分类器扫描未知文档,并判断未知文档所属的类别,具体包括:调用训练生成一个或多个部门的两类分类器扫描未知文档;对所述未知文档进行分词处理,并对分词后的每个词语构造其特征向量;将所述特征向量输入所述两类分类器中,采用所述两类分类器对所述未知文档进行分类。5.根据权利要求4所述的文件...

【专利技术属性】
技术研发人员:刘立军罗海涛汪楫人
申请(专利权)人:云易天成北京安全科技开发有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1