一种文档分类的方法及装置制造方法及图纸

技术编号:14865726 阅读:47 留言:0更新日期:2017-03-20 12:06
本发明专利技术提供了一种文档分类的方法及装置,该方法,包括:获取多个训练文档,确定每个训练文档对应的类别;根据每个类别对应的训练文档,确定每个类别的特征向量,特征向量包括:在对应的当前类别中出现的词串,每个词串出现在当前类别的出现概率;获取当前待分类文档,从当前待分类文档中,提取当前待分类文档的匹配特征向量,匹配特征向量包括:当前待分类文档中出现的待匹配词串;根据匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率,确定匹配特征向量与每个类别的特征向量的相似度;将相似度最高的特征向量对应的类别作为当前待分类文档的类别。本发明专利技术提供了一种文档分类的方法及装置,能够更加灵活地进行文档分类。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种文档分类的方法及装置
技术介绍
随着可续技术的发展,自然语言处理技术得到了前所未有的重视和长足的进展,并已发展成为一门相对独立的学科,备受关注,而如今随着互联网+、大数据等热门理念和技术的备受瞩目,各行业对网络上网页文本数据的充分利用正在展开各种尝试,而自然语言处理技术则是在这些网页文本处理和分析、利用的任务中充当主力军作用。现有技术中,对网页文本数据的处理主要基于预先设定固定的分类方法,该分类方法的难以根据用户的需求进行调整。举例来说,分类结果的准确率难以满足用户的需求,但是,用户也很难对分类方法进行调整,已到达用户的准确率要求。通过上述描述可见,现有技术中的分类方法不够灵活。
技术实现思路
本专利技术提供了一种文档分类的方法及装置,能够更加灵活地进行文档分类。一方面,本专利技术提供了一种文档分类的方法,包括:S1:获取多个训练文档,确定每个训练文档对应的类别;S2:根据每个类别对应的训练文档,确定每个类别的特征向量,所述特征向量包括:在对应的当前类别中出现的词串,每个词串出现在当前类别的出现概率;S3:获取当前待分类文档,从当前待分类文档中,提取当前待分类文档的匹配特征向量,所述匹配特征向量包括:当前待分类文档中出现的待匹配词串;S4:根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率,确定所述匹配特征向量与每个类别的特征向量的相似度;S5:将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别。进一步地,所述S2,包括:将每个类别对应的训练文档处理成纯文本文档,对每个训练文档对应的纯文本文档进行分词,获得每个训练文档对应的多个单词;将每个训练文档中相邻的预设值个单词组成词串,确定每个词串对应的类别的出现概率;根据每个类别对应的训练文档中的每个词串在对应的类别的出现概率,确定每个类别的特征向量。进一步地,所述S3,包括:将当前待分类文档处理成纯文本文档,对当前待分类文档对应的纯文本文档进行分词,获得当前待分类文档对应的多个单词;将当前待分类文档中相邻的所述预设值个单词组成词串;根据当前待分类文档中的词串确定所述匹配特征向量。进一步地,所述S4,包括:根据每个类别的特征向量,确定每个所述待匹配词串在每个类别的出现概率;针对每个类别,确定所述当前待分类文档的所有待匹配词串在当前类别的出现概率之和,将当前类别对应的出现概率之和作为当前类别对应的相似度。进一步地,在所述S2之后,在所述S3之前,还包括:A1:获取多个测试文档,确定每个测试文档的实际类别;A2:从每个测试文档中,获取待测试词串;A3:根据每个类别的特征向量,确定每个待测试词串在每个类别的出现概率;A4:针对每个类别,确定所述当前测试文档的所有待测试词串在当前类别的出现概率之和;A5:将出现概率之和最大的类别作为所述当前测试文档对应的匹配类别;A6:根据每个测试文档的匹配类别和每个测试文档的实际类别,确定每个类别对应的分类准确率;A7:分别判断每个类别对应的分类准确率是否大于等于预设准确率阈值,如果是,则执行步骤S3,否则,执行步骤A8;A8:将所述多个测试文档作为所述训练文档,执行步骤S1。另一方面,本专利技术提供了一种文档分类的装置,包括:第一获取单元,用于获取多个训练文档,确定每个训练文档对应的类别;训练单元,用于根据每个类别对应的训练文档,确定每个类别的特征向量,所述特征向量包括:在对应的当前类别中出现的词串,每个词串出现在当前类别的出现概率;第二获取单元,用于获取当前待分类文档,从当前待分类文档中,提取当前待分类文档的匹配特征向量,所述匹配特征向量包括:当前待分类文档中出现的待匹配词串;确定单元,用于根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率,确定所述匹配特征向量与每个类别的特征向量的相似度;分类单元,用于将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别。进一步地,所述训练单元,用于将每个类别对应的训练文档处理成纯文本文档,对每个训练文档对应的纯文本文档进行分词,获得每个训练文档对应的多个单词,将每个训练文档中相邻的预设值个单词组成词串,确定每个词串对应的类别的出现概率,根据每个类别对应的训练文档中的每个词串在对应的类别的出现概率,确定每个类别的特征向量。进一步地,所述第二获取单元,用于将当前待分类文档处理成纯文本文档,对当前待分类文档对应的纯文本文档进行分词,获得当前待分类文档对应的多个单词,将当前待分类文档中相邻的所述预设值个单词组成词串,根据当前待分类文档中的词串确定所述匹配特征向量。进一步地,所述确定单元,用于根据每个类别的特征向量,确定每个所述待匹配词串在每个类别的出现概率,针对每个类别,确定所述当前待分类文档的所有待匹配词串在当前类别的出现概率之和,将当前类别对应的出现概率之和作为当前类别对应的相似度。进一步地,该装置还包括:测量单元,用于执行:A1:获取多个测试文档,确定每个测试文档的实际类别;A2:从每个测试文档中,获取待测试词串;A3:根据每个类别的特征向量,确定每个待测试词串在每个类别的出现概率;A4:针对每个类别,确定所述当前测试文档的所有待测试词串在当前类别的出现概率之和;A5:将出现概率之和最大的类别作为所述当前测试文档对应的匹配类别;A6:根据每个测试文档的匹配类别和每个测试文档的实际类别,确定每个类别对应的分类准确率;A7:分别判断每个类别对应的分类准确率是否大于等于预设准确率阈值,如果是,则触发所述第二获取单元,否则,执行步骤A8;A8:将所述多个测试文档作为所述训练文档,执行所述第一获取单元。本专利技术提供的一种文档分类的方法及装置,通过训练文档对每种类别进行训练,得到每种类别对应的特征向量,确定待分类文档的匹配特征向量与每种类别的特征向量的相似度,确定与匹配特征向量相似度最高的特征向量对应的类别作为待分类文档的类别,当分类结果不能达到用户要求时,可以通过调整训练文档来更新特征向量,使得分类结果能够更加符合用户需求,能够更加灵活地进行文档分类。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种文档分类的方法的流程图;图2是本专利技术一实施例提供的另一种文档分类的方法的流程图;图3是本专利技术一实施例提供的一种文档分类的装置的示意图;图4是本专利技术一实施例提供的另一种文档分类的装置的示意图。具体实施方式为使本专利技术实施例的本文档来自技高网...

【技术保护点】
一种文档分类的方法,其特征在于,包括:S1:获取多个训练文档,确定每个训练文档对应的类别;S2:根据每个类别对应的训练文档,确定每个类别的特征向量,所述特征向量包括:在对应的当前类别中出现的词串,每个词串出现在当前类别的出现概率;S3:获取当前待分类文档,从当前待分类文档中,提取当前待分类文档的匹配特征向量,所述匹配特征向量包括:当前待分类文档中出现的待匹配词串;S4:根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率,确定所述匹配特征向量与每个类别的特征向量的相似度;S5:将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别。

【技术特征摘要】
1.一种文档分类的方法,其特征在于,包括:
S1:获取多个训练文档,确定每个训练文档对应的类别;
S2:根据每个类别对应的训练文档,确定每个类别的特征向量,所述特
征向量包括:在对应的当前类别中出现的词串,每个词串出现在当前类别的
出现概率;
S3:获取当前待分类文档,从当前待分类文档中,提取当前待分类文档
的匹配特征向量,所述匹配特征向量包括:当前待分类文档中出现的待匹配
词串;
S4:根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的
出现概率,确定所述匹配特征向量与每个类别的特征向量的相似度;
S5:将相似度最高的特征向量对应的类别作为所述当前待分类文档的类
别。
2.根据权利要求1所述的方法,其特征在于,所述S2,包括:
将每个类别对应的训练文档处理成纯文本文档,对每个训练文档对应的
纯文本文档进行分词,获得每个训练文档对应的多个单词;
将每个训练文档中相邻的预设值个单词组成词串,确定每个词串对应的
类别的出现概率;
根据每个类别对应的训练文档中的每个词串在对应的类别的出现概率,
确定每个类别的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述S3,包括:
将当前待分类文档处理成纯文本文档,对当前待分类文档对应的纯文本
文档进行分词,获得当前待分类文档对应的多个单词;
将当前待分类文档中相邻的所述预设值个单词组成词串;
根据当前待分类文档中的词串确定所述匹配特征向量。
4.根据权利要求1所述的方法,其特征在于,所述S4,包括:
根据每个类别的特征向量,确定每个所述待匹配词串在每个类别的出现
概率;
针对每个类别,确定所述当前待分类文档的所有待匹配词串在当前类别
的出现概率之和,将当前类别对应的出现概率之和作为当前类别对应的相似
度。
5.根据权利要求1-4中任一所述的方法,其特征在于,在所述S2之后,
在所述S3之前,还包括:
A1:获取多个测试文档,确定每个测试文档的实际类别;
A2:从每个测试文档中,获取待测试词串;
A3:根据每个类别的特征向量,确定每个待测试词串在每个类别的出现
概率;
A4:针对每个类别,确定所述当前测试文档的所有待测试词串在当前类
别的出现概率之和;
A5:将出现概率之和最大的类别作为所述当前测试文档对应的匹配类
别;
A6:根据每个测试文档的匹配类别和每个测试文档的实际类别,确定每
个类别对应的分类准确率;
A7:分别判断每个类别对应的分类准确率是否大于等于预设准确率阈
值,如果是,则执行步骤S3,否则,执行步骤A8;
A8:将所述多个测试文档作为所述训练文档,执行步骤S1。
6.一种文档分类的装置,其特征...

【专利技术属性】
技术研发人员:唐旋毛立花王传超
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1