一种文档分类的方法及装置制造方法及图纸

技术编号：14865726 阅读：47 留言：0更新日期：2017-03-20 12:06

本发明专利技术提供了一种文档分类的方法及装置，该方法，包括：获取多个训练文档，确定每个训练文档对应的类别；根据每个类别对应的训练文档，确定每个类别的特征向量，特征向量包括：在对应的当前类别中出现的词串，每个词串出现在当前类别的出现概率；获取当前待分类文档，从当前待分类文档中，提取当前待分类文档的匹配特征向量，匹配特征向量包括：当前待分类文档中出现的待匹配词串；根据匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率，确定匹配特征向量与每个类别的特征向量的相似度；将相似度最高的特征向量对应的类别作为当前待分类文档的类别。本发明专利技术提供了一种文档分类的方法及装置，能够更加灵活地进行文档分类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，特别涉及一种文档分类的方法及装置。
技术介绍
随着可续技术的发展，自然语言处理技术得到了前所未有的重视和长足的进展，并已发展成为一门相对独立的学科，备受关注，而如今随着互联网+、大数据等热门理念和技术的备受瞩目，各行业对网络上网页文本数据的充分利用正在展开各种尝试，而自然语言处理技术则是在这些网页文本处理和分析、利用的任务中充当主力军作用。现有技术中，对网页文本数据的处理主要基于预先设定固定的分类方法，该分类方法的难以根据用户的需求进行调整。举例来说，分类结果的准确率难以满足用户的需求，但是，用户也很难对分类方法进行调整，已到达用户的准确率要求。通过上述描述可见，现有技术中的分类方法不够灵活。
技术实现思路
本专利技术提供了一种文档分类的方法及装置，能够更加灵活地进行文档分类。一方面，本专利技术提供了一种文档分类的方法，包括：S1：获取多个训练文档，确定每个训练文档对应的类别；S2：根据每个类别对应的训练文档，确定每个类别的特征向量，所述特征向量包括：在对应的当前类别中出现的词串，每个词串出现在当前类别的出现概率；S3：获取当前待分类文档，从当前待分类文档中，提取当前待分类文档的匹配特征向量，所述匹配特征向量包括：当前待分类文档中出现的待匹配词串；S4：根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率，确定所述匹配特征向量与每个类别的特征向量的相似度；S5：将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别...

【技术保护点】
一种文档分类的方法，其特征在于，包括：S1：获取多个训练文档，确定每个训练文档对应的类别；S2：根据每个类别对应的训练文档，确定每个类别的特征向量，所述特征向量包括：在对应的当前类别中出现的词串，每个词串出现在当前类别的出现概率；S3：获取当前待分类文档，从当前待分类文档中，提取当前待分类文档的匹配特征向量，所述匹配特征向量包括：当前待分类文档中出现的待匹配词串；S4：根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率，确定所述匹配特征向量与每个类别的特征向量的相似度；S5：将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别。

【技术特征摘要】
1.一种文档分类的方法，其特征在于，包括：
S1：获取多个训练文档，确定每个训练文档对应的类别；
S2：根据每个类别对应的训练文档，确定每个类别的特征向量，所述特
征向量包括：在对应的当前类别中出现的词串，每个词串出现在当前类别的
出现概率；
S3：获取当前待分类文档，从当前待分类文档中，提取当前待分类文档
的匹配特征向量，所述匹配特征向量包括：当前待分类文档中出现的待匹配
词串；
S4：根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的
出现概率，确定所述匹配特征向量与每个类别的特征向量的相似度；
S5：将相似度最高的特征向量对应的类别作为所述当前待分类文档的类
别。
2.根据权利要求1所述的方法，其特征在于，所述S2，包括：
将每个类别对应的训练文档处理成纯文本文档，对每个训练文档对应的
纯文本文档进行分词，获得每个训练文档对应的多个单词；
将每个训练文档中相邻的预设值个单词组成词串，确定每个词串对应的
类别的出现概率；
根据每个类别对应的训练文档中的每个词串在对应的类别的出现概率，
确定每个类别的特征向量。
3.根据权利要求2所述的方法，其特征在于，所述S3，包括：
将当前待分类文档处理成纯文本文档，对当前待分类文档对应的纯文本
文档进行分词，获得当前待分类文档对应的多个单词；
将当前待分类文档中相邻的所述预设值个单词组成词串；
根据当前待分类文档中的词串确定所述匹配特征向量。
4.根据权利要求1所述的方法，其特征在于，所述S4，包括：
根据每个类别的特征向量，确定每个所述待匹配词串在每个类别的出现
概率；
针对每个类别，确定所述当前待分类文档的所有待匹配词串在当前类别
的出现概率之和，将当前类别对应的出现概率之和作为当前类别对应的相似
度。
5.根据权利要求1-4中任一所述的方法，其特征在于，在所述S2之后，
在所述S3之前，还包括：
A1：获取多个测试文档，确定每个测试文档的实际类别；
A2：从每个测试文档中，获取待测试词串；
A3：根据每个类别的特征向量，确定每个待测试词串在每个类别的出现
概率；
A4：针对每个类别，确定所述当前测试文档的所有待测试词串在当前类
别的出现概率之和；
A5：将出现概率之和最大的类别作为所述当前测试文档对应的匹配类
别；
A6：根据每个测试文档的匹配类别和每个测试文档的实际类别，确定每
个类别对应的分类准确率；
A7：分别判断每个类别对应的分类准确率是否大于等于预设准确率阈
值，如果是，则执行步骤S3，否则，执行步骤A8；
A8：将所述多个测试文档作为所述训练文档，执行步骤S1。
6.一种文档分类的装置，其特征...

【专利技术属性】
技术研发人员：唐旋，毛立花，王传超，
申请(专利权)人：浪潮软件集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人