一种文档分类方法、系统、计算机设备及存储介质技术方案

技术编号：35492862 阅读：16 留言：0更新日期：2022-11-05 16:49

本发明专利技术公开了一种文档分类方法、系统、计算机设备及存储介质，方法包括：监测是否有新类别的目标文档输入至预先构建的文档分类模型；响应于有新类别的目标文档，利用预设的分词算法对目标文档进行分词处理且得到目标语料库，并生成词汇级向量；利用汉语言模型N

全部详细技术资料下载

【技术实现步骤摘要】
一种文档分类方法、系统、计算机设备及存储介质

[0001]本专利技术涉及文档管理领域，尤其涉及一种文档分类方法、系统、计算机设备及存储介质。

技术介绍

[0002]在如今快节奏的生活与工作中，纷繁杂乱的文档会花费人们大量时间，因此，为便于文档管理，需要依据文档内容进行分类。
[0003]现有技术提供了一种基于传统机器学习的文档分类方法，首先根据文档中出现的关键词制定分类规则，建立好分类规则后，输入文档后先对文档内容进行分词，然后依据分类规则进行关键词匹配，匹配到哪个分类的关键词就判定文档属于哪个分类。但是，这种文档分类方法的准确率不高，而且，当同一个词可以在多个分类中出现时，现有技术的分类方法的分类结果就会不准确。举例而言，表1为一篇证据清单文档，很显然，依据关键词“身份证”、“个人汽车消费抵押贷款合同”、“一般条款”可以将该文档中划分为证据清单类别，但是，可以理解的是，“身份证”、“XXXX贷款合同”、“一般条款”在另一个文档中例如购车合同就需要被划分成贷款合同类别。
[0004]表1：
[0005][0006]现有技术中还提供了一种基于深度学习的文档分类方法，通过用卷积神经网络CNN、前馈神经网络、长短期记忆网络LSTM等深度学习模型来对数据进行训练，从而对数据进行特征抽取。然而，这种方法最大的问题就是：需要选用大量的训练数据、验证数据以及测试数据来训练和修正算法模型，决定文档分类精度的影响因素是数据量以及训练过程中的迭代次数。尤其是在初期业务系统数据量不多的情况下，训练得到的模型准确率比...

【技术保护点】

【技术特征摘要】
1.一种文档分类方法，其特征在于，包括：监测是否有新类别的目标文档输入至预先构建的文档分类模型；响应于有新类别的目标文档，利用预设的分词算法对目标文档进行分词处理且得到目标语料库，并生成对应于所述目标语料库的词汇级向量；利用汉语言模型N
‑
Gram对所述目标语料库中的各单词进行片段切分，得到各单词对应的字符级向量；将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型，进而利用新的训练数据对所述文档分类模型进行优化，并基于优化后的文档分类模型输出目标文档的分类结果。2.根据权利要求1所述的文档分类方法，其特征在于，还包括：在未监测到新类别的目标文档的情况下，直接利用预先构建的所述文档分类模型对所述目标文档进行识别，且输出分类结果。3.根据权利要求1所述的文档分类方法，其特征在于，预先构建文档分类模型的步骤包括：构建训练数据和测试数据，并分别对训练数据和测试数据标注类别标签；利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库，并生成对应于所述训练语料库的词汇级向量；利用汉语言模型N
‑
Gram对所述训练语料库中的各单词进行片段切分，得到各单词对应的字符级向量；将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据，输入至基于Softmax分类器构建的文档分类模型中，通过Softmax分类器的输入层、隐含层并经输出层输出训练数据的分类结果；以及，将所述测试数据输入至所构建的文档分类模型，并输出所述测试数据的测试分类结果；利用所述测试数据的类别标签对所述测试分类结果进行准确性测试。4.根据权利要求3所述的文档分类方法，其特征在于，所述生成对应于所述训练语料库的词汇级向量之前，还包括：对训练语料库中的停用词进行数据清洗；对数据清洗后的训练语料库进行降维处理。5.根据权利要求3所述的文档分类方法，其特征在于，还包括：将测试分...

【专利技术属性】
技术研发人员：李刚，
申请(专利权)人：北京华宇九品科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人