一种文档分类方法、系统、计算机设备及存储介质技术方案

技术编号:35492862 阅读:16 留言:0更新日期:2022-11-05 16:49
本发明专利技术公开了一种文档分类方法、系统、计算机设备及存储介质,方法包括:监测是否有新类别的目标文档输入至预先构建的文档分类模型;响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成词汇级向量;利用汉语言模型N

【技术实现步骤摘要】
一种文档分类方法、系统、计算机设备及存储介质


[0001]本专利技术涉及文档管理领域,尤其涉及一种文档分类方法、系统、计算机设备及存储介质。

技术介绍

[0002]在如今快节奏的生活与工作中,纷繁杂乱的文档会花费人们大量时间,因此,为便于文档管理,需要依据文档内容进行分类。
[0003]现有技术提供了一种基于传统机器学习的文档分类方法,首先根据文档中出现的关键词制定分类规则,建立好分类规则后,输入文档后先对文档内容进行分词,然后依据分类规则进行关键词匹配,匹配到哪个分类的关键词就判定文档属于哪个分类。但是,这种文档分类方法的准确率不高,而且,当同一个词可以在多个分类中出现时,现有技术的分类方法的分类结果就会不准确。举例而言,表1为一篇证据清单文档,很显然,依据关键词“身份证”、“个人汽车消费抵押贷款合同”、“一般条款”可以将该文档中划分为证据清单类别,但是,可以理解的是,“身份证”、“XXXX贷款合同”、“一般条款”在另一个文档中例如购车合同就需要被划分成贷款合同类别。
[0004]表1:
[0005][0006]现有技术中还提供了一种基于深度学习的文档分类方法,通过用卷积神经网络CNN、前馈神经网络、长短期记忆网络LSTM等深度学习模型来对数据进行训练,从而对数据进行特征抽取。然而,这种方法最大的问题就是:需要选用大量的训练数据、验证数据以及测试数据来训练和修正算法模型,决定文档分类精度的影响因素是数据量以及训练过程中的迭代次数。尤其是在初期业务系统数据量不多的情况下,训练得到的模型准确率比较低,难以达到上线使用的要求。
[0007]实际应用中,通常会将文档分类系统与某机构的文档库进行对接,这种情况下需要对文档库中的大量文档进行分类打标签,而这些同类别的文档其文档模板可能相同,且每个类别下的文档数量并不相同即每个类别下文档的数量分布不均匀,因此,如果将该机构的文档分类系统再对接新机构的文档库时,需要识别新类别的文档。有鉴于此,有必要提供一种新的文档分类方案,能够基于少量的文档进行分类模型的构建,且能保证文档分类的准确性。

技术实现思路

[0008]本专利技术要解决的技术问题是:能够基于少量的文档进行分类模型的构建,且能保证文档分类的准确性。
[0009]为解决上述技术问题,本专利技术提供了一种文档分类方法,包括:
[0010]监测是否有新类别的目标文档输入至预先构建的文档分类模型;
[0011]响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量;
[0012]利用汉语言模型N

Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
[0013]将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。
[0014]可选地,还包括:
[0015]在未监测到新类别的目标文档的情况下,直接利用预先构建的所述文档分类模型对所述目标文档进行识别,且输出分类结果。
[0016]可选地,预先构建文档分类模型的步骤包括:
[0017]构建训练数据和测试数据,并分别对训练数据和测试数据标注类别标签;
[0018]利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库,并生成对应于所述训练语料库的词汇级向量;
[0019]利用汉语言模型N

Gram对所述训练语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
[0020]将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中,通过Softmax分类器的输入层、隐含层并经输出层输出训练数据的分类结果;以及,
[0021]将所述测试数据输入至所构建的文档分类模型,并输出所述测试数据的测试分类结果;利用所述测试数据的类别标签对所述测试分类结果进行准确性测试。
[0022]可选地,所述生成对应于所述训练语料库的词汇级向量之前,还包括:
[0023]对训练语料库中的停用词进行数据清洗;
[0024]对数据清洗后的训练语料库进行降维处理。
[0025]可选地,还包括:
[0026]将测试分类结果与对应的类别标签不一致的测试数据作为修正训练数据;
[0027]将所述修正训练数据输入至所述文档分类模型,通过调整所述Softmax分类器的参数使得模型输出的分类结果为对应的类别标签为止完成修正处理。
[0028]可选地,所述将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中的步骤,包括:
[0029]将所述词汇级向量和所述字符级向量进行叠加,并对叠加后的向量求平均,进而得到作为训练数据的特征向量。
[0030]可选地,所述Softmax分类器的学习率设置为0.6~1.2;
[0031]特征向量维度设置为200~300;
[0032]模型训练时的循环迭代次数设置为300~500;
[0033]汉语言模型N

Gram为一元模型。
[0034]为解决上述技术问题,本专利技术提供了一种文档分类系统,包括:
[0035]新类别监测单元,用于检测是否有新类别的目标文档输入至预先构建的文档分类模型;
[0036]单词切分单元,用于响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量;
[0037]字符切分单元,用于利用汉语言模型N

Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
[0038]分类及模型优化单元,用于将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。
[0039]可选地,所述分类及模型优化单元还用于:
[0040]在未监测到新类别的目标文档的情况下,直接利用预先构建的所述文档分类模型对所述目标文档进行识别,且输出分类结果。
[0041]可选地,预先构建文档分类模型的方式包括:
[0042]构建训练数据和测试数据,并分别对训练数据和测试数据标注类别标签;
[0043]利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库,并生成对应于所述训练语料库的词汇级向量;
[0044]利用汉语言模型N

Gram对所述训练语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
[0045]将所述词汇级向量和所述字符级向量构成的特征向量作为训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档分类方法,其特征在于,包括:监测是否有新类别的目标文档输入至预先构建的文档分类模型;响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量;利用汉语言模型N

Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量;将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。2.根据权利要求1所述的文档分类方法,其特征在于,还包括:在未监测到新类别的目标文档的情况下,直接利用预先构建的所述文档分类模型对所述目标文档进行识别,且输出分类结果。3.根据权利要求1所述的文档分类方法,其特征在于,预先构建文档分类模型的步骤包括:构建训练数据和测试数据,并分别对训练数据和测试数据标注类别标签;利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库,并生成对应于所述训练语料库的词汇级向量;利用汉语言模型N

Gram对所述训练语料库中的各单词进行片段切分,得到各单词对应的字符级向量;将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中,通过Softmax分类器的输入层、隐含层并经输出层输出训练数据的分类结果;以及,将所述测试数据输入至所构建的文档分类模型,并输出所述测试数据的测试分类结果;利用所述测试数据的类别标签对所述测试分类结果进行准确性测试。4.根据权利要求3所述的文档分类方法,其特征在于,所述生成对应于所述训练语料库的词汇级向量之前,还包括:对训练语料库中的停用词进行数据清洗;对数据清洗后的训练语料库进行降维处理。5.根据权利要求3所述的文档分类方法,其特征在于,还包括:将测试分...

【专利技术属性】
技术研发人员:李刚
申请(专利权)人:北京华宇九品科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1