文档分类模型的训练方法、文档分类方法、装置及设备制造方法及图纸

技术编号：24853624 阅读：50 留言：0更新日期：2020-07-10 19:07

本申请提供一种文档分类模型的训练方法、文档分类方法、装置及设备，涉及文档分类技术领域。其中，该训练方法包括：获取训练样本集，训练样本集包括多个样本文档；若存在目标文档类别对应的样本文档数量不满足预设分布条件，根据预设重构算法对训练样本集中的目标文档类别对应的样本文档进行重构，获取重构后的样本文档；采用重构后的样本文档增强训练样本集，获取满足预设分布条件的重构训练样本集，由于重构训练样本集中各文档类别下的样本文档分布更为均匀，进而根据重构训练样本集，训练获取文档分类模型时，文档分类模型可以学习到更多的目标文档类别对应的样本文档的特征，可以提高对分布较少的文档类别识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文档分类模型的训练方法、文档分类方法、装置及设备
本申请涉及文档分类
，特别涉及一种文档分类模型的训练方法、文档分类方法、装置及设备。
技术介绍
互联网高速发展带来的是日益丰富的网络文章数据，通过对这些网络文档的分类处理，可以更好的梳理全网范围内的文档类别分布情况。现有的，对文档进行分类的做法是，通过对训练数据集进行训练，获取到相应的文档分类模型，而该文档分类模型可以分为编码模块和神经网络模块，则在进行文档分类时，通过文档分类模型中的编码模块对文档进行相关编码之后，将文档送入神经网络模块进行分类处理，从而得到文档的分类结果。但现有的分类方法，对训练数据集的要求较高，若训练数据集分布不均衡，现有的分类方法对分布较少的类别识别准确率较低。
技术实现思路
本申请的目的在于，针对上述现有技术中的不足，提供一种文档分类模型的训练方法、文档分类方法、装置及设备，可以提高对分布较少的文档类别识别的准确率。为实现上述目的，本申请实施例采用的技术方案如下：第一方面，本申请实施例提供了一...

【技术保护点】
1.一种文档分类模型的训练方法，其特征在于，包括：/n获取训练样本集，所述训练样本集包括多个样本文档，各所述样本文档标注有所属文档类别；/n若存在目标文档类别对应的样本文档数量不满足预设分布条件，根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构，获取重构后的样本文档；/n采用重构后的样本文档增强所述训练样本集，获取满足所述预设分布条件的重构训练样本集；/n根据所述重构训练样本集，训练获取文档分类模型。/n

【技术特征摘要】
1.一种文档分类模型的训练方法，其特征在于，包括：
获取训练样本集，所述训练样本集包括多个样本文档，各所述样本文档标注有所属文档类别；
若存在目标文档类别对应的样本文档数量不满足预设分布条件，根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构，获取重构后的样本文档；
采用重构后的样本文档增强所述训练样本集，获取满足所述预设分布条件的重构训练样本集；
根据所述重构训练样本集，训练获取文档分类模型。

2.根据权利要求1所述的方法，其特征在于，所述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构，获取重构后的样本文档，包括：
根据预设语句组合算法，对所述目标文档类别对应的样本文档中的语句进行重新组合，获取重构后的样本文档；和/或，采用预设回传翻译模型，对所述目标文档类别对应的样本文档中的语句进行回传翻译，获取重构后的样本文档。

3.根据权利要求1或2所述的方法，其特征在于，所述根据预设重构算法对所述训练样本集中的所述目标文档类别对应的样本文档进行重构，获取重构后的样本文档，包括：
获取所述目标文档类别对应的样本文档的文档标题；
根据预设重构算法，对所述目标文档类别对应的样本文档中除所述文档标题之外的语句进行重构，获取重构后的样本文档。

4.根据权利要求3所述的方法，其特征在于，所述采用重构后的样本文档增强所述训练样本集，获取满足所述预设分布条件的重构训练样本集，包括：
将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中，直到各文档类别对应的样本文档数量满足所述预设分布条件。

5.根据权利要求4所述的方法，其特征在于，所述将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中，直到各文档类别对应的样本文档数量满足所述预设分布条件，包括：
将所述重构后的样本文档添加至所述目标文档类别对应的样本文档中，直到各文档类别对应的样本文档数量之间差距小于预设阈值。

6....

【专利技术属性】
技术研发人员：汪硕芃，毛晓曦，范长杰，张聪，胡志鹏，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人