文档分类方法、装置、存储介质及电子设备制造方法及图纸

技术编号：29614675 阅读：20 留言：0更新日期：2021-08-10 18:29

本公开涉及一种文档分类方法、装置、存储介质及电子设备。该方法包括：获取带目录的文本文档；提取文本文档中的关键词，并将关键词与所述目录进行结合，得到文本文档的压缩文档；对压缩文档进行字词混合编码，得到目标向量；将目标向量输入预先训练完成的深度学习模型，得到深度学习模型输出的文档分类结果。本公开实施例通过提取关键词，并将关键词与目录进行结合的方式，实现了在保留文本核心内容的基础上，对文本进行了压缩，降低了深度学习模型因文本过长而对文本进行截断，导致大部分文本核心信息丢失的概率。

全部详细技术资料下载

【技术实现步骤摘要】
文档分类方法、装置、存储介质及电子设备
本公开涉及自然语言处理
，具体地，涉及一种文档分类方法、装置、存储介质及电子设备。
技术介绍
深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。如今的深度学习技术还有一个问题，它需要提取大量的数据作为训练基础，而训练所得的结果却难以应用到其他问题上。现阶段的文本分类是通过利用文本字词词频等特征输入模型中，利用机器学习方法进行分类，但是会存在着提取的文本特征较浅的问题，而且很难学习到文本的语义信息；还有一种方法是对文本的字词向量化后作为输入，利用深度神经网络的方法进行分类，但是这种方法也存在着训练的硬件成本和时间成本较高的问题，当文档内容过长时，其输入存在对文本的截断，会丢失掉部分信息。
技术实现思路
本公开的目的是提供一种文档分类方法、装置、存储介质及电子设备，以解决上述问题。为了实现上述目的，第一方面，本公开实施例提供一种文档分类方法，包括：获取带目录的文本文档；提取所述文本文档中的关键词，并将所述关键词与所述目录进行结合，得到所述文本文档的压缩文档；对所述压缩文档进行字词混合编码，得到目标向量；将所述目标向量输入预先训练完成的深度学习模型，得到所述深...

【技术保护点】
1.一种文档分类方法，其特征在于，所述方法包括：/n获取带目录的文本文档；/n提取所述文本文档中的关键词，并将所述关键词与所述目录进行结合，得到所述文本文档的压缩文档；/n对所述压缩文档进行字词混合编码，得到目标向量；/n将所述目标向量输入预先训练完成的深度学习模型，得到所述深度学习模型输出的文档分类结果。/n

【技术特征摘要】
1.一种文档分类方法，其特征在于，所述方法包括：
获取带目录的文本文档；
提取所述文本文档中的关键词，并将所述关键词与所述目录进行结合，得到所述文本文档的压缩文档；
对所述压缩文档进行字词混合编码，得到目标向量；
将所述目标向量输入预先训练完成的深度学习模型，得到所述深度学习模型输出的文档分类结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述压缩文档进行字词混合编码，得到目标向量，包括：
根据词向量映射模型，将所述压缩文档中的每一词映射为词向量，以及将所述压缩文档中的每一字随机初始化为字向量，其中，所述词向量与所述字向量的维度相同，所述词向量映射模型是预先基于无监督方法训练形成的word2vec的词向量映射模型；
通过冗余方式将所述词向量和所述字向量进行混合，得到所述目标向量。

3.根据权利要求1所述的方法，其特征在于，所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层；
其中，所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征；
所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征，并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化；
所述softmax模型层用于输出所述文档分类结果。

4.根据权利要求3所述的方法，其特征在于，所述bert模型层的参数在所述深度学习模型的训练过程中保持冻结，和/或，所述卷积层包括多层，且每一层具有不同的卷积核。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述将所述关键词与所述目录进行结合，包括：
在结合所述关键词与所述目录时，将所述关键词放...

【专利技术属性】
技术研发人员：喻银根，
申请(专利权)人：天九共享网络科技集团有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人