文档分类方法、装置、存储介质及电子设备制造方法及图纸

技术编号:29614675 阅读:20 留言:0更新日期:2021-08-10 18:29
本公开涉及一种文档分类方法、装置、存储介质及电子设备。该方法包括:获取带目录的文本文档;提取文本文档中的关键词,并将关键词与所述目录进行结合,得到文本文档的压缩文档;对压缩文档进行字词混合编码,得到目标向量;将目标向量输入预先训练完成的深度学习模型,得到深度学习模型输出的文档分类结果。本公开实施例通过提取关键词,并将关键词与目录进行结合的方式,实现了在保留文本核心内容的基础上,对文本进行了压缩,降低了深度学习模型因文本过长而对文本进行截断,导致大部分文本核心信息丢失的概率。

【技术实现步骤摘要】
文档分类方法、装置、存储介质及电子设备
本公开涉及自然语言处理
,具体地,涉及一种文档分类方法、装置、存储介质及电子设备。
技术介绍
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。如今的深度学习技术还有一个问题,它需要提取大量的数据作为训练基础,而训练所得的结果却难以应用到其他问题上。现阶段的文本分类是通过利用文本字词词频等特征输入模型中,利用机器学习方法进行分类,但是会存在着提取的文本特征较浅的问题,而且很难学习到文本的语义信息;还有一种方法是对文本的字词向量化后作为输入,利用深度神经网络的方法进行分类,但是这种方法也存在着训练的硬件成本和时间成本较高的问题,当文档内容过长时,其输入存在对文本的截断,会丢失掉部分信息。
技术实现思路
本公开的目的是提供一种文档分类方法、装置、存储介质及电子设备,以解决上述问题。为了实现上述目的,第一方面,本公开实施例提供一种文档分类方法,包括:获取带目录的文本文档;提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;对所述压缩文档进行字词混合编码,得到目标向量;将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果。可选地,所述对所述压缩文档进行字词混合编码,得到目标向量,包括:根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量,其中,所述词向量与所述字向量的维度相同,所述词向量映射模型是预先基于无监督方法训练形成的word2vec的词向量映射模型;通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。可选地,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;所述softmax模型层用于输出所述文档分类结果。可选地,所述bert模型层的参数在所述深度学习模型的训练过程中保持冻结,和/或,所述卷积层包括多层,且每一层具有不同的卷积核。可选地,所述将所述关键词与所述目录进行结合,包括:在结合所述关键词与所述目录时,将所述关键词放在所述目录之前,使得所述关键词能够优先于所述目录进行编码。第二方面,本公开实施例提供一种文档分类装置,所述装置包括:获取模块,用于获取带目录的文本文档;结合模块,用于提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;编码模块,用于对所述压缩文档进行字词混合编码,得到目标向量;生成模块,用于将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果。可选地,所述编码模块包括:映射子模块,用于根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量;混合子模块,用于通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。可选地,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;所述softmax模型层用于输出所述文档分类结果。第三方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。第四方面,本公开实施例提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所述方法的步骤。本公开的实施例提供的技术方案可以包括以下有益效果:采用上述技术方案,在获取带目录的文本文档后,首先提取所述文本文档中的关键词并将所述关键词与所述目录进行结合得到所述文本文档的压缩文档,之后对所述压缩文档进行字词混合编码,将所述目标向量输入预先训练完成的深度学习模型,最后得到所述深度学习模型输出的文档分类结果。本公开实施例通过提取关键词,并将关键词与目录进行结合的方式,实现了在保留文本核心内容的基础上,对文本进行了压缩,降低了深度学习模型因文本过长而对文本进行截断,导致大部分文本核心信息丢失的概率。本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:图1是根据一示例性实施例示出的一种文档分类方法的流程图。图2是根据一示例性实施例示出的一种文档分类装置的框图。图3是根据一示例性实施例示出的一种电子设备的框图。具体实施方式以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。本公开实施例提供一种文档分类的方法,如图1所示,该方法包括:在步骤S101中,获取带目录的文本文档。在本公开实施例中,带目录的文本文档为从原始文档中提取出的带有相关目录和正文的文本文档,其中,对原始文档提取的格式例如可以是word格式或PDF格式,本公开实施对此不做限定。进一步地,可以将word格式或PDF格式的原始文档转为文本文档,并且还可以将文本文档的目录与正文进行分离,以便后续步骤能够直接对目录进行使用。在步骤S102中,提取文本文档中的关键词,并将关键词与目录进行结合,得到所述文本文档的压缩文档。其中,关键词例如可以包括正文中的关键词,还可以包括正文中的关键词以及目录中的关键词。由于,目录中也会包含着文本的关键信息和一定的语义信息,因此,将提取到的关键词以及目录进行结合,可以在不损失文本的核心内容的情况下,实现对文本的压缩。在本公开实施例中,可以通过tf-idf方法但不限于通过此方法来提取文本文档中的关键词,例如还可以通过改进方法tf-iwf,或者潜在语义分析等方法来实现关键词提取,本公开实施例并不限制提取关键词的方法。此外,在具体实施时,为了保证压缩文档的长度可控,本文档来自技高网...

【技术保护点】
1.一种文档分类方法,其特征在于,所述方法包括:/n获取带目录的文本文档;/n提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;/n对所述压缩文档进行字词混合编码,得到目标向量;/n将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果。/n

【技术特征摘要】
1.一种文档分类方法,其特征在于,所述方法包括:
获取带目录的文本文档;
提取所述文本文档中的关键词,并将所述关键词与所述目录进行结合,得到所述文本文档的压缩文档;
对所述压缩文档进行字词混合编码,得到目标向量;
将所述目标向量输入预先训练完成的深度学习模型,得到所述深度学习模型输出的文档分类结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述压缩文档进行字词混合编码,得到目标向量,包括:
根据词向量映射模型,将所述压缩文档中的每一词映射为词向量,以及将所述压缩文档中的每一字随机初始化为字向量,其中,所述词向量与所述字向量的维度相同,所述词向量映射模型是预先基于无监督方法训练形成的word2vec的词向量映射模型;
通过冗余方式将所述词向量和所述字向量进行混合,得到所述目标向量。


3.根据权利要求1所述的方法,其特征在于,所述深度学习模型包括bert模型层、双向LSTM模型层、卷积层以及softmax模型层;
其中,所述bert模型层与所述双向LSTM模型层相结合能够提取所述压缩文档的语义特征;
所述bert模型层与所述卷积层相结合能够提取所述压缩文档的深度特征,并结合最大池化方式和平均池化方式对提取到的所述深度特征进行池化;
所述softmax模型层用于输出所述文档分类结果。


4.根据权利要求3所述的方法,其特征在于,所述bert模型层的参数在所述深度学习模型的训练过程中保持冻结,和/或,所述卷积层包括多层,且每一层具有不同的卷积核。


5.根据权利要求1-4中任一项所述的方法,其特征在于,所述将所述关键词与所述目录进行结合,包括:
在结合所述关键词与所述目录时,将所述关键词放...

【专利技术属性】
技术研发人员:喻银根
申请(专利权)人:天九共享网络科技集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1