一种用于生成关键词的方法与设备技术

技术编号:24331363 阅读:47 留言:0更新日期:2020-05-29 19:43
本申请的目的是提供一种用于生成关键词的方法与设备。生成设备获取输入文本的单词嵌入向量以及整体文本向量;将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。本申请同时解决了OOV的问题和生成未出现词的问题,也解决了传统的RNN的模型梯度消失和梯度爆炸等问题,可以准确地为任何输入文档生成高度相关并且全面的关键词。

A method and equipment for generating keywords

【技术实现步骤摘要】
一种用于生成关键词的方法与设备
本申请涉及计算机
,尤其涉及一种用于生成关键词的技术。
技术介绍
关键词是对一段文本的关键信息的总结,也是对整个文本重要信息的高度浓缩和概括。关键词对于自然语言处理领域的很多任务都有帮助,比如文本摘要、文本分类、意见挖掘等,因此关键词生成也是自然语言处理领域的基础任务。根据生成的关键词是否在当前输入文本中出现,分为未出现关键词(AbsentKeyphrase)和出现关键词(PresentKeyphrase)两种,因此,关键词的生成效率、生成准确性以及覆盖范围的广泛性,则是衡量关键词生成任务的重要参考指标。
技术实现思路
本申请的目的是提供一种用于生成关键词的方法与设备。根据本申请的一个实施例,提供了一种用于生成关键词的方法,其中,该方法包括以下步骤:获取输入文本的单词嵌入向量以及整体文本向量;将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。根据本申请的另一个实施例,提供了一种用于生成关键词的生成设备,其中,所述生成设备包括:用于获取输入文本的单词嵌入向量以及整体文本向量的装置;用于将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量的装置;用于将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量的装置;用于将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布的装置。根据本申请的另一个实施例,提供了一种计算机设备,所述计算机设备包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序;当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器用于执行以下操作:获取输入文本的单词嵌入向量以及整体文本向量;将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。根据本申请的另一个实施例,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器用于执行以下操作:获取输入文本的单词嵌入向量以及整体文本向量;将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。与现有技术相比,本申请将记忆力网络引入到编解码器架构中,利用记忆力网络单独对输入文本进行处理,以生成关键词,从而具有如下优点:1.能够从外部知识库中检索相似文档并利用高度相关的内容,提高预测未出现词的能力;2.记忆力机制提供了领域迁移的能力,基于庞大的外部知识库,模型可以轻松地迁移到特定领域,如医疗和金融;3.记忆力网络还能够兼容各种外部知识库,具有高度灵活性,可以根据用户的需求进行添加。此外,本申请还采用了复制机制,以从输入文本中显式复制重要单词加入到输出的预测内容中,辅助模型提高预测单词的准确率;利用生成概率,决定每个词复制概率和词表概率的权重,可以有机地融合两种概率所提供的信息,解决了OOV(未登录词,Out-of-Vocabulary)的问题。此外,本申请的所述编码器和/或所述解码器采用Transformer架构,也即利用了Transformer的模型架构进行序列到序列的生成,具有更强大的并行计算和长期记忆能力,解决了传统的基于RNN的模型梯度消失和梯度爆炸的问题,提高了生成过程的效率。综上所述,本申请同时解决了OOV的问题和生成未出现词的问题,也解决了传统的RNN的模型梯度消失和梯度爆炸等问题,可以准确地为任何输入文档生成高度相关并且全面的关键词。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个实施例的一种用于生成关键词的方法流程图;图2示出根据本申请另一个实施例的一种用于生成关键词的方法流程图;图3示出根据本申请一个实施例的一种用于生成关键词的生成设备示意图;图4示出根据本申请另一个实施例的一种用于生成关键词的生成设备示意图;图5示出根据本申请一个实施例的一种用于生成关键词的架构图;图6示出了可被用于实施本申请中所述的各个实施例的示例性系统。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式生成关键词的方法分为两类:一类是抽取式,一类是生成式。抽取式方法是从输入文本中选择重要的单词或者短语抽取出来,作为生成的结果,其候选词空间限定在所有输入文本中出现的词中,生成过程中只需要在较小的范围内进行搜索。因此,抽取式方法不能生成未出现关键词。生成式方法可以生成在原文中未出现的关键词。基于循环神经网络在序列到序列任务上出色的表现,将循环神经网络应用于关键词生成任务中,并利用更多的信息来提升性能。若仅是为了生成固定数量的关键词,可以利用CopyRNN。这种循环神经网络可以将一个输入文本X和N个关键词做成N个文档—关键词对,但是每个文档对应的关键词数量(N)是不同的,所以模型无法提前预知当前文档对应关键词的数量,只能预测固定数量(比如N=k)个关键词。为了生成合适数量的关键词,可以利用catSeq。这种循环神经网络将一个输入文档对应的N个关键词连接起来作为一个序列进行预测。在这一个序列不同的关键词之间,加上特殊的符号标记[SEP],并且在文档开头和末尾分别添加特殊标记[BOS]和[EOS],这样可以保证生成过程自动停止,从而生成不同数量的关键词。申请人进一步发现,上述方法存在以下不足:1.上述方法均是基于循环神经网络(RNN)的架构进行改进,然而RNN不能够并行的特点导致训练过程非常缓慢,且RNN在处理长时间记忆方面能力较弱。2.上述方法忽略了其他文档本身自带的重要信息,这些信息可以为当前文档的关键词生成提供重要的参考。因此,本申请提出了一种新型本文档来自技高网...

【技术保护点】
1.一种用于生成关键词的方法,其中,该方法包括以下步骤:/n获取输入文本的单词嵌入向量以及整体文本向量;/n将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;/n将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;/n将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。/n

【技术特征摘要】
1.一种用于生成关键词的方法,其中,该方法包括以下步骤:
获取输入文本的单词嵌入向量以及整体文本向量;
将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;
将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;
将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。


2.根据权利要求1所述的方法,其中,该方法还包括:
将所述词表概率分布以及所述解码器解码时所生成的相应参数,输入到指针生成网络中,以获取与所述输入文本相对应的最终概率分布。


3.根据权利要求2所述的方法,其中,获取与所述输入文本相对应的最终概率分布的步骤包括:
根据所述解码器解码时所生成的相应参数,确定生成概率;
确定与所述输入文本相对应的复制概率分布;
根据所述生成概率、所述词表概率分布以及所述复制概率分布,确定与所述输入文本相对应的最终概率分布。


4.根据权利要求1至3中任一项所述的方法,其中,所述编码器和/或所述解码器采用Transformer架构。


5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:
根据所述输入文本所对应的关键词提取需求,确定与所述关键词提取需求相对应的文本知识集合;
将所述文本知识用作所述记忆力网络中所包含的相关文档。


6.根据权利要求1至5中任一项所述的方法,其中,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量的步骤包括:
获取所述记忆力网络中所包含的相关文档所对应的文本键向量以及文本值向量;
根据所述整体文本向量与所述文本键向量,获取所述输入文本与所述相关文档的相似度;
根据所述相似度以及所述文本值向量,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量。


7.根据权利要求1至6中任一项所述的方法,其中,获取与所述输入文本相对应的词表概率分布的步骤包括:
拼接所述编码隐向量以及所述输出隐向量,以获得最终隐向量;
根据所述最终隐向量以及所述解码器的历史状态输出,经过解码器进行解码后,获取所述解码器的当前状态输出;
利用softmax对所述当前状态输出进行处理,以获取与所述输入文本相对应的词表概率分布。


8.一种用于生成关键词的生成设备,其中,所述生成设备包括:
用于获取输入文本的单词...

【专利技术属性】
技术研发人员:刁诗哲宋彦王咏刚
申请(专利权)人:创新工场广州人工智能研究有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1