【技术实现步骤摘要】
一种用于生成关键词的方法与设备
本申请涉及计算机
,尤其涉及一种用于生成关键词的技术。
技术介绍
关键词是对一段文本的关键信息的总结,也是对整个文本重要信息的高度浓缩和概括。关键词对于自然语言处理领域的很多任务都有帮助,比如文本摘要、文本分类、意见挖掘等,因此关键词生成也是自然语言处理领域的基础任务。根据生成的关键词是否在当前输入文本中出现,分为未出现关键词(AbsentKeyphrase)和出现关键词(PresentKeyphrase)两种,因此,关键词的生成效率、生成准确性以及覆盖范围的广泛性,则是衡量关键词生成任务的重要参考指标。
技术实现思路
本申请的目的是提供一种用于生成关键词的方法与设备。根据本申请的一个实施例,提供了一种用于生成关键词的方法,其中,该方法包括以下步骤:获取输入文本的单词嵌入向量以及整体文本向量;将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。根据本申请的另一个实施例,提供了一种用于生成关键词的生成设备,其中,所述生成设备包括:用于获取输入文本的单词嵌入向量以及整体文本向量的装置;用于将所述单词嵌入向量输入编码器,并经由所述编码 ...
【技术保护点】
1.一种用于生成关键词的方法,其中,该方法包括以下步骤:/n获取输入文本的单词嵌入向量以及整体文本向量;/n将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;/n将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;/n将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。/n
【技术特征摘要】
1.一种用于生成关键词的方法,其中,该方法包括以下步骤:
获取输入文本的单词嵌入向量以及整体文本向量;
将所述单词嵌入向量输入编码器,并经由所述编码器编码,以获得与所述单词嵌入向量相对应的编码隐向量;
将所述整体文本向量输入记忆力网络中,以获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量;
将所述编码隐向量以及所述输出隐向量输入到解码器中,并经由所述解码器解码,以获取与所述输入文本相对应的词表概率分布。
2.根据权利要求1所述的方法,其中,该方法还包括:
将所述词表概率分布以及所述解码器解码时所生成的相应参数,输入到指针生成网络中,以获取与所述输入文本相对应的最终概率分布。
3.根据权利要求2所述的方法,其中,获取与所述输入文本相对应的最终概率分布的步骤包括:
根据所述解码器解码时所生成的相应参数,确定生成概率;
确定与所述输入文本相对应的复制概率分布;
根据所述生成概率、所述词表概率分布以及所述复制概率分布,确定与所述输入文本相对应的最终概率分布。
4.根据权利要求1至3中任一项所述的方法,其中,所述编码器和/或所述解码器采用Transformer架构。
5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:
根据所述输入文本所对应的关键词提取需求,确定与所述关键词提取需求相对应的文本知识集合;
将所述文本知识用作所述记忆力网络中所包含的相关文档。
6.根据权利要求1至5中任一项所述的方法,其中,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量的步骤包括:
获取所述记忆力网络中所包含的相关文档所对应的文本键向量以及文本值向量;
根据所述整体文本向量与所述文本键向量,获取所述输入文本与所述相关文档的相似度;
根据所述相似度以及所述文本值向量,获取与所述整体文本向量以及所述记忆力网络中所包含的相关文档相对应的输出隐向量。
7.根据权利要求1至6中任一项所述的方法,其中,获取与所述输入文本相对应的词表概率分布的步骤包括:
拼接所述编码隐向量以及所述输出隐向量,以获得最终隐向量;
根据所述最终隐向量以及所述解码器的历史状态输出,经过解码器进行解码后,获取所述解码器的当前状态输出;
利用softmax对所述当前状态输出进行处理,以获取与所述输入文本相对应的词表概率分布。
8.一种用于生成关键词的生成设备,其中,所述生成设备包括:
用于获取输入文本的单词...
【专利技术属性】
技术研发人员:刁诗哲,宋彦,王咏刚,
申请(专利权)人:创新工场广州人工智能研究有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。