一种关键词获取方法、装置及计算机可读存储介质制造方法及图纸

技术编号:22166825 阅读:25 留言:0更新日期:2019-09-21 10:32
本发明专利技术提供了一种关键词获取方法、装置及计算机可读存储介质,属于计算机技术领域。该方法可以根据待处理文本中包含的词语,确定待处理文本对应的目标词语,基于每个目标词语的词向量,确定每个目标词语相对于待处理文本的注意力权重,该注意力权重与目标词语对待处理文本的语义影响程度呈正相关,基于每个目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,基于每个目标词语的词向量及所述文本向量,获取待处理文本的关键词。这样,使得该文本向量表示的语义能够更加贴近对待处理文本的语义影响程度较大的目标词语,进而一定程度上提高基于该文本向量提取到的关键词的准确率。

A Keyword Acquisition Method, Device and Computer Readable Storage Media

【技术实现步骤摘要】
一种关键词获取方法、装置及计算机可读存储介质
本专利技术属于计算机
,特别是涉及一种关键词获取方法、装置及计算机可读存储介质。
技术介绍
为了便于用户能够快速获取文本所要传达的主要信息,经常需要从文本中提取关键词,然后将该关键词作为该文本的标签,以方便用户便捷高效的获取文本所要传达的主要信息。例如,可以从视频的标题文本中提取该标题文本的关键词,然后以该关键词作为该标题文本的标签,进而使得用户能够快速的确定该视频的主要内容。因此,亟需一种方法来获取文本中的关键词。
技术实现思路
本专利技术提供一种关键词获取方法、装置及计算机可读存储介质,以便解决意图识别存在偏差,导致的人机交互效果较差的问题。依据本专利技术的第一方面,提供了一种关键词获取方法,该方法包括:根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语;基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关;基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量;基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。可选的,所述根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语,包括:对所述待处理文本进行分词处理,得到所述待处理文本包含的多个词语;获取每个所述词语关联的联想词语和/或关联的固定词语,得到每个所述词语的辅助词语,将每个所述词语以及每个所述词语的辅助词语,作为所述待处理文本对应的目标词语。可选的,所述基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本对应的注意力权重,包括:获取每个所述目标词语的初始词向量,以及,获取每个所述目标词语的上下文词向量;对于每个所述目标词语,基于所述目标词语的初始词向量及所述目标词语的上下文词向量,获取所述目标词语的词向量;根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重。可选的,所述根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重,包括:将每个所述目标词语分别作为待处理词语,并基于每个所述目标词语的词向量,分别计算每个所述目标词语相对于所述待处理词语的权重因子,得到每个所述目标词语对应的多个权重因子;对于每个所述目标词语,计算所述目标词语对应的多个权重因子的累加和;对于每个所述目标词语的累加和,对所述累加和进行归一化,得到所述目标词语对应的注意力权重。可选的,所述获取每个所述目标词语的上下文词向量,包括:在所述待处理文本的首部及尾部分别增加n个补充词语,得到参照文本;将属于所述待处理文本的目标词语作为第一词语,并获取所述参照文本中与所述第一词语邻接的前n个词语的初始词向量以及后n个词语的初始词向量,得到所述第一词语的上下文词向量;将属于辅助词语的目标词语作为第二词语,并将与所述第二词语关联的第一词语的上下文词向量,作为所述第二词语的上下文词向量。可选的,所述基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,包括:对于每个所述目标词语,计算所述目标词语的词向量与注意力权重之积,得到第一向量;计算所有第一向量之和,得到所述待处理文本的文本向量。可选的,所述基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词,包括:将每个所述目标词语的词向量及所述文本向量输入预设的神经网络模型,并利用所述神经网络模型生成每个所述目标词语对应的分值;将对应的分值大于或者等于预设分值阈值的目标词语作为关键词。可选的,所述预设的神经网络模型包括向量拼接层以及全连接层;所述利用所述神经网络模型生成每个所述目标词语对应的分值,包括:对于每个所述目标词语的词向量,利用所述向量拼接层将所述目标词语的词向量与所述文本向量拼接,并输出所述目标词语的最终向量;利用所述全连接层将所述目标词语的最终向量与所述全连接层的预设权重矩阵相乘,得到所述目标词语对应的分值;所述全连接层中包括一个神经元,所述预设权重矩阵定义在所述神经元中。依据本专利技术的第二方面,提供了一种关键词获取装置,该装置包括:第一确定模块,用于根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语;第二确定模块,用于基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关;第一获取模块,用于基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量;第二获取模块,用于基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。可选的,所述第一确定模块,用于:对所述待处理文本进行分词处理,得到所述待处理文本包含的多个词语;获取每个所述词语关联的联想词语和/或关联的固定词语,得到每个所述词语的辅助词语,将每个所述词语以及每个所述词语的辅助词语,作为所述待处理文本对应的目标词语。可选的,所述第二确定模块,包括:第一获取子模块,用于获取每个所述目标词语的初始词向量,以及,获取每个所述目标词语的上下文词向量;第二获取子模块,用于对于每个所述目标词语,基于所述目标词语的初始词向量及所述目标词语的上下文词向量,获取所述目标词语的词向量;第一生成子模块,用于根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重。可选的,所述第一生成子模块,用于:将每个所述目标词语分别作为待处理词语,并基于每个所述目标词语的词向量,分别计算每个所述目标词语相对于所述待处理词语的权重因子,得到每个所述目标词语对应的多个权重因子;对于每个所述目标词语,计算所述目标词语对应的多个权重因子的累加和;对于每个所述目标词语的累加和,对所述累加和进行归一化,得到所述目标词语对应的注意力权重。可选的,所述第一获取子模块,用于:在所述待处理文本的首部及尾部分别增加n个补充词语,得到参照文本;将属于所述待处理文本的目标词语作为第一词语,并获取所述参照文本中与所述第一词语邻接的前n个词语的初始词向量以及后n个词语的初始词向量,得到所述第一词语的上下文词向量;将属于辅助词语的目标词语作为第二词语,并将与所述第二词语关联的第一词语的上下文词向量,作为所述第二词语的上下文词向量。可选的,所述第一获取模块,用于:对于每个所述目标词语,计算所述目标词语的词向量与注意力权重之积,得到第一向量;计算所有第一向量之和,得到所述待处理文本的文本向量。可选的,所述第二获取模块,包括:第二生成子模块,用于将每个所述目标词语的词向量及所述文本向量输入预设的神经网络模型,并利用所述神经网络模型生成每个所述目标词语对应的分值;确定子模块,用于将对应的分值大于或者等于预设分值阈值的目标词语作为关键词。可选的,所述预设的神经网络模型包括向量拼接层以及全连接层;所述第二生成子模块,用于:对于每个所述目标词语的词向量,利用所述向量拼接层将所述目标词语的词向量与所述文本向量拼接,并输出所述目标词语的最终向量;利用所述全连接层将所述目标词语的最终向量与所述全连接层的预设权重矩阵相乘,得到所述目标词语对应的分值;其中,所述全连接层中包本文档来自技高网...

【技术保护点】
1.一种关键词获取方法,其特征在于,所述方法包括:根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语;基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关;基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量;基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。

【技术特征摘要】
1.一种关键词获取方法,其特征在于,所述方法包括:根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语;基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本的注意力权重;所述注意力权重与所述目标词语对所述待处理文本的语义影响程度呈正相关;基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量;基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词。2.根据权利要求1所述的方法,其特征在于,所述根据待处理文本中包含的词语,确定所述待处理文本对应的目标词语,包括:对所述待处理文本进行分词处理,得到所述待处理文本包含的多个词语;获取每个所述词语关联的联想词语和/或关联的固定词语,得到每个所述词语的辅助词语,将每个所述词语以及每个所述词语的辅助词语,作为所述待处理文本对应的目标词语。3.根据权利要求1或2所述的方法,其特征在于,所述基于每个所述目标词语的词向量,确定每个所述目标词语相对于所述待处理文本对应的注意力权重,包括:获取每个所述目标词语的初始词向量,以及,获取每个所述目标词语的上下文词向量;对于每个所述目标词语,基于所述目标词语的初始词向量及所述目标词语的上下文词向量,获取所述目标词语的词向量;根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重。4.根据权利要求3所述的方法,其特征在于,所述根据每个所述目标词语的词向量,并利用预设的注意力机制算法生成每个所述目标词语对应的注意力权重,包括:将每个所述目标词语分别作为待处理词语,并基于每个所述目标词语的词向量,分别计算每个所述目标词语相对于所述待处理词语的权重因子,得到每个所述目标词语对应的多个权重因子;对于每个所述目标词语,计算所述目标词语对应的多个权重因子的累加和;对于每个所述目标词语的累加和,对所述累加和进行归一化,得到所述目标词语对应的注意力权重。5.根据权利要求3所述的方法,其特征在于,所述获取每个所述目标词语的上下文词向量,包括:在所述待处理文本的首部及尾部分别增加n个补充词语,得到参照文本;将属于所述待处理文本的目标词语作为第一词语,并获取所述参照文本中与所述第一词语邻接的前n个词语的初始词向量以及后n个词语的初始词向量,得到所述第一词语的上下文词向量;将属于辅助词语的目标词语作为第二词语,并将与所述第二词语关联的第一词语的上下文词向量,作为所述第二词语的上下文词向量。6.根据权利要求1所述的方法,其特征在于,所述基于每个所述目标词语的词向量及注意力权重,获取所述待处理文本的文本向量,包括:对于每个所述目标词语,计算所述目标词语的词向量与注意力权重之积,得到第一向量;计算所有第一向量之和,得到所述待处理文本的文本向量。7.根据权利要求1所述的方法,其特征在于,所述基于每个所述目标词语的词向量及所述文本向量,获取所述待处理文本的关键词,包括:将每个所述目标词语的词向量及所述文本向量输入预设的神经网络模型,并利用所述神经网络模型生成每个所述目标词语对应的分值;将对应的分值大于或者等于预设分值阈值的目标词语作为关键词。8.根据权利要求7所述的方法,其特征在于,所述预设的神经网络模型包括向量拼接层以及全连接层;所述利用所述神经网络模型生成每个所述目标词语对应的分值,包括:对于每个所述目标词语的词向量,利用所述向量拼接层将所述目标词语的词向量与所述文本向量拼接,并输出所述目标词语的最终向量;利用所述全连接层将所述目标词语的最终向量与所述全连接层的预设权重矩阵相乘,得到所述目标词语对应的分值;所述全连接层中包括一个神经元,所述预设权重矩阵定义在所述...

【专利技术属性】
技术研发人员:张轩玮
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1