一种关键词提取方法、装置、设备及存储介质制造方法及图纸

技术编号:32896400 阅读:14 留言:0更新日期:2022-04-07 11:45
本申请实施例提供了一种关键词提取方法、装置、设备及存储介质,涉及人工智能技术领域,该方法包括:对目标文本进行特征提取,获得目标文本对应的文本特征向量和目标文本包含的目标分词的分词语法向量。对目标分词进行特征提取,获得目标分词的分词语义向量,然后将分词语义向量和分词语法向量进行拼接获得第一组合向量。由于第一组合向量中包含了目标分词的语义信息和语法信息,故将目标文本的文本特征向量与第一组合向量融合后获得的融合特征向量,可以更好地表征目标文本中的核心成分。基于融合特征向量确定目标分词在目标文本中的权重值,并基于权重值确定目标分词是否为目标文本中的关键词时,可以有效提高提取目标文本中关键词的准确性。本中关键词的准确性。本中关键词的准确性。

【技术实现步骤摘要】
一种关键词提取方法、装置、设备及存储介质


[0001]本专利技术实施例涉及人工智能
,尤其涉及一种关键词提取方法、装置、设备及存储介质。

技术介绍

[0002]随着信息技术的发展,互联网上无时无刻不在产生大量的数据,面对大量的数据,用户难以快速地从中找到比较重要且关键的内容,因此标题词权重任务(term

weights)应运而生,标题词权重任务指提取文本中的核心成分,消除冗余成分的影响的主要方式。
[0003]目前,词权重任务大多基于全局语料进行词频统计,来提取文本中的关键词,比如,词频

逆文本频率指数(term frequency

inverse document frequency)。然而,基于统计方式提取文本中的关键词时,其准确性较低。

技术实现思路

[0004]本申请实施例提供了一种关键词提取方法、装置、设备及存储介质,用于提高提取文本中关键词的准确性。
[0005]一方面,本申请实施例提供了一种关键词提取方法,该方法包括:
[0006]对目标文本进行特征提取,获得所述目标文本对应的文本特征向量和所述目标文本包含的目标分词对应的分词语法向量,以及对所述目标分词进行特征提取,获得所述目标分词对应的分词语义向量;
[0007]将所述分词语义向量和所述分词语法向量进行拼接,获得所述目标分词对应的第一组合向量;将所述目标文本对应的文本特征向量与所述第一组合向量融合,获得融合特征向量;
[0008]基于所述融合特征向量,确定所述目标分词在所述目标文本中的权重值,所述权重值用于表征所述目标分词对于所述目标文本的语义理解的影响程度;
[0009]基于所述目标分词在所述目标文本中的权重值,确定所述目标分词是否为所述目标文本中的关键词。
[0010]一方面,本申请实施例提供了一种关键词提取装置,该装置包括:
[0011]特征提取模块,用于对目标文本进行特征提取,获得所述目标文本对应的文本特征向量和所述目标文本包含的目标分词对应的分词语法向量,以及对所述目标分词进行特征提取,获得所述目标分词对应的分词语义向量;
[0012]拼接模块,用于将所述分词语义向量和所述分词语法向量进行拼接,获得所述目标分词对应的第一组合向量;
[0013]融合模块,用于将所述目标文本对应的文本特征向量与所述第一组合向量融合,获得融合特征向量;
[0014]预测模块,用于基于所述融合特征向量,确定所述目标分词在所述目标文本中的权重值,所述权重值用于表征所述目标分词对于所述目标文本的语义理解的影响程度;
[0015]判决模块,用于基于所述目标分词在所述目标文本中的权重值,确定所述目标分词是否为所述目标文本中的关键词。
[0016]可选地,所述特征提取模块具体用于:
[0017]分别提取所述目标文本中各个分词各自对应的分词语法向量、位置向量以及分割向量;其中,每个分词对应一个分词语法向量、一个位置向量和一个分割向量,每个分词语法向量用于表征相应的一个分词在所述目标文本中的语法信息,每个位置向量用于表征相应的一个分词与所述目标文本中其他分词之间的相对位置关系,每个分割向量用于表征相应的一个分词所属语句的语句类型;
[0018]分别基于所述各个分词各自对应的分词语法向量、位置向量以及分割向量,获得相应分词对应的第二组合向量;
[0019]对获得的各个第二组合向量进行特征提取,获得所述目标文本对应的文本特征向量;
[0020]从所述各个分词各自对应的分词语法向量中,获取所述目标分词对应的分词语法向量。
[0021]可选地,所述特征提取模块具体用于:
[0022]分别针对所述各个分词,执行以下操作:将一个分词对应的分词语法向量、位置向量以及分割向量进行叠加,获得所述一个分词对应的第二组合向量。
[0023]可选地,所述特征提取模块具体用于:
[0024]根据所述各个第二组合向量与相应的注意力权重矩阵,获得所述各个分词各自对应的注意力权重向量,其中,一个分词对应的注意力权重向量包含的各个值,分别表征所述各个分词各自相对于所述一个分词的注意力权重;
[0025]根据所述各个分词各自对应的注意力权重向量,以及所述各个第二组合向量,获得所述目标文本对应的文本特征向量,其中,所述文本特征向量包括所述各个分词各自对应的分词特征向量,每个分词特征向量是根据相应的一个注意力权重向量中各个注意力权重,与相应第二组合向量进行加权求和获得的。
[0026]可选地,所述特征提取模块具体用于:
[0027]根据所述各个第二组合向量与相应的注意力权重矩阵,获得所述各个分词各自对应的至少一个注意力向量,其中,所述至少一个注意力向量包括请求向量和键向量;
[0028]基于所述各个分词各自对应的至少一个注意力向量,获取所述各个分词各自对应的注意力权重向量,所述各个分词各自相对于所述一个分词的注意力权重为所述各个分词各自对应的键向量分别与所述一个分词的请求向量的相似度。
[0029]可选地,所述融合模块具体用于:
[0030]对所述目标文本对应的文本特征向量与所述目标分词对应的第一组合向量进行点乘处理,获得相应的融合特征向量。
[0031]可选地,所述判别模块具体用于:
[0032]若所述目标分词对应的权重值大于等于预设阈值,则确定所述目标分词为所述目标文本中的关键词;
[0033]若所述目标分词对应的权重值小于所述预设阈值,则确定所述目标分词不是所述目标文本中的关键词。
[0034]可选地,还包括关键词匹配模块;
[0035]所述关键词匹配模块具体用于:
[0036]基于所述目标分词在所述目标文本中的权重值,确定所述目标分词是否为所述目标文本中的关键词之后,获取待匹配的目标关键词;
[0037]将所述目标关键词与视频标题库中各个视频标题进行关键词匹配,获得至少一个候选视频标题;
[0038]根据所述至少一个候选视频标题中各个关键词的权重值,对所述至少一个候选视频标题进行排序;
[0039]根据排序结果确定所述目标关键词的匹配视频标题。
[0040]一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述关键词提取方法的步骤。
[0041]一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述关键词提取方法的步骤。
[0042]本申请实施例中,将目标文本包含的目标分词对应的分词语义向量和分词语法向量进行拼接,获得目标分词对应的第一组合向量,由于第一组合向量中包含了目标分词的语义信息和语法信息,故将目标文本对应的文本特征向量与第一组合向量融合后获得的融合特征向量,可以更好地表征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:对目标文本进行特征提取,获得所述目标文本对应的文本特征向量和所述目标文本包含的目标分词对应的分词语法向量,以及对所述目标分词进行特征提取,获得所述目标分词对应的分词语义向量;将所述分词语义向量和所述分词语法向量进行拼接,获得所述目标分词对应的第一组合向量;将所述目标文本对应的文本特征向量与所述第一组合向量融合,获得融合特征向量;基于所述融合特征向量,确定所述目标分词在所述目标文本中的权重值,所述权重值用于表征所述目标分词对于所述目标文本的语义理解的影响程度;基于所述目标分词在所述目标文本中的权重值,确定所述目标分词是否为所述目标文本中的关键词。2.如权利要求1所述的方法,其特征在于,所述对目标文本进行特征提取,获得所述目标文本对应的文本特征向量和所述目标文本包含的目标分词对应的分词语法向量,包括:分别提取所述目标文本中各个分词各自对应的分词语法向量、位置向量以及分割向量;其中,每个分词对应一个分词语法向量、一个位置向量和一个分割向量,每个分词语法向量用于表征相应的一个分词在所述目标文本中的语法信息,每个位置向量用于表征相应的一个分词与所述目标文本中其他分词之间的相对位置关系,每个分割向量用于表征相应的一个分词所属语句的语句类型;分别基于所述各个分词各自对应的分词语法向量、位置向量以及分割向量,获得相应分词对应的第二组合向量;对获得的各个第二组合向量进行特征提取,获得所述目标文本对应的文本特征向量;从所述各个分词各自对应的分词语法向量中,获取所述目标分词对应的分词语法向量。3.如权利要求2所述的方法,其特征在于,所述分别基于所述各个分词各自对应的分词语法向量、位置向量以及分割向量,获得相应分词对应的第二组合向量,包括:分别针对所述各个分词,执行以下操作:将一个分词对应的分词语法向量、位置向量以及分割向量进行叠加,获得所述一个分词对应的第二组合向量。4.如权利要求2所述的方法,其特征在于,所述对获得的各个第二组合向量进行特征提取,获得所述目标文本对应的文本特征向量,包括:根据所述各个第二组合向量与相应的注意力权重矩阵,获得所述各个分词各自对应的注意力权重向量,其中,一个分词对应的注意力权重向量包含的各个值,分别表征所述各个分词各自相对于所述一个分词的注意力权重;根据所述各个分词各自对应的注意力权重向量,以及所述各个第二组合向量,获得所述目标文本对应的文本特征向量,其中,所述文本特征向量包括所述各个分词各自对应的分词特征向量,每个分词特征向量是根据相应的一个注意力权重向量中各个注意力权重,与相应第二组合向量进行加权求和获得的。5.如权利要求4所述的方法,其特征在于,所述根据所述各个第二组合向量与相应的注意力权重矩阵,获得所述各个分词各自对应的注意力权重向量,包括:根据所述...

【专利技术属性】
技术研发人员:黄剑辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1