一种关键词提取方法、装置、终端以及存储介质制造方法及图纸

技术编号:27453422 阅读:26 留言:0更新日期:2021-02-25 04:44
本申请适用于计算机技术领域,提供了一种关键词提取方法、关键词提取装置、关键词提取终端及存储介质,包括:获取目标文本中的多个关键词;将多个关键词以及目标文本输入到已训练的相关性模型中处理,得到每个关键词与目标文本之间的相关程度值;基于每个关键词对应的相关程度值,确定目标文本对应的目标关键词。上述方式中,关键词提取终端基于相关性模型确定多个关键词分别与目标文本之间的相关程度值,基于相关程度值确定目标关键词,保证了筛选出来的关键词与目标文本的相关性高,使提取到的目标关键词非常准确,进而提升了关键词提取的准确率。取的准确率。取的准确率。

【技术实现步骤摘要】
一种关键词提取方法、装置、终端以及存储介质


[0001]本申请属于计算机
,尤其涉及一种关键词提取方法、关键词提取装置、关键词提取终端以及存储介质。

技术介绍

[0002]随着信息技术的快速发展,各个领域的文本信息呈爆炸式增长,如何从这些大规模的文本信息中快速准确地获取所需信息非常重要。关键词提取就是解决上述问题得有效手段,其在文本挖掘领域研究中起着非常重要的作用。
[0003]其中,关键词提取又称主题词提取,是自然语言处理中一个技术难度较大的领域。现有的关键词提取方法主要有词频-逆文档法(Term Frequency-Inverse Document Frequency,TF-IDF)、textrank算法等。然而,这些关键词提取方法对关键词的选择比较单一,容易遗漏重要的关键词,且无法保证筛选出来的词与原文的相关性,导致提取到的关键词不准确。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种关键词提取方法、关键词提取装置、关键词提取终端以及存储介质,以解决传统的关键词提取方法提取到的关键词不准确的问题。
[0005]本申请实施例的第一方面提供了一种关键词提取方法,包括:
[0006]获取目标文本中的多个关键词;
[0007]将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理,得到每个关键词与所述目标文本之间的相关程度值;所述相关性模型是基于初始相关性网络对训练样本集以及测试样本集进行训练得到;
[0008]基于每个关键词对应的相关程度值,确定所述目标文本对应的目标关键词。
[0009]本申请实施例,关键词提取终端获取目标文本中的多个关键词,基于已训练的相关性模型确定每个关键词与目标文本之间的相关程度值,基于每个关键词对应的相关程度值,确定目标文本对应的目标关键词。上述方式中,关键词提取终端预先提取出目标文本中的多个关键词,再基于相关性模型确定这些关键词分别与目标文本之间的相关程度值,选择与目标文本相关程度高的关键词作为目标关键词。其中,预先选取多个关键词保证了选取到的关键词丰富多样,不容易遗漏重要的关键词;基于相关程度值确定目标关键词保证了筛选出来的关键词与目标文本的相关性高,使提取到的目标关键词非常准确,进而提升了关键词提取的准确率。
[0010]可选地,将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理,得到每个关键词与所述目标文本之间的相关程度值,包括:
[0011]基于所述相关性模型获取每个关键词对应的词向量以及所述目标文本对应的语义向量;
[0012]确定每个词向量与所述语义向量之间的余弦相似度;
[0013]对每个余弦相似度进行归一化处理,得到每个关键词与所述目标文本之间的相关程度值。
[0014]可选地,所述获取目标文本中的多个关键词,包括:
[0015]获取所述目标文本中的初始关键词;
[0016]对所述初始关键词进行去重处理,得到所述多个关键词。
[0017]可选地,所述将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理,得到每个关键词与所述目标文本之间的相关程度值之前,所述关键词提取方法还包括:
[0018]获取所述训练样本集以及所述测试样本集;
[0019]将所述训练样本集输入所述初始相关性网络中进行训练;
[0020]当训练次数达到预设阈值时,将所述测试样本集输入训练中的初始相关性网络中进行处理,所述训练中的初始相关性网络输出测试样本集中每个测试关键词对应的相关程度值;
[0021]根据每个测试关键词对应的相关程度值,确定所述训练中的初始相关性网络对应的准确率;
[0022]当所述训练中的初始相关性网络的损失函数以及所述准确率均收敛时,得到所述已训练的相关性模型。
[0023]可选地,所述训练样本集中包括多个样本关键词、与每个样本关键词对应的相关文本以及与每个样本关键词对应的不相关文本,所述将所述训练样本集输入所述初始相关性网络中进行训练,包括:
[0024]获取每个样本关键词对应的样本词向量,获取所述相关文本对应的第一文本向量,以及获取所述不相关文本对应的第二文本向量;
[0025]确定每个样本词向量与所述第一文本向量之间的第一余弦相似度,以及确定每个样本词向量与所述第二文本向量之间的第二余弦相似度;
[0026]对每个第一余弦相似度以及每个第二余弦相似度分别进行归一化处理,得到每个样本关键词与所述相关文本之间的第一相关程度值,以及得到每个样本关键词与所述不相关文本之间的第二相关程度值。
[0027]可选地,所述基于每个关键词对应的相关程度值,确定所述目标文本对应的目标关键词之后,所述关键词提取方法还包括:
[0028]将所述目标文本对应的目标关键词以及所述目标文本上传至区块链中。
[0029]本申请实施例的第二方面提供了一种关键词提取装置,包括:
[0030]获取单元,用于获取目标文本中的多个关键词;
[0031]处理单元,用于将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理,得到每个关键词与所述目标文本之间的相关程度值;所述相关性模型是基于初始相关性网络对训练样本集以及测试样本集进行训练得到;
[0032]确定单元,用于基于每个关键词对应的相关程度值,确定所述目标文本对应的目标关键词。
[0033]可选地,所述处理单元具体用于:
[0034]基于所述相关性模型获取每个关键词对应的词向量以及所述目标文本对应的语
义向量;
[0035]确定每个词向量与所述语义向量之间的余弦相似度;
[0036]对每个余弦相似度进行归一化处理,得到每个关键词与所述目标文本之间的相关程度值。
[0037]可选地,所述获取单元具体用于:
[0038]获取所述目标文本中的初始关键词;
[0039]对所述初始关键词进行去重处理,得到所述多个关键词。
[0040]可选地,所述关键词提取装置还包括:
[0041]样本获取单元,用于获取所述训练样本集以及所述测试样本集;
[0042]训练单元,用于将所述训练样本集输入所述初始相关性网络中进行训练;
[0043]测试单元,用于当训练次数达到预设阈值时,将所述测试样本集输入训练中的初始相关性网络中进行处理,所述训练中的初始相关性网络输出测试样本集中每个测试关键词对应的相关程度值;
[0044]准确率确定单元,用于根据每个测试关键词对应的相关程度值,确定所述训练中的初始相关性网络对应的准确率;
[0045]生成单元,用于当所述训练中的初始相关性网络的损失函数以及所述准确率均收敛时,得到所述已训练的相关性模型。
[0046]可选地,所述训练样本集中包括多个样本关键词、与每个样本关键词对应的相关文本以及与每个样本关键词对应的不相关文本,所述训练单元具体用于:
[0047]获取每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:获取目标文本中的多个关键词;将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理,得到每个关键词与所述目标文本之间的相关程度值;所述相关性模型是基于初始相关性网络对训练样本集以及测试样本集进行训练得到;基于每个关键词对应的相关程度值,确定所述目标文本对应的目标关键词。2.如权利要求1所述的关键词提取方法,其特征在于,将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理,得到每个关键词与所述目标文本之间的相关程度值,包括:基于所述相关性模型获取每个关键词对应的词向量以及所述目标文本对应的语义向量;确定每个词向量与所述语义向量之间的余弦相似度;对每个余弦相似度进行归一化处理,得到每个关键词与所述目标文本之间的相关程度值。3.如权利要求1所述的关键词提取方法,其特征在于,所述获取目标文本中的多个关键词,包括:获取所述目标文本中的初始关键词;对所述初始关键词进行去重处理,得到所述多个关键词。4.如权利要求1至3任一项所述的关键词提取方法,其特征在于,所述将所述多个关键词以及所述目标文本输入到已训练的相关性模型中处理,得到每个关键词与所述目标文本之间的相关程度值之前,所述关键词提取方法还包括:获取所述训练样本集以及所述测试样本集;将所述训练样本集输入所述初始相关性网络中进行训练;当训练次数达到预设阈值时,将所述测试样本集输入训练中的初始相关性网络中进行处理,所述训练中的初始相关性网络输出测试样本集中每个测试关键词对应的相关程度值;根据每个测试关键词对应的相关程度值,确定所述训练中的初始相关性网络对应的准确率;当所述训练中的初始相关性网络的损失函数以及所述准确率均收敛时,得到所述已训练的相关性模型。5.如权利要求4所述的关键词提取方法,其特征在于,所述训练样本集中包括多个样本关键词、与每个样本关键词对应的相关文本以及与每个样本关键词对应的不相关文本,所述将所述训练样本集输...

【专利技术属性】
技术研发人员:张炜
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1