一种关键词抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:32856680 阅读:17 留言:0更新日期:2022-03-30 19:28
本申请提供了一种关键词抽取方法、装置、设备及存储介质,其中,方法包括:获取待抽取关键词的文本数据;利用预先训练的关键词抽取模型从文本数据中抽取关键句,利用关键词抽取模型从关键句中抽取关键词。本申请中的关键词抽取模型以训练文本和从训练文本获取的关键句集、非关键句集、关键词集、非关键词集为训练数据,以使将关键句集中的关键句预测为关键句的概率大于将非关键句集中的非关键句预测为关键句的概率,以及使将关键词集中的关键词预测为关键词的概率大于将非关键词集中的非关键词预测为关键词的概率为目标训练得到,这种训练策略可训练得到性能较佳的模型,利用性能较佳的模型对文本数据进行关键词抽取,能够获得较好的抽取效果。较好的抽取效果。较好的抽取效果。

【技术实现步骤摘要】
一种关键词抽取方法、装置、设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种关键词抽取方法、装置、设备及存储介质。

技术介绍

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,而关键词抽取是自然语言处理的一项重要的基础技术。关键词抽取方法能够从文本中抽取重要的关键词,使读者可以迅速获知文本的核心内容,因此被广泛应用于信息检索、文本分类和文本聚类等领域。
[0003]目前的关键词抽取方法主要为基于模型的关键词抽取方法,即采用人工标注的训练文本(即人工标注出关键词的训练文本)训练关键词抽取模型,然后利用训练得到的关键词抽取模型从待抽取关键词的文本数据中抽取关键词。
[0004]然而,由于人工标注本身的主观性,获取足够数量的高质量标注数据非常困难,采用较低质量的标注数据难以训练得到性能较佳的关键词抽取模型,利用性能较差的关键词抽取模型进行关键词抽取,难以获得较好的抽取效果。

技术实现思路

[0005]有鉴于此,本申请提供了一种关键词抽取方法、装置、设备及存储介质,用以解决现有的关键词抽取方法因难以获得足够数量的高质量标注数据,导致难以训练得到性能较佳的关键词抽取模型,进而导致在利用关键词抽取模型对待抽取关键词的文本数据进行关键词抽取时,难以获得较好的抽取效果的问题,其技术方案如下:
[0006]一种关键词抽取方法,包括:
[0007]获取待抽取关键词的文本数据;
[0008]利用预先训练的关键词抽取模型从所述文本数据中抽取关键句,并利用所述关键词抽取模型从抽取出的关键句中抽取关键词;
[0009]其中,所述关键词抽取模型采用训练文本以及从所述训练文本获取的关键句集、非关键句集、关键词集、非关键词集,以使将所述关键句集中的关键句预测为关键句的概率大于将所述非关键句集中的非关键句预测为关键句的概率,以及将所述关键词集中的关键词预测为关键词的概率大于将所述非关键词集中的非关键词预测为关键词的概率为目标训练得到。
[0010]可选的,所述利用所述关键词抽取模型从抽取出的关键句中抽取关键词,包括:
[0011]利用所述关键词抽取模型从抽取出的关键句中获取若干候选关键词,其中,每个候选关键词为抽取出的关键句中长度在预设长度范围内的一个句子片段;
[0012]利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,并根据所述若干候选关键词分别为关键词的概率,从所述若干候选关键词中确定关键词。
[0013]可选的,所述利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的
概率,包括:
[0014]针对所述若干候选关键词中的每个候选关键词,利用所述关键词抽取模型,结合已确定出的关键词的信息,预测该候选关键词为关键词的概率。
[0015]可选的,所述利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,包括:
[0016]利用所述关键词抽取模型,以抽取出的关键句的重要性为依据,对所述若干候选关键词进行排序,得到候选关键词序列;
[0017]利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词分别对应的上下文向量,其中,所述上下文向量包含对应候选关键词在所述候选关键词序列中的上下文信息;
[0018]针对所述候选关键词序列中的每个候选关键词,利用所述关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率。
[0019]可选的,所述利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词分别对应的上下文向量,包括:
[0020]利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词的表征向量,其中,一候选关键词的表征向量包含该候选关键词包含的各子词在所述训练文本中的上下文信息;
[0021]利用所述关键词抽取模型和所述候选关键词序列中各候选关键词的表征向量,获取所述候选关键词序列中各候选关键词分别对应的上下文向量。
[0022]可选的,所述利用所述关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率,包括:
[0023]利用所述关键词抽取模型,以该候选关键词对应的上下文向量和历史关键词信息向量为依据,预测该候选关键词为关键词的概率,其中,所述历史关键词信息向量为已确定出的各关键词分别对应的上下文向量的融合结果;
[0024]所述关键词抽取方法还包括:
[0025]针对所述候选关键词序列中的每个候选关键词,若根据该候选关键词为关键词的概率确定该候选关键词为关键词,则将该候选关键词对应的上下文向量与历史关键词信息向量融合,融合后向量作为新的历史关键词信息向量。
[0026]可选的,所述训练文本具有对应的参考关键词集;
[0027]从所述训练文本中获取关键句集和非关键句集,包括:
[0028]对所述训练文本进行分句处理,得到所述训练文本的每个句子;
[0029]针对所述训练文本的每个句子,根据所述参考关键词集合与该句子的共有词在该句子中的出现情况和在语料集中的出现情况,确定该句子的得分;
[0030]根据所述训练文本的各个句子的得分确定关键句,由确定出的关键句组成的句子集作为从所述训练文本获取的关键句集;
[0031]将若干与所述参考关键词集合无交集的句子组成的句子集作为从所述训练文本获取的非关键句集。
[0032]可选的,从所述训练文本获取关键词集和非关键词集,包括:
[0033]从所述关键句集中的关键句中获取若干候选关键词;
[0034]将所述若干候选关键词中与所述参考关键词集中的关键词完全匹配的候选关键词确定为关键词,由确定出的关键词组成的词集作为从所述训练文本获取的关键词集;
[0035]将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配的候选关键词确定为非关键词,由确定出的非关键词组成的词集作为从所述训练文本获取的非关键词集。
[0036]可选的,所述将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配的候选关键词确定为非关键词,包括:
[0037]将所述若干候选关键词中与所述参考关键词集中的关键词不完全匹配,且与所述参考关键词集合中的关键词有交集的候选关键词确定为非关键词。
[0038]可选的,所述关键词抽取模型的训练过程包括:
[0039]利用关键词抽取模型,预测所述训练文本中每个句子为关键句的概率,以得到所述关键句集中的每个句子为关键句的概率以及所述非关键句集中的每个句子为关键句的概率;
[0040]根据所述关键句集中的每个句子为关键句的概率以及所述非关键句集中的每个句子为关键句的概率,确定关键句预测损失;
[0041]预测从所述关键句集包含的关键句中获取的若干候选关键词分别为关键词的概率,以得到所述关键词集中的每个词为关键词的概率,以及所述非关键词集中的每个词为关键词的概率;...

【技术保护点】

【技术特征摘要】
1.一种关键词抽取方法,其特征在于,包括:获取待抽取关键词的文本数据;利用预先训练的关键词抽取模型从所述文本数据中抽取关键句,并利用所述关键词抽取模型从抽取出的关键句中抽取关键词;其中,所述关键词抽取模型采用训练文本以及从所述训练文本获取的关键句集、非关键句集、关键词集、非关键词集,以使将所述关键句集中的关键句预测为关键句的概率大于将所述非关键句集中的非关键句预测为关键句的概率,以及将所述关键词集中的关键词预测为关键词的概率大于将所述非关键词集中的非关键词预测为关键词的概率为目标训练得到。2.根据权利要求1所述的关键词抽取方法,其特征在于,所述利用所述关键词抽取模型从抽取出的关键句中抽取关键词,包括:利用所述关键词抽取模型从抽取出的关键句中获取若干候选关键词,其中,每个候选关键词为抽取出的关键句中长度在预设长度范围内的一个句子片段;利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,并根据所述若干候选关键词分别为关键词的概率,从所述若干候选关键词中确定关键词。3.根据权利要求2所述的关键词抽取方法,其特征在于,所述利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,包括:针对所述若干候选关键词中的每个候选关键词,利用所述关键词抽取模型,结合已确定出的关键词的信息,预测该候选关键词为关键词的概率。4.根据权利要求2所述的关键词抽取方法,其特征在于,所述利用所述关键词抽取模型预测所述若干候选关键词分别为关键词的概率,包括:利用所述关键词抽取模型,以抽取出的关键句的重要性为依据,对所述若干候选关键词进行排序,得到候选关键词序列;利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词分别对应的上下文向量,其中,所述上下文向量包含对应候选关键词在所述候选关键词序列中的上下文信息;针对所述候选关键词序列中的每个候选关键词,利用所述关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率。5.根据权利要求4所述的关键词抽取方法,其特征在于,所述利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词分别对应的上下文向量,包括:利用所述关键词抽取模型,获取所述候选关键词序列中各候选关键词的表征向量,其中,一候选关键词的表征向量包含该候选关键词包含的各子词在所述训练文本中的上下文信息;利用所述关键词抽取模型和所述候选关键词序列中各候选关键词的表征向量,获取所述候选关键词序列中各候选关键词分别对应的上下文向量。6.根据权利要求4所述的关键词抽取方法,其特征在于,所述利用所述关键词抽取模型,以该候选关键词对应的上下文向量为依据,预测该候选关键词为关键词的概率,包括:利用所述关键词抽取模型,以该候选关键词对应的上下文向量和历史关键词信息向量为依据,预测该候选关键词为关键词的概率,其中,所述历史关键词信息向量为已确定出的
各关键词分别对应的上下文向量的融合结果;所述关键词抽取方法还包括:针对所述候选关键词序列中的每个候选关键词,若根据该候选关键词为关键词的概率确定该候选关键词为关键词,则将该候选关键词对应的上下文向量与历史关键词信息向量融合,融合后向量作为新的历史关键词信息向量。7.根据权利要求1所述的关键词抽取方法,其特征在于,所述训练文本具有对应的参考关键词集;从所述训练文本中获取关键句集和非关键句集,包括:对所述训练文本进行分句处理,得到所述训练文本的每个句子;针对所述训练文本的每个句子,根据所述参考关键词集合与该句子的共有词在该句子中的出现情况和在语料集中的出现情况,确定该句子的得分;根据所述训练文本的各个句子的得分确定关键句,由确定出的关键句组成的句子集作为从所述训练文本获取的关键句集;将若干...

【专利技术属性】
技术研发人员:闫莉魏思万根顺高建清刘聪王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1