关键词抽取方法、装置、终端设备及存储介质制造方法及图纸

技术编号:27315675 阅读:25 留言:0更新日期:2021-02-10 09:47
本申请适用于人工智能技术领域,提供了一种关键词抽取方法、装置、终端设备及存储介质,其中,方法包括:获取目标文章中的多个分词;根据预设的关键词库,从所述多个分词中确定多个候选关键词;根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值;将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词。采用上述方法从目标文章中提取目标关键词,可以保证提取的目标关键词均属于与目标文章关联度高的高质量词汇。与目标文章关联度高的高质量词汇。与目标文章关联度高的高质量词汇。

【技术实现步骤摘要】
关键词抽取方法、装置、终端设备及存储介质


[0001]本申请属于人工智能
,尤其涉及一种关键词抽取方法、装置、终端设备及存储介质。

技术介绍

[0002]现有技术中,关键词抽取在文本处理的许多领域中均应用广泛,例如,文本聚类领域、文本摘要领域和信息检索领域。在当下大数据时代,关键词抽取基本上是通过提取文本中的每个词的单一信息进行判断。目前,流行的有采用基于图的排序算法TextRank算法或主题模型(latent dirichlet allocation,LDA)得到文本的关键词。然而,有些特殊词汇,如人名、地名等信息,常常会被忽略,而该信息可能为文本中的重要信息。因此,目前抽取文本关键词的方法难以准确提取出与文本相关的高质量的关键词。

技术实现思路

[0003]本申请实施例提供了一种关键词抽取方法、装置、终端设备及存储介质,可以解决目前抽取文本关键词的方法难以准确提取出与文本相关的高质量关键词的问题。
[0004]第一方面,本申请实施例提供了一种关键词抽取方法,包括:
[0005]获取目标文章中的多个分词;
[0006]根据预设的关键词库,从所述多个分词中确定多个候选关键词;
[0007]根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值;
[0008]将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词。
>[0009]在一实施例中,在所述根据预设的关键词库,从所述多个分词中确定多个候选关键词之前,还包括:
[0010]确定所述目标文章的文章领域,获取属于所述文章领域的领域文本;
[0011]根据所述领域文本中的多个领域分词,计算每个领域分词之间的领域关联度;
[0012]从多个领域关联度中确定大于预设关联度的目标关联度,以及确定所述目标关联度对应的目标领域分词;
[0013]将所述目标领域分词存储至所述关键词库中。
[0014]在一实施例中,在所述根据预设的关键词库,从所述多个分词中确定多个候选关键词之前,还包括:
[0015]确定所述目标文章的文章领域,并获取属于所述文章领域下的多个领域关键词;
[0016]将所述多个领域关键词存储至所述关键词库中。
[0017]在一实施例中,所述根据预设的关键词库,从所述多个分词中确定多个候选关键词,包括:
[0018]确定所述关键词库中是否包含目标分词,所述目标分词为所述多个分词中的任意一个;
[0019]若所述关键词库中包含所述目标分词,则将所述目标分词作为候选关键词;
[0020]若所述关键词库中未包含所述目标分词,则判断所述目标分词是否属于实体词;若所述目标分词属于实体词,则将属于所述实体词的目标分词输入至所述监督模型中,得到属于所述实体词的目标分词的关键词概率;若所述关键词概率大于概率阈值,则将所述关键词概率对应的所述目标分词作为候选关键词。
[0021]在一实施例中,所述监督模型通过如下步骤训练得到:
[0022]获取训练样本,并从所述训练样本中获取已标注的训练关键词;
[0023]对所述训练样本中的文本内容进行分词得到多个样本分词,并分别计算每个样本分词对应的样本得分值;
[0024]根据多个样本得分值,从所述多个样本分词中确定样本关键词;
[0025]基于所述样本关键词与所述训练关键词,确定所述样本关键词的标记类别;
[0026]提取所述样本关键词的关键词特征;
[0027]基于所述样本关键词的关键词特征与标记类别进行模型训练,得到所述监督模型。
[0028]在一实施例中,所述多个得分值包括第一得分值、第二得分值、第三得分值和第四得分值;
[0029]所述根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值,包括:
[0030]统计所述多个分词的数量,并根据所述数量分别计算所述每个候选关键词在所述目标文章中的词频,通过所述词频对应计算所述每个候选关键词的第一得分值;
[0031]确定所述多个候选关键词在所述目标文章中的位置,基于所述多个候选关键词在所述目标文章中的位置,计算所述每个候选关键词的第二得分值;
[0032]分别确定所述每个候选关键词在所述目标文章中的初始位置和结束位置,根据所述初始位置和所述结束位置计算所述每个候选关键词对应的第三得分值;
[0033]根据预设的文本排序算法,计算所述每个候选关键词对应的第四得分值。
[0034]在一实施例中,所述目标关键词包括多个;
[0035]在所述将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词之后,还包括:
[0036]统计每个目标关键词在多篇目标文章中的总数量,计算所述每个目标关键词的总数量之间的比值;
[0037]根据所述比值和所述每个目标关键词进行文章召回,得到文章集,所述文章集中分别包含每个目标关键词的文章数量之比与所述比值相等。
[0038]第二方面,本申请实施例提供了一种关键词抽取装置,包括:
[0039]第一获取模块,用于获取目标文章中的多个分词;
[0040]第一确定模块,用于根据预设的关键词库,从所述多个分词中确定多个候选关键词;
[0041]第一计算模块,用于根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值;
[0042]第二确定模块,用于将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词。
[0043]第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。
[0044]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。
[0045]第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的方法。
[0046]在本申请实施例中,通过对目标文章进行分词处理得到多个分词,并与预设的关键词库进行比较,从多个分词中确定候选关键词,并分别计算每个候选关键词的多个得分值,根据多个得分值从多个候选关键词中进一步的确定目标关键词,使得在维护一高质量的关键词库作为输出目标文章中候选关键词的基础上,可同时根据监督模型进一步的计算每个候选关键词的词概率,根据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种关键词抽取方法,其特征在于,包括:获取目标文章中的多个分词;根据预设的关键词库,从所述多个分词中确定多个候选关键词;根据所述多个候选关键词和所述目标文章,分别计算所述多个候选关键词中每个候选关键词对应的多个得分值;将所述每个候选关键词对应的多个得分值输入预先训练的监督模型中,分别得到所述每个候选关键词的词概率,并根据所述词概率从所述多个候选关键词中确定目标关键词。2.如权利要求1所述的关键词抽取方法,其特征在于,在所述根据预设的关键词库,从所述多个分词中确定多个候选关键词之前,还包括:确定所述目标文章的文章领域,获取属于所述文章领域的领域文本;根据所述领域文本中的多个领域分词,计算每个领域分词之间的领域关联度;从多个领域关联度中确定大于预设关联度的目标关联度,以及确定所述目标关联度对应的目标领域分词;将所述目标领域分词存储至所述关键词库中。3.如权利要求1所述的关键词抽取方法,其特征在于,在所述根据预设的关键词库,从所述多个分词中确定多个候选关键词之前,还包括:确定所述目标文章的文章领域,并获取属于所述文章领域下的多个领域关键词;将所述多个领域关键词存储至所述关键词库中。4.如权利要求1-3任一项所述的关键词抽取方法,其特征在于,所述根据预设的关键词库,从所述多个分词中确定多个候选关键词,包括:确定所述关键词库中是否包含目标分词,所述目标分词为所述多个分词中的任意一个;若所述关键词库中包含所述目标分词,则将所述目标分词作为候选关键词;若所述关键词库中未包含所述目标分词,则判断所述目标分词是否属于实体词;若所述目标分词属于实体词,则将属于所述实体词的目标分词输入至所述监督模型中,得到属于所述实体词的目标分词的关键词概率;若所述关键词概率大于概率阈值,则将所述关键词概率对应的所述目标分词作为候选关键词。5.如权利要求4所述的关键词抽取方法,其特征在于,所述监督模型通过如下步骤训练得到:获取训练样本,并从所述训练样本中获取已标注的训练关键词;对所述训练样本中的文本内容进行分词得到多个样本分词,并分别计算每个样本分词对应的样本得分值;根据多个样本得分值,从所述多个样本分词中确定样本关键词;基于所述样本关键词与所述训练关键词,确定所述样本关键词的标记类别;提取所述样本关键词的关键词特征;基于所述样本关键词的关键词特征与标记类别进行模...

【专利技术属性】
技术研发人员:饶刚
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1