关键词提取方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:32670516 阅读:17 留言:0更新日期:2022-03-17 11:24
本申请公开了关键词提取方法、装置、设备及计算机可读存储介质,属于计算机技术领域。方法包括:从第一文本中提取至少一个候选关键词;基于第一文本获取至少一个第二文本,其中,每个第二文本缺少第一文本中的一个候选关键词,第二文本的数量基于候选关键词的数量确定;确定各个第二文本所缺少的候选关键词的关键程度;基于关键程度,从至少一个候选关键词中确定关键词提取结果。本申请确定候选关键词的关键程度,关键程度可以反应出对应的关键词是否有实际意义,然后基于各个第二文本所缺少的候选关键词的关键程度,从至少一个候选关键词中确定关键词提取结果,避免了关键词提取结果无实际意义,提高了关键词提取的准确性。提高了关键词提取的准确性。提高了关键词提取的准确性。

【技术实现步骤摘要】
关键词提取方法、装置、设备及计算机可读存储介质


[0001]本申请实施例涉及计算机
,特别涉及一种关键词提取方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着计算机技术的发展,时常应用到关键词提取技术,关键词提取技术的应用场景也越来越多,例如,关键词提取可应用于定向检索。
[0003]在相关技术中,可以直接将文本中无法与词典或规则进行匹配的内容提取出来作为关键词提取结果。
[0004]但是,相关技术中提供的方法可能存在关键词提取结果无实际意义等问题,因此,提取出的关键词不够准确,进一步降低了检索的准确性。

技术实现思路

[0005]本申请实施例提供了一种关键词提取方法、装置、设备及计算机可读存储介质,可用于解决相关技术中的问题。技术方案如下:
[0006]一方面,本申请实施例提供了一种关键词提取方法,方法包括:
[0007]从第一文本中提取至少一个候选关键词;
[0008]基于所述第一文本获取至少一个第二文本,其中,所述至少一个第二文本中的每个第二文本缺少所述第一文本中的一个候选关键词,所述第二文本的数量基于所述候选关键词的数量确定;
[0009]确定各个第二文本所缺少的候选关键词的关键程度;
[0010]基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果。
[0011]在一种可能的实现方式中,所述基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果,包括:
[0012]当任一关键词的关键程度满足参考条件时,则从所述至少一个候选关键词中删除所述任一关键词,将剩余关键词作为关键词提取结果。
[0013]在一种可能的实现方式中,所述基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果,包括:
[0014]当任一关键词的关键程度满足参考条件时,则从所述至少一个候选关键词中删除所述任一关键词,得到剩余关键词;
[0015]当任意两个所述剩余关键词在所述第一文本中连续,将连续的且满足拼接条件的所述剩余关键词拼接得到拼接后的关键词;
[0016]将所述拼接后的关键词、连续且未满足拼接条件的所述剩余关键词与在所述第一文本中不连续的剩余关键词作为所述关键词提取结果。
[0017]在一种可能的实现方式中,所述确定各个第二文本所缺少的候选关键词的关键程
度,包括:
[0018]确定各个第二文本与所述第一文本的相似度,任一第二文本与所述第一文本的相似度用于指示所述任一第二文本所缺少的候选关键词的关键程度;
[0019]所述基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果,包括:
[0020]基于所述各个第二文本与所述第一文本的相似度,从所述至少一个候选关键词中确定关键词提取结果。
[0021]在一种可能的实现方式中,所述从第一文本中提取至少一个候选关键词,包括:
[0022]确定所述第一文本的分词结果,所述分词结果包括至少一个分词;
[0023]对所述分词结果过滤掉停用词,将未被过滤掉的分词结果作为所述候选关键词。
[0024]在一种可能的实现方式中,所述停用词包括命中停用词表的分词、被词典匹配的分词和被规则匹配的分词中的至少一种。
[0025]另一方面,提供了一种关键词提取装置,装置包括:
[0026]提取模块,用于从第一文本中提取至少一个候选关键词;
[0027]获取模块,用于基于所述第一文本获取至少一个第二文本,其中,所述至少一个第二文本中的每个第二文本缺少所述第一文本中的一个候选关键词,所述第二文本的数量基于所述候选关键词的数量确定;
[0028]第一确定模块,用于确定各个第二文本所缺少的候选关键词的关键程度;
[0029]第二确定模块,用于基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果。
[0030]在一种可能的实现方式中,第二确定模块,用于当任一关键词的关键程度满足参考条件时,则从所述至少一个候选关键词中删除所述任一关键词,将剩余关键词作为关键词提取结果。
[0031]在一种可能的实现方式中,第二确定模块,用于当任一关键词的关键程度满足参考条件时,则从所述至少一个候选关键词中删除所述任一关键词,得到剩余关键词;当任意两个所述剩余关键词在所述第一文本中连续,将连续的且满足拼接条件的所述剩余关键词拼接得到拼接后的关键词;将所述拼接后的关键词、连续且未满足拼接条件的所述剩余关键词与在所述第一文本中不连续的剩余关键词作为所述关键词提取结果。
[0032]在一种可能的实现方式中,第一确定模块,用于确定各个第二文本与所述第一文本的相似度,任一第二文本与所述第一文本的相似度用于指示所述任一第二文本所缺少的候选关键词的关键程度;
[0033]第二确定模块,用于基于所述各个第二文本与所述第一文本的相似度,从所述至少一个候选关键词中确定关键词提取结果。
[0034]在一种可能的实现方式中,提取模块,用于确定所述第一文本的分词结果,所述分词结果包括至少一个分词;对所述分词结果过滤掉停用词,将未被过滤掉的分词结果作为所述候选关键词。
[0035]在一种可能的实现方式中,停用词包括命中停用词表的分词、被词典匹配的分词和被规则匹配的分词中的至少一种。
[0036]另一方面,提供了一种计算机设备,计算机设备包括处理器和存储器,存储器中存
储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行,以使计算机设备实现上述任一的关键词提取方法。
[0037]另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一的关键词提取方法。
[0038]另一方面,还提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取计算机指令,处理器执行计算机指令,使得计算机设备执行上述任一的关键词提取方法。
[0039]本申请实施例提供的技术方案至少带来如下有益效果:
[0040]本申请确定候选关键词的关键程度,该关键程度可以反应出对应的关键词是否有实际意义,然后基于各个第二文本所缺少的候选关键词的关键程度,从至少一个候选关键词中确定关键词提取结果,避免了关键词提取结果无实际意义,提高了关键词提取的准确性。
附图说明
[0041]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词提取方法,其特征在于,所述方法包括:从第一文本中提取至少一个候选关键词;基于所述第一文本获取至少一个第二文本,其中,所述至少一个第二文本中的每个第二文本缺少所述第一文本中的一个候选关键词,所述第二文本的数量基于所述候选关键词的数量确定;确定各个第二文本所缺少的候选关键词的关键程度;基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果,包括:当任一关键词的关键程度满足参考条件时,则从所述至少一个候选关键词中删除所述任一关键词,将剩余关键词作为关键词提取结果。3.根据权利要求1所述的方法,其特征在于,所述基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果,包括:当任一关键词的关键程度满足参考条件时,则从所述至少一个候选关键词中删除所述任一关键词,得到剩余关键词;当任意两个所述剩余关键词在所述第一文本中连续,将连续的且满足拼接条件的所述剩余关键词拼接得到拼接后的关键词;将所述拼接后的关键词、连续且未满足拼接条件的所述剩余关键词与在所述第一文本中不连续的剩余关键词作为所述关键词提取结果。4.根据权利要求1所述的方法,其特征在于,所述确定各个第二文本所缺少的候选关键词的关键程度,包括:确定各个第二文本与所述第一文本的相似度,任一第二文本与所述第一文本的相似度用于指示所述任一第二文本所缺少的候选关键词的关键程度;所述基于所述各个第二文本所缺少的候选关键词的关键程度,从所述至少一个候选关键词中确定关键词提取结果,包括:基于所述各个第二文本与所述第一文本的相似度,从所述至少一个候选关键词中确定关键...

【专利技术属性】
技术研发人员:岳晓宇陈孝良李良斌
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1