【技术实现步骤摘要】
关键词提取方法和装置、存储介质及电子装置
本专利技术涉及计算机领域,具体而言,涉及一种关键词提取方法和装置、存储介质及电子装置。
技术介绍
关键词是当前文档内关键内容的索引词,通常用于在搜索过程中对上述关键内容进行检索定位,以便于对文档的全文内容进行快速地了解和把握,从而实现根据上述关键词进行文本文档分类、数据分析及智能匹配推荐等过程。然而,目前相关技术常用的关键词提取方法往往都是基于统计数据,对概括性的词语进行较宽泛的提取,即,相关技术提供的关键词提取方法存在提取准确性较低的问题。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种关键词提取方法和装置、存储介质及电子装置,以至少解决由于对概括性词语直接进行较宽泛地关键词提取而导致的提取准确性较低的技术问题。根据本专利技术实施例的一个方面,提供了一种关键词提取方法,包括:获取目标文本中的候选关键词集;至少根据主题相似度以及上述候选关键词集中候选关键词的文本转换频率,确定出上述候选关键词的提取度,其中,上述主题相似度为上述候选关键词与上述目标文本的相似度,其中,上述提取度用于指示所述候 ...
【技术保护点】
1.一种关键词提取方法,其特征在于,包括:获取目标文本中的候选关键词集;至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度,其中,所述主题相似度为所述候选关键词与所述目标文本的相似度,其中,所述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词被提取出的概率;根据所述提取度从所述候选关键词集中提取出所述关键词。
【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:获取目标文本中的候选关键词集;至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度,其中,所述主题相似度为所述候选关键词与所述目标文本的相似度,其中,所述提取度用于指示所述候选关键词作为与所述目标文本匹配的关键词被提取出的概率;根据所述提取度从所述候选关键词集中提取出所述关键词。2.根据权利要求1所述的方法,其特征在于,所述至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度包括:获取所述候选关键词的所述主题相似度,以及所述候选关键词的所述文本转换频率的加权结果;获取所述候选关键词的属性信息,其中,所述属性信息包括:所述候选关键词的词性,及所述候选关键词在所述目标文本中的词频;根据所述加权结果及所述属性信息确定所述提取度。3.根据权利要求2所述的方法,其特征在于,所述根据所述加权结果及所述属性信息确定所述提取度包括:根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置,确定所述候选关键词的提取系数;获取所述提取系数、所述词频及所述加权结果的乘积作为所述提取度,其中,在所述加权结果中,与所述主题相似度匹配的第一权重,及与所述文本转换频率匹配的第二权重,二者的权重之和为1。4.根据权利要求3所述的方法,其特征在于,所述根据所述候选关键词的词性及所述候选关键词在所述目标文本中的位置,确定所述候选关键词的提取系数包括:在所述候选关键词出现在与所述目标文本对应的标题中的情况下,确定出的所述提取系数大于与所述词性匹配的词性系数;在所述候选关键词并未出现在与所述目标文本对应的标题中的情况下,确定出的所述提取系数等于与所述词性匹配的所述词性系数;其中,所述词性系数根据所述候选关键词的词性确定数值,在所述词性为名词的情况下,所述词性系数为第一数值;在所述词性为动词的情况下,所述词性系数为第二数值;在所述词性为其他词性的词的情况下,所述词性系数为第三数值。5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度之前,还包括:获取所述目标文本所在语料库中的全部文本数量,与在所述语料库中包含所述候选关键词的文本数量二者之间的第一比值;获取在预设搜索平台中的总搜索条目数量,以及在所述预设搜索平台中包含所述候选关键词的搜索条目数量;根据所述搜索条目数量与所述总搜索条目数量确定二者之间的第二比值;对所述第一比值与所述第二比值二者的乘积进行取对数运算,得到所述候选关键词的所述文本转换频率。6.根据权利要求1至4中任一项所述的方法,其特征在于,所述至少根据主题相似度以及所述候选关键词集中候选关键词的文本转换频率,确定出所述候选关键词的提取度之前,还包括:获取与所述候选关键词匹配的第一主题分布数据,其中,所述第一主题分布数据用于指示在K个主题中,所述候选关键词为第k个主题的概率;获取与所述目标文本匹配的第二主题分布数据,其中,所述第二主题分布数据用于指示在所述K个主题中,所述目标文本为所述第k个主题的概率;根据所述第一主题分布数据及所述第二主题分布数据,确定所述候选关键词与所述目标文本的所述主题相似度,其中,所述主题相似度用于指示在K个主题中,所述候选关键词为第k个主题,且所述目标文本也为所述第k个主题的概率,k大于等于1,且小于等于K。7.根据权利要求1所述的方法,其特征在于,在所述根据所述提取度从所述候选关键词集中提取出所述关键词之后,还包括以下至少之一:根据提取出的所述关键词为所述目标文本匹配文本标签,其中,所述文本标签用于标识所述目标文本的分类信息;根据所述文本标签将所述目标文本推送给相匹配的用户账号;根据提取出的所述关键词为获取到所述目标文本的目标账号匹配账号标签,其中,所述账号标签用于标识所述目标账号的分类信息;根据所述账号标签为所述目标账号推送相匹配的文本...
【专利技术属性】
技术研发人员:杨正伟,汤煌,张小鹏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。