一种关键词提取方法、装置及介质制造方法及图纸

技术编号:23983733 阅读:45 留言:0更新日期:2020-04-29 12:32
本文公开了一种关键词提取方法、装置及介质,属于数据处理领域。此方法包括:接收原始文档,从原始文档提取候选词,将提取出的候选词构成第一词语集合;获取第一词语集合中每个第一词语与原始文档的第一关联度,根据第一关联度确定第二词语集合;针对第二词语集合中的每个第二词语,在词语关联拓扑中查询与第二词语符合关联条件的至少一个节点词构成第三词语集合;确定第二词语集合和第三词语集合的并集,获取并集中每个候选关键词与原始文档的第二关联度,根据第二关联度从并集中选择至少一个候选关键词构成原始文档的关键词集合。本文可减少计算复杂度,提升计算速度;解决现有方法中优先选择高频词的问题;有效丰富关键词的表达方式。

A keyword extraction method, device and medium

【技术实现步骤摘要】
一种关键词提取方法、装置及介质
本文涉及数据处理
,尤其涉及一种关键词提取方法、装置及介质。
技术介绍
随着互联网文本数据的爆炸式增长,相关业务中经常需要提取能概括文章核心观点的关键词,以实现精准推荐、重点标注等功能。此类业务在执行时具有标准主观性强,而且难以获取可用标注语料,从而导致传统方法的准确度不高,并且十分耗费计算时间。相关技术中,关键词提取包括两种方法,方法一为关键词抽取(针对文内已出现的词),方法二为关键词生成(针对文内未出现的词)。方法一中的关键词抽取有多种实现方式,具体包括:基于统计的方式,基于图的方式,和基于序列标注的方式。其中,基于统计的方式高度依赖于专家对统计特征的设计,而基于图的方式中时间复杂度一般较高(一般在O(n2)以上),此两种方式有一个共同的缺陷即:不能保证筛选出来的关键词与文本存在语义的关联关系,并且倾向于将频繁词作为关键词。基于序列标注的方式是有监督的方法,依赖于标注语料并且只适用于训练语料领域的任务。方式法二中的关键词也包括多种实现方式,具体包括:基于翻译对齐的方式,和基于序列到序列(即seq2seq)的方式。此两种方式均依赖于大量标注语料,计算复杂度高,并且只适用于训练语料的领域。目前,关键词提取的方式具有以下缺点:1、准确率和覆盖率低,基于统计特征和图随机游走的方法不能保证提取的关键词与文章存在语义关联关系,特别是在文章存在多个话题的情况下;2、基于图或有监督的方法计算复杂度高,在长文章上尤为明显;3、提取关键词时更倾向于提取高频常见词汇,而高频词汇不一定适合概括文章语义;4、不能与知识/标签图谱等外部领域知识体系相结合,以产生文本之外的关键词,从而限制了语义概括能力。
技术实现思路
为克服相关技术中存在的问题,本文提供一种关键词提取方法、装置及介质。根据本文实施例的第一方面,提供了一种关键词提取方法,包括:接收原始文档;从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。在另一实施方式中,所述从原始文档中提取候选词,包括:根据候选词提取规则从所述原始文档中提取出名词性词语、或者修饰性词语与名词性词语组合的名词性词组作为候选词;其中,所述候选词提取规则是根据以下至少一者确定出的规则:包含字的个数、出现频率、同义词出现频率。在另一实施方式中,所述方法还包括:从所述原始文档中提取出动词性、名词性或形容词性的词语,构成降噪文档;使用向量生成模型计算所述降噪文档的文档特征向量;从所述降噪文档中选择出名词性词语、或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合,获取所述待聚类词语集合中每个待聚类词语的词语特征向量,根据所述词语特征向量对所述待聚类词语集合进行聚类,确定所述原始文档的多个聚类集合。在另一实施方式中,所述获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,包括:根据所述文档特征向量和所述多个聚类集合以及所述第一词语集合中每个第一词语的词语特征向量,计算每个第一词语与所述原始文档的第一关联度;并且所述获取所述并集中每个候选关键词与所述原始文档的第二关联度,包括:根据所述文档特征向量和所述多个聚类集合以及所述并集中每个候选关键词的词语特征向量,计算每个候选关键词与所述原始文档的第二关联度。在另一实施方式中,根据以下公式计算每个第一词语与所述原始文档的第一关联度或每个候选关键词与所述原始文档的第二关联度:其中,x表示所述第一词语集合中的任一第一词语的词语特征向量或所述并集中的任一候选关键词的词语特征向量,S(x,D)表示所述第一词语集合中的任一第一词语与所述原始文档的第一关联度或所述并集中的任一候选关键词与所述原始文档的第二关联度,α和β是权重系数,Ysim()是相似度函数,V0是所述文档特征向量,Ci是第i个聚类集合的聚类特征向量,M是聚类集合的个数。在另一实施方式中,所述根据所述第一关联度确定第二词语集合,包括:选择与所述原始文档的第一关联度大于第一预设关联值的第一词语构成所述第二词语集合;或者,选择在与所述原始文档的第一关联度从大到小的排序中位于第一预设位置之前的第一词语构成所述第二词语集合;或者,选择在与所述原始文档的第一关联度从大到小的排序中位于所述排序的前第一预设比例部分的第一词语构成所述第二词语集合。在另一实施方式中,所述针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,包括:所述词语关联拓扑是无向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离小于预设距离的节点词;所述词语关联拓扑是有向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离位于预设范围的节点词;所述预设范围包括正值区间和负值区间。在另一实施方式中,所述根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合,包括:将所述并集中来自所述第三词语集合的部分候选关键词的与所述原始文档的关联度乘以一预设系数,所述预设系数大于0.7小于1;通过以下至少一种方式从所述并集中选择所述至少一个候选关键词:选择所述第二关联度大于第二预设关联值的候选关键词;或者,选择所述第二关联度从大到小的排序中位于第二预设位置之前的候选关键词;或者,选择所述第二关联度从大到小的排序中位于所述排序的前第二预设比例部分的候选关键词。根据本文实施例的第二方面,提供了一种关键词提取装置,包括:接收模块,用于接收原始文档;第一提取模块,用于从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;第一获取模块,用于获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度;第一确定模块,用于根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;第一查询模块,用于针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;第二确定本文档来自技高网
...

【技术保护点】
1.一种关键词提取方法,其特征在于,包括:/n接收原始文档;/n从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;/n获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;/n针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;/n确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。/n

【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:
接收原始文档;
从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词构成第三词语集合,其中,所述词语关联拓扑表示预定领域内的多个节点词之间的关联关系;
确定所述第二词语集合和所述第三词语集合的并集,获取所述并集中每个候选关键词与所述原始文档的第二关联度,并根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合。


2.如权利要求1所述的方法,其特征在于,
所述从原始文档中提取候选词,包括:
根据候选词提取规则从所述原始文档中提取出名词性词语、或者修饰性词语与名词性词语组合的名词性词组作为候选词;
其中,所述候选词提取规则是根据以下至少一者确定出的规则:包含字的个数、出现频率、同义词出现频率。


3.如权利要求1所述的方法,其特征在于,
所述方法还包括:
从所述原始文档中提取出动词性、名词性或形容词性的词语,构成降噪文档;
使用向量生成模型计算所述降噪文档的文档特征向量;
从所述降噪文档中选择出名词性词语、或者修饰性词语与名词性词语组合的名词性词组构成待聚类词语集合,获取所述待聚类词语集合中每个待聚类词语的词语特征向量,根据所述词语特征向量对所述待聚类词语集合进行聚类,确定所述原始文档的多个聚类集合。


4.如权利要求3所述的方法,其特征在于,
所述获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度,包括:
根据所述文档特征向量和所述多个聚类集合以及所述第一词语集合中每个第一词语的词语特征向量,计算每个第一词语与所述原始文档的第一关联度;并且
所述获取所述并集中每个候选关键词与所述原始文档的第二关联度,包括:
根据所述文档特征向量和所述多个聚类集合以及所述并集中每个候选关键词的词语特征向量,计算每个候选关键词与所述原始文档的第二关联度。


5.如权利要求4所述的方法,其特征在于,
根据以下公式计算每个第一词语与所述原始文档的第一关联度或每个候选关键词与所述原始文档的第二关联度:



其中,x表示所述第一词语集合中的任一第一词语的词语特征向量或所述并集中的任一候选关键词的词语特征向量,S(x,D)表示所述第一词语集合中的任一第一词语与所述原始文档的第一关联度或所述并集中的任一候选关键词与所述原始文档的第二关联度,α和β是权重系数,Ysim()是相似度函数,V0是所述文档特征向量,Ci是第i个聚类集合的聚类特征向量,M是聚类集合的个数。


6.如权利要求1所述的方法,其特征在于,
所述根据所述第一关联度确定第二词语集合,包括:
选择与所述原始文档的第一关联度大于第一预设关联值的第一词语构成所述第二词语集合;
或者,选择在与所述原始文档的第一关联度从大到小的排序中位于第一预设位置之前的第一词语构成所述第二词语集合;
或者,选择在与所述原始文档的第一关联度从大到小的排序中位于所述排序的前第一预设比例部分的第一词语构成所述第二词语集合。


7.如权利要求1所述的方法,其特征在于,
所述针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,包括:
所述词语关联拓扑是无向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离小于预设距离的节点词;
所述词语关联拓扑是有向拓扑时,在所述词语关联拓扑中查询与所述第二词语集合中第二词语的关联距离位于预设范围的节点词;所述预设范围包括正值区间和负值区间。


8.如权利要求1所述的方法,其特征在于,
所述根据所述第二关联度,从所述并集中选择至少一个候选关键词构成所述原始文档的关键词集合,包括:
将所述并集中来自所述第三词语集合的部分候选关键词的与所述原始文档的关联度乘以一预设系数,所述预设系数大于0.7小于1;
通过以下至少一种方式从所述并集中选择所述至少一个候选关键词:
选择所述第二关联度大于第二预设关联值的候选关键词;
或者,选择所述第二关联度从大到小的排序中位于第二预设位置之前的候选关键词;
或者,选择所述第二关联度从大到小的排序中位于所述排序的前第二预设比例部分的候选关键词。


9.一种关键词提取装置,其特征在于,包括:
接收模块,用于接收原始文档;
第一提取模块,用于从所述原始文档中提取候选词,将提取出的候选词构成第一词语集合;
第一获取模块,用于获取所述第一词语集合中每个第一词语与所述原始文档的第一关联度;
第一确定模块,用于根据所述第一关联度确定第二词语集合,所述第二词语集合为所述第一词语集合的子集;
第一查询模块,用于针对所述第二词语集合中的每个第二词语,在词语关联拓扑中查询与所述第二词语符合关联条件的至少一个节点词,所述至少一个节点词...

【专利技术属性】
技术研发人员:过群鲁骁孟二利王斌史亮纪鸿旭齐保元
申请(专利权)人:北京小米智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1