关键词抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:33067380 阅读:10 留言:0更新日期:2022-04-15 09:58
本发明专利技术公开了一种关键词抽取方法、装置、设备及存储介质。该方法包括:对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;求取所述词语集合中各词语的第一因子;基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。由于综合考虑了第一因子和第二因子,可以更准确地获取代表目标文档的关键词集合,利于快速地理解目标文档的内容及后续基于目标文档内容的应用。续基于目标文档内容的应用。续基于目标文档内容的应用。

【技术实现步骤摘要】
关键词抽取方法、装置、设备及存储介质


[0001]本专利技术涉及文本处理领域,尤其涉及一种关键词抽取方法、装置、设备及存储介质。

技术介绍

[0002]随着大数据的时代的到来,电子文档的数量越来越多,亟需机器能够自动识别出最能代表文档的关键词。文档的关键词抽取(Keyword Extraction)是对文档信息进行高度凝练的一种有效手段,通过选取文档中的多个词语准确概括文档的主题,帮助用户快速理解文档信息。文档的关键词已广泛应用文本搜索、网页推荐以及数据挖掘领域。
[0003]现有的关键词抽取方法往往基于TFIDF(Term Frequency Inverse Document Frequency,词频逆文档频率)进行关键词抽取,仅考虑了词的统计信息,对文档的语义信息利用程度低,难以得到有效代表文档的关键词集合。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种关键词抽取方法、装置、设备及存储介质,旨在得到有效代表文档的关键词集合。
[0005]本专利技术实施例的技术方案是这样实现的:
[0006]本专利技术实施例提供了一种关键词抽取方法,包括:
[0007]对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;
[0008]求取所述词语集合中各词语的第一因子;
[0009]基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;
[0010]其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。
[0011]本专利技术实施例还提供了一种关键词抽取装置,包括:
[0012]预处理模块,用于对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;
[0013]第一运算模块,用于求取所述词语集合中各词语的第一因子;
[0014]第二运算模块,用于基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;
[0015]其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。
[0016]本专利技术实施例又提供了一种关键词抽取设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发
明实施例所述方法的步骤。
[0017]本专利技术实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本专利技术实施例所述方法的步骤。
[0018]本专利技术实施例提供的技术方案,求取待抽取关键词的目标文档的词语集合中各词语的第一因子;基于各词语的第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度,由于综合考虑了第一因子和第二因子,可以更准确地获取代表目标文档的关键词集合,利于快速地理解目标文档的内容及后续基于目标文档内容的应用。
附图说明
[0019]图1为本专利技术实施例关键词提取方法的流程示意图;
[0020]图2为本专利技术一应用示例基于doc2vec的文本关键词抽取方法的流程示意图;
[0021]图3为本专利技术一应用示例选取全局关键因子最大的集合的原理示意图;
[0022]图4为本专利技术实施例关键词提取装置的结构示意图;
[0023]图5为本专利技术实施例关键词抽取设备的结构示意图。
具体实施方式
[0024]下面结合附图及实施例对本专利技术再作进一步详细的描述。
[0025]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。
[0026]相关技术中,文档的关键词提取主要包括以下方式:
[0027]1)、基于TFIDF的关键词抽取
[0028]TFIDF方法是统计文档中每个词的词频(Term Frequency,TF)和逆文档频率(Inverse Document Frequency,IDF),根据这两项统计信息计算文档中每个词的权重,然后选取权重最大的多个词语作为文档的关键词。TFIDF方法仅考虑了词的统计信息,对文档的语义信息利用程度较低。
[0029]2)、基于主题模型的关键词抽取
[0030]基于主题模型提取关键词的思想是认为一个文档是由多个主题组成的,而文档中的词是以一定概率从主题中选取的,即文档与词之间存在一个主题集合。不同的主题下,词出现的概率分布是不同的。每个词和每个文档都可以表示为多个主题分布构成的空间中的一个点。通过计算每个词和文档的相似度,可以得到每个文档与文档中每个词的相似度结果,取相似度最高的多个词作为文档的关键词。相关的主题模型方法有LSA(Latent Semantic Analysis,潜在语义分析模型)和LDA(Latent Dirichlet Allocation,文本主题生成模型)。
[0031]基于主题模型提取的关键词比较宽泛,不能很好的反应文档主题。此外,主题模型的时间复杂度较高,需要大量的时间进行训练,影响关键词抽取效率。
[0032]3)、基于词向量聚类的关键词抽取
[0033]基于词向量聚类的文档关键词抽取方法的主要思路是:首先将文档中的每个词通过词向量来表示,其中,词向量模型的训练方法可以采用word2vec(词向量化)、GloVe等算法;然后通过K-Means(K均值)聚类算法对文档中的词进行聚类,选择多个距离聚类中心最近的词作为文档关键词。
[0034]基于词向量聚类的方法虽然考虑了文档中词语的分布信息,却忽视了关键词与文档语义之间的关系。比如,很有可能几个距离聚类中心最近的关键词与文档语义并不相关,造成关键信息提取的错误。
[0035]基于此,在本专利技术的各种实施例中,求取待抽取关键词的目标文档的词语集合中各词语的第一因子;基于各词语的第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度,由于综合考虑了第一因子和第二因子,可以更准确地获取代表目标文档的关键词集合,利于快速地理解目标文档的内容及后续基于目标文档内容的应用。
[0036]如图1所示,本专利技术实施例提供了一种关键词抽取方法,应用于关键词抽取设备,该关键词抽取设备可以为具有信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词抽取方法,其特征在于,包括:对待抽取关键词的目标文档进行预处理,得到所述目标文档的词语集合;求取所述词语集合中各词语的第一因子;基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合;其中,所述第一因子表征相应的词语基于词频和所述词语与所述目标文档的语义相似度确定的重要性程度,所述第二因子表征相应的所述设定数量的词语构成的集合的重要性程度。2.根据权利要求1所述的方法,其特征在于,所述求取所述词语集合中各词语的第一因子,包括:确定所述词语集合中各词语的词频逆文档频率TFIDF权重值;求取所述目标文档的文本向量和所述词语集合中各词语的词向量;基于所述目标文档的文本向量和所述词语集合中各词语的词向量,求取所述词语集合中各词语的距离值,所述距离值为所述词向量与所述文本向量之间的余弦距离;基于各词语的所述TFIDF权重值和所述距离值,确定各词语的第一因子。3.根据权利要求2所述的方法,其特征在于,所述求取所述目标文档的文本向量和所述词语集合中各词语的词向量,包括:基于语料库和文本向量化算法训练向量模型;基于所述向量模型求取所述目标文档的文本向量和所述词语集合中各词语的词向量。4.根据权利要求1所述的方法,其特征在于,所述基于各词语的所述第一因子,选取所述目标文档中第二因子最大的设定数量个词语,构成所述目标文档的关键词集合,包括:对所述词语集合中各词语基于所述第一因子进行排序;基于所述第一因子从大到小的顺序选取设定数量个词语,构成初始的关键词集合;对所述词语集合中除所述关键词集合之外的其他词语进行遍历;求取当前遍历的词语替换所述关键词集合中各词语前、后的第二因子的比较结果,若替换后的所述第二因子大于替换前的所述第二因子,则更新所述关键词集合;直至遍历结束,得到...

【专利技术属性】
技术研发人员:李小涛游树娟
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1