当前位置: 首页 > 专利查询>吉林大学专利>正文

一种关键词提取方法及计算设备技术

技术编号:26479166 阅读:36 留言:0更新日期:2020-11-25 19:23
本发明专利技术公开了一种关键词提取方法,在计算设备中执行,包括以下步骤:获取待提取关键词的文本,该文本中包括多个候选词;对于每一个候选词:分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;根据该候选词在文本中的位置来确定该候选词的位置特征值:确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;根据覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;将综合特征值最大的预设数量个候选词作为文本的关键词。本发明专利技术一并公开了相应的计算设备。

【技术实现步骤摘要】
一种关键词提取方法及计算设备
本专利技术涉及自然语言处理
,尤其涉及一种基于三种特征的英文关键词智能提取方法及计算设备。
技术介绍
近十年来,在线学术资源的数量迅速增长,例如,顶级数据提供商谷歌学术(GoogleScholar)在2019年收录了数千万篇论文。云数据的广泛应用和在线学术信息的激增提升了个人对学术资料的访问便捷性,同时也为学术工作者带来了从海量信息中正确选择出所需要的信息的挑战。为了便于进行信息检索,数据提供者试图在文档搜索上应用智能处理方法。关键词是文档的概括性描述,被认为是高效的搜索标签。准确的关键词能够提高文档搜索任务的效率,大大减少用户搜索所需文档以及阅读文档内容的时间。但是,并非所有文档都带有准确的关键词,关键词的缺失和错误容易造成文档的漏检和错检,使得文档搜索的效率和准确性大打折扣。因此,需要一种文档关键词的智能提取方法。
技术实现思路
为此,本专利技术提供一种关键词提取方法及计算设备,以力图解决或至少缓解上面存在的问题。根据本专利技术的第一个方面,提供一种关键词提取方法,在计算设备中执行,包括:获取待提取关键词的文本,该文本包括多个候选词;对于每一个候选词:分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;根据该候选词在文本中的位置来确定该候选词的位置特征值:确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;根据覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;将综合特征值最大的预设数量个候选词作为上述文本的关键词。可选地,在根据本专利技术的关键词提取方法中,文本为英文文本,该方法还包括:删除文本中的停用词,将文本中剩余的词作为候选词。可选地,在根据本专利技术的关键词提取方法中,候选词之间的相似度按照以下步骤确定:采用词向量模型来确定候选词的词向量;将两个候选词的词向量的余弦相似度作为这两个候选词的相似度。可选地,在根据本专利技术的关键词提取方法中,词向量模型包括依次相连的输入层、隐藏层和输出层,上述采用词向量模型来确定候选词的词向量的步骤包括:将文本中的候选词与其上下文词所组成的词对作为训练样本,训练词向量模型,以得到隐藏层的权重矩阵,权重矩阵的行的数量为文本包括的候选词的数量,列的数量为预设的词向量维数;将权重矩阵中的每一个行向量作为相应候选词的词向量。可选地,在根据本专利技术的关键词提取方法中,候选词的位置特征值为候选词在文本中出现的各个位置顺序的倒数之和。可选地,在根据本专利技术的关键词提取方法中,候选词的主题概率分布按照以下步骤确定:将文本输入预设的主题分类模型,以便主题分类模型输出该文本所属的主题集合,以及各候选词属于主题集合中的每个主题的概率;候选词属于主题集合中的每个主题的概率组成该候选词的主题概率分布。可选地,在根据本专利技术的关键词提取方法中,候选词的综合特征值按照以下步骤确定:分别将候选词的覆盖率、位置特征值、语义多样性进行归一化;根据归一化后的覆盖率和语义多样性来确定候选词的语义特征值;根据语义特征值和归一化后的位置特征值来确定候选词的综合特征值。可选地,在根据本专利技术的关键词提取方法中,候选词的语义特征值按照以下公式计算:其中,Ei、Ci、Di分别为第i个候选词的语义特征值、归一化后的覆盖率、归一化后的语义多样性,λ1、λ2分别为覆盖率、语义多样性的权重,V为候选词的数量,为第i个候选词所属的主题zi所包括候选词的数量,候选词所属的主题为其主题概率分布中概率最大的主题。可选地,在根据本专利技术的关键词提取方法中,候选词的综合特征值按照以下公式计算:其中,Si、Ei、Pi分别为第i个候选词的综合特征值、语义特征值、归一化后的位置特征值,λ3、λ4分别为语义特征值、位置特征值的权重。根据本专利技术的第二个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,当程序指令被处理器读取并执行时,使得计算设备执行上述关键词提取方法。根据本专利技术的第三个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行上述关键词提取方法。根据本专利技术的技术方案,分别计算每个候选词的覆盖率、位置特征值和语义多样性,其中,覆盖率用于表示候选词对文本中其他词的概括能力,位置特征值用于表示候选词在文本中的出现顺序和出现频次,语义多样性用于表示候选词从语义上代表文本主题的准确性。随后,根据覆盖率、位置特征值和语义多样性计算得出每个候选词的综合特征值,将综合特征值最大的几个候选词作为关键词。这样,根据本专利技术的技术方案所提取出的关键词对文本中的其他词具有良好的概括能力、在文本中出现的位置较早和/或频次较高且能够从语义上准确代表文本主题,使得本专利技术提取出的关键词具有更高的准确性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本专利技术一个实施例的关键词提取系统100的示意图;图2示出了根据本专利技术一个实施例的计算设备200的示意图;图3示出了根据本专利技术一个实施例的关键词提取方法300的流程图;图4示出了根据本专利技术一个实施例的词向量模型的结构示意图;以及图5示出了根据本专利技术一个实施例的综合特征值的计算过程的示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。针对现有技术中存在的问题,本专利技术提供一种基于三种特征的关键词智能提取方法,以准确提取出文本中的关键词。图1示出了根据本专利技术一个实施例的关键词提取系统100的示意图。本专利技术的关键词提取方法可以应用于图1所示的场景中。如图1所示,关键词提取系统100包括终端设备110、服务器120和数据存储装置130。应当指出,图1所示的关键词提取系统100仅是示例性的,虽然其中仅示出了一个终端设备、一个服务器和一个数据存储装置,但是,在具体实践情况中,关键词提取系统中可以包括不同数量的终端设备、服务器和数据存储装置,本专利技术对关键词提取系统中所包括的终端设备、服务器以及数据存储装置的数量均不作限制。终端设备110为位于用户侧的、能够与用户进行交互的本文档来自技高网...

【技术保护点】
1.一种关键词提取方法,在计算设备中执行,包括:/n获取待提取关键词的文本,所述文本包括多个候选词;/n对于每一个候选词:/n分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;/n根据该候选词在所述文本中的位置来确定该候选词的位置特征值:确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;/n根据所述覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;/n将综合特征值最大的预设数量个候选词作为所述文本的关键词。/n

【技术特征摘要】
1.一种关键词提取方法,在计算设备中执行,包括:
获取待提取关键词的文本,所述文本包括多个候选词;
对于每一个候选词:
分别确定该候选词与其他候选词的相似度,将该候选词与其他候选词的相似度的和作为该候选词的覆盖率;
根据该候选词在所述文本中的位置来确定该候选词的位置特征值:确定该候选词的主题概率分布,将概率的最大值作为该候选词的语义多样性;
根据所述覆盖率、位置特征值、语义多样性来确定该候选词的综合特征值;
将综合特征值最大的预设数量个候选词作为所述文本的关键词。


2.如权利要求1所述的方法,其中,所述文本为英文文本,所述方法还包括:
删除所述文本中的停用词,将所述文本中剩余的词作为候选词。


3.如权利要求1或2所述的方法,其中,候选词之间的相似度按照以下步骤确定:
采用词向量模型来确定候选词的词向量;
将两个候选词的词向量的余弦相似度作为这两个候选词的相似度。


4.如权利要求3所述的方法,其中,所述词向量模型包括依次相连的输入层、隐藏层和输出层,
所述采用词向量模型来确定候选词的词向量的步骤包括:
将所述文本中的候选词与其上下文词所组成的词对作为训练样本,训练所述词向量模型,以得到所述隐藏层的权重矩阵,所述权重矩阵的行的数量为所述文本包括的候选词的数量,列的数量为预设的词向量维数;
将所述权重矩阵中的每一个行向量作为相应候选词的词向量。


5.如权利要求1-4中任一项所述的方法,其中,候选词的位置特征值为候选词在所述文本中出现的各个位置顺序的倒数之和。


...

【专利技术属性】
技术研发人员:李拓航迟令李宏图孙成宇李帅胡亮
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1