当前位置: 首页 > 专利查询>清华大学专利>正文

关键词抽取方法及装置制造方法及图纸

技术编号:37361907 阅读:8 留言:0更新日期:2023-04-27 07:10
本发明专利技术提供一种关键词抽取方法及装置,其中方法包括:获取待抽取文本;对所述待抽取文本进行文本分割,获得字词序列;将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。本发明专利技术实施例提供的关键词抽取方法及装置,通过有监督训练提高了关键词抽取的准确性。有监督训练提高了关键词抽取的准确性。有监督训练提高了关键词抽取的准确性。

【技术实现步骤摘要】
关键词抽取方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种关键词抽取方法及装置。

技术介绍

[0002]关键词(也可以称为主题词,Keywords or Keyphrases)在很多自然语言处理任务例如文本总结、问题生成、文本分类和文本检索中也起到了重要作用。以文献检索为例,随着科学技术的不断发展,科技文献的数量不断增长,在海量文献中快速精准地找到相关文献愈发困难,关键词作为概括,总结一篇文章中心内容的短语可以帮助科研人员更方便快捷地了解文章的内容,从而提高了文献调研的效率。
[0003]目前相关技术中通常采用基于无监督的关键词抽取方法,存在关键词抽取准确率低的问题。

技术实现思路

[0004]本专利技术提供一种关键词抽取方法及装置,用以解决现有技术中关键词抽取准确率低的缺陷,提高关键词抽取质量。
[0005]第一方面,本专利技术提供一种关键词抽取方法,包括:
[0006]获取待抽取文本;
[0007]对所述待抽取文本进行文本分割,获得字词序列;
[0008]将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;
[0009]其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。
[0010]可选地,所述将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词包括:
[0011]对所述字词序列进行特征提取,获得文本特征向量;
[0012]对所述文本特征向量进行预测,获得每个字词对应的标签分数分布;
[0013]基于所述标签分数分布确定标签序列;
[0014]基于所述标签序列和所述字词序列,输出所述关键词。
[0015]可选地,所述基于所述标签分数分布确定标签序列包括:
[0016]将所述标签分数分布输入至随机场模型,获得所述随机场模型输出的标签序列。
[0017]可选地,所述基于所述标签序列和所述字词序列,输出所述关键词,包括:
[0018]通过起始字符、结束字符以及所述起始字符和结束字符之间的字符组合为关键词;和
[0019]将单一标签对应的字词作为关键词;
[0020]输出关键词;
[0021]其中,所述起始字符是起始标签对应的字词,所述结束字符是结束标签对应的字
词。
[0022]可选地,所述抽取模型是经过如下步骤训练获得的:
[0023]基于训练集对初始模型进行多轮训练,每轮训练获得一个候选模型;
[0024]基于验证集和预设的损失函数获得每个候选模型对应的损失值;
[0025]将最小损失值对应的候选模型作为所述抽取模型;
[0026]其中,所述训练集和所述验证集是基于所述文本序列样本以及所述文本序列样本对应的标签序列样本获得的。
[0027]可选地,所述损失函数为:
[0028][0029]其中S
real
表示正确的标签序列对应的分数,其中S
j
表示第j种标签序列对应的分数,N表示可能的标签序列的总数,是归一化因子。
[0030]第二方面,本专利技术还提供一种关键词抽取装置,包括:
[0031]获取单元,用于获取待抽取文本;
[0032]分割单元,用于对所述待抽取文本进行文本分割,获得字词序列;
[0033]抽取单元,用于将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;
[0034]其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。
[0035]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述关键词抽取方法。
[0036]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述关键词抽取方法。
[0037]第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述关键词抽取方法。
[0038]本专利技术实施例提供的关键词抽取方法及装置,通过抽取模型对待抽取文本进行抽取,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,即抽取模型是基于已标注的监督信号得到的,在有监督训练过程中抽取模型能够将抽取的关键词结果与“训练数据”的实际结果进行比较,不断的调整抽取模型,直到模型的抽取的关键词达到一个预期的准确率,因此本专利技术实施例提供的关键词抽取方法及装置能够提高关键词抽取的准确性。
附图说明
[0039]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些
附图获得其他的附图。
[0040]图1是本专利技术实施例提供的关键词抽取方法的流程示意图;
[0041]图2是本专利技术实施例提供的抽取结果示意图;
[0042]图3是本专利技术实施例提供的标注示意图;
[0043]图4是本专利技术实施例提供的抽取模型的结构示意图;
[0044]图5是本专利技术实施例提供的关键词抽取装置的结构示意图;
[0045]图6是本专利技术实施例提供的电子设备的结构示意图。
具体实施方式
[0046]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0047]下面结合图1

图4描述本专利技术实施例提供的关键词抽取方法。
[0048]图1是本专利技术实施例提供的关键词抽取方法的流程示意图,如图1所示,本专利技术实施例提供的关键词抽取方法,包括:
[0049]步骤110,获取待抽取文本;
[0050]具体地,待抽取文本是指需要抽取出关键词的文本。示例性地,以文献领域为例,可以将标题和摘要拼接成待抽取文本。
[0051]步骤120,对所述待抽取文本进行文本分割,获得字词序列;
[0052]具体地,文本分割是指将待抽取文本s分割为一个包含多个字词的序列S={x1,x2,

,x
n
}。可选地,对于待抽取文本为中文文本的情况下,可以以字为粒度进行文本分割,即本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词抽取方法,其特征在于,包括:获取待抽取文本;对所述待抽取文本进行文本分割,获得字词序列;将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。2.根据权利要求1所述的关键词抽取方法,其特征在于,所述将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词包括:对所述字词序列进行特征提取,获得文本特征向量;对所述文本特征向量进行预测,获得每个字词对应的标签分数分布;基于所述标签分数分布确定标签序列;基于所述标签序列和所述字词序列,输出所述关键词。3.根据权利要求2所述的关键词抽取方法,其特征在于,所述基于所述标签分数分布确定标签序列包括:将所述标签分数分布输入至条件随机场模型,获得所述条件随机场模型输出的标签序列。4.根据权利要求3所述的关键词抽取方法,其特征在于,所述基于所述标签序列和所述字词序列,输出所述关键词,包括:通过起始字符、结束字符以及所述起始字符和结束字符之间的字符组合为关键词;和将单一标签对应的字词作为关键词;输出关键词;其中,所述起始字符是起始标签对应的字词,所述结束字符是结束标签对应的字词。5.根据权利要求1

4任一项所述的关键词抽取方法,其特征在于,所述抽取模型是经过如下步骤训练获得的:基于训练集对初始模型进行多轮训练,每轮训练获得一个候选...

【专利技术属性】
技术研发人员:周强解小锐蔡懿慈
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1