【技术实现步骤摘要】
关键词抽取方法及装置
[0001]本专利技术涉及计算机
,尤其涉及一种关键词抽取方法及装置。
技术介绍
[0002]关键词(也可以称为主题词,Keywords or Keyphrases)在很多自然语言处理任务例如文本总结、问题生成、文本分类和文本检索中也起到了重要作用。以文献检索为例,随着科学技术的不断发展,科技文献的数量不断增长,在海量文献中快速精准地找到相关文献愈发困难,关键词作为概括,总结一篇文章中心内容的短语可以帮助科研人员更方便快捷地了解文章的内容,从而提高了文献调研的效率。
[0003]目前相关技术中通常采用基于无监督的关键词抽取方法,存在关键词抽取准确率低的问题。
技术实现思路
[0004]本专利技术提供一种关键词抽取方法及装置,用以解决现有技术中关键词抽取准确率低的缺陷,提高关键词抽取质量。
[0005]第一方面,本专利技术提供一种关键词抽取方法,包括:
[0006]获取待抽取文本;
[0007]对所述待抽取文本进行文本分割,获得字词序列;
[0 ...
【技术保护点】
【技术特征摘要】
1.一种关键词抽取方法,其特征在于,包括:获取待抽取文本;对所述待抽取文本进行文本分割,获得字词序列;将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词;其中,所述抽取模型是基于文本序列样本以及所述文本序列样本对应的标签序列样本训练得到的,所述标签序列样本是对所对应的文本序列样本进行序列标注获得的,所述标签序列样本用于在所述文本序列样本中确定关键词。2.根据权利要求1所述的关键词抽取方法,其特征在于,所述将所述文本序列输入至抽取模型中,获取所述抽取模型输出的关键词包括:对所述字词序列进行特征提取,获得文本特征向量;对所述文本特征向量进行预测,获得每个字词对应的标签分数分布;基于所述标签分数分布确定标签序列;基于所述标签序列和所述字词序列,输出所述关键词。3.根据权利要求2所述的关键词抽取方法,其特征在于,所述基于所述标签分数分布确定标签序列包括:将所述标签分数分布输入至条件随机场模型,获得所述条件随机场模型输出的标签序列。4.根据权利要求3所述的关键词抽取方法,其特征在于,所述基于所述标签序列和所述字词序列,输出所述关键词,包括:通过起始字符、结束字符以及所述起始字符和结束字符之间的字符组合为关键词;和将单一标签对应的字词作为关键词;输出关键词;其中,所述起始字符是起始标签对应的字词,所述结束字符是结束标签对应的字词。5.根据权利要求1
‑
4任一项所述的关键词抽取方法,其特征在于,所述抽取模型是经过如下步骤训练获得的:基于训练集对初始模型进行多轮训练,每轮训练获得一个候选...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。