一种关键短语的获取方法以及相关设备技术

技术编号:38942525 阅读:33 留言:0更新日期:2023-09-25 09:40
本申请实施例公开一种关键短语的获取方法以及相关设备,该方法可用于人工智能领域的文本处理领域中,方法包括:从待处理文档中获取多个候选短语;获取与待处理文档对应的第一指示信息,第一指示信息包括待处理文档与L个主题之间的匹配度;获取与每个候选短语对应的第二指示信息,第二指示信息包括每个候选短语与L个主题之间的匹配度;根据第一指示信息和第二指示信息,从多个候选短语中获取待处理文档所对应的关键短语。在获取待处理文档的关键短语的过程中,考虑了待处理文档和每个候选短语的语义信息,有利于提高获取到的候选短语的准确率。准确率。准确率。

【技术实现步骤摘要】
一种关键短语的获取方法以及相关设备


[0001]本申请涉及人工智能领域,尤其涉及一种关键短语的获取方法以及相关设备。

技术介绍

[0002]人工智能(Artificial Intelligence,AI)是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。随着人工智能技术的发展,利用人工智能技术对文档中执行关键短语(keyphrase extraction,KE)的抽取操作是常见的一个应用方式。
[0003]目前采用的方式中,可以获取与某个领域的文档语料集对应的多个关键短语,并计算每个关键短语在整个文档语料库中的稀有度。当需要对新的文档中的关键短语进行抽取时,可以从该新的文档中获取多个候选短语,计算每个候选短语在该新的文档的出现频率,根据每个候选短语在该新的文档的出现频率和每个候选短语在整个文档语料库中的稀有度,从多个候选短语中确定该新的文档所对应的关键短语。其中,一个候选短语在该新的文档的出现频率越高,且在整个文档语料库中的稀有度越高,则该候选短语被确定为关键短语
[000本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键短语的获取方法,其特征在于,所述方法包括:从待处理文档中获取多个候选短语;获取与所述待处理文档对应的第一指示信息,所述第一指示信息包括所述待处理文档与L个主题之间的匹配度;获取与每个所述候选短语对应的第二指示信息,所述第二指示信息包括所述每个所述候选短语与L个主题之间的匹配度;根据所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述多个候选短语执行聚类操作,得到与所述多个候选短语对应的至少两个短语集合,每个短语集合包括至少一个候选短语;在目标短语集合包括的至少一个候选短语中存在第一候选短语和第二候选短语的情况下,获取所述第一候选短语和所述第二候选短语之间的目标相似度,其中,所述目标短语集合为所述至少两个短语集合中的任意一个,所述第一候选短语为所述目标短语集合中任意一个候选短语,所述第二候选短语在所述待处理文档中出现的位置早于所述第一候选短语在所述待处理文档中出现的位置;所述根据所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语,包括:根据所述目标短语集合所对应的所述目标相似度、所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语。3.根据权利要求2所述的方法,其特征在于,所述根据所述短语集合所对应的所述目标相似度、所述第一指示信息和所述第二指示信息,从所述多个候选短语中获取所述待处理文档所对应的关键短语,包括:根据每个所述目标短语集合所对应的所述目标相似度,对所述目标短语集合中的所述第一候选短语的目标评分值进行更新,并根据所述第一指示信息和所述第二指示信息,对每个所述候选短语的所述目标评分值进行更新;根据所述候选短语的所述目标评分值,从所述多个候选短语中获取所述待处理文档所对应的关键短语,其中,所述候选短语的所述目标评分值越高,所述候选短语被确定为关键短语的概率越高。4.根据权利要求1至3任一项所述的方法,其特征在于,与所述待处理文档对应的关键短语用于确定所述待处理文档在与所述待处理文档对应的知识组织系统KOS中的位置。5.一种关键短语的获取装置,其特征在于,所述装置包括:获取模块,用于从待处理文档中获取多个候选短语;所述获取模块,还用于获取与所述待处理文档对应的第一指示信息,所述第一指示信息包括所述待处理文档与L个主题之间的匹配...

【专利技术属性】
技术研发人员:周大军
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1