实体链接的构建方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:37400883 阅读:14 留言:0更新日期:2023-04-30 09:28
本发明专利技术实施例提供了一种实体链接的构建方法、装置和可读存储介质,所述方法包括:获取自然语言问题文本;对所述自然语言问题文本进行实体分析,得到所述自然语言问题文本中的实体信息;基于所述实体信息,计算所述自然语言问题文本中的实体与知识库中实体的相似度,得到所述自然语言问题的候选链接结果;基于所述实体的依存关系信息,对所述候选链接结果进行筛选,得到最终的实体链接。在实体链接过程中结合了文本中实体命名实体信息与依存关系信息,增强了文本中实体与上下文的联系,有效提高了实体链接的准确率,解决了实体链接的准确率低和误召回率高的问题,提高了知识图谱问答的准确率。的准确率。的准确率。

【技术实现步骤摘要】
实体链接的构建方法、装置、电子设备和可读存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种实体链接的构建方法、装置电子设备和可读存储介质。

技术介绍

[0002]近年来,随着知识图谱的发展,利用给定的知识图谱数据自动得出人类自然语言问题的答案成为了时下的研究热点。
[0003]在现有的知识图谱问答中,一般通过直接识别问题文本中的实体,然后与知识库中的实体进行匹配,根据相似度建立实体之间的链接。
[0004]然而上述仅通过匹配实体间的相似度建立链接的方法,经常会出现多余的答案或偏差较大的答案,实体链接的误召回率较高,导致知识图谱问答的准确率较低。

技术实现思路

[0005]本专利技术实施例提供一种实体链接的构建方法、装置、电子设备和可读存储介质,可以解决实体链接的误召回率较高的问题。
[0006]第一方面,本专利技术实施例提供了一种实体链接的构建方法,所述方法包括:
[0007]获取自然语言问题文本;
[0008]对所述自然语言问题文本进行实体分析,得到所述自然语言问题文本中的实体信息;所述实体信息包括实体的命名信息和实体的依存关系信息;
[0009]基于所述实体信息,计算所述自然语言问题文本中的实体与知识库中实体的相似度,得到所述自然语言问题的候选链接结果;
[0010]基于所述实体的依存关系信息,对所述候选链接结果进行筛选,得到最终的实体链接。
[0011]第二方面,本专利技术实施例提供了一种实体链接的构建装置,所述装置包括:
[0012]文本获取模块,用于获取自然语言问题文本;
[0013]实体分析模块,用于对所述自然语言问题文本进行实体分析,得到所述自然语言问题文本中的实体信息;所述实体信息包括实体的命名信息和实体的依存关系信息;
[0014]初步链接筛选模块,用于基于所述实体信息,计算所述自然语言问题文本中的实体与知识库中实体的相似度,得到所述自然语言问题的候选链接结果;
[0015]实体链接生成模块,用于基于所述实体的依存关系信息,对所述候选链接结果进行筛选,得到最终的实体链接。
[0016]第三方面,本专利技术实施例提供一种电子设备,包括:处理器和存储器,所述处理器执行存储在所述存储器中的计算机程序,实现如第一方面所述的实体链接的构建方法。
[0017]第四方面,本专利技术实施例提供一种可读存储介质,所述可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时实现如第一方面所述的实体链接的构建方法。
[0018]第五方面,本专利技术实施例还提供了一种计算机程序产品,包括计算机程序,其特征
在于,所述计算机程序被处理器执行时实现所述实体链接的构建方法。
[0019]本专利技术实施例包括以下优点:
[0020]本专利技术提供了一种实体链接的构建方法实施例。在本专利技术实施例中,首先获取自然语言问题文本,再对所述自然语言问题文本进行实体分析,得到所述自然语言问题文本中的实体信息,然后基于所述实体信息,计算所述自然语言问题文本中的实体与知识库中实体的相似度,得到所述自然语言问题的候选链接结果,基于所述实体的依存关系信息,对所述候选链接结果进行筛选,得到最终的实体链接。根据实体信息计算自然语言问题文本与知识库中实体的相似度,并基于计算得相似度初步筛选要链接得实体,再以实体的依存关系信息进行进一步筛选,在实体链接过程中结合了文本中实体命名实体信息与依存关系信息,增强了文本中实体与上下文的联系,有效提高了实体链接的准确率,解决了实体链接的准确率低和误召回率高的问题,提高了知识图谱问答的准确率。
附图说明
[0021]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022]图1示出了本专利技术的一种实体链接的构建方法实施例的流程图;
[0023]图2示出了一种文本的依存关系信息的实施例;
[0024]图3示出了一种BERT模型的架构图;
[0025]图4示出了一种Transformer模型的编码器的架构图;
[0026]图5示出了基于BERT

CRF的命名实体模型的架构图;
[0027]图6示出了本专利技术的一种实体链接的构建装置实施例的结构框图;
[0028]图7示出了本专利技术实施例提供的电子设备的结构示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。并且,需要说明的是,本申请实施例中获取各种数据相关过程,都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
[0030]近年来,随着知识图谱的发展,利用给定的知识图谱数据自动得出人类自然语言问题的答案成为了时下的研究热点。
[0031]在现有的知识图谱问答中,一般通过直接识别问题文本中的实体,然后与知识库中的实体进行匹配,根据相似度建立实体之间的链接。
[0032]然而上述仅通过匹配实体间的相似度建立链接的方法,经常会出现多余的答案或偏差较大的答案,实体链接的误召回率较高,导致知识图谱问答的准确率较低。
[0033]为了解决上述实体链接导致的知识图谱问答准确率较低的问题,申请人专利技术了一
种实体链接的构建方法。
[0034]参照图1,示出了本专利技术的一种实体链接的构建方法实施例的流程图,所述方法可以包括:
[0035]步骤101、获取自然语言问题文本。
[0036]自然语言通常是指一种自然地随文化演化的语言。在本专利技术实施例中,自然语言问题文本是指在知识图谱问答中,利用自然语言所提出的问题,并以文本的形式呈现,如当提问“苹果的营养物质是什么”时,则“苹果的营养物质是什么”就属于自然语言问题文本。
[0037]所述获取自然语言问题文本就是指获取到用户提出的问题的文本形式。
[0038]步骤102、对所述自然语言问题文本进行实体分析,得到所述自然语言问题文本中的实体信息;所述实体信息包括实体的命名信息和实体的依存关系信息。
[0039]所述实体是指客观存在并可相互区别的事物,广义的实体不仅限于如树木、鸟儿、机器等具体的事物,也可以是如课程、讲授、长度等抽象的概念、联系等。在本专利技术的实施例中,可以把对于实体的标签设计分为如下几类:“小实体”、“关系词”、“属性词”、“实体类别”、“条件类型”、“属性值”、“聚合函数”等。其中,“小实体”是区别于广义的实体概念,是一种狭义的实体概念,是指知识库中的每个实体节点或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体链接的构建方法,其特征在于,包括:获取自然语言问题文本;对所述自然语言问题文本进行实体分析,得到所述自然语言问题文本中的实体信息;所述实体信息包括实体的命名信息和实体的依存关系信息;基于所述实体信息,计算所述自然语言问题文本中的实体与知识库中实体的相似度,得到所述自然语言问题的候选链接结果;基于所述实体的依存关系信息,对所述候选链接结果进行筛选,得到最终的实体链接。2.根据权利要求1所述的方法,所述对所述自然语言问题文本进行实体分析,得到所述自然语言问题文本中的实体信息,包括:利用基于BERT

CRF的命名实体模型对所述自然语言问题文本进行命名实体识别,得到所述自然语言问题文本中的实体的命名信息;利用基于BiLSTM的句法分析模型对所述命名信息进行依存分析,得到自然语言问题文本中的实体的依存关系信息。3.根据权利要求2所述的方法,其特征在于,在步骤利用基于BERT

CRF的命名实体模型对所述自然语言问题文本进行命名实体识别,得到所述自然语言问题文本中的实体的命名信息之前,还包括:获取命名实体模型的原始文本数据集;对所述原始文本数据集中的字符进行标注,得到标注文本数据集;所述标注的类别包括开始字符、中间字符和无关字符;将所述标注文本数据集按比例划分为训练集、测试集和验证集;基于所述训练集、测试集和验证集搭建所述命名实体模型。4.根据权利要求1所述的方法,其特征在于,所述相似度包括所述自然语言问题文本中与知识库中数值类实体的相似度、所述自然语言问题文本中与知识库中非数值类实体的相似度。5.根据权利要求4所述的方法,其特征在于,当计算所述自然语言问题文本中与知识库中数值类实体的相似度时,所述基于所述实体信息,计算所述自然语言问题文本中的实体与知识库中实体的相似度,得到所述自然语言问题的候选链...

【专利技术属性】
技术研发人员:杨春阳邢启洲李健陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1