知识图谱问答问句实体链接方法、装置、设备及介质制造方法及图纸

技术编号:34626498 阅读:32 留言:0更新日期:2022-08-20 09:34
本公开提供了一种知识图谱问答问句实体链接方法、装置、设备、存储介质和程序产品,可以应用于人工智能技术领域。该方法包括:获取用户问句;提取用户问句中的实体提及;从知识图谱中检索出与实体提及匹配的T个候选实体;获取T个候选实体中每个候选实体的实体描述精化编码;其中,实体描述精化编码表示是基于候选实体与候选实体的N个相似实体之间的实体描述内容中的字符串差异得到的;获取实体提及的编码表示;基于实体提及的编码表示与T个候选实体中每个候选实体的实体描述精化编码,计算实体提及与每个候选实体的第二相似度;以及确定T个候选实体中第二相似度最大的候选实体,为实体提及的链接实体。为实体提及的链接实体。为实体提及的链接实体。

【技术实现步骤摘要】
知识图谱问答问句实体链接方法、装置、设备及介质


[0001]本公开涉及人工智能
,更具体地涉及一种知识图谱问答问句实体链接方法、装置、设备、介质和程序产品。

技术介绍

[0002]知识图谱采用实体

关系

实体的形式表示知识,并在整体上构成以实体为节点、以实体与实体之间的关系为边的图结构。知识图谱问答是知识图谱的典型应用形式之一,具体是针对用户输入的一个自然语言问句进行语义理解,之后从知识图谱中查询、推理得出相应的答案,以满足用户的需求。
[0003]在知识图谱问答过程中,问句实体链接的正确性对于正确回答用户问句非常关键。其中,问句实体链接包括实体提及抽取与实体消歧两个步骤。其中,实体提及抽取指的是,从用户问句中抽取出用于表述实体的字符串,该实体提及的字符串可能与知识图谱中的实体的名称字符串相同,或者也可能不同。实体消歧指的是,在抽取到实体提及后,要将实体提及确链接到知识图谱中的唯一实体的过程。例如,当同样的人名出现在不同问句中时,所指代的对象可以是不同的实体。很显然,如果在链接过程中不能够实现准确有效地实体消歧,就不可能正确回答用户的问题。
[0004]相关技术中,可以基于实体描述表示的问句实体链接方法,将实体描述内容(通常包含解释说明实体的内容)扩充知识图谱中,以增加实体的描述信息。这样,在进行问句实体链接时,可以借助于实描述信息来提升实体消歧的效果。然而由于实体描述信息所包含的内容较多,当实体描述信息包含有与用户问句无关的噪音信息时,有可能会抑制实体消歧效果的提升程度。

技术实现思路

[0005]鉴于上述问题,本公开提供了一种可以减少噪音干扰的知识图谱问答问句实体链接方法、装置、设备、介质和程序产品。
[0006]根据本公开的第一个方面,提供了一种知识图谱问答问句实体链接方法。所述方法包括:获取用户问句;提取所述用户问句中的实体提及,所述实体提及为知识图谱中的实体在所述用户问句中的字符串表述;从所述知识图谱中检索出与所述实体提及匹配的T个候选实体,其中,T为大于1的整数;获取所述T个候选实体中每个候选实体的实体描述精化编码;其中,所述实体描述精化编码表示是基于所述候选实体与所述候选实体的N个相似实体之间的实体描述内容中的字符串差异得到的,其中,所述N个相似实体为所述知识图谱中与所述候选实体的第一相似度满足预设条件的N个实体,其中,N为大于或等于1的整数;获取所述实体提及的编码表示;基于所述实体提及的编码表示与所述T个候选实体中每个候选实体的所述实体描述精化编码,计算所述实体提及与每个候选实体的第二相似度;以及确定所述T个候选实体中所述第二相似度最大的候选实体,为所述实体提及的链接实体。
[0007]根据本公开的实施例,所述获取所述T个候选实体中每个候选实体的实体描述精
化编码包括:获取所述候选实体的实体描述关键内容;其中,所述实体描述关键内容中的字符串属于所述候选实体的实体描述内容,但不属于所述N个相似实体的任意一个相似实体的实体描述内容;获取所述实体描述关键内容的编码表示;获取所述候选实体的编码表示;以及基于所述候选实体的编码表示与所述实体描述关键内容的编码表示,得到所述候选实体的所述实体描述精化编码。
[0008]根据本公开的实施例,所述获取所述候选实体的实体描述关键内容包括:按照第一规则处理所述候选实体的实体描述内容中的字符串,得到第一字符串集合;按照所述第一规则处理所述N个相似实体的实体描述内容中的字符串,得到第二字符串集合;以及通过所述第一字符串集合减去第二字符串集合,得到所述候选实体的实体描述关键内容。其中,所述第一规则包括以所述实体描述内容的组成单元为拆分粒度,拆分所述实体描述内容中的字符串后去重。
[0009]根据本公开的实施例,所述获取所述实体描述关键内容的编码表示包括:拼接所述用户问句与所述T个候选实体中每个候选实体的所述实体描述关键内容,形成第一组合字符串;利用第二文本编码器编码所述第一组合字符串,得到所述第一组合字符串的编码表示;从所述第一组合字符串的编码表示中,截取与每个候选实体的所述实体描述关键内容在所述第一组合字符串中的位置范围对应的编码;以及基于截取的与每个候选实体的所述实体描述关键内容对应的编码,得到所述实体描述关键内容的编码表示。
[0010]根据本公开的实施例,所述基于所述候选实体的编码表示与所述实体描述关键内容的编码表示,得到所述候选实体的所述实体描述精化编码,包括:以预设的超参数作为所述实体描述关键内容的编码表示的权重系数,将所述候选实体的编码表示与所述实体描述关键内容的编码表示进行加权求和,得到所述候选实体的实体描述精化编码。
[0011]根据本公开的实施例,所述获取所述候选实体的编码表示包括:利用第一文本编码器编码所述候选实体及其实体描述内容组成的第二组合字符串,得到所述第二组合字符串的编码表示;以及从所述第二组合字符串的编码表示中,截取与所述候选实体在所述第二组合字符串中的位置范围对应的编码,得到所述候选实体的编码表示。
[0012]根据本公开的实施例,在所述获取所述T个候选实体中每个候选实体的实体描述精化编码之前,所述方法还包括:基于所述候选实体的编码表示与所述知识图谱中的其他实体的编码表示,计算所述候选实体与所述知识图谱中的其他实体的所述第一相似度;以及从所述知识图谱中选择所述第一相似度满足所述预设条件的N个实体,得到所述候选实体对应的所述N个相似实体。
[0013]根据本公开的实施例,在所述获取用户问句之前,所述方法还包括:利用第一文本编码器编码所述知识图谱中的实体,得到所述知识图谱中的实体的编码表示。
[0014]根据本公开的实施例,所述提取用户问句中的实体提及还包括,利用神经网络预测所述用户问句中的所述实体提及及其预测概率。所述方法还包括:归一化处理与所述T个候选实体分别对应的T个所述第二相似度,得到用于表征所述T个候选实体各自链接正确的链接概率;以及在所述实体提及的预测概率与所述实体提及的链接实体的所述链接概率的乘积大于概率阈值时,输出所述实体提及与其链接实体。
[0015]根据本公开的实施例,所述从所述知识图谱中检索出与所述实体提及匹配的T个候选实体包括:基于所述实体提及的字符串与所述知识图谱中的实体的名称字符串的对
比,计算匹配分数;以及从所述知识图谱中筛选出所述匹配分数最高的T个实体,以得到所述T个候选实体。
[0016]根据本公开的实施例,所述获取所述实体提及的编码表示包括:利用第二文本编码器编码所述用户问句的字符串,得到所述用户问句的编码表示矩阵;从所述用户问句的编码表示矩阵中,截取与所述实体提及的字符串在所述用户问句中的位置范围对应的向量组,得到所述实体提及对应的编码矩阵;以及对所述实体提及对应的编码矩阵中的向量按位求平均,得到所述实体提及的编码表示。
[0017]根据本公开的实施例,所述方法还包括:利用第一文本编码器编码所述知识图谱中的实体,得到所述知识图谱中的实体的编码表示;其中,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱问答问句实体链接方法,包括:获取用户问句;提取所述用户问句中的实体提及,所述实体提及为知识图谱中的实体在所述用户问句中的字符串表述;从所述知识图谱中检索出与所述实体提及匹配的T个候选实体,其中,T为大于1的整数;获取所述T个候选实体中每个候选实体的实体描述精化编码;其中,所述实体描述精化编码表示是基于所述候选实体与所述候选实体的N个相似实体之间的实体描述内容中的字符串差异得到的,其中,所述N个相似实体为所述知识图谱中与所述候选实体的第一相似度满足预设条件的N个实体,其中,N为大于或等于1的整数;获取所述实体提及的编码表示;基于所述实体提及的编码表示与所述T个候选实体中每个候选实体的所述实体描述精化编码,计算所述实体提及与每个候选实体的第二相似度;以及确定所述T个候选实体中所述第二相似度最大的候选实体,为所述实体提及的链接实体。2.根据权利要求1所述的方法,其中,所述获取所述T个候选实体中每个候选实体的实体描述精化编码包括:获取所述候选实体的实体描述关键内容;其中,所述实体描述关键内容中的字符串属于所述候选实体的实体描述内容,但不属于所述N个相似实体的任意一个相似实体的实体描述内容;获取所述实体描述关键内容的编码表示;获取所述候选实体的编码表示;以及基于所述候选实体的编码表示与所述实体描述关键内容的编码表示,得到所述候选实体的所述实体描述精化编码。3.根据权利要求2所述的方法,其中,所述获取所述候选实体的实体描述关键内容包括:按照第一规则处理所述候选实体的实体描述内容中的字符串,得到第一字符串集合;按照所述第一规则处理所述N个相似实体的实体描述内容中的字符串,得到第二字符串集合;以及通过所述第一字符串集合减去第二字符串集合,得到所述候选实体的实体描述关键内容;其中,所述第一规则包括以所述实体描述内容的组成单元为拆分粒度,拆分所述实体描述内容中的字符串后去重。4.根据权利要求2所述的方法,其中,所述获取所述实体描述关键内容的编码表示包括:拼接所述用户问句与所述T个候选实体中每个候选实体的所述实体描述关键内容,形成第一组合字符串;利用第二文本编码器编码所述第一组合字符串,得到所述第一组合字符串的编码表示;
从所述第一组合字符串的编码表示中,截取与每个候选实体的所述实体描述关键内容在所述第一组合字符串中的位置范围对应的编码;以及基于截取的与每个候选实体的所述实体描述关键内容对应的编码,得到所述实体描述关键内容的编码表示。5.根据权利要求2所述的方法,其中,所述基于所述候选实体的编码表示与所述实体描述关键内容的编码表示,得到所述候选实体的所述实体描述精化编码,包括:以预设的超参数作为所述实体描述关键内容的编码表示的权重系数,将所述候选实体的编码表示与所述实体描述关键内容的编码表示进行加权求和,得到所述候选实体的实体描述精化编码。6.根据权利要求2所述的方法,其中,所述获取所述候选实体的编码表示包括:利用第一文本编码器编码所述候选实体及其实体描述内容组成的第二组合字符串,得到所述第二组合字符串的编码表示;以及从所述第二组合字符串的编码表示中,截取与所述候选实体在所述第二组合字符串中的位置范围对应的编码,得到所述候选实体的编码表示。7.根据权利要求1所述的方法,其中,在所述获取所述T个候选实体中每个候选实体的实体描述精化编码之前,所述方法还包括:基于所述候选实体的编码表示与所述知识图谱中的其他实体的编码表示,计算所述候选实体与所述知识图谱中的其他实体的所述第一相似度;以及从所述知识图谱中选择所述第一相似度满足所述预设条件的N个实体,得到所述候选实体对应的所述N个相似实体。8.根据权利要求1所述的方法,其中,在所述获取用户问句之前,...

【专利技术属性】
技术研发人员:汪美玲
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1