当前位置: 首页 > 专利查询>之江实验室专利>正文

知识图谱实体链接方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38462876 阅读:6 留言:0更新日期:2023-08-11 14:39
本申请涉及一种知识图谱实体链接方法、装置、计算机设备及存储介质,该方法包括:基于问题样本、实体提及样本、知识图谱实体正样本和知识图谱实体邻接子图样本,获取训练数据正样本;基于问题样本、实体提及样本、知识图谱实体负样本和对应的知识图谱实体邻接子图样本,获取训练数据负样本;基于训练数据正样本、训练数据负样本对实体链接初始模型进行训练,得到实体链接模型;将用户问题、实体提及、候选知识图谱实体和对应的知识图谱实体邻接子图输入训练完成的实体链接模型,确定与实体提及链接的目标知识图谱实体,解决了相关技术中存在的问答场景中实体一致性模型效果不佳,实体链接准确性较低的问题。准确性较低的问题。准确性较低的问题。

【技术实现步骤摘要】
知识图谱实体链接方法、装置、计算机设备及存储介质


[0001]本申请涉及自然语言处理
,特别是涉及一种知识图谱实体链接方法、装置、计算机设备及可读存储介质。

技术介绍

[0002]实体链接是指将文本中出现的实体提及(mention)和知识图谱中相应的实体链接起来,是很多信息抽取任务及自然语言理解任务的重要一环,如知识图谱更新、基于知识图谱的问答、搜索引擎等。由于自然语言描述的多样性,消除实体提及的歧义性是实体链接任务中最主要的工作。
[0003]实体链接方法旨在建立实体提及和知识图谱实体的文本对比模型,现有的方法大多关注知识图谱实体文本描述的语义信息,或根据知识图谱中实体结点的关联关系,对文档中实体的一致性建模,后者可以利用知识图谱中蕴含的大量图结构及存储的知识,获取用户问题以外的信息帮助消除歧义,有效提高实体链接的准确性。但在问答场景中,大多数用户问题涉及的实体数量少,难以有效建立实体一致性模型,因此知识图谱难以被利用,实体链接的准确性较低。
[0004]针对相关技术中存在的问答场景中实体一致性模型效果不佳,实体链接准确性较低的问题,目前还没有提出有效的解决方案。

技术实现思路

[0005]在本实施例中提供了一种知识图谱实体链接方法、装置、计算机设备及可读存储介质,以解决相关技术中存在的问答场景中实体一致性模型效果不佳,实体链接准确性较低的问题。
[0006]第一个方面,在本实施例中提供了一种知识图谱实体链接方法,所述方法包括:
[0007]基于问题样本、实体提及样本、知识图谱实体正样本和知识图谱实体邻接子图样本,获取训练数据正样本,所述实体提及样本基于所述问题样本获取,所述知识图谱实体正样本基于对所述实体提及样本在知识图谱中的标注实体获取,所述知识图谱实体邻接子图样本基于所述知识图谱实体正样本在所述知识图谱中的实体关系获取;
[0008]基于所述问题样本、所述实体提及样本、知识图谱实体负样本和对应的知识图谱实体邻接子图样本,获取训练数据负样本,所述知识图谱实体负样本基于所述知识图谱中与所述实体提及样本不存在标注关系的实体随机获取;
[0009]基于所述训练数据正样本、训练数据负样本对实体链接初始模型进行训练,得到实体链接模型;
[0010]将用户问题、实体提及、候选知识图谱实体和对应的知识图谱实体邻接子图输入训练完成的所述实体链接模型,确定与所述实体提及链接的目标知识图谱实体;所述实体提及基于所述用户问题获取,所述候选知识图谱实体基于所述实体提及获取,所述知识图谱实体邻接子图基于所述候选知识图谱实体在所述知识图谱中的实体关系获取。
[0011]在其中的一些实施例中,所述基于所述训练数据正样本、训练数据负样本对实体链接初始模型进行训练包括:
[0012]将所述训练数据正样本和训练数据负样本输入所述实体链接初始模型,输出样本实体提及向量和样本实体图卷积向量;
[0013]基于所述样本实体提及向量、样本实体图卷积向量,以及预先获取的样本标记参数,确定所述实体链接初始模型的损失函数;
[0014]基于所述损失函数对所述实体链接初始模型进行训练。
[0015]在其中的一些实施例中,所述实体链接初始模型包括文本嵌入模块和实体图网络嵌入模块,所述将所述训练数据正样本和训练数据负样本输入所述实体链接初始模型,输出样本实体提及向量和样本实体图卷积向量包括:
[0016]将所述问题样本、知识图谱实体样本输入所述文本嵌入模块,输出所述样本实体提及向量和样本问题向量,所述知识图谱实体样本包括所述知识图谱实体正样本和知识图谱实体负样本;
[0017]基于所述样本问题向量,获取所述实体图网络嵌入模块中实体样本向量的注意力权重;
[0018]将所述知识图谱实体邻接子图样本输入所述实体图网络嵌入模块,基于所述注意力权重输出所述样本实体图卷积向量。
[0019]在其中的一些实施例中,所述文本嵌入模块包含BERT模型,所述将所述问题样本、知识图谱实体样本输入所述文本嵌入模块,输出所述样本实体提及向量和样本问题向量包括:
[0020]基于预定格式对所述问题样本、知识图谱实体样本、CLS标志位和SEP标志位进行拼接,输入所述BERT模型;
[0021]基于所述CLS标志位对应的所述BERT模型的第一输出向量,确定所述样本问题向量。
[0022]在其中的一些实施例中,所述文本嵌入模块还包括多层感知机模型,所述将所述问题样本、知识图谱实体样本输入所述文本嵌入模块,输出所述样本实体提及向量和样本问题向量还包括:
[0023]获取所述实体提及样本的开始位置所对应的所述BERT模型的第二输出向量,以及所述实体提及样本的结束位置所对应的所述BERT模型的第三输出向量;
[0024]对所述第一输出向量、第二输出向量和第三输出向量进行拼接,输入所述多层感知机模型,得到所述样本实体提及向量。
[0025]在其中的一些实施例中,所述将所述知识图谱实体邻接子图样本输入所述实体图网络嵌入模块,基于所述注意力权重输出所述样本实体图卷积向量包括:
[0026]基于所述第一输出向量,对所述知识图谱实体邻接子图样本进行初始化,得到对应的实体样本向量;
[0027]将所述实体样本向量输入所述实体图网络嵌入模块,基于所述注意力权重输出所述样本实体图卷积向量。
[0028]在其中的一些实施例中,在所述基于预定格式对所述问题样本、知识图谱实体样本、CLS标志位和SEP标志位进行拼接,输入所述BERT模型之前,所述方法还包括:
[0029]对BERT初始模型进行预训练,获取预训练模型参数;
[0030]基于所述预训练模型参数,建立所述BERT模型。
[0031]第二个方面,在本实施例中提供了一种知识图谱实体链接装置,所述装置包括:
[0032]第一获取模块,用于基于问题样本、实体提及样本、知识图谱实体正样本和知识图谱实体邻接子图样本,获取训练数据正样本,所述实体提及样本基于所述问题样本获取,所述知识图谱实体正样本基于对所述实体提及样本在知识图谱中的标注实体获取,所述知识图谱实体邻接子图样本基于所述知识图谱实体正样本在所述知识图谱中的实体关系获取;
[0033]第二获取模块,用于基于所述问题样本、所述实体提及样本、知识图谱实体负样本和对应的知识图谱实体邻接子图样本,获取训练数据负样本,所述知识图谱实体负样本基于所述知识图谱中与所述实体提及样本不存在标注关系的实体随机获取;
[0034]训练模块,用于基于所述训练数据正样本、训练数据负样本对实体链接初始模型进行训练,得到实体链接模型;
[0035]确定模块,用于将用户问题、实体提及、候选知识图谱实体和对应的知识图谱实体邻接子图输入训练完成的所述实体链接模型,确定与所述实体提及链接的目标知识图谱实体;所述实体提及基于所述用户问题获取,所述候选知识图谱实体基于所述实体提及获取,所述知识图谱实体邻接子图基于所述候本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱实体链接方法,其特征在于,所述方法包括:基于问题样本、实体提及样本、知识图谱实体正样本和知识图谱实体邻接子图样本,获取训练数据正样本,所述实体提及样本基于所述问题样本获取,所述知识图谱实体正样本基于对所述实体提及样本在知识图谱中的标注实体获取,所述知识图谱实体邻接子图样本基于所述知识图谱实体正样本在所述知识图谱中的实体关系获取;基于所述问题样本、所述实体提及样本、知识图谱实体负样本和对应的知识图谱实体邻接子图样本,获取训练数据负样本,所述知识图谱实体负样本基于所述知识图谱中与所述实体提及样本不存在标注关系的实体随机获取;基于所述训练数据正样本、训练数据负样本对实体链接初始模型进行训练,得到实体链接模型;将用户问题、实体提及、候选知识图谱实体和对应的知识图谱实体邻接子图输入训练完成的所述实体链接模型,确定与所述实体提及链接的目标知识图谱实体;所述实体提及基于所述用户问题获取,所述候选知识图谱实体基于所述实体提及获取,所述知识图谱实体邻接子图基于所述候选知识图谱实体在所述知识图谱中的实体关系获取。2.根据权利要求1所述的方法,其特征在于,所述基于所述训练数据正样本、训练数据负样本对实体链接初始模型进行训练包括:将所述训练数据正样本和训练数据负样本输入所述实体链接初始模型,输出样本实体提及向量和样本实体图卷积向量;基于所述样本实体提及向量、样本实体图卷积向量,以及预先获取的样本标记参数,确定所述实体链接初始模型的损失函数;基于所述损失函数对所述实体链接初始模型进行训练。3.根据权利要求2所述的方法,其特征在于,所述实体链接初始模型包括文本嵌入模块和实体图网络嵌入模块,所述将所述训练数据正样本和训练数据负样本输入所述实体链接初始模型,输出样本实体提及向量和样本实体图卷积向量包括:将所述问题样本、知识图谱实体样本输入所述文本嵌入模块,输出所述样本实体提及向量和样本问题向量,所述知识图谱实体样本包括所述知识图谱实体正样本和知识图谱实体负样本;基于所述样本问题向量,获取所述实体图网络嵌入模块中实体样本向量的注意力权重;将所述知识图谱实体邻接子图样本输入所述实体图网络嵌入模块,基于所述注意力权重输出所述样本实体图卷积向量。4.根据权利要求3所述的方法,其特征在于,所述文本嵌入模块包含BERT模型,所述将所述问题样本、知识图谱实体样本输入所述文本嵌入模块,输出所述样本实体提及向量和样本问题向量包括:基于预定格式对所述问题样本、知识图谱实体样本、CLS标志位和SEP标志位进行拼接,输入所述BERT模型;基于所述CLS标志位对应的所述BERT模型的第一输出向量,确定所述样本问题向量。5.根据权利要求4所述的方法,其特征在于,所述文本嵌入模块还包括多层...

【专利技术属性】
技术研发人员:宋伟王雨菡朱世强谢冰尹越赵鑫安姜娜赵文宇
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1