一种生成端到端实体链接方法和系统技术方案

技术编号:38005861 阅读:10 留言:0更新日期:2023-06-30 10:22
本发明专利技术公开了一种生成端到端实体链接方法和系统,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;待链接实体为第一知识图谱中的实体;将待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;多个推荐实体名称为第二知识图谱中的实体名称;基于n

【技术实现步骤摘要】
一种生成端到端实体链接方法和系统


[0001]本专利技术涉及知识图谱
,具体为一种生成端到端实体链接方法和系统。

技术介绍

[0002]实体是知识图谱中的最基本元素,当来源不同的两个知识图谱进行知识融合时,需要将实体从其中一个图谱链接到另一个图谱中,但由于语言的歧义性、多样性,不同图谱的构建标准通常是不同的,那么进行异构图谱下的实体链接就必不可少。
[0003]在医疗知识图谱中,由于医学严谨性,可能相似的实体,所适用的属性、关系是完全不同的,如艾滋病和艾滋病恐惧症,是两个完全不同的疾病,但字面上有相似的地方,若是在实体链接时进行了错误的链接,那么可能会导致完全不适用的知识进行了融合,故而亟需一个精确度更高的实体链接方法。
[0004]实体链接模型通常的结构是pipeline式的两阶段方法,这种方法第一阶段指称识别的误差损失会传递到第二阶段实体消歧中,形成误差累积,且由于任务独立,两个阶段也会缺少交互信息;
[0005]另一种结构是将两个任务进行联合建模的端到端方法,将指称识别和实体消歧同步进行,这种方法可以很大程度上缓解pipeline式方法带来的误差累积、信息交互,但很多方法的信息交互多通过点积实现,点积在一定程度上还是有信息损失的,且这些方法需要负例提供训练,然而负例的数量、难度通常是比较难控制的。

技术实现思路

[0006]本专利技术的目的就在于为了解决上述至少一个技术问题而提供一种生成端到端实体链接方法和系统。
[0007]第一方面,本专利技术实施例提供了一种生成端到端实体链接方法,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;基于n

gram相似度和分词
·
召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。
[0008]进一步地,还包括:对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
[0009]进一步地,将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,包括:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
[0010]进一步地,所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链
接实体包括疾病相关实体;所述解码器的解码过程包括:生成疾病下的前缀树;所述前缀树上的每一个节点是疾病词表中的一个token;基于所述前缀树生成所述解码器的所有token,并基于所生成token得到所述多个测试结果;其中,所述待链接实体不可链接时,生成万能token。
[0011]进一步地,基于n

gram相似度和分词召回率计算每个推荐实体名称的评分,包括:对每个推荐实体名称进行字切分,组合成n

gram序列;将每个n

gram序列与所述待链接实体的实体名称进行相似度计算再加权求和,得到每个n

gram序列的相似度和;基于分词工具搜索每个推荐实体名称的精确分词结果在所述待链接实体的实体名称中的召回率,得到每个推荐实体名称的召回率;将相所述似度和、所述召回率进行加权求和,得到所述每个推荐实体名称的评分。
[0012]第二方面,本专利技术实施例还提供了一种生成端到端实体链接系统,包括:构建模块,识别模块,评分模块和确定模块;其中,所述构建模块,用于基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;所述识别模块,用于将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;所述评分模块,用于基于n

gram相似度和分词召回率计算每个推荐实体名称的评分;所述确定模块,用于基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。
[0013]进一步地,还包括训练模块,用于对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。
[0014]进一步地,所述识别模块,还用于:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。
[0015]第三方面,本专利技术实施例还提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的处理方法。
[0016]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如上述第一方面所述的方法。
[0017]本专利技术提供了一种生成端到端实体链接方法和系统,采用端到端的生成模型seq2seq模型,本身拥有自回归解码器,相比于其他端到端实体链接模型的点积形式,信息交互更加完全,可以有效缓解现有模型中两阶段任务带来的误差损失;且本专利技术中的评测指标是hit@k,避免了单一的准确率对结果的限制。
附图说明
[0018]为了更清楚地说明本申请实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,
还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术实施例提供的一种生成端到端实体链接方法的流程图;
[0020]图2为本专利技术实施例提供的一种生成端到端实体链接方法的输入输出示意图;
[0021]图3为本专利技术实施例提供的一种生成端到端实体链接系统的示意图。
具体实施方式
[0022]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]实施例一
[0024]图1是根据本专利技术实施例提供的一种生成端到端实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成端到端实体链接方法,其特征在于,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;基于n

gram相似度和分词召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。2.根据权利要求1所述的方法,其特征在于:还包括:对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。3.根据权利要求1所述的方法,其特征在于:将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,包括:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。4.根据权利要求3所述的方法,其特征在于:所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;所述解码器的解码过程包括:生成疾病下的前缀树;所述前缀树上的每一个节点是疾病词表中的一个token;基于所述前缀树生成所述解码器的所有token,并基于所生成token得到所述多个测试结果;其中,所述待链接实体不可链接时,生成万能token。5.根据权利要求1所述的方法,其特征在于:基于n

gram相似度和分词召回率计算每个推荐实体名称的评分,包括:对每个推荐实体名称进行字切分,组合成n

gram序列;将每个n

gram序列与所述待链接实体的实体名称进行相似度计算再加权求和,得到每个n<...

【专利技术属性】
技术研发人员:吴欢何昆仑庄严
申请(专利权)人:中国人民解放军总医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1