【技术实现步骤摘要】
一种生成端到端实体链接方法和系统
[0001]本专利技术涉及知识图谱
,具体为一种生成端到端实体链接方法和系统。
技术介绍
[0002]实体是知识图谱中的最基本元素,当来源不同的两个知识图谱进行知识融合时,需要将实体从其中一个图谱链接到另一个图谱中,但由于语言的歧义性、多样性,不同图谱的构建标准通常是不同的,那么进行异构图谱下的实体链接就必不可少。
[0003]在医疗知识图谱中,由于医学严谨性,可能相似的实体,所适用的属性、关系是完全不同的,如艾滋病和艾滋病恐惧症,是两个完全不同的疾病,但字面上有相似的地方,若是在实体链接时进行了错误的链接,那么可能会导致完全不适用的知识进行了融合,故而亟需一个精确度更高的实体链接方法。
[0004]实体链接模型通常的结构是pipeline式的两阶段方法,这种方法第一阶段指称识别的误差损失会传递到第二阶段实体消歧中,形成误差累积,且由于任务独立,两个阶段也会缺少交互信息;
[0005]另一种结构是将两个任务进行联合建模的端到端方法,将指称识别和实体消歧同步进行, ...
【技术保护点】
【技术特征摘要】
1.一种生成端到端实体链接方法,其特征在于,包括:基于待链接实体的类型、属性、关系、名称,构建待链接实体序列;所述待链接实体为第一知识图谱中的实体;将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,得到多个推荐实体名称;所述多个推荐实体名称为第二知识图谱中的实体名称;基于n
‑
gram相似度和分词召回率计算每个推荐实体名称的评分;基于每个推荐实体名称的评分,确定所述待链接实体在所述第二知识图谱中所对应的目标链接实体。2.根据权利要求1所述的方法,其特征在于:还包括:对预设seq2seq模型进行训练,得到所述训练好的seq2seq模型。3.根据权利要求1所述的方法,其特征在于:将所述待链接实体序列作为输入序列输入到训练好的seq2seq模型中进行指称识别和实体消歧,包括:将所述待链接实体序列输入到所述训练好的seq2seq模型的编码器进行编码,然后通过注意力机制到解码器进行解码,得到多个测试结果;其中,所述解码器的解码过程包括实体类型和集束搜索算法的双重约束;在所述多个测试结果中,选择命中概率最高的前k个结果,作为推荐实体名称;k为预设正整数。4.根据权利要求3所述的方法,其特征在于:所述第一知识图谱和所述第二知识图谱均为医学知识图谱;所述待链接实体包括疾病相关实体;所述解码器的解码过程包括:生成疾病下的前缀树;所述前缀树上的每一个节点是疾病词表中的一个token;基于所述前缀树生成所述解码器的所有token,并基于所生成token得到所述多个测试结果;其中,所述待链接实体不可链接时,生成万能token。5.根据权利要求1所述的方法,其特征在于:基于n
‑
gram相似度和分词召回率计算每个推荐实体名称的评分,包括:对每个推荐实体名称进行字切分,组合成n
‑
gram序列;将每个n
‑
gram序列与所述待链接实体的实体名称进行相似度计算再加权求和,得到每个n<...
【专利技术属性】
技术研发人员:吴欢,何昆仑,庄严,
申请(专利权)人:中国人民解放军总医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。