尾实体链接方法、装置、服务器及存储介质制造方法及图纸

技术编号:24169205 阅读:34 留言:0更新日期:2020-05-16 02:24
本申请实施例提供一种尾实体链接方法、装置、服务器及存储介质,该方法包括:获取知识图谱,知识图谱包括头实体、待链接尾实体以及描述头实体和待链接尾实体的实体关系,通过单实体分类模型判断该待链接尾实体是否为单实体;若待链接尾实体是单实体,确定与单实体对应的候选已链接实体集合;该候选已链接实体集合包括N个候选已链接实体,N为正整数;通过相似度模型计算单实体与N个候选已链接实体中各个候选已链接实体的相似度;若单实体与目标候选已链接实体的相似度大于第一阈值,将目标候选已链接实体与单实体进行链接。本申请实施例可以提高尾实体链接的准确率。

【技术实现步骤摘要】
尾实体链接方法、装置、服务器及存储介质
本申请涉及机器学习
,具体涉及一种尾实体链接方法、装置、服务器及存储介质。
技术介绍
随着科技的发展和互联网的普及,我们进入了大数据时代。尽管网络中有大量的数据资源,但是这些数据异质多元,组织结构松散,并不能被有效的利用起来,为了能够获取信息形成知识,人们提出了知识图谱。知识图谱(knowledgegraph,KG)以其强大的语义处理能力和开放组织能力为网络数据组织化,智能化奠定了基础。目前,知识图谱作为人工智能技术发展和应用的关键技术之一,已经被广泛应用于智能搜索、智能问答、个性化推荐等领域。一个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系,知识图谱可以包括头实体、关系和尾实体。例如:<姚明,妻子,叶莉>三元组包含了:头实体“姚明”,尾实体“叶莉”以及关系“妻子”。然而在现实世界中存在多个叫“叶莉”的人,如何在知识库中找到正确的“叶莉”就是尾实体链接的相关工作。在通用知识图谱的构建过程中,数据量大,数据分布广,数据信息杂,成为了这类知识图谱构建的难点,亟需一种合适的链接方法适用于所有待链接的尾实体。目前的实体链接过程中,通常采用人工标注特征输入到传统机器学习模型中计算相似度得分,这些特征多是统计共现窗口的次数,导致模型能够获取的信息量少,信息熵变大,最终链接的准确率较低。
技术实现思路
本申请实施例提供一种尾实体链接方法、装置、服务器及存储介质,可以提高尾实体链接的准确率。本申请实施例的第一方面提供了一种尾实体链接方法,包括:获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接。本申请实施例的第二方面提供了一种尾实体链接装置,包括:获取单元,用于获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系;判断单元,用于通过单实体分类模型判断所述待链接尾实体是否为单实体;第一确定单元,用于在所述待链接尾实体是单实体的情况下,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;计算单元,用于通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;第二确定单元,用于确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;尾实体链接单元,用于在所述单实体与所述目标候选已链接实体的相似度大于第一阈值的情况下,将所述目标候选已链接实体与所述单实体进行链接。本申请实施例的第三方面提供了一种服务器,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面中的步骤指令。本申请实施例的第四方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。本申请实施例的第五方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。本申请实施例中,在进行尾实体链接时,获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接。本申请实施例的单实体分类模型可以对未知的尾实体进行分类,筛除情况复杂的多实体和属性值,保留单实体,仅对单实体进行链接;相似度模型包括第一编码模块、注意力模块和相似度计算模块,注意力模块可以学习到重要的上下文信息,可以去除冗余信息,从而提取到上下文中的关键内容;第一编码模块可以对知识图谱中的头实体、待链接尾实体以及实体关系进行编码,得到的单实体编码向量也可以学习到待链接尾实体的上下文信息;相似度计算模块可以准确计算单实体编码向量和N个重要上下文向量的相似度,进而有效的捕捉实体之间的相似度,提高尾实体链接的准确率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种系统架构的结构示意图;图2是本申请实施例提供的一种尾实体链接方法的流程示意图;图3a是本申请实施例提供的一种单实体分类模型的结构示意图;本文档来自技高网...

【技术保护点】
1.一种尾实体链接方法,其特征在于,包括:/n获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;/n若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;/n通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;/n确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;/n若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接。/n

【技术特征摘要】
1.一种尾实体链接方法,其特征在于,包括:
获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;
若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;
通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;
确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;
若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接。


2.根据权利要求1所述的方法,其特征在于,所述通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度,包括:
获取所述知识图谱对应的文本信息映射到向量空间的元素输入向量,通过所述第一编码模块对所述元素输入向量进行编码,输出元素输出向量;
获取第一候选已链接实体的描述文本映射到向量空间的第一实体描述文本向量,通过所述注意力模块对所述第一实体描述文本向量进行注意力过滤,输出第一实体重要上下文向量;
通过所述相似度计算模块计算所述元素输出向量和所述第一实体重要上下文向量的相似度,得到所述单实体与所述第一候选已链接实体的相似度;所述第一候选已链接实体为所述N个候选已链接实体中的任一个。


3.根据权利要求1所述的方法,其特征在于,所述单实体分类模型包括第一卷积神经网络、第二卷积神经网络和第一前馈神经网络;
所述通过单实体分类模型判断所述待链接尾实体是否为单实体,包括:
将所述待链接尾实体的表征向量输入所述第一卷积神经网络,得到尾实体向量;
将所述实体关系的表征向量输入所述第二卷积神经网络,得到关系向量;
将所述尾实体向量和所述关系向量输入所述第一前馈神经网络,得到二分类结果。


4.根据权利要求1~3任一项所述的方法,其特征在于,所述确定与所述单实体对应的候选已链接实体集合,包括:
获取所述单实体对应的别名集合;
若已链接实体库中存在与所述别名集合对应的候选已链接实体,从所述已链接实体库中获取与所述别名集合对应的候选已链接实体集合。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述已链接实体库中不存在与所述别名集合对应的候选已链接实体,采用爬虫技术从网页中获取与所述别名集合对应的候选已链接实体集合。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述待链接尾实体是非单实体,通过多实体分类模型判断所述待链接尾实体是否为多实体;
若所述待链接尾实体为多实体,通过实体拆分模型将所述待链接尾实体拆分为M个单实体,执行所述确定与所述单实体对应的候选已链接实体集合的步骤...

【专利技术属性】
技术研发人员:吴瑞萦张大雷郑新李直旭
申请(专利权)人:科大讯飞苏州科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1