【技术实现步骤摘要】
尾实体链接方法、装置、服务器及存储介质
本申请涉及机器学习
,具体涉及一种尾实体链接方法、装置、服务器及存储介质。
技术介绍
随着科技的发展和互联网的普及,我们进入了大数据时代。尽管网络中有大量的数据资源,但是这些数据异质多元,组织结构松散,并不能被有效的利用起来,为了能够获取信息形成知识,人们提出了知识图谱。知识图谱(knowledgegraph,KG)以其强大的语义处理能力和开放组织能力为网络数据组织化,智能化奠定了基础。目前,知识图谱作为人工智能技术发展和应用的关键技术之一,已经被广泛应用于智能搜索、智能问答、个性化推荐等领域。一个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系,知识图谱可以包括头实体、关系和尾实体。例如:<姚明,妻子,叶莉>三元组包含了:头实体“姚明”,尾实体“叶莉”以及关系“妻子”。然而在现实世界中存在多个叫“叶莉”的人,如何在知识库中找到正确的“叶莉”就是尾实体链接的相关工作。在通用知识图谱的构建过程中,数据量大,数据分布广,数据信息杂,成为了这类知识图谱构建的难点,亟需一种合适的链接方法适用于所有待链接的尾实体。目前的实体链接过程中,通常采用人工标注特征输入到传统机器学习模型中计算相似度得分,这些特征多是统计共现窗口的次数,导致模型能够获取的信息量少,信息熵变大,最终链接的准确率较低。
技术实现思路
本申请实施例提供一种尾实体链接方法、装置、服务器及存储介质,可以提高尾实体链接的准确率。本申请实施例的第一方面提供了一种 ...
【技术保护点】
1.一种尾实体链接方法,其特征在于,包括:/n获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;/n若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;/n通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;/n确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;/n若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接。/n
【技术特征摘要】
1.一种尾实体链接方法,其特征在于,包括:
获取知识图谱,所述知识图谱包括头实体、待链接尾实体以及描述所述头实体和所述待链接尾实体的实体关系,通过单实体分类模型判断所述待链接尾实体是否为单实体;
若所述待链接尾实体是单实体,确定与所述单实体对应的候选已链接实体集合;所述候选已链接实体集合包括N个候选已链接实体,N为正整数;
通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;所述相似度模型包括第一编码模块、注意力模块和相似度计算模块;所述第一编码模块用于对所述知识图谱进行编码,得到单实体编码向量,所述注意力模块用于获取所述N个候选已链接实体中的N个重要上下文向量;所述相似度计算模块用于分别计算所述单实体编码向量与所述N个重要上下文向量的相似度,得到所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度;
确定所述N个候选已链接实体中与所述单实体相似度最高的目标候选已链接实体;
若所述单实体与所述目标候选已链接实体的相似度大于第一阈值,将所述目标候选已链接实体与所述单实体进行链接。
2.根据权利要求1所述的方法,其特征在于,所述通过相似度模型计算所述单实体与所述N个候选已链接实体中各个候选已链接实体的相似度,包括:
获取所述知识图谱对应的文本信息映射到向量空间的元素输入向量,通过所述第一编码模块对所述元素输入向量进行编码,输出元素输出向量;
获取第一候选已链接实体的描述文本映射到向量空间的第一实体描述文本向量,通过所述注意力模块对所述第一实体描述文本向量进行注意力过滤,输出第一实体重要上下文向量;
通过所述相似度计算模块计算所述元素输出向量和所述第一实体重要上下文向量的相似度,得到所述单实体与所述第一候选已链接实体的相似度;所述第一候选已链接实体为所述N个候选已链接实体中的任一个。
3.根据权利要求1所述的方法,其特征在于,所述单实体分类模型包括第一卷积神经网络、第二卷积神经网络和第一前馈神经网络;
所述通过单实体分类模型判断所述待链接尾实体是否为单实体,包括:
将所述待链接尾实体的表征向量输入所述第一卷积神经网络,得到尾实体向量;
将所述实体关系的表征向量输入所述第二卷积神经网络,得到关系向量;
将所述尾实体向量和所述关系向量输入所述第一前馈神经网络,得到二分类结果。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述确定与所述单实体对应的候选已链接实体集合,包括:
获取所述单实体对应的别名集合;
若已链接实体库中存在与所述别名集合对应的候选已链接实体,从所述已链接实体库中获取与所述别名集合对应的候选已链接实体集合。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述已链接实体库中不存在与所述别名集合对应的候选已链接实体,采用爬虫技术从网页中获取与所述别名集合对应的候选已链接实体集合。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述待链接尾实体是非单实体,通过多实体分类模型判断所述待链接尾实体是否为多实体;
若所述待链接尾实体为多实体,通过实体拆分模型将所述待链接尾实体拆分为M个单实体,执行所述确定与所述单实体对应的候选已链接实体集合的步骤...
【专利技术属性】
技术研发人员:吴瑞萦,张大雷,郑新,李直旭,
申请(专利权)人:科大讯飞苏州科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。