【技术实现步骤摘要】
一种知识融合方法
[0001]本专利技术涉及自然语言处理
,尤其涉及一种知识融合方法。
技术介绍
[0002]人工智能的快速发展促使各领域建立了越来越多的大规模知识图谱,知识图谱的数据可能来自于企业内部和外部数据源等多个不同的来源。
[0003]在知识图谱构建过程中,信息抽取的三元组可能来自于不同的数据源,而同一实体类型下不同实例可能指向现实世界同一事物。如果知识图谱中同一实体类型下存在两个冗余的实例,尤其是这两个实例名称不同时,那么在做实体链接的时候,就可能会影响答案匹配。因此,需要在知识图谱构建过程中,需要对不同来源的实例进行知识融合,知识融合旨在识别并融合不同数据源内或跨数据源的相同真实世界实体。
[0004]现有的知识融合方法通常采用基于不同实体间的实体属性相似度进行匹配,并没有考虑到实体的结构信息和实例之间的相互依赖性,针对同一实体类型下指向现实世界同一事物的不同实例的知识融合效果不佳。
技术实现思路
[0005]本专利技术提供了一种知识融合方法,针对同一实体类型下指向现实世界 ...
【技术保护点】
【技术特征摘要】
1.一种知识融合方法,其特征在于,包括:获取同一实体类型的文本实例集合;其中,所述文本实例集合是由文本实体和实体关系构成的结构化表数据;对所述文本实例集合进行实例消歧融合得到第一消歧文本实例集合;将所述第一消歧文本实例集合和所述消歧文本实例库中获取的第二消歧文本实例集合进行实例对齐融合得到目标文本实例集合。2.根据权利要求1所述的方法,其特征在于,所述将所述第一消歧文本实例集合和所述消歧文本实例库中获取的第二消歧文本实例集合进行实例对齐融合得到目标文本实例集合包括:从所述消歧文本实例库中获取第二消歧文本实例集合;在所述第一消歧文本实例集合中添加第一虚拟实例,在所述第二消歧文本实例集合中添加第二虚拟实例;根据包含第一虚拟实例的第一消歧文本实例集合和包含第二虚拟实例的第二消歧文本实例集合,确定半约束最优传输模型;求解所述半约束最优传输模型得到最优传输解,基于所述最优传输解确定目标文本实例集合;所述最优传输解用于描述所述第一消歧文本实例集合和所述第二消歧文本实例集合的实例对齐融合结果。3.根据权利要求2所述的方法,其特征在于,所述半约束最优传输模型包括:传输代价矩阵和约束方程;所述约束方程为:所述约束方程为:其中,ψ
ij
表示等价实例,ψ
i0
表示第一悬空实例,ψ
0j
表示第二悬空实例;所述第一悬空实例是所述第一消歧文本实例集合中与所述第二虚拟实例对齐的实例,所述第二悬空实例是所述第二消歧文本实例集合中与所述第一虚拟实例对齐的实例,所述等价实例为第一消歧文本实例集合和所述第二消歧文本实例集合中对齐的实例;所述传输代价矩阵为:其中,表示向量和向量之间的曼哈顿距离,向量表示第一消歧文本实例集合中第i个第一消歧文本实例对应的嵌入向量,向量表示第二消歧文本实例集合中第j个第二消歧文本实例对应的嵌入向量。4.根据权利要求1所述的方法,其特征在于,所述对所述文本实例集合进行实例消歧融合得到第一消歧实例集合包括:对于所述文本实例集合中的每个文本实例,将所述文本实例所包含的字段进行拼接得到文本序列;基于所述文本实例集合中的每个文本序列生成所述文本实例集合的相似度...
【专利技术属性】
技术研发人员:李超,
申请(专利权)人:长沙爱得自在信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。