【技术实现步骤摘要】
一种基于跨属性符号对齐的实体匹配方法及系统
[0001]本专利技术涉及实体匹配
,特别是涉及一种基于跨属性符号对齐的实体匹配方法及系统。
技术介绍
[0002]实体匹配也称为实体消解或实体对齐,是判断相同或不同来源的2个实体描述是否指向真实世界同一对象的过程。在不同的应用领域的中,实体匹配任务也有不同的叫法。例如,在数据库领域,它也被称之为记录链接、记录匹配,或者重复检测;在自然语言处理和信息检索领域,它则常被称为共指消解。实体匹配技术在数据清洗、数据整合、知识补全、知识融合等方面都有着十分重要的作用。
[0003]在实体匹配任务中,待匹配的实体记录通常都是一个结构化的对象,由一个或者多个<属性,属性值>对组成,每个属性值又由一个或者多个符号(Token)组成。现有大多数实体匹配方法均假设待匹配的实体记录是同构的,即由相同或者对齐的属性所组成。在此前提下,给定两个实体记录,典型的方法首先对比相同/对齐属性的属性值,然后聚合所有属性下的对比结果来做出最终的实体匹配决定。
[0004]在真实的应用场景中,上述方法往往面临着模式异构的挑战。模式异构指的待匹配的实体记录由不同的属性所组成,要将基于对齐属性的方法用于异构实体,通常需要先执行一个额外的模式匹配步骤来进行属性对齐。但是由于异构实体的属性之间可能存在各种复杂的对应关系,模式匹配本身也是一项非常困难的任务。同时,由于模式匹配和实体匹配的过程是相互独立的,容易导致错误传播等问题,进而影响整个实体匹配系统的全局优化。 />[0005]为了解决上述问题,现有的一些方法将结构化的实体记录统一转化为一维的符号序列,再使用基于序列的模型进行实体匹配。该类方法存在不足之处是,忽略了对于实体匹配非常重要的实体结构信息。还有一些方法提出在属性对比的过程中同时进行模式匹配,但是它们只针对属性可以一一对齐的情况,而不能处理一对多、多对多等更为复杂的属性对应关系。在近期提出的一些端到端的实体消解方法(Seq2SeqMatcher模型(CIKM2019),HierMatcher模型(IJCAI2020)等)中,使用全局的选择机制跨属性地进行符号对齐,在一定程度上缓解了实体消解中的模式异构挑战,但是该类方法在进行符号对齐时忽略了符号的局部上下文信息(属性层)。具体地,给定某个符号,在从另一个实体中为其选择对齐对象时,该类方法将所有属性中的所有符号同等对待,而没有考虑不同属性间的差异性,尤其当某些属性值中包含大量噪音时,会对最终的符号对齐性能造成很大影响。
技术实现思路
[0006]为克服现有实体匹配技术所面临的模式异构挑战,本专利技术提供了一种基于跨属性符号对齐的实体匹配方法及系统,其通过基于层次化选择机制的跨属性符号对齐、基于注意力机制的属性对比,打破属性边界的约束、在所有属性中为每一个符号自适应地选择对
比对象,为不同属性识别出重要的符号层匹配信号。
[0007]本专利技术所采用的技术方案如下:
[0008]一种基于跨属性符号对齐的实体匹配方法,其步骤包括:
[0009]1)将待匹配实体e1与待匹配实体e2的每一属性值分别表示为一符号序列,并获取每一符号的符号向量表示与上下文向量表示;
[0010]2)对于待匹配实体e1与待匹配实体e2的每一符号,依据符号向量表示与上下文向量表示,从对方待匹配实体所有属性中选择最相似的符号作为对齐目标,并分别计算与对齐目标之间的符号对比结果;
[0011]3)根据上下文向量表示,计算每一符号序列中各符号的权重,并通过各符号对比结果及相应权重,获取待匹配实体e1各属性与待匹配实体e2之间的第一匹配结果及待匹配实体e2各属性与待匹配实体e1之间的第二匹配结果;
[0012]4)将第一匹配结果与第二匹配结果拼接成一个比较向量并进行分类,判断待匹配实体e1与待匹配实体e2是否匹配。
[0013]进一步地,通过一个双向GRU网络,得到每一符号的上下文向量表示。
[0014]进一步地,待匹配实体e1的每一符号通过以下步骤从待匹配实体e2所有属性中选择最相似的符号:
[0015]1)依据待匹配实体e2中各符号的符号向量表示与上下文向量表示,分别构建待匹配实体e2各属性值的嵌入表示矩阵与上下文表示矩阵;
[0016]2)将待匹配实体e1的属性值符号x
1it
对应的符号向量表示w
1it
与待匹配实体e2的各嵌入表示矩阵分别输入一HighwayNet网络,得到待匹配实体e1每一符向量表示的隐藏表示g
1it
与待匹配实体e2每一属性值的隐藏表示G
2j
,其中1≤i≤m,1≤t≤T,1≤j≤n,m为待匹配实体e1的属性数量,T为待匹配实体e1的属性值i中的符号数量,n为待匹配实体e2的属性数量;
[0017]3)通过点乘操作,计算每一符向量表示w
1it
对待匹配实体e2属性值j中各符号q
j
的注意力向量其中Q为待匹配实体e2属性值j中的符号数量;
[0018]4)使用一个元素级的函数f,将该注意力向量v
2j
转换成一个one-hot的选择向量s
2j
,并依据各符号q
j
的v
2j
[q
j
]值,在待匹配实体e2属性值j中挑选出符号向量表示w
1it
的对齐候选符号q
′
j
,计算对齐候选符号q
′
j
的上下文表示向量得到符号x
1it
的上下文向量表示h
1it
对应的对齐候选集合c2=[c
21
,...c
2j
,...,c
2n
],其中u为用于获取上下文表示的双向GRU网络的隐藏层大小;
[0019]5)使用一个元素级别对比操作来为w
1it
获得一个对比矩阵,并将该对比矩阵转换为一个注意力向量其中w1是一随机初始化的权重向量,外积操作通过重复左边的向量n次来得到一个2u
×
n的矩阵;
[0020]6)使用一个元素级的函数f将v2转换成一个one-hot的选择向量s2,并依据各c
2j
的v2[c
2j
]值,挑选出符号向量表示w
1it
的对齐符号q
″
j
。
[0021]进一步地,通过一个线性层和一个softmax函数,将该对比矩阵转换为一个注意力向量v2。
[0022]进一步地,符号对比结果r
1it
=|h
1it-h
′
1it
|,其中
[0023]进一步地,匹配结果r
1i
=∑
t
β
1it
r
1it
,其中u
1i
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于跨属性符号对齐的实体匹配方法,其步骤包括:1)将待匹配实体e1与待匹配实体e2的每一属性值分别表示为一符号序列,并获取每一符号的符号向量表示与上下文向量表示;2)对于待匹配实体e1与待匹配实体e2的每一符号,依据符号向量表示与上下文向量表示,从对方待匹配实体所有属性中选择最相似的符号作为对齐目标,并分别计算与对齐目标之间的符号对比结果;3)根据上下文向量表示,计算每一符号序列中各符号的权重,并通过各符号对比结果及相应权重,获取待匹配实体e1各属性与待匹配实体e2之间的第一匹配结果及待匹配实体e2各属性与待匹配实体e1之间的第二匹配结果;4)将第一匹配结果与第二匹配结果拼接成一个比较向量并进行分类,判断待匹配实体e1与待匹配实体e2是否匹配。2.如权利要求1所述的方法,其特征在于,通过一个双向GRU网络,得到每一符号的上下文向量表示;待匹配实体e1的每一符号通过以下步骤从待匹配实体e2所有属性中选择最相似的符号:1)依据待匹配实体e2中各符号的符号向量表示与上下文向量表示,分别构建待匹配实体e2各属性值的嵌入表示矩阵与上下文表示矩阵;2)将待匹配实体e1的属性值符号x
1it
对应的符号向量表示w
1it
与待匹配实体e2的各嵌入表示矩阵分别输入一HighwayNet网络,得到待匹配实体e1每一符向量表示的隐藏表示g
1it
与待匹配实体e2每一属性值的隐藏表示G
2j
,其中1≤i≤m,1≤t≤T,1≤j≤n,m为待匹配实体e1的属性数量,T为待匹配实体e1的属性值i中的符号数量,n为待匹配实体e2的属性数量;3)通过点乘操作,计算每一符向量表示w
1it
对待匹配实体e2属性值j中各符号q
j
的注意力向量其中Q为待匹配实体e2属性值j中的符号数量;4)使用一个元素级的函数f,将该注意力向量v
2j
转换成一个one-hot的选择向量s
2j
,并依据各符号q
j
的v
2j
[q
j
]值,在待匹配实体e2属性值j中挑选出符号向量表示w
1it
的对齐候选符号q
′
j
,计算对齐候选符号q
′
j
的上下文表示向量得到符号x
1it
的上下文向量表示h
1it
对应的对齐候选集合c2=[c
21
,...c
2j
,...,c
2n
],其中u为用于获取上下文表示的双向GRU网络...
【专利技术属性】
技术研发人员:付成,韩先培,孙乐,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。