【技术实现步骤摘要】
一种基于跨属性符号对齐的实体匹配方法及系统
[0001]本专利技术涉及实体匹配
,特别是涉及一种基于跨属性符号对齐的实体匹配方法及系统。
技术介绍
[0002]实体匹配也称为实体消解或实体对齐,是判断相同或不同来源的2个实体描述是否指向真实世界同一对象的过程。在不同的应用领域的中,实体匹配任务也有不同的叫法。例如,在数据库领域,它也被称之为记录链接、记录匹配,或者重复检测;在自然语言处理和信息检索领域,它则常被称为共指消解。实体匹配技术在数据清洗、数据整合、知识补全、知识融合等方面都有着十分重要的作用。
[0003]在实体匹配任务中,待匹配的实体记录通常都是一个结构化的对象,由一个或者多个<属性,属性值>对组成,每个属性值又由一个或者多个符号(Token)组成。现有大多数实体匹配方法均假设待匹配的实体记录是同构的,即由相同或者对齐的属性所组成。在此前提下,给定两个实体记录,典型的方法首先对比相同/对齐属性的属性值,然后聚合所有属性下的对比结果来做出最终的实体匹配决定。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种基于跨属性符号对齐的实体匹配方法,其步骤包括:1)将待匹配实体e1与待匹配实体e2的每一属性值分别表示为一符号序列,并获取每一符号的符号向量表示与上下文向量表示;2)对于待匹配实体e1与待匹配实体e2的每一符号,依据符号向量表示与上下文向量表示,从对方待匹配实体所有属性中选择最相似的符号作为对齐目标,并分别计算与对齐目标之间的符号对比结果;3)根据上下文向量表示,计算每一符号序列中各符号的权重,并通过各符号对比结果及相应权重,获取待匹配实体e1各属性与待匹配实体e2之间的第一匹配结果及待匹配实体e2各属性与待匹配实体e1之间的第二匹配结果;4)将第一匹配结果与第二匹配结果拼接成一个比较向量并进行分类,判断待匹配实体e1与待匹配实体e2是否匹配。2.如权利要求1所述的方法,其特征在于,通过一个双向GRU网络,得到每一符号的上下文向量表示;待匹配实体e1的每一符号通过以下步骤从待匹配实体e2所有属性中选择最相似的符号:1)依据待匹配实体e2中各符号的符号向量表示与上下文向量表示,分别构建待匹配实体e2各属性值的嵌入表示矩阵与上下文表示矩阵;2)将待匹配实体e1的属性值符号x
1it
对应的符号向量表示w
1it
与待匹配实体e2的各嵌入表示矩阵分别输入一HighwayNet网络,得到待匹配实体e1每一符向量表示的隐藏表示g
1it
与待匹配实体e2每一属性值的隐藏表示G
2j
,其中1≤i≤m,1≤t≤T,1≤j≤n,m为待匹配实体e1的属性数量,T为待匹配实体e1的属性值i中的符号数量,n为待匹配实体e2的属性数量;3)通过点乘操作,计算每一符向量表示w
1it
对待匹配实体e2属性值j中各符号q
j
的注意力向量其中Q为待匹配实体e2属性值j中的符号数量;4)使用一个元素级的函数f,将该注意力向量v
2j
转换成一个one-hot的选择向量s
2j
,并依据各符号q
j
的v
2j
[q
j
]值,在待匹配实体e2属性值j中挑选出符号向量表示w
1it
的对齐候选符号q
′
j
,计算对齐候选符号q
′
j
的上下文表示向量得到符号x
1it
的上下文向量表示h
1it
对应的对齐候选集合c2=[c
21
,...c
2j
,...,c
2n
],其中u为用于获取上下文表示的双向GRU网络...
【专利技术属性】
技术研发人员:付成,韩先培,孙乐,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。