一种基于跨属性符号对齐的实体匹配方法及系统技术方案

技术编号：33091707 阅读：31 留言：0更新日期：2022-04-16 23:21

本发明专利技术提供一种基于跨属性符号对齐的实体匹配方法及系统，包括将待匹配实体e1与待匹配实体e2的每一属性值表示为符号序列，获取符号向量表示与上下文向量表示；依据符号向量表示与上下文向量表示，从对方待匹配实体所有属性中选择最相似的符号作为对齐目标；计算与对齐目标之间的符号对比结果；计算每一符号序列中各符号的权重；通过各符号对比结果及相应权重，获取第一匹配结果及第二匹配结果；将第一匹配结果与第二匹配结果拼接成一个比较向量并进行分类，判断待匹配实体e1与待匹配实体e2是否匹配。本发明专利技术通过为所有属性中符号选择最优对比对象，解决实体匹配中模式异构问题，并根据不同符号重要性，降低冗余、噪声数据对匹配结果带来的影响。配结果带来的影响。配结果带来的影响。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于跨属性符号对齐的实体匹配方法及系统

[0001]本专利技术涉及实体匹配
，特别是涉及一种基于跨属性符号对齐的实体匹配方法及系统。

技术介绍

[0002]实体匹配也称为实体消解或实体对齐，是判断相同或不同来源的2个实体描述是否指向真实世界同一对象的过程。在不同的应用领域的中，实体匹配任务也有不同的叫法。例如，在数据库领域，它也被称之为记录链接、记录匹配，或者重复检测；在自然语言处理和信息检索领域，它则常被称为共指消解。实体匹配技术在数据清洗、数据整合、知识补全、知识融合等方面都有着十分重要的作用。
[0003]在实体匹配任务中，待匹配的实体记录通常都是一个结构化的对象，由一个或者多个<属性,属性值>对组成，每个属性值又由一个或者多个符号(Token)组成。现有大多数实体匹配方法均假设待匹配的实体记录是同构的，即由相同或者对齐的属性所组成。在此前提下，给定两个实体记录，典型的方法首先对比相同/对齐属性的属性值，然后聚合所有属性下的对比结果来做出最终的实体匹配决定。
[00...

【技术保护点】

【技术特征摘要】
1.一种基于跨属性符号对齐的实体匹配方法，其步骤包括：1)将待匹配实体e1与待匹配实体e2的每一属性值分别表示为一符号序列，并获取每一符号的符号向量表示与上下文向量表示；2)对于待匹配实体e1与待匹配实体e2的每一符号，依据符号向量表示与上下文向量表示，从对方待匹配实体所有属性中选择最相似的符号作为对齐目标，并分别计算与对齐目标之间的符号对比结果；3)根据上下文向量表示，计算每一符号序列中各符号的权重，并通过各符号对比结果及相应权重，获取待匹配实体e1各属性与待匹配实体e2之间的第一匹配结果及待匹配实体e2各属性与待匹配实体e1之间的第二匹配结果；4)将第一匹配结果与第二匹配结果拼接成一个比较向量并进行分类，判断待匹配实体e1与待匹配实体e2是否匹配。2.如权利要求1所述的方法，其特征在于，通过一个双向GRU网络，得到每一符号的上下文向量表示；待匹配实体e1的每一符号通过以下步骤从待匹配实体e2所有属性中选择最相似的符号：1)依据待匹配实体e2中各符号的符号向量表示与上下文向量表示，分别构建待匹配实体e2各属性值的嵌入表示矩阵与上下文表示矩阵；2)将待匹配实体e1的属性值符号x
1it
对应的符号向量表示w
1it
与待匹配实体e2的各嵌入表示矩阵分别输入一HighwayNet网络，得到待匹配实体e1每一符向量表示的隐藏表示g
1it
与待匹配实体e2每一属性值的隐藏表示G
2j
，其中1≤i≤m，1≤t≤T，1≤j≤n，m为待匹配实体e1的属性数量，T为待匹配实体e1的属性值i中的符号数量，n为待匹配实体e2的属性数量；3)通过点乘操作，计算每一符向量表示w
1it
对待匹配实体e2属性值j中各符号q
j
的注意力向量其中Q为待匹配实体e2属性值j中的符号数量；4)使用一个元素级的函数f，将该注意力向量v
2j
转换成一个one-hot的选择向量s
2j
，并依据各符号q
j
的v
2j
[q
j
]值，在待匹配实体e2属性值j中挑选出符号向量表示w
1it
的对齐候选符号q
′
j
，计算对齐候选符号q
′
j
的上下文表示向量得到符号x
1it
的上下文向量表示h
1it
对应的对齐候选集合c2＝[c
21
，...c
2j
，...，c
2n
]，其中u为用于获取上下文表示的双向GRU网络...

【专利技术属性】
技术研发人员：付成，韩先培，孙乐，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人