一种面向异构属性的词元级实体匹配方法及系统技术方案

技术编号:40426340 阅读:21 留言:0更新日期:2024-02-20 22:46
本发明专利技术提供一种面向异构属性的词元级实体匹配方法,包括:S1:获取实体对集合,将实体对集合分为训练集和测试集;S2:通过训练集构建跨词元匹配矩阵,通过跨词元匹配矩阵重构词元的向量,获得词元级匹配向量;S3:通过词元级匹配向量对匹配模型进行训练,获得训练好的匹配模型;S4:通过训练好的匹配模型对测试集进行匹配,获得实体匹配结果。本发明专利技术通过将属性中的词元转化为向量,利用向量与待匹配实体的每个词元的向量进行比较构建跨词元匹配矩阵,跨词元匹配矩阵包含了整个实体的向量信息,可以自适应地为每个属性获取合适的匹配对象,对数据间实体匹配具有高准确性与健壮性强的优点,能够有效处理实体匹配出现的脏数据问题。

【技术实现步骤摘要】

本专利技术涉及实体匹配领域,尤其涉及一种面向异构属性的词元级实体匹配方法及系统


技术介绍

1、随着我国信息化进程的推进,各企业与政府部门的数据库的建设逐渐完善,但数据之间往往因彼此孤立而无法发挥最大价值。为了响应国家加强汇聚共享和开放开发,强化统筹授权使用和管理,推进互联互通,打破“数据孤岛”的要求,数据之间的关联至关重要,因此需要用到实体匹配技术。实体匹配旨在识别指向同一真实世界实体的数据记录。现有的大多数实体匹配方法依赖于这样的假设:要解析的实体记录是同质的,即它们的属性是对齐的。例如deepmatcher和magellan方法。前者将实体作为整体进行编码进行比较,无法捕捉词元级别的信息。而后者则需要手动建立合并列表和候选集并且指定要素才能进行解析,因此对缺失值和脏数据较敏感。实际上,真实世界数据集中的实体通常是异构的,来自不同的源并以不同的属性表示。此外,实体的属性值可能是冗余的、噪声的、丢失的、错位的或拼写错误。因此现有的实体匹配方法无法有效地处理该类数据。


技术实现思路

1、为解决上述技术问题,本本文档来自技高网...

【技术保护点】

1.一种面向异构属性的词元级实体匹配方法,其特征在于,包括:

2.根据权利要求1所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤S2具体为:

3.根据权利要求2所述的面向异构属性的词元级实体匹配方法,其特征在于,跨词元匹配矩阵C1it的计算公式为:

4.根据权利要求2所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤S24中输出矩阵G1it的表达式为:

5.根据权利要求2所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤S25具体为:

6.根据权利要求1所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤...

【技术特征摘要】

1.一种面向异构属性的词元级实体匹配方法,其特征在于,包括:

2.根据权利要求1所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤s2具体为:

3.根据权利要求2所述的面向异构属性的词元级实体匹配方法,其特征在于,跨词元匹配矩阵c1it的计算公式为:

4.根据权利要求2所述的面向异构属性的词元级实...

【专利技术属性】
技术研发人员:唐凯靖王勇刘畅王文伟
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1