【技术实现步骤摘要】
本专利技术涉及实体匹配领域,尤其涉及一种面向异构属性的词元级实体匹配方法及系统。
技术介绍
1、随着我国信息化进程的推进,各企业与政府部门的数据库的建设逐渐完善,但数据之间往往因彼此孤立而无法发挥最大价值。为了响应国家加强汇聚共享和开放开发,强化统筹授权使用和管理,推进互联互通,打破“数据孤岛”的要求,数据之间的关联至关重要,因此需要用到实体匹配技术。实体匹配旨在识别指向同一真实世界实体的数据记录。现有的大多数实体匹配方法依赖于这样的假设:要解析的实体记录是同质的,即它们的属性是对齐的。例如deepmatcher和magellan方法。前者将实体作为整体进行编码进行比较,无法捕捉词元级别的信息。而后者则需要手动建立合并列表和候选集并且指定要素才能进行解析,因此对缺失值和脏数据较敏感。实际上,真实世界数据集中的实体通常是异构的,来自不同的源并以不同的属性表示。此外,实体的属性值可能是冗余的、噪声的、丢失的、错位的或拼写错误。因此现有的实体匹配方法无法有效地处理该类数据。
技术实现思路
1、为
...【技术保护点】
1.一种面向异构属性的词元级实体匹配方法,其特征在于,包括:
2.根据权利要求1所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤S2具体为:
3.根据权利要求2所述的面向异构属性的词元级实体匹配方法,其特征在于,跨词元匹配矩阵C1it的计算公式为:
4.根据权利要求2所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤S24中输出矩阵G1it的表达式为:
5.根据权利要求2所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤S25具体为:
6.根据权利要求1所述的面向异构属性的词元级实体匹配方
...【技术特征摘要】
1.一种面向异构属性的词元级实体匹配方法,其特征在于,包括:
2.根据权利要求1所述的面向异构属性的词元级实体匹配方法,其特征在于,步骤s2具体为:
3.根据权利要求2所述的面向异构属性的词元级实体匹配方法,其特征在于,跨词元匹配矩阵c1it的计算公式为:
4.根据权利要求2所述的面向异构属性的词元级实...
【专利技术属性】
技术研发人员:唐凯靖,王勇,刘畅,王文伟,
申请(专利权)人:中国地质大学武汉,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。