一种数据整合方法及系统、设备和存储介质技术方案

技术编号:31237779 阅读:39 留言:0更新日期:2021-12-08 10:23
本申请公开了一种数据整合方法,包括:实体匹配步骤:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源实体匹配;数据融合步骤:将匹配成功的至少一个数据源实体,进行链接和融合,并采用集合型数据结构存储来自多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。本发明专利技术方法实现了增量多源数据整合,可以减少匹配次数,释放已处理数据的存储空间。释放已处理数据的存储空间。释放已处理数据的存储空间。

【技术实现步骤摘要】
一种数据整合方法及系统、设备和存储介质


[0001]本申请涉及数据处理领域,特别是涉及一种数据整合方法、系统、计算机设备和计算机可读存储介质。

技术介绍

[0002]当今当前,许多企业都将数据视为一项重要资产,但往往由于管理人员变迁、物理布局分散、系统自治等原因,数据存在来源繁杂(不同类型的关系型数据库,不同部门的数据等)、结构异构(SQL,NoSQL数据库,文本文件,Hive大数据等)等问题,要完成不同部门数据资产的统一管理,并不简单。在企业的数字化转型过程中,将多源异构的数据进行集成、融合,是企业做好上层应用的必要基础条件,而实体匹配和数据融合是这一过程中非常重要的环节。举例来讲,数据源1有个“张三,男,30岁,明略科技”,数据源2有个“张三,男,28岁,秒针”,判断两个“张三”是否是同一人,如是的话,需要将两个“张三”融合成为一个“张三”为应用层提供服务,判断是否一个人一般称之为实体匹配任务,而融合为一个“张三”一般称之为数据融合任务,实际应用中实体匹配任务和数据融合任务密切关联,共同组成多源数据的整合处理技术。/>[0003](1本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据整合方法,其特征在于,包括:实体匹配步骤:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源的实体匹配;数据融合步骤:将匹配成功的至少一个所述数据源实体,进行链接和融合,并采用集合型数据结构存储来自所述多个数据源实体的多值属性,生成多值属性集合,完成多源数据的数据整合。2.根据权利要求1所述数据整合方法,其特征在于,还包括:增量匹配融合步骤:将新增数据源实体,执行所述实体匹配步骤及所述数据融合步骤,完成新增数据源实体的动态数据整合。3.根据权利要求1所述数据整合方法,其特征在于,所述集合型数据的相似度计算,采用公式:对于集合A和集合B,分别对于所述集合A中和所述集合B中的每个元素(a,b),取其与另一个集合元素的最大相似度,加和后除以所述集合A和所述集合B的长度和。4.根据权利要求1所述数据整合方法,其特征在于,所述多个数据源实体合成一个所述多值属性集合,针对所述多值属性集合的其中一个属性,以集合形式保存了所有所述多个数据源的同一属性的不同值。5.一种数据整合系统,采用如权利要求1

4中任意一项所述的数据整合处理方法,其特征在于,包括:实体匹配模块:基于集合型数据的相似度计算,将多个数据源实体进行匹配,完成多数据源的实体匹配;...

【专利技术属性】
技术研发人员:黄艳香白强伟
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1