基于分布式图处理框架的数据匹配与合并的方法和系统技术方案

技术编号:40076579 阅读:23 留言:0更新日期:2024-01-17 01:27
本发明专利技术提供基于分布式图处理框架的数据匹配与合并的方法和系统,该方法包括:从多个数据源的数据提取出需要匹配与合并的数据字段,对该数据字段对应的数据进行预处理后统一汇总至数据中转表,并根据匹配计算模型对中转表中的数据进行筛选,筛选出可唯一识别数据,基于分布式图处理框架将属于同一主体的多个可识别字段建立连通图,通过连通图对应的唯一识别码在目标数据表中进行检索,若存在与唯一识别码属于同一主体历史唯一识别码,将连通图对应的可唯一识别数据合并至该主体的原始数据,反之,直接将该可唯一识别数据和唯一识别码加入目标数据表。本发明专利技术能够有效降低同一用户数据散乱分布的概率,使多次合并后的数据仍可追溯到合并前的数据。

【技术实现步骤摘要】

本专利技术涉及信息数据处理,尤其涉及基于分布式图处理框架的数据匹配与合并的方法和系统


技术介绍

1、企业级患者主索引(enterprise master patient index,empi)是一种用于管理患者身份信息的系统。empi通过使用特定的匹配算法和标识交叉索引机制,将来自不同数据源和应用的患者信息进行识别、匹配和去重,从而为每个患者分配一个唯一且持久的全局标识。通过empi,可以避免重复登记、重复检查和重复诊疗等问题,提高患者信息的质量和完整性,促进跨机构和跨平台的数据共享和协作,支持个性化医疗、精准医疗、健康管理等服务。empi通过使用特定的匹配算法和标识交叉索引机制,将来自不同数据源和应用的患者信息进行识别、匹配和去重,从而为每个患者分配一个唯一且持久的全局标识。

2、现有的技术方案查询某一主体的所有信息时,需要经过多次反查,增加了查询时间和成本;多数据源内含有大量的重复信息,需对信息进行筛选,影响查询效率和准确性;难以对已经匹配过的数据进行修正,不利于针对主体进行后续的数据分析与应用,无法发现主体之间的潜在联系和规律。

本文档来自技高网...

【技术保护点】

1.一种基于分布式图处理框架的数据匹配与合并的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述的更新所述目标数据表的历史唯一识别码,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述的根据所述匹配得分的数值将所述不可唯一识别数据分类加入至所述目标数据表中,具体包括:

5.根据权利要求1所述的方法,其特征在于,在所述的从多个数据源的数据中提取需要匹配与合并的数据字段,对所述数据字段对应的数据进行预处理后汇总至数据中转表之后,还包括:

...

【技术特征摘要】

1.一种基于分布式图处理框架的数据匹配与合并的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述的更新所述目标数据表的历史唯一识别码,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述的根据所述匹配得分的数值将所述不可唯一识别数据分类加入至所述目标数据表中,具体包括:

5.根据权利要求1所述的方法,其特征在于,在所述的从多个数据源的数据中提取需要匹配与合并的数据字段,对所述数据字段对应的...

【专利技术属性】
技术研发人员:王佐祎李乐王晓伟
申请(专利权)人:中国电子投资控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1