System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于分布式图处理框架的数据匹配与合并的方法和系统技术方案_技高网

基于分布式图处理框架的数据匹配与合并的方法和系统技术方案

技术编号:40076579 阅读:7 留言:0更新日期:2024-01-17 01:27
本发明专利技术提供基于分布式图处理框架的数据匹配与合并的方法和系统,该方法包括:从多个数据源的数据提取出需要匹配与合并的数据字段,对该数据字段对应的数据进行预处理后统一汇总至数据中转表,并根据匹配计算模型对中转表中的数据进行筛选,筛选出可唯一识别数据,基于分布式图处理框架将属于同一主体的多个可识别字段建立连通图,通过连通图对应的唯一识别码在目标数据表中进行检索,若存在与唯一识别码属于同一主体历史唯一识别码,将连通图对应的可唯一识别数据合并至该主体的原始数据,反之,直接将该可唯一识别数据和唯一识别码加入目标数据表。本发明专利技术能够有效降低同一用户数据散乱分布的概率,使多次合并后的数据仍可追溯到合并前的数据。

【技术实现步骤摘要】

本专利技术涉及信息数据处理,尤其涉及基于分布式图处理框架的数据匹配与合并的方法和系统


技术介绍

1、企业级患者主索引(enterprise master patient index,empi)是一种用于管理患者身份信息的系统。empi通过使用特定的匹配算法和标识交叉索引机制,将来自不同数据源和应用的患者信息进行识别、匹配和去重,从而为每个患者分配一个唯一且持久的全局标识。通过empi,可以避免重复登记、重复检查和重复诊疗等问题,提高患者信息的质量和完整性,促进跨机构和跨平台的数据共享和协作,支持个性化医疗、精准医疗、健康管理等服务。empi通过使用特定的匹配算法和标识交叉索引机制,将来自不同数据源和应用的患者信息进行识别、匹配和去重,从而为每个患者分配一个唯一且持久的全局标识。

2、现有的技术方案查询某一主体的所有信息时,需要经过多次反查,增加了查询时间和成本;多数据源内含有大量的重复信息,需对信息进行筛选,影响查询效率和准确性;难以对已经匹配过的数据进行修正,不利于针对主体进行后续的数据分析与应用,无法发现主体之间的潜在联系和规律。

3、另外,在大数据场景下,由于网络延迟等因素,数据的迟到、漏到和补到是常见现象,即使是来自同一数据源的数据,也可能存在录入和处理顺序不一致的情况。使得即使经过企业级患者主索引处理的数据仍会存在数据不一致性和冗余性,导致用户数据散乱分布,在同一个数据主体多次合并后数据不可追溯,给数据分析和应用带来困难和误差。


技术实现思路

1、有鉴于此,本专利技术实施例的目的在于提供一种基于分布式图处理框架的数据匹配与合并的方法和系统,以解决现有技术中在大数据场景下由于数据不一致性和冗余性,导致用户数据散乱分布,同一个数据主体多次合并后数据不可追溯的技术问题。

2、为达到上述目的,第一方面,本专利技术实施例提供一种基于分布式图处理框架的数据匹配与合并的方法,所述方法包括:

3、从多个数据源的数据中提取需要匹配与合并的数据字段,对所述数据字段对应的数据进行预处理后汇总至数据中转表;

4、从所述数据中转表中按照预设的匹配计算模型筛选出可唯一识别数据,每个所述可唯一识别数据对应的主体包括多个可识别字段;

5、使用分布式图处理框架将属于同一主体的多个可识别字段作为顶点建立边的关系,形成多张连通图,并将最小所述顶点的值作为每张所述连通图的唯一识别码;

6、通过所述唯一识别码在目标数据表中进行检索,当所述目标数据表中存在与所述唯一识别码具有相同主体的历史唯一识别码时,将所述连通图对应的可唯一识别数据合并至历史唯一识别码对应的原始数据,并更新所述目标数据表的历史唯一识别码;当所述目标数据表中不存在与所述唯一识别码具有相同主体的历史唯一识别码时,直接将所述连通图对应的可唯一识别数据和所述唯一识别码加入所述目标数据表。

7、在一些可能的实施方式中,所述方法还包括:所述的更新所述目标数据表的历史唯一识别码,具体包括:

8、将所述连通图的唯一识别码与所述历史唯一识别码进行比较;

9、当所述连通图的唯一识别码小于所述历史唯一识别码时,则将所述唯一识别码更新至所述目标数据表连通图;

10、当所述连通图的唯一识别码大于所述历史唯一识别码时,则将所述历史唯一识别码赋予所述连通图,并更新所述目标数据表。

11、在一些可能的实施方式中,当未检索到预设所述与所述连通图的主体相同的原连通图时,直接将所述连通图对应的数据加入所述目标数据表。

12、在一些可能的实施方式中,对于所述数据中转表中筛选后的不可唯一识别数据,根据所述匹配计算模型对所述不可唯一识别数据分别与所述目标数据表中的数据进行相似匹配得分计算,获得每一个所述不可唯一识别数据与所述目标数据表中的数据的匹配得分,根据所述匹配得分的数值将所述不可唯一识别数据分类加入至目标数据表中。

13、在一些可能的实施方式中,所述的根据所述匹配得分的数值将所述不可唯一识别数据分类加入至所述目标数据表中,具体包括:

14、如果所述不可唯一识别数据的最高匹配得分的数值低于在所述匹配计算模型中设定的低阈值,则确定该不可唯一识别数据不与所述目标数据表中的数据匹配,将所述不可唯一识别数据作为新数据加入到所述目标数据表中,并标注该不可唯一识别数据为新数据;

15、如果所述不可唯一识别数据的最高匹配得分的数值高于在所述匹配计算模型中设定的高阈值,则确定该不可唯一识别数据与所述目标数据表中的数据有高度相似性,将所述不可唯一识别数据与所述目标数据表中匹配得分最高的数据合并,并标注该不可唯一识别数据为融合数据;

16、如果所述不可唯一识别数据的最高匹配得分的数值位于所述低阈值和高阈值之间,则确定该所述不可唯一识别数据与所述目标数据表中的数据具有相似性,则将所述不可唯一识别数据加入人工审核表中,根据人工审核结果将所述不可唯一识别数据加入所述目标数据表中,并标注所述不可唯一识别数据为待审核数据,根据人工审核结果将所述不可唯一识别数据分类加入到所述目标数据表中。

17、在一些可能的实施方式中,在所述的从多个数据源的数据中提取需要匹配与合并的数据字段,对所述数据字段对应的数据进行预处理后汇总至数据中转表之后,还包括:

18、获取多个匹配计算模型;

19、根据预设的抽样规则从所述数据中转表中抽取预设数量的数据样本,并将所述数据样本存储至数据抽样表;

20、根据多个所述匹配计算模型分别对所述数据抽样表中的数据进行内部的数据匹配度检测,获取多个抽样测试结果;并将多个所述抽样测试结果进行比较,根据比较的结果选取合适的匹配计算模型。

21、在一些可能的实施方式中,所述的获取多个匹配计算模型具体包括:

22、任意选定一个所述数据源作为输入数据,建立所述输入数据与所述目标数据表之间的数据字段映射关系;

23、根据所述数据字段映射关系选取需要计算的数据字段和计算的匹配方式,根据所述计算的匹配方式选择所述需要计算的数据字段的不同的权重占比,生成多个匹配计算模型;

24、在一些可能的实施方式中,所述方法还包括:

25、根据多个所述匹配计算模型分别计算所述数据抽样表中的每条抽样数据与其它抽样数据之间的匹配得分,并按照所述匹配得分的数值进行分类展示;

26、如果最高匹配得分的数值低于在所述匹配计算模型中设定的低阈值时,则确定该抽样数据不与其它抽样数据匹配,将该抽样数据单独展示在可视化界面上;

27、如果最高匹配得分的数值高于在所述匹配计算模型中设定的低阈值,则确定该抽样数据与其它数据有一定的相似性,将该抽样数据和与之匹配得分的数值最高的抽样数据一同展示在可视化界面上。

28、第二方面,本专利技术实施例提供了一种基于分布式图处理框架的数据匹配与合并的系统,所述系统包括:

29、数据汇总模块,用于从多个数据本文档来自技高网...

【技术保护点】

1.一种基于分布式图处理框架的数据匹配与合并的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述的更新所述目标数据表的历史唯一识别码,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述的根据所述匹配得分的数值将所述不可唯一识别数据分类加入至所述目标数据表中,具体包括:

5.根据权利要求1所述的方法,其特征在于,在所述的从多个数据源的数据中提取需要匹配与合并的数据字段,对所述数据字段对应的数据进行预处理后汇总至数据中转表之后,还包括:

6.根据权利要求5所述的方法,其特征在于,所述的获取多个匹配计算模型具体包括:

7.根据权利要求5所述的方法,其特征在于,所述方法还包括:

8.一种基于分布式图处理框架的数据匹配与合并的系统,其特征在于,所述系统包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任意一项所述的一种基于分布式图处理框架的数据匹配与合并的方法。

10.一种电子设备,其特征在于,其包括:

...

【技术特征摘要】

1.一种基于分布式图处理框架的数据匹配与合并的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述的更新所述目标数据表的历史唯一识别码,具体包括:

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述的根据所述匹配得分的数值将所述不可唯一识别数据分类加入至所述目标数据表中,具体包括:

5.根据权利要求1所述的方法,其特征在于,在所述的从多个数据源的数据中提取需要匹配与合并的数据字段,对所述数据字段对应的...

【专利技术属性】
技术研发人员:王佐祎李乐王晓伟
申请(专利权)人:中国电子投资控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1