数据对账的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39280162 阅读:8 留言:0更新日期:2023-11-07 10:54
提供一种数据对账的方法、装置、电子设备以及存储介质。该数据对账的方法包括:在从至少两个源数据集到目标数据集数据同步开始后,根据对账指标,分别获取该至少两个源数据集的第一统计信息;其中,对账指标是基于字段业务类型确定的,字段业务类型用于指示数据集中用于指标统计的字段代表的真实含义;在从至少两个源数据集到目标数据集数据同步完成后,根据该对账指标,获取目标数据集的第二统计信息;根据第一统计信息和第二统计信息,确定至少两个源数据集和所述目标数据集的对账结果。本申请实施例能够高效地实现多个源数据集同步到一个目标数据集的数据对账。一个目标数据集的数据对账。一个目标数据集的数据对账。

【技术实现步骤摘要】
数据对账的方法、装置、电子设备及存储介质


[0001]本申请涉及计算机领域,并且更具体地,涉及数据对账的方法、装置、电子设备以及存储介质。

技术介绍

[0002]随着信息技术的快速发展,日常生活中会产生海量数据。区域的大数据中心需要从各个机构采集数据。当前数据采集普遍的解决方案是信息化厂商通过数据采集系统将对应的信息数据定时采集到前置机,然后大数据中心通过数据同步系统从前置机将数据同步到大数据中心。在数据同步的场景下,源数据集和目标数据集的数据可能会不一致,因此有必要及时对源数据集和目标数据集进行数据对账,来检测数据同步的正确性和可靠性。
[0003]通常,数据同步系统需要对多个数据采集系统的数据同步到一个数据中心。相关技术中,每次都只能对账单个源数据集的数据。因此,如何高效地对多个源数据集和目标数据集进行数据对账,亟待解决。

技术实现思路

[0004]本申请实施例提供了一种数据对账的方法、装置、电子设备以及存储介质,能够高效地实现多个源数据集同步到一个目标数据集的数据对账。
[0005]第一方面,提供了一种数据对账的方法,包括:
[0006]在从至少两个源数据集到目标数据集数据同步开始后,根据对账指标,分别获取所述至少两个源数据集的第一统计信息;其中,所述对账指标是基于字段业务类型确定的,所述字段业务类型用于指示数据集中用于指标统计的字段代表的真实含义;
[0007]在从所述至少两个源数据集到所述目标数据集数据同步完成后,根据所述对账指标,获取所述目标数据集的第二统计信息;
[0008]根据所述第一统计信息和所述第二统计信息,确定所述至少两个源数据集和所述目标数据集的对账结果。
[0009]第二方面,提供了一种数据对账的装置,包括:
[0010]统计单元,用于在从至少两个源数据集到目标数据集数据同步开始后,根据对账指标,分别获取所述至少两个源数据集的第一统计信息;其中,所述对账指标是基于字段业务类型确定的,所述字段业务类型用于指示数据集中用于指标统计的字段代表的真实含义;
[0011]所述统计单元还用于在从所述至少两个源数据集到所述目标数据集数据同步完成后,根据所述对账指标,获取所述目标数据集的第二统计信息;
[0012]确定单元,用于根据所述第一统计信息和所述第二统计信息,确定所述至少两个源数据集和所述目标数据集的对账结果。
[0013]第三方面,本申请提供了一种电子设备,包括:
[0014]处理器,适于实现计算机指令;以及,
[0015]存储器,存储有计算机指令,计算机指令适于由处理器加载并执行上述第一方面的方法。
[0016]第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被计算机设备的处理器读取并执行时,使得计算机设备执行上述第一方面的方法。
[0017]第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面的方法。
[0018]基于以上技术方案,本申请实施例能够根据基于字段业务类型的对账指标,对至少两个源数据集和目标数据集进行对账,由于字段业务类型能够表示数据集中用于指标统计的字段代表的真实含义,因此本申请实施例能够将不同数据集中表达统一含义的字段设置为同一个字段业务类型,从而实现一次对账多个源数据集的数据,高效地实现多个源数据集同步到一个目标数据集的数据对账。
[0019]进一步的,本申请实施例通过统计条件的配置,能够实现对前置机的源数据集和目标数据集进行当次同步数据和历史同步数据的指标统计和数据对账,从而能够在前置机历史数据变更时对历史数据进行重新统计,及时发现历史数据的对账问题,解决了由于前置机历史数据变更造成的下游数据漏采的问题,保证了数据同步的正确性和可靠性。
附图说明
[0020]图1为本申请实施例涉及的一种应用场景示意图;
[0021]图2为本申请实施例涉及的字段业务类型的一个具体例子;
[0022]图3为本申请实施例提供的添加字段的界面的一个示意图;
[0023]图4为根据本申请实施例的对账指标配置的界面的一个示意图;
[0024]图5为根据本申请实施例的对账指标配置的界面的另一个示意图;
[0025]图6为根据图4配置的对账指标获取的目标数据集的指标计算数据的一个具体例子。
[0026]图7为本申请实施例提供的一种数据对账的方法的示意性流程图;
[0027]图8为本申请实施例提供的系统架构的示意性框图;
[0028]图9为本申请实施例提供的指标计算过程的示意性流程图;
[0029]图10为本申请实施例提供的参数生成过程的示意性流程图;
[0030]图11为本申请实施例提供的一种数据对账的装置的示意性框图;
[0031]图12是本申请实施例提供的电子设备的示意性框图。
具体实施方式
[0032]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0033]首先,对本申请实施例涉及的相关术语进行描述。
[0034]前置机:机构跟外部共享数据的服务器。例如,在医疗机构系统中,前置机指医疗机构与大数据中心共享数据的服务器。
[0035]数据采集系统:将机构业务数据库中的数据通过脚本或工具采集到前置机的软件系统。例如,在医疗机构系统中,数据采集系统将医疗机构的业务数据库中的数据采集到对应的前置机。
[0036]数据同步系统:将前置机中的数据通过脚本或工具同步到数据中心的软件系统。
[0037]数据集(dataset):是一种由数据组成的集合。通常以表格形式出现,每一列代表一个特定变量,每一行都对应于某一成员的数据。
[0038]源数据集:数据采集或同步系统的源头数据集,用于读取数据。
[0039]目标数据集:数据采集或同步系统的目标数据集,用于将读取到的数据写入的数据集。
[0040]以下对本申请实施例的应用系统架构进行描述。
[0041]图1为本申请实施例涉及的一种系统架构100示意图。如图1所示,系统架构100包括数据采集系统110和数据同步系统120。
[0042]在数据采集系统110中,数据采集模块112将机构业务系统111中的数据定时采集到该机构业务系统对应的前置机113。每个组织机构可以对应一个数据采集系统110,用于将该组织机构的机构业务系统中的数据采集到该组织机构对应的前置机上。在系统架构100中,数据采集系统11本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据对账的方法,其特征在于,包括:在从至少两个源数据集到目标数据集数据同步开始后,根据对账指标,分别获取所述至少两个源数据集的第一统计信息;其中,所述对账指标是基于字段业务类型确定的,所述字段业务类型用于指示数据集中用于指标统计的字段代表的真实含义;在从所述至少两个源数据集到所述目标数据集数据同步完成后,根据所述对账指标,获取所述目标数据集的第二统计信息;根据所述第一统计信息和所述第二统计信息,确定所述至少两个源数据集和所述目标数据集的对账结果。2.根据权利要求1所述的方法,其特征在于,还包括:分别配置所述至少两个源数据集和所述目标数据集的所述字段业务类型;根据所述至少两个源数据集和所述目标数据集的所述字段业务类型,为所述至少两个源数据集和所述目标数据集分别配置所述对账指标。3.根据权利要求1所述的方法,其特征在于,所述字段业务类型包括分区时间单元、机构代码、科室代码中的至少一种,所述分区时间单元包括分区日期或分区小时。4.根据权利要求1所述的方法,其特征在于,所述对账指标包括统计维度和统计条件,其中,所述统计维度用于标识所述对账指标的维度,所述统计条件用于标识所述对账指标的统计范围。5.根据权利要求4所述的方法,其特征在于,所述统计条件用于标识对当前分区时间单元的同步数据进行数据对账,或者对当前分区时间单元以及历史分区时间单元的同步数据进行数据对账。6.根据权利要求5所述的方法,其特征在于,在所述统计条件用于标识对当前分区时间单元以及历史分区时间单元的同步数据进行数据对账的情况下,所述根据对账指标,分别获取所述至少两个源数据集的第一统计信息,包括:分别生成所述至少两个源数据集在所述当前分区时间单元和所述历史分区时间单元的零数据;根据所述对账指标,分别生成所述至少两个源数据集在所述当前分区时间单元和所述历史分区时间单元的统计信息;将所述至少两个源数据集在所述当前分区时间单元和所述历史分区时间单元的零数据,更新为所述至少两个源数据集在所述当前分区时间单元和所述历史分区时间单元的统计信息;所述根据所述对账指标,获取所述目标数据集的第二统计信息...

【专利技术属性】
技术研发人员:史忠贤汪哲宇周耀勇王玮姜天意罗源
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1