基于增量标识的数据生产方法、装置、设备及存储介质制造方法及图纸

技术编号:34605753 阅读:51 留言:0更新日期:2022-08-20 09:10
本申请公开了一种基于增量标识的数据生产方法、装置、设备及存储介质,方法包括:方法包括:确定多个数据原始表之间的表关联信息;根据表关联信息,从多个数据原始表中确定目标数据的数据来源表;基于多个数据原始表生产携带有增量标识的全量目标数据,增量标识用于标识全量目标数据中的行数据,且增量标识根据数据来源表和数据来源表的行数据对应的标识信息生成;当数据原始表的行数据发生变化时,基于多个数据原始表生产携带有增量标识的增量目标数据;基于增量标识,将增量目标数据合并至全量目标数据;应用本方法,能够通过增量标识能够实现数据生产的识别、计算、合并,降低增量生产需求的响应时间,提高计算资源的利用率。率。率。

【技术实现步骤摘要】
基于增量标识的数据生产方法、装置、设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种基于增量标识的数据生产方法、装置、设备及存储介质。

技术介绍

[0002]原始的医疗数据包含大量有价值的数据,同时存在数据来源多,数据结构复杂、数据质量低、数据碎片化严重的特点。医疗数据生产需要将原始的医疗数据转化为统一标准高质量的结构化医疗数据,以获得全量数据。
[0003]同时,医疗数据还存在多种应用场景,如疫情防控、辅助诊断、疫苗接种,需要实时更新标准化医疗数据才能满足要求,但是由于医疗数据的来源差异性大,普通的数据生产方式生产的数据无法满足需求。

技术实现思路

[0004]本申请实施例为了解决
技术介绍
中存在的上述问题,创造性地提供一种基于增量标识的数据生产、装置、设备及存储介质。
[0005]根据本申请实施例第一方面,提供了一种基于增量标识的数据生产方法,所述方法包括:确定多个数据原始表之间的表关联信息;根据所述表关联信息,从所述多个数据原始表中确定目标数据的数据来源表;基于所述多个数据原始表生产携带有增量标识的全量目标数据,所述增量标识用于标识所述全量目标数据中的行数据,且所述增量标识根据所述数据来源表和所述数据来源表的行数据对应的标识信息生成;当所述数据原始表的行数据发生变化时,基于所述多个数据原始表生产携带有增量标识的增量目标数据;基于所述增量标识,将所述增量目标数据合并至所述全量目标数据。
[0006]根据本申请一实施方式,所述确定多个数据原始表之间的表关联信息,包括:基于全量数据生产语句,确定多张数据原始表之间的表关联信息;所述根据所述表关联信息,从多个数据原始表中确定目标数据的数据来源表,包括:根据所述表关联信息确定优先级最高的数据原始表,将所述优先级最高的数据原始表确定为数据来源表。
[0007]根据本申请一实施方式,所述表关联关系包括左数据原始表和右数据原始表之间的左联接、右联接、内联接和外联接;所述根据所述表关联信息确定优先级最高的数据原始表,包括:基于所述表关联关系,比较左数据原始表和右数据原始表的优先级。
[0008]根据本申请一实施方式,所述方法还包括:若优先级最高的数据原始表数量不唯一,确定其中一数据原始表为数据来源表。
[0009]根据本申请一实施方式,在所述基于所述多个数据原始表生产携带有增量标识的全量目标数据之前,所述还包括:基于全量数据生产语句,确定所述数据来源表的标识信息。
[0010]根据本申请一实施方式,基于所述全量数据生产语句,确定所述数据来源表的标识信息,包括:若所述全量数据生产语句包括预定操作,确定所述预定操作对应字段与所述
主键信息的交集字段为标识信息,或者确定所述预定操作对应字段为标识信息;其中,所述预定操作包括聚合操作、合并操作以及子查询嵌套操作的任一种。
[0011]根据本申请一实施方式,基于所述全量数据生产语句,确定所述数据来源表的标识信息,还包括:若所述全量数据生产语句未包括所述预定操作,选择所述数据来源表的主键信息或者聚合索引信息为标识信息。
[0012]根据本申请一实施方式,所述基于所述多个数据原始表生产携带有增量标识的全量目标数据,包括:根据所述数据来源表和所述数据来源表的标识信息修改所述全量数据生成语句,得到包括增量标识子句的全量数据生产语句;根据所述包括增量标识子句的全量数据生产语句对所述多个数据原始表进行数据生产,获得携带有增量标识的全量目标数据。
[0013]根据本申请一实施方式,当所述数据原始表的行数据发生变化时,基于所述多个数据原始表生产携带有增量标识的增量目标数据,包括:根据所述标识信息和所述表关联关系,确定与所述数据原始表中发生变化的行数据相对应的其他数据原始表中的行数据;根据所述包括增量标识子句的全量数据生产语句对所述发生变化的行数据和相对应的行数据进行数据生产,获得所述携带有增量标识的增量目标数据。
[0014]根据本申请实施例第二方面,提供了一种基于增量标识的数据生产装置,所述装置包括:确定模块,用于确定多个数据原始表之间的表关联信息;所述确定模块,还用于根据所述表关联信息,从所述多个数据原始表中确定目标数据的数据来源表;生产模块,用于基于所述多个数据原始表生产携带有增量标识的全量目标数据,所述增量标识用于标识所述全量目标数据中的行数据,且所述增量标识根据所述数据来源表和所述数据来源表的行数据对应的标识信息生成;所述生产模块,还用于当所述数据原始表的行数据发生变化时,基于所述多个数据原始表生产携带有增量标识的增量目标数据;合并模块,用于基于所述增量标识,将所述增量目标数据合并至所述全量目标数据。
[0015]根据本申请一实施方式,所述确定模块,还用于基于全量数据生产语句,确定多张数据原始表之间的表关联信息;所述确定模块,还用于根据所述表关联信息确定优先级最高的数据原始表,将所述优先级最高的数据原始表确定为数据来源表。
[0016]根据本申请一实施方式,所述表关联关系包括左数据原始表和右数据原始表之间的左联接、右联接、内联接和外联接;所述确定模块,还用于基于所述表关联关系,比较左数据原始表和右数据原始表的优先级。
[0017]根据本申请一实施方式,所述确定模块,还用于若优先级最高的数据原始表数量不唯一,确定其中一数据原始表为数据来源表。
[0018]根据本申请一实施方式,所述确定模块,还用于基于全量数据生产语句,确定所述数据来源表的标识信息。
[0019]根据本申请一实施方式,所述确定模块,还用于若所述全量数据生产语句包括预定操作,确定所述预定操作对应字段与所述主键信息的交集字段为标识信息,或者确定所述预定操作对应字段为标识信息;其中,所述预定操作包括聚合操作、合并操作以及子查询嵌套操作的任一种。
[0020]根据本申请一实施方式,所述确定模块,还用于若所述全量数据生产语句未包括所述预定操作,选择所述数据来源表的主键信息或者聚合索引信息为标识信息。
[0021]根据本申请一实施方式,所述生产模块,包括:修改子模块,用于根据所述数据来源表和所述数据来源表的标识信息修改所述全量数据生成语句,得到包括增量标识子句的全量数据生产语句;生产子模块,用于根据所述包括增量标识子句的全量数据生产语句对所述多个数据原始表进行数据生产,获得携带有增量标识的全量目标数据。
[0022]根据本申请一实施方式,所述生产模块,包括:确定子模块,用于根据所述标识信息和所述表关联关系,确定与所述数据原始表中发生变化的行数据相对应的其他数据原始表中的行数据;所述生产子模块,还用于根据所述包括增量标识子句的全量数据生产语句对所述发生变化的行数据和相对应的行数据进行数据生产,获得所述携带有增量标识的增量目标数据。
[0023]根据本申请实施例第三方面,提供了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述可实施方式中任一项所述的方法。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于增量标识的数据生产方法,其特征在于,所述方法包括:确定多个数据原始表之间的表关联信息;根据所述表关联信息,从所述多个数据原始表中确定目标数据的数据来源表;基于所述多个数据原始表生产携带有增量标识的全量目标数据,所述增量标识用于标识所述全量目标数据中的行数据,且所述增量标识根据所述数据来源表和所述数据来源表的行数据对应的标识信息生成;当所述数据原始表的行数据发生变化时,基于所述多个数据原始表生产携带有增量标识的增量目标数据;基于所述增量标识,将所述增量目标数据合并至所述全量目标数据。2.根据权利要求1所述的方法,其特征在于,所述确定多个数据原始表之间的表关联信息,包括:基于全量数据生产语句,确定多张数据原始表之间的表关联信息;所述根据所述表关联信息,从多个数据原始表中确定目标数据的数据来源表,包括:根据所述表关联信息确定优先级最高的数据原始表,将所述优先级最高的数据原始表确定为数据来源表。3.根据权利要求2所述的方法,其特征在于,所述表关联关系包括左数据原始表和右数据原始表之间的左联接、右联接、内联接和外联接;所述根据所述表关联信息确定优先级最高的数据原始表,包括:基于所述表关联关系,比较左数据原始表和右数据原始表的优先级。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:若优先级最高的数据原始表数量不唯一,确定其中一数据原始表为数据来源表。5.根据权利要求1所述的方法,其特征在于,在所述基于所述多个数据原始表生产携带有增量标识的全量目标数据之前,所述方法还包括:基于全量数据生产语句,确定所述数据来源表的标识信息。6.根据权利要求5所述的方法,其特征在于,基于所述全量数据生产语句,确定所述数据来源表的标识信息,包括:若所述全量数据生产语句包括预定操作,确定所述预定操作对应字段与所述主键信息的交集字段为标识信息,或者确定所述预定操作对应字段为标识信息;其中,所述预定操作包括聚合操作、合并操作以及子查询嵌套操作的任一种。7.根据权利要求5所述的方法,其特征在于,基于所述全量数据生产语句,确定所述数据来源表的标识信息,还包括...

【专利技术属性】
技术研发人员:丁琳
申请(专利权)人:医渡云北京技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1