数据处理方法及装置制造方法及图纸

技术编号:36263783 阅读:48 留言:0更新日期:2023-01-07 10:02
本申请公开了一种数据处理方法及装置,在生成被依赖表的处理日志之后,确定依赖于所述被依赖表进行数据处理的目标依赖表,并在所述目标依赖表所依赖的全部被依赖表均加工完毕的情况下,进行所述目标依赖表的数据处理,处理完成后将所述目标依赖表转化为新的被依赖表,并返回执行所述生成被依赖表的处理日志的步骤,直至根据所述加工依赖关系无法确定出目标依赖表为止,实现了数据的批量处理,并且由于本方案是将根据源系统数据生成的时间拉链表作为初始时刻的被依赖表,因此通过为时间拉链表配置时长较短的数据处理周期的方式,可以提高数据处理的实时性,从而由一套系统满足实时和批量的数据处理需求,降低了实现流处理和批处理的成本。批处理的成本。批处理的成本。

【技术实现步骤摘要】
数据处理方法及装置


[0001]本申请涉及数据处理
,更具体的说,是涉及一种数据处理方法及装置。

技术介绍

[0002]在数据处理领域,具备着批处理和流处理两种处理方式,其中,批处理方式通常是指收集并存储T日的数据,并在T+1日批量处理T日的数据,流处理方式是实时处理接收到的数据。
[0003]为同时实现批处理方式和流处理方式,需要存储两份数据,并布设两个数据处理系统以便两系统分别执行批处理和流处理,需要消耗两套资源、编写并维护两种程序,实现成本较高。

技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种数据处理方法及装置,以降低实现批处理和流处理的成本。
[0005]具体方案如下:
[0006]第一方面,提供了一种数据处理方法,包括:
[0007]配置不同种类的数据表之间的加工依赖关系;
[0008]生成被依赖表的处理日志,其中,所述处理日志包括用于表征本表的数据处理周期的数据处理开始时间和数据处理结束时间;
[0009]根据所述加工依赖关系确定依赖于所述被依赖表进行数据处理的目标依赖表;
[0010]判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕,若均加工完毕,则利用所述目标依赖表所依赖的全部被依赖表加工所述目标依赖表,在所述目标依赖表加工完毕后,将所述目标依赖表转化为新的被依赖表,并返回执行所述生成被依赖表的处理日志的步骤,直至根据所述加工依赖关系无法确定出目标依赖表为止;
[0011]其中,初始时刻生成的被依赖表为由源系统数据生成的时间拉链表,所述时间拉链表的处理日志中的数据处理开始时间和数据处理结束时间分别是所述时间拉链表的数据生效开始时间和生效结束时间。
[0012]可选的,所述被依赖表的处理日志是在所述被依赖表生成之后,利用所述被依赖表的加工线程生成的处理日志;
[0013]所述判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕,包括:
[0014]利用所述目标依赖表的加工线程执行下述步骤:
[0015]获取所述被依赖表的处理日志中的数据处理周期,得到目标数据处理周期;
[0016]根据所述加工依赖关系,确定所述目标依赖表所依赖的全部被依赖表;
[0017]判断确定的全部被依赖表在所述目标数据处理周期内是否均加工完毕。
[0018]可选的,所述利用所述目标依赖表所依赖的全部被依赖表加工所述目标依赖表,包括:
[0019]利用所述确定的全部被依赖表在所述目标数据处理周期内的数据,加工所述目标依赖表的增量数据,根据所述增量数据生成所述目标依赖表。
[0020]可选的,所述根据所述加工依赖关系确定依赖于所述被依赖表进行数据处理的目标依赖表,包括:
[0021]利用所述被依赖表的加工线程将所述被依赖表的处理日志发送到消息中间件,以供目标依赖表的加工线程获取,其中,所述目标依赖表是所述加工依赖关系中的需要依赖所述被依赖表进行数据处理的表;
[0022]所述判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕,包括:
[0023]在所述目标依赖表的加工线程获取到所述被依赖表的处理日志的情况下,利用所述目标依赖表的加工线程判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕。
[0024]可选的,所述时间拉链表是通过下述步骤生成的:
[0025]通过消息中间件获取源系统数据库中的操作日志,根据所述操作日志生成源系统的时间拉链表。
[0026]第二方面,提供了一种数据处理装置,包括:
[0027]依赖关系配置单元,用于配置不同种类的数据表之间的加工依赖关系;
[0028]处理日志生成单元,用于生成被依赖表的处理日志,其中,所述处理日志包括用于表征本表的数据处理周期的数据处理开始时间和数据处理结束时间,初始时刻生成的被依赖表为由源系统数据生成的时间拉链表,所述时间拉链表的处理日志中的数据处理开始时间和数据处理结束时间分别是所述时间拉链表的数据生效开始时间和生效结束时间;
[0029]依赖表加工进程启动单元,用于根据所述加工依赖关系确定依赖于所述被依赖表进行数据处理的目标依赖表,在根据所述加工依赖关系无法确定出目标依赖表的情况下,结束数据处理;
[0030]依赖表加工单元,用于判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕,若均加工完毕,则利用所述目标依赖表所依赖的全部被依赖表加工所述目标依赖表,在所述目标依赖表加工完毕后,将所述目标依赖表转化为新的被依赖表,并令所述处理日志生成单元执行所述生成被依赖表的处理日志的步骤,直至根据所述加工依赖关系无法确定出目标依赖表为止。
[0031]可选的,所述被依赖表的处理日志是在所述被依赖表生成之后,利用所述被依赖表的加工线程生成的处理日志;
[0032]所述依赖表加工单元判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕的过程,包括:
[0033]利用所述目标依赖表的加工线程执行下述步骤:
[0034]获取所述被依赖表的处理日志中的数据处理周期,得到目标数据处理周期;
[0035]根据所述加工依赖关系,确定所述目标依赖表所依赖的全部被依赖表;
[0036]判断确定的全部被依赖表在所述目标数据处理周期内是否均加工完毕。
[0037]可选的,所述依赖表加工单元利用所述目标依赖表所依赖的全部被依赖表加工所述目标依赖表的过程,包括:
[0038]利用所述确定的全部被依赖表在所述目标数据处理周期内的数据加工所述目标依赖表的增量数据,根据所述增量数据生成所述目标依赖表。
[0039]可选的,所述依赖表加工进程启动单元根据所述加工依赖关系确定依赖于所述被依赖表进行数据处理的目标依赖表的过程,包括:
[0040]利用所述被依赖表的加工线程将所述被依赖表的处理日志发送到消息中间件,以供目标依赖表的加工线程获取,其中,所述目标依赖表是所述加工依赖关系中的需要依赖所述被依赖表进行数据处理的表;
[0041]所述依赖表加工单元判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕的过程,包括:
[0042]在所述目标依赖表的加工线程获取到所述被依赖表的处理日志的情况下,利用所述目标依赖表的加工线程判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕。
[0043]可选的,该装置还包括时间拉链表生成单元,用于通过消息中间件获取源系统数据库中的操作日志,根据所述操作日志生成源系统的时间拉链表。
[0044]借由上述技术方案,本申请预先配置了数据表间的加工依赖关系,由源系统数据预先生成了初始时刻的被依赖表,在本轮数据处理的过程中,每生成一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:配置不同种类的数据表之间的加工依赖关系;生成被依赖表的处理日志,其中,所述处理日志包括用于表征本表的数据处理周期的数据处理开始时间和数据处理结束时间;根据所述加工依赖关系确定依赖于所述被依赖表进行数据处理的目标依赖表;判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕,若均加工完毕,则利用所述目标依赖表所依赖的全部被依赖表加工所述目标依赖表,在所述目标依赖表加工完毕后,将所述目标依赖表转化为新的被依赖表,并返回执行所述生成被依赖表的处理日志的步骤,直至根据所述加工依赖关系无法确定出目标依赖表为止;其中,初始时刻生成的被依赖表为由源系统数据生成的时间拉链表,所述时间拉链表的处理日志中的数据处理开始时间和数据处理结束时间分别是所述时间拉链表的数据生效开始时间和生效结束时间。2.根据权利要求1所述的方法,其特征在于,所述被依赖表的处理日志是在所述被依赖表生成之后,利用所述被依赖表的加工线程生成的处理日志;所述判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕,包括:利用所述目标依赖表的加工线程执行下述步骤:获取所述被依赖表的处理日志中的数据处理周期,得到目标数据处理周期;根据所述加工依赖关系,确定所述目标依赖表所依赖的全部被依赖表;判断确定的全部被依赖表在所述目标数据处理周期内是否均加工完毕。3.根据权利要求2所述的方法,其特征在于,所述利用所述目标依赖表所依赖的全部被依赖表加工所述目标依赖表,包括:利用所述确定的全部被依赖表在所述目标数据处理周期内的数据,加工所述目标依赖表的增量数据,根据所述增量数据生成所述目标依赖表。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述根据所述加工依赖关系确定依赖于所述被依赖表进行数据处理的目标依赖表,包括:利用所述被依赖表的加工线程将所述被依赖表的处理日志发送到消息中间件,以供目标依赖表的加工线程获取,其中,所述目标依赖表是所述加工依赖关系中的需要依赖所述被依赖表进行数据处理的表;所述判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕,包括:在所述目标依赖表的加工线程获取到所述被依赖表的处理日志的情况下,利用所述目标依赖表的加工线程判断所述目标依赖表所依赖的全部被依赖表在所述被依赖表的数据处理周期内是否均加工完毕。5.根据权利要求1

3中任一项所述的方法,其特征在于,所述时间拉链表是通过下述步骤生成的:通过消息中间件获取源系统数据库中的操作日志,根据所述操作日志生成源系统的时间拉链表。
6.一种数据处理装置,其特征在于,包括:依赖关系配置单元,用于配置不同种类的数据表之间的加工依赖关系;处理日志生成单元,用于生成被依赖表...

【专利技术属性】
技术研发人员:吕虎
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1