数据处理方法和数据处理装置制造方法及图纸

技术编号:37967713 阅读:5 留言:0更新日期:2023-06-30 09:43
本申请公开了一种数据处理方法和数据处理装置,涉及大数据技术领域。数据处理方法包括:调度步骤,调度一个或多个任务,并从读取数据库获取与一个或多个任务相关联的关联数据;拆分步骤,将获取的关联数据进行拆分,并分别插入一个或多个中间表中;处理步骤,利用shell队列并行执行一个或多个任务,以分别从一个或多个中间表中查找关联数据并进行处理;更新步骤,将经过处理的关联数据更新到与读取数据库分开的写入数据库。本发明专利技术中,在批量任务中通过Shell队列的方式实现多个线程并发执行任务,因此大大的缩短了运行的时间。因此大大的缩短了运行的时间。因此大大的缩短了运行的时间。

【技术实现步骤摘要】
数据处理方法和数据处理装置


[0001]本申请涉及大数据
,特别涉及数据处理方法、数据处理装置、介质、电子设备、计算机程序产品。

技术介绍

[0002]随着互联网的高速发展,各行各业的数据量都在激增,每天的交易量高达百万甚至千万级别,这样必然会产生庞大的数据量。
[0003]一些需要每天定时作业的数据处理时间会很长,而且单库容量又很容易成为瓶颈,大表的查询和操作都非常慢,双重阻碍下导致单批次作业(任务)往往要执行几个小时甚至10几个小时都不能执行完成,严重影响系统的运行和业务的推进。延伸到各个系统也会遇到很多类似的任务,特别是在进程数有限的情况下,如果这些小任务单独占用一个进程,而任务很多就很耗时间。
[0004]现有的实现方式是通过配置各个作业调度,批量框架调起任务,定时单线程执行,串行查询和更新数据。而且,现有的实现方式仅依靠批量框架用单一线程去执行Shell脚本,在需要处理大数据量的表的时候不适用的,在表数据达到亿的级别,无论是查询还是做插入或更新操作,都是要考虑它的效率问题的,这样的方案,根本无法完成批量任务,所以在数据量达到一定级别后根本不能满足要求。

技术实现思路

[0005]本申请实施例提供了数据处理方法、数据处理装置、介质、电子设备、计算机程序产品。
[0006]第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
[0007]调度步骤,调度一个或多个任务,并从读取数据库获取与所述一个或多个任务相关联的关联数据;
[0008]拆分步骤,将获取的所述关联数据进行拆分,并分别插入一个或多个中间表中;
[0009]处理步骤,利用shell队列并行执行所述一个或多个任务,以分别从一个或多个中间表中查找所述关联数据并进行处理;
[0010]更新步骤,将经过处理的关联数据更新到与所述读取数据库分开的写入数据库。
[0011]在上述第一方面的一种可能的实现中,在所述拆分步骤中,将获取的所述关联数据按顺序进行平均拆分,得到一个或多个结果集,并将所述一个或多个结果集分别插入一个或多个中间表中。
[0012]在上述第一方面的一种可能的实现中,每个任务对应一个进程,每个进程包括一个或多个线程,
[0013]其中,在所述处理步骤中,利用所述shell队列并行执行一个或多个进程中的一个或多个线程。
[0014]在上述第一方面的一种可能的实现中,在所述处理步骤中,针对每个任务,从对应
的中间表中查找所述关联数据并进行处理。
[0015]在上述第一方面的一种可能的实现中,对所述关联数据进行处理包括对所述关联数据进行插入、删除、修改或其任意组合。
[0016]在上述第一方面的一种可能的实现中,所述方法进一步包括:同步步骤,将经过处理的关联数据同步到所述读取数据库。
[0017]第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:
[0018]调度单元,调度一个或多个任务,并从读取数据库获取与所述一个或多个任务相关联的关联数据;
[0019]拆分单元,将获取的所述关联数据进行拆分,并分别插入一个或多个中间表中;
[0020]处理单元,利用shell队列并行执行所述一个或多个任务,以分别从一个或多个中间表中查找所述关联数据并进行处理;
[0021]更新单元,将经过处理的关联数据更新到与所述读取数据库分开的写入数据库。
[0022]在上述第二方面的一种可能的实现中,所述拆分单元将获取的所述关联数据按顺序进行平均拆分,得到一个或多个结果集,并将所述一个或多个结果集分别插入一个或多个中间表中。
[0023]在上述第二方面的一种可能的实现中,每个任务对应一个进程,每个进程包括一个或多个线程,
[0024]其中,所述处理单元利用所述shell队列并行执行一个或多个进程中的一个或多个线程。
[0025]在上述第二方面的一种可能的实现中,所述处理单元针对每个任务,从对应的中间表中查找所述关联数据并进行处理。
[0026]在上述第二方面的一种可能的实现中,对所述关联数据进行处理包括对所述关联数据进行插入、删除、修改或其任意组合。
[0027]在上述第二方面的一种可能的实现中,所述装置进一步包括:同步单元,将经过处理的关联数据同步到所述读取数据库。
[0028]第三方面,本申请实施例提供了一种计算机可读存储介质,所述存储介质上存储有指令,所述指令在计算机上执行时使所述计算机执行上述第一方面中的数据处理方法。
[0029]第四方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;一个或多个存储器;所述一个或多个存储器存储有一个或多个程序,当所述一个或者多个程序被所述一个或多个处理器执行时,使得所述电子设备执行上述第一方面中的数据处理方法。
[0030]第五方面,本申请实施例提供了一种计算机程序产品,包括计算机可执行指令,其特征在于,所述指令被处理器执行以实施述第一方面中的数据处理方法。
[0031]本专利技术中,在批量任务中通过Shell队列的方式实现多个线程并发执行任务,因此大大的缩短了运行的时间。此外,通过将大数据量的主表中的数据结果集拆成n个中间表,实现了大表转小表的操作,极大的提高后续查找操作的效率。进一步,通过将数据库主从分库,形成分开的读取数据库和写入数据库,可以实现数据读写分离,数据同步,分散数据库、表的访问压力,提高系统吞吐量。
附图说明
[0032]图1根据本申请的实施例,示出了数据处理方法的流程示意图;
[0033]图2根据本申请的实施例,示出了实现数据处理方法的应用场景;
[0034]图3根据本申请的实施例,示出了数据存储的示意图;
[0035]图4根据本申请的实施例,示出了数据处理方法的时序图;
[0036]图5根据本申请的实施例,示出了数据处理方法的另一流程示意图;
[0037]图6根据本申请的实施例,示出了数据处理装置的结构图;
[0038]图7根据本申请的实施例,示出了数据处理装置的另一结构图;
[0039]图8根据本申请的实施例,示出了一种电子设备的框图。
具体实施方式
[0040]本申请的说明性实施例包括但不限于数据处理方法、数据处理装置、介质及电子设备。
[0041]本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
[0042]下面将结合附图对本申请的实施例作进一步地详细描述。
[0043]第一实施例
[0044]如图1所示,是本申请实施例的示出了数据处理方法的流程示意图,该方法用于电子设备。电子设备例如是计算机、服务器、移动终端等等。
[0045]图4是数据处理方法的时序图,下面结合图1和图4进行详细说明。
[0046]在调度步骤S101,调度一个或多个任务,并从读取数据库获取与一个或多个任务相关联的关联数据。
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:调度步骤,调度一个或多个任务,并从读取数据库获取与所述一个或多个任务相关联的关联数据;拆分步骤,将获取的所述关联数据进行拆分,并分别插入一个或多个中间表中;处理步骤,利用shell队列并行执行所述一个或多个任务,以分别从一个或多个中间表中查找所述关联数据并进行处理;更新步骤,将经过处理的关联数据更新到与所述读取数据库分开的写入数据库。2.根据权利要求1所述的方法,其特征在于,在所述拆分步骤中,将获取的所述关联数据按顺序进行平均拆分,得到一个或多个结果集,并将所述一个或多个结果集分别插入一个或多个中间表中。3.根据权利要求1所述的方法,其特征在于,每个任务对应一个进程,每个进程包括一个或多个线程,其中,在所述处理步骤中,利用所述shell队列并行执行一个或多个进程中的一个或多个线程。4.根据权利要求1所述的方法,其特征在于,在所述处理步骤中,针对每个任务,从对应的中间表中查找所述关联数据并进行处理。5.根据权利要求4所述的方法,其特征在于,对所述关联数据进行处理包括对所述关联数据进行插入、删除、修改或其任意组合。6.根据权利要求1

4中任一项所述的方法,其特征在于,所述方法进一步包括:同步步骤,将经过处理的关联数据同步到所述读取数据库。7.一种数据处理装置,其特征在于,所述装置包括:调度单元,调度一个或多个任务,并从读取数据库获取与所述一个或多个任务相关联的关联数据;拆分单元,将获取的所述关联数据进行拆分,并分别插入一个或多个中间表中;处理单元,利用shell队列并行执行所述一个或多个任务,以分...

【专利技术属性】
技术研发人员:李土亮简志枰
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1