一种基于涉及批量任务的应用系统数据切片的抽取方法技术方案

技术编号:27935509 阅读:66 留言:0更新日期:2021-04-02 14:15
本发明专利技术公开了一种基于涉及批量任务的应用系统数据切片的抽取方法,属于数据处理技术领域,解决了大数据抽取数据切片与应用系统执行批量任务串行拉长批量任务时间,在规定时间内未完成抽数而后续执行批量任务污染数据抽取的问题,本方案包括以下步骤:数据库预处理;中断主从同步;大数据抽数和应用系统后续批量的并行执行;恢复主从同步。本发明专利技术的目的:缩短日终批量任务时间,避免污染待抽取的数据切片。本发明专利技术适用于银行或金融机构涉及较多批量任务且需大数据抽取数据切片的应用。

【技术实现步骤摘要】
一种基于涉及批量任务的应用系统数据切片的抽取方法
本专利技术涉及数据处理
,具体涉及一种基于涉及批量任务的应用系统数据切片的抽取方法。
技术介绍
应用系统的数据库集群采用主从备的架构体系。在进行数据主库同一实例下进行写入操作时,数据在主库写入成功之后,会触发数据自动同步的机制把主库当前时间段内所有的操作同步到从库和备库。在数据库使用过程中,主库用于应用系统增删改查操作。从库用于应用系统部分查询操作。备库用于大数据数据抽取。约定:大数据抽取的是应用系统从主库同步到从库,再从从库同步到备库的数据,本申请不涉及从库相关使用。为和业界术语保持统一,以下描述中实际的主备同步,都统称为“主从同步”;描述中所有的备库,都用“从库”代替。现有技术中,大数据会抽取应用系统若干批量任务中某个时间点以前的数据切片。在抽取过程中,为避免待抽取数据被后续应用系统批量任务的执行所改变从而造成数据污染,该批量任务会暂停一段时间,等待大数据抽数结束后,才能继续执行;暂停时间长短可设置。本方案提到的应用系统,是指在金融行业中涉及批量任务的应用系统,包括信贷核心应用系统、行核心应用系统等应用系统;按功能划分,可有处理信贷业务的批量、出合作方对账文件的批量、处理总账流水的批量等应用系统。综上所述,在现有的抽取方法中,存在以下两个问题:1、大数据抽数异常时,超过设置等待时间仍未完成,应用系统批量任务的继续执行会污染需要抽取的数据切片。2、应用系统的批量任务中途需暂停等待大数据抽数,拉长了总体执行时间。
技术实现思路
针对现有技术中大数据抽数异常,超过设置等待时间仍未完成,应用系统批量任务的继续执行会污染需要抽取的数据切片,以及应用系统的批量任务中途需暂停等待大数据抽数,拉长了批量任务总体执行时间的问题,本专利技术提供一种基于涉及批量任务的应用系统数据切片的抽取方法,其目的在于:大数据抽数和批量任务的执行可同步进行且能避免污染需要抽取的数据切片,同时缩短批量任务总体执行时间。为了达到上述目的,本专利技术采用如下技术方案:一种基于涉及批量任务的应用系统数据切片的抽取方法,包括:步骤A:数据库预处理,具体为:在应用系统的主库和从库的同一实例中分别增加一个数据库,并在主库增加的数据库中新建一张表X,在从库中所述增加的数据库中新建一张表X',表X和表X'的名称相同;步骤B:应用系统批量执行到大数据抽数节点时,中断主从同步任务,生成中断节点;步骤C:大数据抽取应用系统从库数据的同时,应用系统继续执行后续批量任务;步骤D:从主从同步中断节点开始恢复主从数据同步。本专利技术中,通过更改从库表名并在主库的该表中插入一条记录,实现当该条记录准备同步到从库时,找不到对应数据库表从而断开主从同步,生成中断节点。此时无论主库的任意一张表做任何修改,主从同步均不能继续进行。此时大数据开始抽取数据切片。待大数据抽取从库数据完毕,发送抽取数据完成通知后,应用系统对从库的表名进行修改,修改后的从库表名与主库相同,主从同步才能得以继续进行。大数据抽取从库数据过程与应用系统执行后续批量任务可同时进行,应用系统不再暂停批量并等待,缩短了批量任务总体执行时间。进一步的,所述步骤A具体为:在应用系统主库和从库的同一实例中分别增加一个数据库,并在主库增加的数据库中新建一张表X,在从库中所述增加的数据库中新建一张表X',表X和表X'的名称相同;主库和从库中所述新建的表的表名可根据习惯和需求任意命名,方便理解和管理。进一步的,所述步骤B具体为:在应用系统执行批量任务到达大数据抽数节点时,向主库业务表中写入“到达抽数节点”标志,同时修改从库中表X'的名称,再向主库中表X新增任意一条记录。本专利技术通过应用系统的每日批量业务逻辑实现,在到达抽数节点后,执行后续批量前:首先,向主库业务表中写入“到达抽数节点”标志,其次修改从库中表X'的名称,最后向主库中表X新增任意一条记录,该记录无需具有业务含义。当表X新增记录后会引发主从同步到表X',此时找不到与表X相同的表名,该条数据的主从同步失败,触发后续所有应用系统的主库数据同步到从库的失败,从而人为中断了主从同步。进一步的,步骤C具体为:大数据启动数据检查任务,轮询到“到达抽数节点”标志后,开始对从库进行抽数。进一步的,所述步骤C中,在大数据进行数据抽取的过程中,应用系统继续执行后续批量任务,在对主库数据做改动的同时不会触发从库的同步。本专利技术由于主从同步中断,所以在大数据进行数据抽取时,不必担心继续执行批量任务导致的数据变化会立即同步到从库影响待大数据抽取的数据,避免了数据被污染。进一步的,所述步骤D具体为:大数据数据抽取完成后,向应用系统发送数据抽取完成的通知,应用系统接收到该通知后,将从库中表X'的名称修改回原来的名称,所有从中断节点未同步到从库的数据开始依次恢复主从数据同步。本专利技术在大数据数据抽取完成后,通过修改从库表X'的表名,恢复主从同步,中断节点之后所有失败的数据便依次进行同步。直到主库和从库的数据一致为止。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1.通过对从库中的新增表名进行修改,有效控制主从同步的断开和恢复,避免执行后续批量任务而污染待抽取的数据切片。2.大数据抽取从库数据过程与应用系统执行批量任务可同时进行,缩短了批量任务处理的总体耗时。3.主从同步的“开关”完全掌握在应用系统的业务逻辑代码中,方便且灵活可控。附图说明图1为本专利技术的具体实施方式示意图;图2为本专利技术一种实施例的具体实施方式的原理图。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。下面将结合附图及具体实施方式对本专利技术作进一步的描述。如图1所示,其为一种基于涉及批量任务的应用系统数据切片的抽取方法的实施方式,包括:步骤A:数据库预处理,;具体为:在应用系统的主库和从库的同一实例中分别增加一个数据库,并在主库增加的数据库中新建一张表X,在从库中所述增加的数据库中新建一张表X',表X和表X'的名称相同,且无命名要求。步骤B:在大数据抽数节点时,中断主从同步任务,生成中断节点;具体为:在应用系统执行批量任务到达大数据抽数节点时,向主库业务表中写入“到达抽数节点”标志,同时修改从库中表X'的名称,再向主库中表X新增任意一条记录。步骤C:大数据启动数据检查任务,轮询到“到达抽数节点”标志后,开始对从库进行数据抽取。同时,应用系统继续执行后续批量任务,在对主库数据做改动的同时不会触发从库的同步。步骤D:从主从同步中断节点开始恢复主从数据同步。具体为:大数据数据抽取完成后,向应用系统发送数据抽取完成的通知,应用系统接收到大数据的通知后,将从库中表X'的名称修改回原来的名称,所有从中断节点未同本文档来自技高网
...

【技术保护点】
1.一种基于涉及批量任务的应用系统数据切片的抽取方法,其特征在于:包括:/n步骤A:数据库预处理,具体为:在应用系统的主库和从库的同一实例中分别增加一个数据库,并在主库增加的数据库中新建一张表X,在从库中增加的数据库中新建一张表X';/n步骤B:中断主从同步;/n步骤C:大数据抽取应用系统从库数据的同时,应用系统继续执行后续批量任务;/n步骤D:恢复主从同步。/n

【技术特征摘要】
1.一种基于涉及批量任务的应用系统数据切片的抽取方法,其特征在于:包括:
步骤A:数据库预处理,具体为:在应用系统的主库和从库的同一实例中分别增加一个数据库,并在主库增加的数据库中新建一张表X,在从库中增加的数据库中新建一张表X';
步骤B:中断主从同步;
步骤C:大数据抽取应用系统从库数据的同时,应用系统继续执行后续批量任务;
步骤D:恢复主从同步。


2.根据权利要求1所述的一种基于涉及批量任务的应用系统数据切片的抽取方法,其特征在于:所述步骤A具体为:
主库和从库中所述新建表X与所述新建表X'的表名均无命名要求且表名相同。


3.根据权利要求1所述的一种基于涉及批量任务的应用系统数据切片的抽取方法,其特征在于:所述步骤B具体为:在应用系统执行批量任务到达大数据抽数节点时,通知大数据可进行...

【专利技术属性】
技术研发人员:张妍洁唐振华朱小容杨斌廖雪强
申请(专利权)人:四川新网银行股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1