一种用于数据归档系统的数据增量同步系统及方法技术方案

技术编号:24331016 阅读:55 留言:0更新日期:2020-05-29 19:36
本发明专利技术公开了一种用于数据归档系统的数据增量同步系统及方法,包括:日志捕捉模块,被配置为从数据归档系统的运行库中抽取记录数据变更的二进制日志,对所述二进制日志进行解析,将解析的内容格式化后传送到消息存储模块;事务分析模块,被配置为提取所述数据变更消息并解析成数据库事务,如果所述数据库事务是归档系统的归档事务,则过滤掉;否则,分析事务执行顺序,判断出事务执行的正确顺序;事务执行模块,被配置为根据事务分析的结果,在目标数据库中执行事务,并对执行情况进行记录。本发明专利技术能够自动辨别并过滤归档系统事务中的归档事务,仅选择普通事务进行同步。

A data incremental synchronization system and method for data archiving system

【技术实现步骤摘要】
一种用于数据归档系统的数据增量同步系统及方法
本专利技术涉及数据同步
,尤其涉及一种用于数据归档系统的数据增量同步系统及方法。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。数据归档系统是将数据按照运行数据与历史数据进行分库存储的数据存储系统,系统将运行数据存放在运行库中,将历史数据存放在历史库中,系统为控制运行库数据量会将到达归档时限的运行数据归档到历史库中,这个操作被称为归档操作。归档操作会在一个数据库事务中将部分数据从运行库中删除,插入到历史库中,同时还会在运行库中插入归档记录。因此在运行库中同时存在业务数据和归档记录数据,传统的数据同步方法无法做到鉴别普通业务事务和归档事务,无法做到只同步普通业务事务。
技术实现思路
为了解决上述问题,本专利技术提出了一种用于数据归档系统的数据增量同步系统及方法,能够同步归档系统中的业务数据变更,同时过滤归档系统中发生的归档事务。在一些实施方式中,采用如下技术方案:一种用于数据归档系统的数据增量同步系统,包括:日志捕捉模块,被配置为从数据归档系统的运行库中抽取记录数据变更的二进制日志,对所述二进制日志进行解析,将解析的内容格式化后传送到消息存储模块;消息存储模块,被配置为接收所述数据并存储在消息队列中,每一个消息队列对应一个数据归档系统中的数据变更消息;事务分析模块,被配置为提取所述数据变更消息并解析成数据库事务,如果所述数据库事务是归档系统的归档事务,则过滤掉;否则,分析事务执行顺序,判断出事务执行的正确顺序;事务执行模块,被配置为根据事务分析的结果,在目标数据库中执行事务,并对执行情况进行记录。在另一些实施方式中,采用如下技术方案:一种用于数据归档系统的数据增量同步方法,包括:从数据归档系统的运行库中抽取记录数据变更的二进制日志,对所述二进制日志进行解析,将解析的内容格式化后存储在消息队列中,每一个消息队列对应一个数据归档系统中的数据变更消息;将所述数据变更消息解析成数据库事务,如果所述数据库事务是归档系统的归档事务,则过滤掉;否则,分析事务执行顺序,判断出事务执行的正确顺序;根据事务分析的结果,在目标数据库中执行事务,并对执行情况进行记录。在另一些实施方式中,采用如下技术方案:一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行上述的用于数据归档系统的数据增量同步方法。在另一些实施方式中,采用如下技术方案:一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的用于数据归档系统的数据增量同步方法。与现有技术相比,本专利技术的有益效果是:本专利技术能够自动辨别并过滤归档系统事务中的归档事务,仅选择普通事务进行同步;为数据归档系统提供了数据增量同步的机制,能够整合数据归档系统中的数据,减少数据丢失发生的可能性,提高了数据的安全性。从数据归档系统中同步出的数据可以用于数据分析、机器学习等场景,可以在不加重数据归档系统运行负担的前提下,开展数据的高效利用工作,有益于数据价值的发掘。附图说明图1为本专利技术实施例一中用于数据归档系统的数据增量同步系统结构示意图;图2为本专利技术实施例二中日志捕捉模块实现过程流程图;图3为本专利技术实施例二中事务分析模块实现过程流程图;图4为本专利技术实施例二中事务执行模块实现过程流程图。具体实施方式应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本专利技术使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一归档事务中的数据变更实际发生在运行库或者历史库上,这些变更会被传统的数据同步方法同步,但从整个数据归档系统的角度讲,整体的数据内容并未发生变化,因此不应该进行数据同步。基于此,在一个或多个实施例中,公开了一种用于数据归档系统的数据增量同步系统,能够增量地同步数据归档系统中的数据变更,同时,能够自动辨别并过滤归档系统事务中的归档事务,仅选择普通事务进行同步。参照图1,本实施方式公开的用于数据归档系统的数据增量同步系统包括:日志捕捉模块11、消息存储模块12、事务分析模块13、事务执行模块组成14。其中:(1)日志捕捉模块11,从数据归档系统运行库111中抽取二进制日志112,解析出事务编号113、事务类型114、数据变更内容115,事务结束标志116,格式化为JSON格式到消息存储模块中。运行库111是归档系统中存储运行数据的数据库,归档系统中新数据的加入,数据的更新都发生在运行库中,归档系统的归档事务也一定包含从运行库中删除数据的子事务。因此归档系统中的数据变更都可以在运行库上捕获。二进制日志112是数据库产生的一种记录数据变更的日志文件,可以用于数据复制和数据即时恢复,对于那些不改变数据内容的数据库操作则不会写入二进制日志。事务编号113,采用全局事务ID(GlobalTransactionID,简称GTID),一个GTID可以在一个数据库系统中唯一标示一个事务。事务类型114,包括数据操作事务和数据库结构定义事务。数据操作事务只包含数据操纵语言DML(DataManipulationLanguage),数据库结构定义事务只包含数据库模式定义语言DDL(DataDefinitionLanguage)。数据变更内容115包含发生在数据操作事务中的一个或多个数据行变更,行变更分为三种,分别是更新(UPDATE)、插入(INSERT)、删除(DELETE)。事务结束标志116是指在二进制日志112中存在的标示一个事务结束的标志。日志捕捉模块11在解析出一个事务的结束标志后,就将该事务对应的消息发送到消息存储模块12中。(2)消息存储模块12,使用消息中间件121,将消息存储在消息队列中,一个消息队列对应一个数据归档系统中的数据变更消息。消息中间件121可以将收到的消息维护在特定的消息队列中,事务分析模块13可以通过TCP协议访问消息中间件,从指定消息队列中消费消息。消息中间件可以将消息持久化在存储器上,在消息被消费之前保证消息不丢失。(3)事务分析模块13,从消息存储模块获取消息,将消息解析成数据库事务。首先辨别并过滤数据归档系统的归档事务131,然后分析事务执行顺序132,判断出事务执行的正确顺序。归档事务131是数据归档系本文档来自技高网
...

【技术保护点】
1.一种用于数据归档系统的数据增量同步系统,其特征在于,包括:/n日志捕捉模块,被配置为从数据归档系统的运行库中抽取记录数据变更的二进制日志,对所述二进制日志进行解析,将解析的内容格式化后传送到消息存储模块;/n消息存储模块,被配置为接收所述数据并存储在消息队列中,每一个消息队列对应一个数据归档系统中的数据变更消息;/n事务分析模块,被配置为提取所述数据变更消息并解析成数据库事务,如果所述数据库事务是归档系统的归档事务,则过滤掉;否则,分析事务执行顺序,判断出事务执行的正确顺序;/n事务执行模块,被配置为根据事务分析的结果,在目标数据库中执行事务,并对执行情况进行记录。/n

【技术特征摘要】
1.一种用于数据归档系统的数据增量同步系统,其特征在于,包括:
日志捕捉模块,被配置为从数据归档系统的运行库中抽取记录数据变更的二进制日志,对所述二进制日志进行解析,将解析的内容格式化后传送到消息存储模块;
消息存储模块,被配置为接收所述数据并存储在消息队列中,每一个消息队列对应一个数据归档系统中的数据变更消息;
事务分析模块,被配置为提取所述数据变更消息并解析成数据库事务,如果所述数据库事务是归档系统的归档事务,则过滤掉;否则,分析事务执行顺序,判断出事务执行的正确顺序;
事务执行模块,被配置为根据事务分析的结果,在目标数据库中执行事务,并对执行情况进行记录。


2.如权利要求1所述的一种用于数据归档系统的数据增量同步系统,其特征在于,日志捕捉模块对所述二进制日志进行解析,得到事务编号、事务类型、数据变更内容以及事务结束标志。


3.如权利要求1所述的一种用于数据归档系统的数据增量同步系统,其特征在于,所述归档事务包括:从运行库删除事务的子事务,向历史库插入数据的子事务,以及在运行库的归档记录表中插入归档事务标志的子事务;通过所述归档事务标志判断是否是归档事务。


4.如权利要求1所述的一种用于数据归档系统的数据增量同步系统,其特征在于,所述目标数据库是存储从数据归档系统中同步的数据的数据库,所述目标数据库中的数据是数据归档系统中运行库和全部历史库中数据的总和。


5.一种用于数据归档系统的数据增量同步方法,其特征在于,包括:

【专利技术属性】
技术研发人员:郑永清赵永光朱晓洪张世栋钱进徐喆刘萌巫双果王可可
申请(专利权)人:山大地纬软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1