一种基于数据库二进制日志文件的数据实时汇聚方法技术

技术编号:39653525 阅读:11 留言:0更新日期:2023-12-09 11:21
本发明专利技术公开了一种基于数据库二进制日志文件的数据实时汇聚方法,包括以下步骤:步骤

【技术实现步骤摘要】
一种基于数据库二进制日志文件的数据实时汇聚方法


[0001]本专利技术涉及一种数据实时汇聚方法,尤其涉及一种基于数据库二进制日志文件的数据实时汇聚方法


技术介绍

[0002]随着移动互联网

云计算

物联网的快速发展,数据的指数级增长以及各企事业单位对数据的重视程度提高,致使各企事业单位对源端数据库数据实时汇聚需求越来越迫切,而现有的技术多为单一的数据库汇聚或离线汇聚,无法满足用户需求

现有的基于数据库的汇聚方法,有几大缺点:一

支持的类型单一

如开源工具
Maxwell
仅支持通过
MySQL

Binlog
文件进行源端
MySQL
数据的实时汇聚,无法支持其他数据类型;二

无法实时汇聚

如开源工具
Canal
仅支持数据库数据的离线汇聚,无法进行实时汇聚


技术实现思路

[0003]为了解决上述技术所存在的不足之处,本专利技术提供了一种基于数据库二进制日志文件的数据实时汇聚方法

[0004]为了解决以上技术问题,本专利技术采用的技术方案是:一种基于数据库二进制日志文件的数据实时汇聚方法,包括:步骤
S1
:从支持的源端数据类型和支持的目的端数据类型中分别选择要作为实时汇聚的数据源;步骤
S2
:完成选择后,配置源端和目的端之间的映射关系和汇聚规则;步骤
S3
:配置与实时汇聚任务相关的调度参数;步骤
S4
:将步骤
S1

S3
中选择和配置的有关信息均加载到任务实例中;步骤
S5
:任务执行器拉取任务实例,并执行实时汇聚任务

[0005]进一步地,本专利技术基于数据库二进制日志文件的数据实时汇聚方法的步骤
S1
中,利用数据库二进制日志文件的变更数据捕获能力,进而支持多种类型的数据源

[0006]进一步地,本专利技术基于数据库二进制日志文件的数据实时汇聚方法的步骤
S2
中,汇聚规则包括聚合规则

过滤规则和裁剪规则;聚合规则是以
Lambda
方式进行数据聚合设定;过滤规则首先选择要保留的列字段信息,其次选择过滤函数,针对需保留列字段信息的所在列进行指定条件过滤;裁剪规则,是指保留要输出到目的端的属性列;聚合规则仅支持单表操作;当实时汇聚多个表时,通过使用裁剪规则或过滤规则来生成汇聚任务

[0007]进一步地,本专利技术基于数据库二进制日志文件的数据实时汇聚方法的步骤
S5
中,各任务会根据自身的优先级放置于任务队列中,空闲的任务执行器根据任务队列中任务的优先级对任务实例进行拉取

[0008]进一步地,本专利技术基于数据库二进制日志文件的数据实时汇聚方法的步骤
S5
中对任务执行器进行分布式部署,通过监测任务队列中是否存在积压情况,若存在积压情况,则增加任务执行器,并且对正在运行的任务执行器做标签打标;积压情况消除后,根据标签辨别任务执行器是否为空闲状态,若检测到任务执行器为空闲状态,则对空闲的任务执行器进行释放;对空闲的任务执行器进行释放,是对部分空闲的任务执行器进行释放;在初始部署任务执行器时,会部署预设的任务执行器的个数即阈值,释放后保留的任务执行器数量大于等于阈值

[0009]进一步地,本专利技术基于数据库二进制日志文件的数据实时汇聚方法的步骤
S5
中,在
Debezium
引擎抽取日志文件并获取更变的作用下,将
changelog
转换为可识别的数据,在
changelog
转换为可识别的
RowData
数据后对数据进行实时汇聚

[0010]进一步地,本专利技术基于数据库二进制日志文件的数据实时汇聚方法的步骤
S5
的在任务执行器执行任务过程中,若已启动的任务手动停止或异常中止后,会从上次挺值得位置继续完成实时汇聚任务即断点续传;在实现断点续传的过程中,数据汇聚到目的端时使用两段式提交的方式或
UPSERT
语法保证数据的一致性

[0011]本专利技术公开了一种基于数据库二进制日志文件的数据实时汇聚方法,基于数据库二进制日志文件的变更数据捕获能力,并且利用
Debedzium
引擎抽取日志获取变更的能力,首先配置汇聚源端和目的端,其次配置源端和目的端之间的映射关系和汇聚规则,配置后执行汇聚任务并查看汇聚结果

本专利技术有如下有益效果:一

基于数据库二进制日志文件的变更数据捕获能力,支持多种类型的数据源进行实时汇聚,既满足了实际业务的多类型数据库实时汇聚需求,又能通过一次性多表

多库等配置方式,降低了操作的复杂度;二

基于
Debizium
引擎,实现数据的实时汇聚,以实时的方式实现数据的聚合和分析,可以快速处理数据,为用户提供更快捷

更准确的数据分析和决策;三

部署分布式的实时汇聚任务,提高了任务的并发和任务执行器的扩展性

附图说明
[0012]图1为本专利技术的操作流程图

[0013]图2为本专利技术的规则处理图

[0014]图3为本专利技术的状态流转图

[0015]图4为本专利技术的分布式部署图

[0016]图5为本专利技术的断点续传一图

[0017]图6为本专利技术的两段式提交的流程图

[0018]图7为本专利技术的断点续传二图

具体实施方式
[0019]下面结合附图和具体实施方式对本专利技术作进一步详细的说明

[0020]本专利技术的技术原理如下:如图1所示的基于数据库二进制日志文件的数据实时汇聚方法的操作流程图,整
体流程包括:1:配置汇聚源端:从支持的源端数据类型中选择要作为实时汇聚源端的数据源,并将信息加载到任务实例的结构中;2:配置汇聚目的端:从支持的目的端数据类型中选择要作为实时汇聚源端的数据源,并将信息加载到任务实例的结构中;3:完成选择后,配置源端和目的端之间的映射关系和汇聚规则,其中包括要保留下来输出到目的端的属性列以及要进行过滤的属性列的过滤函数配置等,若源端表
10
个属性列,但是目的端只需要5个,则只勾选要保留的5个字段即可;若源端数据是
id
从1开始的,要求目的端只保留
id
大于
1000
的数据,则配置过滤函数;并将信息加载到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于数据库二进制日志文件的数据实时汇聚方法,其特征在于,包括以下步骤:步骤
S1
:从支持的源端数据类型和支持的目的端数据类型中分别选择要作为实时汇聚的数据源;步骤
S2
:完成选择后,配置源端数据源和目的端数据源之间的映射关系和汇聚规则;步骤
S3
:配置与实时汇聚任务相关的调度参数;步骤
S4
:将步骤
S1

S3
中选择和配置的信息均加载到任务实例中;步骤
S5
:利用任务执行器拉取任务实例,并执行实时汇聚任务
。2.
根据权利要求1所述的基于数据库二进制日志文件的数据实时汇聚方法,其特征在于:所述步骤
S1
中利用数据库二进制日志文件的变更数据捕获能力,从而支持多种类型的数据源
。3.
根据权利要求1所述的基于数据库二进制日志文件的数据实时汇聚方法,其特征在于:所述步骤
S2
中的汇聚规则包括聚合规则

过滤规则

裁剪规则;聚合规则是以
Lambda
方式对单张表进行数据聚合设定;过滤规则首先选择要保留的列字段信息,其次选择过滤函数,针对需保留列字段信息的所在列进行指定条件过滤;裁剪规则是指保留要输出到目的端的属性列
。4.
根据权利要求3所述的基于数据库二进制日志文件的数据实时汇聚方法,其特征在于:所述聚合规则仅支持单表操作;当实时汇聚多个表时,通过使用裁剪规则或过滤规则来生成汇聚任务
。5.
根据权利要求1所述的基于数据库二进制日志文件的数据实时汇聚方法,其特征在于:所述步骤
S5
中各任务会根据自身的优先级放置于任务队列中,空闲...

【专利技术属性】
技术研发人员:匙会庞景秋齐井春李绍俊李波孙纪福战炳良
申请(专利权)人:长春嘉诚信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1