【技术实现步骤摘要】
一种分布式数据库实时采集入湖方法及系统
[0001]本专利技术属于数据传输
,具体涉及一种分布式数据库实时采集入湖方法以及系统。
技术介绍
[0002]数据库变化数据捕获(CDC,Change Data Capture)采集技术已经是现在数据库同步和数据库采集中的主流技术,CDC通过源数据库捕获到数据和数据结构的增量变更,近乎实时地将这些变更情况传播到其他数据库或应用程序之处。通过这种方式,CDC能够向数据仓库提供高效、低延迟的数据传输,以便信息被及时转换并交付给专供分析的应用程序。
[0003]数据湖技术作为数仓存储的新技术,凭借其高效实时的摄入、读取效率以及对于传统大数据数仓技术较好的兼容性,开始被很多公司引入到大数据平台中。数据湖的典型技术为Hudi。
[0004]通过数据库CDC技术采集数据库数据入湖已经是主流的数据库数据采集方案了。主流技术一般通过CDC的数据先通过CDC工具导入Kafka或者Pulsar,再通过Flink或者是Spark流式消费写到Hudi里。
[0005]但是,目前 ...
【技术保护点】
【技术特征摘要】
1.一种分布式数据库实时采集入湖方法,其特征在于,包括:S101:在配置中心中定义数据库服务器节点和采集入湖任务节点;S102:在采集数据库服务器上部署变化数据捕获CDC采集服务程序;S103:所述CDC采集服务程序根据配置好的配置中心信息,向所述配置中心发起创建所述数据库服务器节点的请求;S104:在所述数据库服务器节点创建完毕的情况下,所述CDC采集服务程序按照预设时间间隔向所述数据库服务器节点发起修改心跳时间的请求,更新所述数据库服务器节点中的心跳字段;S105:将需要采集入湖的数据库以及相应的数据表信息添加到所述采集入湖任务节点;S106:所述CDC采集服务程序访问所述采集入湖任务节点,查找需要采集入湖的任务信息,并与所述采集数据库服务器中存储的数据进行对比,判断是否存在需要采集入湖的数据库以及相应的数据表;S107:在存在需要采集入湖的数据库以及相应的数据表的情况下,所述CDC采集服务程序获取待采集数据表的schema信息,并发送至所述采集入湖任务节点,以在所述采集入湖任务节点中写入所述schema信息;S108:所述CDC采集服务程序根据需要采集入湖的数据库以及相应的数据表进行采集任务;S109:所述CDC采集服务程序将采集到的数据库以及相应的数据表发送到分布式消息平台中;S110:入湖服务程序访问各所述采集入湖任务节点,根据所述schema信息创建入湖任务线程,从所述分布式消息平台中读取数据库以及相应的数据表并进行入湖处理。2.根据权利要求1所述的分布式数据库实时采集入湖方法,其特征在于,所述数据库服务器节点的名称为所述采集数据库服务器的地址,所述数据库服务器节点的内容为所述采集数据库服务器的连接时间以及心跳时间。3.根据权利要求1所述的分布式数据库实时采集入湖方法,其特征在于,所述采集入湖任务节点的名称为所述采集数据库和相应的采集数据表的名称,所述数据库服务器节点的内容为所述采集数据表的schema信息,所述schema信息包括各个字段的名称、类型、长度、顺序以及入湖任务的库、表。4.根据权利要求1所述的分布式数据库实时采集入湖方法,其特征在于,在所述S104之后,还包括:S104A:告警程序遍历所有的所述数据库服务器节点,比较当前时间与各所述采集数据库服务器的最后心跳时间之间的差值,根据所述差值与预设超时时间的比较结果,判断所述采集数据库服务器是否存在服务异常。5.根据权利要求1所述的分布式数据库实时采集入湖方法,其特征在于,所述S108具体为:所述CDC采集服务程序采用snapshot全量+binlog增量的方式采集需要采集入湖的数据库以及相应的数据表。6.一种分布式数据库实时采集入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。