基于动态变更表结构的湖仓一体实现方法及装置制造方法及图纸

技术编号:45533556 阅读:20 留言:0更新日期:2025-06-13 17:33
本发明专利技术涉及大数据技术领域,具体提供了基于动态变更表结构的湖仓一体实现方法及装置,以MinIO作为存储,Hudi作为数据湖框架,采用Flink CDC将原始数据按原表结构存储到Hudi表,包含湖上建仓、动态变更表结构和元数据管理的特性,使用Flink CDC进行数据同步,在代码层面对接数据计算层;将原始数据存储到Hudi表时,Hudi表对应的为数据仓库中的原始数据层,当业务数据表结构发生变化时,会在数据同步过程中自动变更ODS层中对应的表结构;使用Flink DataStream API进行数据同步的开发,通过自定义DebeziumDeserializationSchema实现类来获取表结构的变更,进而修改ODS层中对应的表结构。与现有技术相比,本发明专利技术能够提高对湖仓中数据的管理和利用,有效降低了数据湖退化为数据沼泽的可能。

【技术实现步骤摘要】

本专利技术涉及大数据,具体提供基于动态变更表结构的湖仓一体实现方法及装置


技术介绍

1、随着互联网和移动设备的普及数据海量增长,各行各业大都进入了大数据时代,为了能够同时满足离线计算和实时计算,当前的大数据处理系统逐渐采用湖仓一体架构,但目前的湖仓一体架构存在如下问题:

2、(1)大多采用kafka作为中间件,需要先将数据同步到kafka,再从kafka同步到数据湖中,这种方式虽然解耦了数据采集和数据仓库的关联,但kafka的引入也增加了数据流转的次数,并且增加了系统的复杂性。

3、(2)由于数据仓库原始数据层中的表是在数据同步之前就已确定表结构,因此当数据源的库表结构发生变化时,需要先停止数据仓库的同步任务,在修改原始数据层中表的结构后,重新开启同步任务,这种无法动态变更库表结构的方式显然增加了数据仓库维护的难度和成本。


技术实现思路

1、本专利技术是针对上述现有技术的不足,提供一种实用性强的基于动态变更表结构的湖仓一体实现方法。

2、本专利技术进一步的技术任务是提供一本文档来自技高网...

【技术保护点】

1.基于动态变更表结构的湖仓一体实现方法,其特征在于,以MinIO作为存储,Hudi作为数据湖框架,采用Flink CDC将原始数据按原表结构存储到Hudi表,包含湖上建仓、动态变更表结构和元数据管理的特性,使用Flink CDC直接进行数据同步,在代码层面对接数据计算层;

2.根据权利要求1所述的基于动态变更表结构的湖仓一体实现方法,其特征在于,修改ODS层中对应的表结构时,具有如下步骤:

3.根据权利要求2所述的基于动态变更表结构的湖仓一体实现方法,其特征在于,在步骤(1)中,第一个元素描述表结构变化情况:N表示无变化,D表示删除字段,A表示新增字段,M表示修...

【技术特征摘要】

1.基于动态变更表结构的湖仓一体实现方法,其特征在于,以minio作为存储,hudi作为数据湖框架,采用flink cdc将原始数据按原表结构存储到hudi表,包含湖上建仓、动态变更表结构和元数据管理的特性,使用flink cdc直接进行数据同步,在代码层面对接数据计算层;

2.根据权利要求1所述的基于动态变更表结构的湖仓一体实现方法,其特征在于,修改ods层中对应的表结构时,具有如下步骤:

3.根据权利要求2所述的基于动态变更表结构的湖仓一体实现方法,其特征在于,在步骤(1)中,第一个元素描述表结构变化情况:n表示无变化,d表示删除字段,a表示新增字段,m表示修改字段;

4.根据权利要求3所述的基于动态变更表结构的湖仓一体实现方法,其特征在于,在步骤(2)中,包括从sourcerecord获取字段变化信息和数据内容,并转换为getprodu...

【专利技术属性】
技术研发人员:王贺司衍芹周双陈晏鹏张连超
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1