Hudi数据湖的数据同步方法、装置、设备和存储介质制造方法及图纸

技术编号:45536719 阅读:33 留言:0更新日期:2025-06-13 17:38
本申请涉及数据处理领域,尤其涉及一种Hudi数据湖的数据同步方法、装置、设备和存储介质。实时获取目标数据库的业务数据,并将业务数据存入分布式文件系统表;根据分布式文件系统表,生成与分布式文件系统表对应的接口文件;将接口文件存储至内存分布式存储系统中,并对内存分布式存储系统内的接口文件进行加工处理,得到执行结果;根据内存分布式存储系统中的接口文件以及执行结果,对Hudi数据湖进行数据同步处理。该方法可以对Hudi数据湖的数据根据业务变化情况进行实时更新,实现从业务数据产生到实时数据加工入湖,再到业务数据分析查询的一站式流程处理,解决了数据湖数据更新延迟造成数据分析偏差问题。

【技术实现步骤摘要】

本申请涉及数据处理领域,尤其涉及一种hudi数据湖的数据同步方法、装置、设备和存储介质。


技术介绍

1、hudi是一个通用的大数据存储系统,用于在hadoop(上执行诸如更新,插入和删除之类的操作,它允许用户在查询时仅摄取更改的数据,从而提高查询效率。它可以像任何作业一样进一步水平扩展,并将数据集直接存储在hdfs上,hudi的主要目的是高效减少摄取过程中的数据延迟。

2、hudi数据湖的传统使用方法,通常是将已离线业务数据进行入湖,入湖完成后,在此基础上使用相应的组件(如presto)进行业务数据查询。

3、然而,将已具备的离线业务数据进行入湖,入湖完成后,在此基础上使用相应的组件进行业务数据查询,这就造成了hudi数据湖的数据无法根据业务变化情况进行实时更新的问题。因此,根据业务变化情况进行数据准实时更新是当前hudi数据湖亟需解决的问题。


技术实现思路

1、本申请提供一种hudi数据湖的数据同步方法、装置、设备和存储介质,用以解决现有技术中存在的上述问题,即现有技术中将已具备的离本文档来自技高网...

【技术保护点】

1.一种Hudi数据湖的数据同步方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述接口文件存储至内存分布式存储系统中,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述接口文件存入分区表,以使所述接口文件从所述分区表中加工至生产表中,包括:

4.根据权利要求3所述的方法,其特征在于,所述将所述接口文件存储至内存分布式存储系统中,并对所述内存分布式存储系统内的所述接口文件进行加工处理,得到执行结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述每个业务场景对应的生产表数据按照对应的分...

【技术特征摘要】

1.一种hudi数据湖的数据同步方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述接口文件存储至内存分布式存储系统中,包括:

3.根据权利要求2所述的方法,其特征在于,所述将所述接口文件存入分区表,以使所述接口文件从所述分区表中加工至生产表中,包括:

4.根据权利要求3所述的方法,其特征在于,所述将所述接口文件存储至内存分布式存储系统中,并对所述内存分布式存储系统内的所述接口文件进行加工处理,得到执行结果,包括:

5.根据权利要求4所述的方法,其特征在于,所述将所述每个业务场景对应的生产表数据...

【专利技术属性】
技术研发人员:冯启行丁博周洋毛聪王晓明朱涛邵波崔蓝月
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1