【技术实现步骤摘要】
本申请涉及数据处理领域,尤其涉及一种hudi数据湖的数据同步方法、装置、设备和存储介质。
技术介绍
1、hudi是一个通用的大数据存储系统,用于在hadoop(上执行诸如更新,插入和删除之类的操作,它允许用户在查询时仅摄取更改的数据,从而提高查询效率。它可以像任何作业一样进一步水平扩展,并将数据集直接存储在hdfs上,hudi的主要目的是高效减少摄取过程中的数据延迟。
2、hudi数据湖的传统使用方法,通常是将已离线业务数据进行入湖,入湖完成后,在此基础上使用相应的组件(如presto)进行业务数据查询。
3、然而,将已具备的离线业务数据进行入湖,入湖完成后,在此基础上使用相应的组件进行业务数据查询,这就造成了hudi数据湖的数据无法根据业务变化情况进行实时更新的问题。因此,根据业务变化情况进行数据准实时更新是当前hudi数据湖亟需解决的问题。
技术实现思路
1、本申请提供一种hudi数据湖的数据同步方法、装置、设备和存储介质,用以解决现有技术中存在的上述问题,即现
...【技术保护点】
1.一种Hudi数据湖的数据同步方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述接口文件存储至内存分布式存储系统中,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述接口文件存入分区表,以使所述接口文件从所述分区表中加工至生产表中,包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述接口文件存储至内存分布式存储系统中,并对所述内存分布式存储系统内的所述接口文件进行加工处理,得到执行结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述每个业务场景对应的生
...【技术特征摘要】
1.一种hudi数据湖的数据同步方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述接口文件存储至内存分布式存储系统中,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述接口文件存入分区表,以使所述接口文件从所述分区表中加工至生产表中,包括:
4.根据权利要求3所述的方法,其特征在于,所述将所述接口文件存储至内存分布式存储系统中,并对所述内存分布式存储系统内的所述接口文件进行加工处理,得到执行结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述每个业务场景对应的生产表数据...
【专利技术属性】
技术研发人员:冯启行,丁博,周洋,毛聪,王晓明,朱涛,邵波,崔蓝月,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。