一种Hive表转换为数据湖表的方法及装置制造方法及图纸

技术编号:43487207 阅读:23 留言:0更新日期:2024-11-29 16:58
本申请公开了一种Hive表转换为数据湖表的方法及装置,涉及大数据处理技术领域,解决了现有技术中用户在将Hive表转为湖表的过程中因为异常导致原来的Hive表受损的问题,该方法包括:创建用于被Spark SQL调用的存储过程;利用所述存储过程将源Hive表转换为目标Paimon表;通过Spark读取源Hive表的数据;利用Paimon将读取到的源Hive表的数据写入目标Paimon表,该方法在转表之后源Hive表仍然存在,且在转表失败之后,源Hive表的元数据和底层文件也不会被破坏,并且支持将一个数据库下的Hive表转换为其他数据库下的Paimon表的转表操作。

【技术实现步骤摘要】

本申请涉及大数据处理,尤其是一种hive表转换为数据湖表的方法及装置。


技术介绍

1、现有的数据湖框架如iceberg、hudi、paimon等,已经支持了将hive转换为对应的数据湖表。以spark和paimon为例,其中spark是大数据计算引擎。paimon提供了一个名为migrate_table的存储过程,使用spark sql执行以下sql语句:call sys.migrate_table(source_type=>'hive',table=>'db.srctable',options=>'x1=y1,x2=y2');即可将hive中的tbl表转换为paimon表,表名不变。

2、spark在执行migrate_table这个存储过程的过程中,会执行以下操作:

3、1.获取srctable的元数据信息;

4、2.创建一个表名为srctable_paimon_的paimon表;

5、3.将srctable下的文件移动到srctable_paimon_对应的hdfs路径下,并且根据文件本文档来自技高网...

【技术保护点】

1.一种Hive表转换为数据湖表的方法,其特征在于,包括:

2.根据权利要求1所述的Hive表转换为数据湖表的方法,其特征在于,创建用于被Spark SQL调用的存储过程,包括:

3.根据权利要求2所述的Hive表转换为数据湖表的方法,其特征在于,所述ProcedureParameter数组对象包括source_type、table、target_table和options。

4.根据权利要求2所述的Hive表转换为数据湖表的方法,其特征在于,创建目标Paimon表,包括:

5.根据权利要求1所述的Hive表转换为数据湖表的方法,其特征在于...

【技术特征摘要】

1.一种hive表转换为数据湖表的方法,其特征在于,包括:

2.根据权利要求1所述的hive表转换为数据湖表的方法,其特征在于,创建用于被spark sql调用的存储过程,包括:

3.根据权利要求2所述的hive表转换为数据湖表的方法,其特征在于,所述procedureparameter数组对象包括source_type、table、target_table和options。

4.根据权利要求2所述的hive表转换为数据湖表的方法,其特征在于,创建目标paimon表,包括:

5.根据权利要求1所述的hive表转换为数据湖表的方法,其特征在于,通过spark读取源hive表的数据,包括:

6.根据权利要求1所述的hive表转换为...

【专利技术属性】
技术研发人员:徐超梁伟雄闵佳
申请(专利权)人:杭州玳数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1