一种Hive表转换为数据湖表的方法及装置制造方法及图纸

技术编号：43487207 阅读：23 留言：0更新日期：2024-11-29 16:58

本申请公开了一种Hive表转换为数据湖表的方法及装置，涉及大数据处理技术领域，解决了现有技术中用户在将Hive表转为湖表的过程中因为异常导致原来的Hive表受损的问题，该方法包括：创建用于被Spark SQL调用的存储过程；利用所述存储过程将源Hive表转换为目标Paimon表；通过Spark读取源Hive表的数据；利用Paimon将读取到的源Hive表的数据写入目标Paimon表，该方法在转表之后源Hive表仍然存在，且在转表失败之后，源Hive表的元数据和底层文件也不会被破坏，并且支持将一个数据库下的Hive表转换为其他数据库下的Paimon表的转表操作。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及大数据处理，尤其是一种hive表转换为数据湖表的方法及装置。

技术介绍

1、现有的数据湖框架如iceberg、hudi、paimon等，已经支持了将hive转换为对应的数据湖表。以spark和paimon为例，其中spark是大数据计算引擎。paimon提供了一个名为migrate_table的存储过程，使用spark sql执行以下sql语句：call sys.migrate_table(source_type＝>'hive',table＝>'db.srctable',options＝>'x1＝y1,x2＝y2')；即可将hive中的tbl表转换为paimon表，表名不变。

2、spark在执行migrate_table这个存储过程的过程中，会执行以下操作：

3、1.获取srctable的元数据信息；

4、2.创建一个表名为srctable_paimon_的paimon表；

5、3.将srctable下的文件移动到srctable_paimon_对应的hdfs...

【技术保护点】

1.一种Hive表转换为数据湖表的方法，其特征在于，包括：

2.根据权利要求1所述的Hive表转换为数据湖表的方法，其特征在于，创建用于被Spark SQL调用的存储过程，包括：

3.根据权利要求2所述的Hive表转换为数据湖表的方法，其特征在于，所述ProcedureParameter数组对象包括source_type、table、target_table和options。

4.根据权利要求2所述的Hive表转换为数据湖表的方法，其特征在于，创建目标Paimon表，包括：

5.根据权利要求1所述的Hive表转换为数据湖表的方法，其特征在于...

【技术特征摘要】

1.一种hive表转换为数据湖表的方法，其特征在于，包括：

2.根据权利要求1所述的hive表转换为数据湖表的方法，其特征在于，创建用于被spark sql调用的存储过程，包括：

3.根据权利要求2所述的hive表转换为数据湖表的方法，其特征在于，所述procedureparameter数组对象包括source_type、table、target_table和options。

4.根据权利要求2所述的hive表转换为数据湖表的方法，其特征在于，创建目标paimon表，包括：

5.根据权利要求1所述的hive表转换为数据湖表的方法，其特征在于，通过spark读取源hive表的数据，包括：

6.根据权利要求1所述的hive表转换为...

【专利技术属性】
技术研发人员：徐超，梁伟雄，闵佳，
申请(专利权)人：杭州玳数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人