一种湖仓下沉方法、装置、设备及介质制造方法及图纸

技术编号:39291227 阅读:31 留言:0更新日期:2023-11-07 10:59
本申请提供了一种湖仓下沉方法、装置、设备及介质,可应用于大数据领域或金融领域,包括:数据仓库通过kafka向数据湖发送消息;数据湖通过TBDS事件API,将参数传给API,所述参数包括分析所述kafka得到的事件名和数据日期;TBDS根据所述参数,产生事件实例;TBDS执行工作流运行包,消费所述事件实例,以实现湖仓下沉,所述工作流运行包为文件格式转化脚本。这样,通过消息触发TBDS,由工作流运行包实现数据仓库的数据格式向数据湖的数据格式的转换,解决表数据兼容问题,进而完成湖仓下沉。进而完成湖仓下沉。进而完成湖仓下沉。

【技术实现步骤摘要】
一种湖仓下沉方法、装置、设备及介质


[0001]本申请涉及大数据或金融的
,特别是涉及一种湖仓下沉方法、装置、设备及介质。

技术介绍

[0002]数据仓库,简称数仓,是长期储存在计算机内的、有组织、可共享的数据集合,是为决策支持系统提供基础数据的分析型数据库。数据仓库存储容量有限,只会存储一年的数据,且业务无法从数据仓库直接提取业务数据使用。而数据湖是一种以原始格式存储数据的系统或存储库,可以用于报告、可视化、高级分析和机器学习等任务。
[0003]通过湖仓下沉,把数据仓库的MPP表数据下沉至数据湖HIVE表进行存储,可以保存数据仓库的数据,也便于提取业务数据使用。但是数仓使用MPP技术栈存储数据,数据则用HIVE存储数据,通过湖仓下沉存在表数据兼容问题。
[0004]因此,如何实现湖仓下沉,是本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种湖仓下沉方法及装置,旨在实现湖仓下沉。
[0006]第一方面,本申请实施例提供了一种湖仓下沉方法,包括:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种湖仓下沉方法,其特征在于,所述方法包括:数据仓库通过kafka向数据湖发送消息;数据湖通过TBDS事件API,将参数传给API,所述参数包括分析所述kafka得到的事件名和数据日期;TBDS根据所述参数,产生事件实例;TBDS执行工作流运行包,消费所述事件实例,以实现湖仓下沉,所述工作流运行包为文件格式转化脚本。2.根据权利要求1所述的方法,其特征在于,所述TBDS执行工作流运行包,消费所述事件实例,以实现湖仓下沉,所述工作流运行包为文件格式转化脚本,包括:TBDS获取数据仓库下传的txt格式文件;TBDS将所述txt格式文件转换为orc格式文件;TBDS解析所述orc格式文件,生成临时HIVE表;TBDS将所述临时HIVE表的数据加载至目标HIVE表,所述目标HIVE表为数据湖对应的HIVE表。3.根据权利要求2所述的方法,其特征在于,所述TBDS将所述txt格式文件转换为orc格式文件,包括:TBDS解析所述txt格式文件的识别字段分隔符和换行分隔符;TBDS根据所述识别字段分隔符和换行分隔符,将txt格式文件转换为orc格式文件。4.根据权利要求2所述的方法,其特征在于,所述TBDS解析所述orc格式文件,生成临时HIVE表,包括:TBDS根据所述参数,生成空白HIVE表;TBDS通过预设脚本,将所述orc格式文件加载到所述空白HIVE表,得到临时HIVE表。5.根据权利要求2所述的方法,其特征在于,所述TBDS将所述临时HIVE表的数据加载至目标HIVE表,包括:TBDS从app_metadata_src表和/或app_metadata表获取数据湖表...

【专利技术属性】
技术研发人员:操庐宁
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1