【技术实现步骤摘要】
一种湖仓下沉方法、装置、设备及介质
[0001]本申请涉及大数据或金融的
,特别是涉及一种湖仓下沉方法、装置、设备及介质。
技术介绍
[0002]数据仓库,简称数仓,是长期储存在计算机内的、有组织、可共享的数据集合,是为决策支持系统提供基础数据的分析型数据库。数据仓库存储容量有限,只会存储一年的数据,且业务无法从数据仓库直接提取业务数据使用。而数据湖是一种以原始格式存储数据的系统或存储库,可以用于报告、可视化、高级分析和机器学习等任务。
[0003]通过湖仓下沉,把数据仓库的MPP表数据下沉至数据湖HIVE表进行存储,可以保存数据仓库的数据,也便于提取业务数据使用。但是数仓使用MPP技术栈存储数据,数据则用HIVE存储数据,通过湖仓下沉存在表数据兼容问题。
[0004]因此,如何实现湖仓下沉,是本领域技术人员亟需解决的技术问题。
技术实现思路
[0005]有鉴于此,本申请实施例提供了一种湖仓下沉方法及装置,旨在实现湖仓下沉。
[0006]第一方面,本申请实施例提供了一种湖仓下沉方 ...
【技术保护点】
【技术特征摘要】
1.一种湖仓下沉方法,其特征在于,所述方法包括:数据仓库通过kafka向数据湖发送消息;数据湖通过TBDS事件API,将参数传给API,所述参数包括分析所述kafka得到的事件名和数据日期;TBDS根据所述参数,产生事件实例;TBDS执行工作流运行包,消费所述事件实例,以实现湖仓下沉,所述工作流运行包为文件格式转化脚本。2.根据权利要求1所述的方法,其特征在于,所述TBDS执行工作流运行包,消费所述事件实例,以实现湖仓下沉,所述工作流运行包为文件格式转化脚本,包括:TBDS获取数据仓库下传的txt格式文件;TBDS将所述txt格式文件转换为orc格式文件;TBDS解析所述orc格式文件,生成临时HIVE表;TBDS将所述临时HIVE表的数据加载至目标HIVE表,所述目标HIVE表为数据湖对应的HIVE表。3.根据权利要求2所述的方法,其特征在于,所述TBDS将所述txt格式文件转换为orc格式文件,包括:TBDS解析所述txt格式文件的识别字段分隔符和换行分隔符;TBDS根据所述识别字段分隔符和换行分隔符,将txt格式文件转换为orc格式文件。4.根据权利要求2所述的方法,其特征在于,所述TBDS解析所述orc格式文件,生成临时HIVE表,包括:TBDS根据所述参数,生成空白HIVE表;TBDS通过预设脚本,将所述orc格式文件加载到所述空白HIVE表,得到临时HIVE表。5.根据权利要求2所述的方法,其特征在于,所述TBDS将所述临时HIVE表的数据加载至目标HIVE表,包括:TBDS从app_metadata_src表和/或app_metadata表获取数据湖表...
【专利技术属性】
技术研发人员:操庐宁,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。