【技术实现步骤摘要】
一种利用云原生资源的数据湖构建方法
[0001]本专利技术属于大数据
技术介绍
[0002]随着5G、大数据、人工智能、物联网等新兴技术的不断发展,数据呈现出爆炸性增长,越来越多的大数据产品出现,数据湖技术成为其中的代表,数据湖是一种大型数据存储和处理引擎,支持存储结构化数据、半结构化数据和非结构化数据等不同类型数据,同时可实现不同类型海量数据的并行存取、处理、分析和传输,但数据湖在构建过程中存在着组件多、部署难度高、效率低、机器成本和维护成本比较高等问题。
[0003]云原生应用也就是面向“云”而设计的应用,在使用云原生技术后,开发者无需考虑底层的技术实现,可以充分发挥云平台的弹性和分布式优势,实现快速部署、按需伸缩、不停机交付等。
[0004]云原生数据湖是基于云环境构建的低成本大数据解决方案,对于存储,云原生数据湖采用对象存储或HDFS,实现了容量按需扩容和更低的价格,同时云上统一存储也简化了之后数据调用的复杂度;对于计算,云原生数据湖采用计算存储分离的架构,让计算节点弹性伸缩,避免了存算需求 ...
【技术保护点】
【技术特征摘要】
1.一种利用云原生资源的数据湖构建方法,其特征在于,包括以下步骤:构建数据源及数据源表、数据湖数据目录,所述数据湖数据目录用于保存数据湖表以及对象存储或HDFS的文件路径;配置入湖任务,根据所述数据源表以及数据湖数据目录生成入湖任务参数,将所述入湖任务以及入湖任务参数提交至服务应用中心;通过所述服务应用中心将所述入湖任务以及入湖任务参数转发至任务调度中心入湖队列,在计算资源状态处于空闲时,将所述入湖任务以及入湖任务参数转发至资源调度中心;通过所述资源调度中心解析所述入湖任务参数,获取所述数据源及数据源表,对所述数据源及数据源表做映射获取数据源元数据信息和中间表元数据信息,生成抽象语法树,并基于所述抽象语法树生成任务计划,根据所述任务计划调度计算资源在对应数据湖数据目录执行数据写入任务,完成数据湖的构建。2.根据权利要求1所述的方法,其特征在于,在构建数据源及数据源表、数据湖数据目录之前,还包括:在云原生资源上部署数据湖,其中,所述云原生资源包括存储资源和计算资源。3.根据权利要求2所述的方法,其特征在于,还包括:构建存储资源和计算资源,其中,所述构建所述存储资源的流程包括,创建s_configmap 构建对象存储配置文件;编写store_template.yaml创建s_deployment,并由s_deployment创建对象存储容器;构建s_service为对象存储提供对外连接服务;所述构建所述计算资源的流程包括,创建c_configmap构建计算资源配置文件;编写computer_template.yaml创建c_deployment,并由c_deployment创建计算资源容器;构建c_service为计算资源集群提供对外连接服务;所述构建所述计算资源的流程还包括,通过计算资源弹性伸缩策略避免计算资源过载。4.根据权利要求1所述的方法,其特征在于,所述构建数据源及数据源表,包括:接收将所述数据源用户从UI页面输入外部数据源的IP地址、端口号、用户名和密码中的源连接信息生成数据源信息;存放所述数据源信息,将所述数据源信息与元数据中间表存储路径对应;对所述数据源信息进行划分,指定所述数据源信息输出目录。5.根据权利要求1所述的方法,其特征在于,所述在计算资源状态处于空闲时,将所述入湖任务以及入湖任务参数转发至资源调度中心,包括:当所述入湖任务到达所述入湖队列队首...
【专利技术属性】
技术研发人员:鄂海红,魏文定,宋美娜,姚钦锋,王红熳,刘钟允,王浩田,
申请(专利权)人:四方联盟北京科技发展有限公司姚钦锋,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。