一种数据湖仓管理方法及设备技术

技术编号:45580710 阅读:9 留言:0更新日期:2025-06-20 22:01
本申请实施例提供了一种数据湖仓管理方法及设备,涉及存储技术领域。该方法应用于管理节点,方法包括获取数据湖仓中计算集群的操作任务所处理的总数据量,操作任务用于对目标数据进行处理,目标数据为数据湖仓的存储集群中的数据或待写入存储集群的数据;根据总数据量,对数据湖仓中元数据管理集群中的元数据管理节点的数量进行扩缩调整,元数据管理集群用于管理存储集群中的数据的元数据。

【技术实现步骤摘要】

本申请涉及存储,尤其涉及一种数据湖仓管理方法及设备


技术介绍

1、在大数据时代,企业和组织的数据存储需求已经达到tb(太字节)甚至pb(拍字节)级别,面对大规模多样化的数据,诸如mysql、oracle等传统关系型数据库存在较多局限性,故而数据湖仓应运而生。数据湖仓是结合了数据仓库和数据湖优点的数据管理架构,广泛使用hdfs(hadoop distributed file system,hadoop分布式存储系统)技术实现数据存储,并采用数据湖表的形式实现hdfs的数据文件管理。

2、其中,hdfs倾向于处理大规模数据集的批处理任务,且专为大文件存储而设计,所以,在湖仓架构中对一些适配hdfs的数据湖仓服务(如湖表管理组件)也需配置相应的资源。通常,为这些数据湖仓服务配置的资源规模是根据经验指定的,或者根据资源的成本与hdfs日常处理的数据量进行平衡之后实现配置的。这就使得在大量数据进入数据湖仓时,固定规模的数据湖仓服务的处理能力不足以负荷该大量数据,甚至导致崩溃,而数据湖仓服务的这种低并发率,又拖慢了数据入湖仓的速度,加剧了数据湖仓服务崩溃本文档来自技高网...

【技术保护点】

1.一种数据湖仓管理方法,其特征在于,所述方法应用于管理节点,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述总数据量,对所述数据湖仓中元数据管理集群中的元数据管理节点的数量进行扩缩调整,具体包括:

3.根据权利要求2所述的方法,其特征在于,在所述根据调度策略,从元数据管理集群中确定所述第三总数据量所需的元数据管理节点数量之后,所述方法包括:

4.根据权利要求2或3所述的方法,其特征在于,在所述根据调度策略,从元数据管理集群中确定所述第三总数据量所需的元数据管理节点数量之后,所述方法包括:

5.根据权利要求2-4任一项...

【技术特征摘要】

1.一种数据湖仓管理方法,其特征在于,所述方法应用于管理节点,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述总数据量,对所述数据湖仓中元数据管理集群中的元数据管理节点的数量进行扩缩调整,具体包括:

3.根据权利要求2所述的方法,其特征在于,在所述根据调度策略,从元数据管理集群中确定所述第三总数据量所需的元数据管理节点数量之后,所述方法包括:

4.根据权利要求2或3所述的方法,其特征在于,在所述根据调度策略,从元数据管理集群中确定所述第三总数据量所需的元数据管理节点数量之后,所述方法包括:

5.根据权利要求2-4任一项所述的方法,其特征在于,...

【专利技术属性】
技术研发人员:吴涛胡博
申请(专利权)人:河南秦尉数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1