一种基于湖仓一体的存储自动优化实现方法技术

技术编号:40610458 阅读:26 留言:0更新日期:2024-03-12 22:18
本发明专利技术涉及IT应用技术领域,具体地说,涉及一种基于湖仓一体的存储自动优化实现方法。包括设计湖仓一体自动优化系统的架构、改进湖仓一体框架、优化决策算法、设定自动优化执行流程等步骤。本发明专利技术设计首先通过改进湖仓一体组件的接口和实现机制,使之生成元数据变更事件,支持订阅数据集变更事件,从而能够让外部系统感知到数据集的变化;其次提出湖仓一体的数据分区混乱度算法,平衡了自动优化的时效性、成本收益、最小化成本的决策算法;设计湖仓一体自动优化系统与湖仓一体框架紧密配合,使优化系统可以对接湖仓一体框架,将优化计划分布式的方式执行,并且支持多租户、基于优先级调度、排队等特性。

【技术实现步骤摘要】

本专利技术涉及it应用,具体地说,涉及一种基于湖仓一体的存储自动优化实现方法


技术介绍

1、随着数据规模的爆炸性增长,数据仓库越来越无法容纳海量的数据,从技术角度讲数据仓库的计算能力与数据湖的存储能力相结合,构成湖仓一体的解决方案已经成为行业共识。湖仓一体的解决方案,以对象存储作为底层的数据存储,总规模可达数百pb,日增量可达1pb。在这样的数据规模下,优化数据存储布局,提高数据存储的效率,可以获得极大的性能和成本方面的收益。

2、现有的湖仓一体框架,例如开源的iceberg、hudi、delta lake等,其提供了存储优化的接口,但存储的优化依然需要框架的使用者来运行优化。其优化接口实现总结起来如下:采用周期性的优化方法,按照设定的文件大小合并数据文件,合并过程采用全量重写的方式。

3、但是现有技术中的优化方法存在较多缺陷,如:

4、1.未考虑优化必要性和优化时机:现有解决方案采用周期性优化的手段,是一种盲目性的优化手段,并没有考虑优化是否有必要,可能导致优化并没有提升查询效率;

5、2.未考虑优化收益本文档来自技高网...

【技术保护点】

1.一种基于湖仓一体的存储自动优化实现方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于湖仓一体的存储自动优化实现方法,其特征在于:所述步骤S1中,所述优化决策子系统在整个架构中是优化的决策者;当数据持续地写入时,由所述优化决策子系统持续监视数据和数据表的状态,决定是否优化、对哪些表进行优化以及什么时候进行优化,触发优化动作的执行,并协调不同数据表的优化顺序,达到最佳的资源利用效率;

3.根据权利要求2所述的基于湖仓一体的存储自动优化实现方法,其特征在于:所述步骤S1中,所述优化执行子系统负责执行具体的优化动作,所述优化执行子系统负责决策优化时机、优化...

【技术特征摘要】

1.一种基于湖仓一体的存储自动优化实现方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于湖仓一体的存储自动优化实现方法,其特征在于:所述步骤s1中,所述优化决策子系统在整个架构中是优化的决策者;当数据持续地写入时,由所述优化决策子系统持续监视数据和数据表的状态,决定是否优化、对哪些表进行优化以及什么时候进行优化,触发优化动作的执行,并协调不同数据表的优化顺序,达到最佳的资源利用效率;

3.根据权利要求2所述的基于湖仓一体的存储自动优化实现方法,其特征在于:所述步骤s1中,所述优化执行子系统负责执行具体的优化动作,所述优化执行子系统负责决策优化时机、优化的具体规划、触发执行哪些优化;

4.根据权利要求3所述的基于湖仓一体的存储自动优化实现方法,其特征在于:所述步骤s2中,改...

【专利技术属性】
技术研发人员:冯飞
申请(专利权)人:北京傲韦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1