面向云数据分析服务场景的数据块索引结构及其构建方法技术

技术编号:41349115 阅读:33 留言:0更新日期:2024-05-20 10:03
本发明专利技术公开了一种面向云数据分析服务场景的数据块索引结构及其构建方法,首先将被索引数据的数据块中的分布情况建模成累积分布函数,进而使用分段线性函数拟合该累积分布函数,从而对数据块分布模式进行捕获,根据捕获到的模式将被索引的数据组织成分段,并对每个分段进行分区,最后,每个分段及其内的分区作为叶子节点构建B+树结构,以实现高效的查找和插入操作。本发明专利技术能够解决现有成员过滤器方法和精确索引方法过滤效果好但索引存储开销大的技术问题,以及现有小物化聚合方法索引存储开销小但过滤效果差的技术问题。

【技术实现步骤摘要】

本专利技术计算机数据存储领域,更具体地,涉及一种面向云数据分析服务场景的数据块索引结构及其构建方法


技术介绍

1、当前云计算、云数据分析场景中广泛使用存算分离架构,即将计算资源(比如计算集群)从存储侧分离处理以实现多种资源的独立扩展。比如一个典型的在亚马逊云上部署分析服务的方式,是使用amazon ec2的虚拟机搭建计算集群(作为计算侧),而把数据存储在亚马逊对象存储s3(存储侧)上。同时,为了最大化数据吞吐同时最小化io操作数,数据块(包含来自一个数据集的数万到数百万条数据)通常作为访问远端存储侧的最小单元(最小的数据过滤单元)。

2、为了缓解计算与存储分离产生的高额数据传输时延,云厂商广泛使用数据过滤技术(data skipping),通过过滤当前分析任务无关的数据块来减少数据的读取量,从而减少数据传输时延。

3、目前的数据过滤技术主要有三种:第一种是小物化聚合(smallmaterialaggregate),其通过为每个数据块独立维护轻量的元数据信息来判断相应数据块是否被当前任务所需要,其代表就是zonemap索引,其最常见本文档来自技高网...

【技术保护点】

1.一种面向云数据分析服务场景的数据块索引结构,其特征在于,

2.一种根据权利要求1所述的面向云数据分析服务场景的数据块索引结构的构建方法,其特征在于,包括如下步骤:

3.根据权利要求2所述的面向云数据分析服务场景的数据块索引结构的构建方法,其特征在于,步骤(1)包括以下子步骤:

4.根据权利要求2或3所述的面向云数据分析服务场景的数据块索引结构的构建方法,其特征在于,步骤(2)包括以下子步骤:

5.根据权利要求2至4中任意一项所述的面向云数据分析服务场景的数据块索引结构的构建方法,其特征在于,步骤(3)包括以下子步骤:

6.根...

【技术特征摘要】

1.一种面向云数据分析服务场景的数据块索引结构,其特征在于,

2.一种根据权利要求1所述的面向云数据分析服务场景的数据块索引结构的构建方法,其特征在于,包括如下步骤:

3.根据权利要求2所述的面向云数据分析服务场景的数据块索引结构的构建方法,其特征在于,步骤(1)包括以下子步骤:

4.根据权利要求2或3所述的面向云数据分析服务场景的数据块索引结构的构建方法,其特征在于,步骤(2)包括以下子步骤:

【专利技术属性】
技术研发人员:王桦佟毓来刘嘉贞周可
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1