【技术实现步骤摘要】
一种面向大数据的索引优化方法
本专利技术涉及数据索引
,尤其涉及的是一种面向大数据的索引优化方法。
技术介绍
索引是一种辅助数据的结构,可加快针对大数据集的数据检索速度。空间索引或时空索引通过利用数据之间的空间关系显著改善地理空间大数据检索性能,并支持各种时空运算符,这些基本的时空运算符对于在大数据集中快速定位所需的数据记录至关重要。由于可扩展性有限,传统的独立计算机索引方法已成为索引爆炸式增长数据的主要瓶颈。在大数据时代,分布式和并行式是处理大数据的两个基本策略,在这两个基本策略中,大数据问题被划分为较小的子问题,这些子问题可以由可伸缩计算机集群并行处理,从而显著提高空间大数据的可访问性和可扩展性。现有的分布式计算环境虽然有多种数据索引结构可供使用,但由于缺乏关键索引优化方法,导致其无法满足空间大数据价值挖掘的要求。因此,现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处,本专利技术的目的在于提供一种面向大数据的索引优化方法,克服现有的分布式计算环境由于缺乏关 ...
【技术保护点】
1.一种面向大数据的索引优化方法,其特征在于,包括以下步骤:/n获取历史索引和数据访问信息,根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构;其中,各个所述候选数据索引结构均包括若干计算节点及与各个所述计算节点对应的若干数据节点;/n获取多个所述候选数据索引结构中各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围;/n根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,从多个所述候选数据索引结构中确定目标数据索引结构;/n根据所述目标数据索引结构对所述树索引结构进行优化。/n
【技术特征摘要】
1.一种面向大数据的索引优化方法,其特征在于,包括以下步骤:
获取历史索引和数据访问信息,根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构;其中,各个所述候选数据索引结构均包括若干计算节点及与各个所述计算节点对应的若干数据节点;
获取多个所述候选数据索引结构中各计算节点对应的数据节点数、数据访问概率以及数据空间覆盖范围;
根据所述数据节点数、所述数据访问概率以及所述数据空间覆盖范围,从多个所述候选数据索引结构中确定目标数据索引结构;
根据所述目标数据索引结构对所述树索引结构进行优化。
2.根据权利要求1所述的面向大数据的索引优化方法,其特征在于,所述根据所述历史索引和数据访问信息确定预先构建的树索引结构对应的多个候选数据索引结构的步骤具体包括:
根据所述历史索引和数据访问记录,以最小化所述数据节点数、所述数据节点访问概率和所述数据空间覆盖范围为目标,采用启发式贪婪算法确定预先构建的树索引结构对应的多个候选数据索引结构。
3.根据权利要求1所述的面向大数据的索引优化方法,其特征在于,所述获取多个所述候选数据索引结构中各计算节点对应的数据访问概率的步骤包括:
根据所述历史索引和数据访问记录确定多个所述候选数据索引结构中各数据节点的访问概率;
根据各数据节点的访问概率及各计算节点对应的数据节点,确定各计算节点对应的数据访问概率。
4.根据权利要求1所述的面向大数据的索引优化方法,其特征在于,所述获取多个所述候选数据索引结构中各计算节点对应的数据空间覆盖范围的步骤包括:
获取多个所述候选数据索引结构中各计算节点对应的最小外接矩形;其中,各计算节点对应的数据节点位于各计算节点对应的最小外接矩形内;
计算各计算节点对应的最小外接矩形的面积,并将所...
【专利技术属性】
技术研发人员:夏吉喆,涂伟,乐阳,罗纬,
申请(专利权)人:深圳大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。