索引结构的构建方法、索引数据写入、读取方法及装置制造方法及图纸

技术编号:36787348 阅读:20 留言:0更新日期:2023-03-08 22:32
本申请提供了一种索引结构的构建方法、索引数据写入、读取方法及装置,所述构建方法包括对基础数据进行分组,构建与每组基础数据一一对应的叶子节点,并将每一叶子节点的基础数据进行直线拟合得到线性模型;基于线性模型计算该叶子节点的目标基础数据的目标存储位置,并在目标存储位置空白时将所述目标基础数据存储至目标存储位置,在目标存储位置被占用时将所述目标基础数据存储至对应目标存储位置开辟的缓存节点处,以完成该叶子节点、该叶子节点下缓存节点的初始化;根据初始化完成的叶子节点中确定根节点的索引模型,得到构建好的索引结构,所述索引结构能够更好的支持并发协议,同时拟合基础数据的流式分布算法性能和重新训练策略更优。新训练策略更优。新训练策略更优。

【技术实现步骤摘要】
索引结构的构建方法、索引数据写入、读取方法及装置


[0001]本申请涉及数据存储
,具体而言,涉及一种索引结构的构建方法、索引数据写入、读取方法及装置。

技术介绍

[0002]索引是数据库系统中用于提升数据库存取性能的主要技术之一。在大数据时代,随着数据量的不断增长,传统索引(如B+树)的问题日益突出:(1)空间代价过高。例如,B+树索引需要借助O(n)规模的额外空间来索引原始的数据,这对于大数据环境而言是难以容忍的。(2)每次查询需要多次的间接搜索。例如,B+树中的每次查询都需要访问从树根到叶节点路径上的所有节点,这使得B+树的查找性能受限于数据规模。自2018年以来,人工智能作为学习数据分布的方法,催生了“学习索引”这一新的研究方向。目前,学习索引的设计正处于起步阶段,存在许多问题。例如,学习索引存在对基础数据拟合能力不足,拟合基础数据的流式分布算法性能很差;现有学习索引重新训练的设计太过理想化,重新训练频率太高,重新训练单次耗时太长,无法支持更新操作、或索引更新策略不实用;大部分高性能学习索引并不能很好地支持并发协议等问题,或支持并本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.索引结构的构建方法,其特征在于,所述构建方法包括:获取基础数据,并对基础数据进行分组,得到多组基础数据;构建与每组基础数据一一对应的叶子节点,并将每一叶子节点对应的基础数据进行直线拟合,得到该叶子节点的线性模型;其中,每一叶子节点中包括多个存储位置;基于该叶子节点的线性模型,计算该叶子节点的目标基础数据的目标存储位置,并在目标存储位置空白时将所述目标基础数据存储至目标存储位置,在目标存储位置被占用时将所述目标基础数据存储至对应目标存储位置开辟的缓存节点处,以完成该叶子节点、该叶子节点下缓存节点的初始化;构建根节点,并根据初始化完成的每一叶子节点中的关键基础数据确定根节点的索引模型,得到构建好的索引结构。2.根据权利要求1所述的索引结构的构建方法,其特征在于,在目标存储位置空白时将所述目标基础数据存储至目标存储位置,在目标存储位置被占用时将所述目标基础数据存储至对应目标存储位置开辟的缓存节点处,以完成该叶子节点、该叶子节点下缓存节点的初始化,包括:按照预设排序规则将该叶子节点的基础数据进行排序,并按照基础数据的排列顺序依次重复以下步骤,直至最后一个基础数据;基于该叶子节点的线性模型,计算该叶子节点的目标基础数据的目标存储位置;判断所述叶子节点的目标存储位置是否空白;若是,则将所述目标基础数据存储至所述目标存储位置;若否,则对应该目标存储位置开辟一缓存节点,并将所述目标基础数据存储至所述缓存节点,或者,将所述目标基础数据存储至对应该目标存储位置的缓存节点。3.根据权利要求1所述的索引结构的构建方法,其特征在于,所述构建方法还包括:在所述索引结构写入索引数据后,当判断所述索引结构的局部索引结构满足局部更新条件时,获取局部索引结构中的索引数据;所述局部索引结构中包括一局部索引模型,所述局部索引模型为缓存节点或叶子节点的索引模型;基于所述局部索引结构的索引数据,重新确定局部索引结构的局部索引模型;用重新确定的局部索引模型替代局部索引结构中原有的局部索引模型,更新所述局部索引结构。4.根据权利要求3所述的索引结构的构建方法,其特征在于,基于所述局部索引结构的索引数据,重新确定局部索引结构的局部索引模型,包括:将所述局部索引结构的索引数据输入至预先训练好的索引匹配模型;其中,所述索引匹配模型是通过训练数据训练神经网络模型得到的,所述训练数据包括样本索引数据和样本索引模型;通过所述索引匹配模型,确定匹配所述局部索引结构中索引数据的局部索引模型。5.根据权利要求3所述的索引结构的构建方法,其特征在于,判断所述索引结构的局部索引结构满足局部更新条件,至少包括以下之一:当插入索引数据时,根据所述索引数据的插入时间、局部索引结构的构建或更新时间、预测的数据累积速度、局部索引结构构建或更新完成时索引数据的数量,计算出第一积累概率;
通过冲突概率模型计算插入操作引起的、局部索引结构中冲突的索引数据的数目大于预设冲突索引数据阈值的冲突概率;根据所述第一积累概率和/或冲突概率,判断所述局部索引结构是否满足局部更新条件;或者,当读取索引数据时,通过读取概率模型计算读取操作引起的局部索引结构中读取频率大于预设读取频率的读取更新概率;根据所述...

【专利技术属性】
技术研发人员:柴云鹏葛加可施博宇骆远辉
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1