一种数据索引的构建、数据查询方法、装置、介质和产品制造方法及图纸

技术编号:46573886 阅读:1 留言:0更新日期:2025-10-10 21:18
本发明专利技术公开了一种数据索引的构建、数据查询方法、装置、介质和产品。通过为原始数据中的每一原始位置处的数据元素分配偏移量;将所述原始数据中的每个数据元素进行排序,形成排序数据;将所述排序数据中每一排序位置处的数据元素的偏移量按所述排序位置进行存储,形成位置向量,用于关联所述数据元素在所述排序数据中的排序位置与所述数据元素的偏移量;采用机器学习算法,对所述排序数据构建学习型索引,用于预测所述数据元素与所述数据元素在所述排序数据中的排序位置;根据所述学习型索引和所述位置向量,生成数据索引。采用本发明专利技术,能够将机器学习算法应用到非排序数据上,加速非排序数据的查询过程,同时降低数据索引的空间代价。

【技术实现步骤摘要】

本专利技术涉及机器学习,尤其涉及一种数据索引的构建、数据查询方法、装置、介质和产品


技术介绍

1、数据库使用主键标识每条记录,通常也使用主键来组织数据,对数据进行排序,以实现快速的主键数据访问,这种数据访问方式称为主键索引。如果用户需要根据非主键字段进行查询,直接通过主键索引不够高效,通常可采用二级索引的方式,它是为了加速查询非主键列的一种数据结构或数据组织方法,传统的二级索引有前缀索引、位图索引和字典索引等。

2、随着人工智能在数据库领域的发展,数据库研究人员利用机器学习技术学习已经排序后的数据分布特征或分布规律,并用基于数据分布拟合函数的查找方式代替传统索引查找,从而降低索引的空间代价并提升查询性能。这种利用机器学习替代传统索引加速数据查询的索引手段叫学习型索引。

3、然而,现有的学习型索引方法通常是基于主键索引,因为其底层数据是已经排序好的,更适合机器学习捕捉。学习型索引对数据有序具有强依赖,并不能索引加速非主键(无序)数据的查询,限制了学习型索引在无序数据查询场景下的应用扩展。


<b>技术实现思路...

【技术保护点】

1.一种数据索引的构建方法,其特征在于,包括:

2.如权利要求1所述的数据索引的构建方法,其特征在于,所述采用机器学习算法,对所述排序数据构建学习型索引,包括:

3.如权利要求2所述的数据索引的构建方法,其特征在于,所述采用机器学习算法拟合所述累积分布函数,以学习所述排序数据中的数据元素与所述排序位置的关联性,得到学习型索引,包括:

4.如权利要求1至3任一项所述的数据索引的构建方法,其特征在于,在所述将所述原始数据中的每个数据元素进行排序,形成排序数据之后,所述方法还包括:

5.如权利要求1所述的数据索引的构建方法,其特征在于,所述方法还...

【技术特征摘要】

1.一种数据索引的构建方法,其特征在于,包括:

2.如权利要求1所述的数据索引的构建方法,其特征在于,所述采用机器学习算法,对所述排序数据构建学习型索引,包括:

3.如权利要求2所述的数据索引的构建方法,其特征在于,所述采用机器学习算法拟合所述累积分布函数,以学习所述排序数据中的数据元素与所述排序位置的关联性,得到学习型索引,包括:

4.如权利要求1至3任一项所述的数据索引的构建方法,其特征在于,在所述将所述原始数据中的每个数据元素进行排序,形成排序数据之后,所述方法还包括:

5.如权利要求1所述的数据索引的构建方法,其特征在于,所述方法还包括:

6.一种数据查询方法,其特征在于,包括:

7.如权利要求6所述的数据查询方法,其特征在于,所述采用预设的数据索引,定位待查找的目标数据元素的原始位置,包括:

8.如权利要求7所述的数据查询方法,其特征在于,所述学习型索引是根据所述排序数据中的数据元素和排序位置所构建的累积分布函数拟合得到的有界误差的学习型索引;

9.如权利要求8所述的数据查询方法,其特征在于,所述数据...

【专利技术属性】
技术研发人员:陈海峰陶捷孙方彬陈丽宋相端
申请(专利权)人:中移苏州软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1