一种数据查询方法及相关装置制造方法及图纸

技术编号:41310461 阅读:25 留言:0更新日期:2024-05-13 14:54
本申请公开了一种数据查询方法及相关装置,在该方法中,数据湖包括多个哈希槽,每个哈希槽中包括多条数据,获取多个哈希槽分别对应的字段值范围;在多个哈希槽中,将范围相似度大于或等于范围相似度阈值的至少两个哈希槽合并作为文件组;基于数据查询条件中目标字段对应的目标字段值,从多个文件组中确定出字段值范围包括目标字段值的目标文件组;基于数据查询条件对目标文件组进行查询。如此,在进行数据查询时,可根据各个文件组对应的字段值范围确定出符合数据查询条件的目标文件组,提高数据查询效率;同时,获取字段值范围无需对数据进行排序重写,因此不会给分布该数据湖的系统带来很大的负载。

【技术实现步骤摘要】

本申请涉及数据处理,特别是涉及一种数据查询及相关装置。


技术介绍

1、hudi、iceberg等数据湖采用分布式文件系统集中存储数据,支持数据流式插入和更新,数据湖还可以把数据保存成spark,flink,presto等大数据计算引擎方便读取的形式。数据湖通常包括多个文件组file group,一个文件组中包含多条数据。当需要对数据湖执行数据查询、数据修改或数据增加等操作时,需要先定位到对应的文件组,再执行后续操作。举例来说,当需要对执行数据查询时,则需要根据查询条件中的索引(也可称为主键字段,各条数据在主键字段下的值均不相同),先定位到对应的数据组,再从数据组定位到对应的数据。但数据湖进行数据存储时是无序的,需要挨个遍历数据组,影响查询效率。

2、相关技术中,可以在将多条数据存入数据湖的多个文件组后,再对这多个文件组存储的数据进行排序,重新布局,排序后的数据能够提高查询效率。然而,对数据进行排序并重新布局,相当于需要重新读取这些数据并再次存入数据湖,会给分布该数据湖的系统带来很大的负载。

3、因此,如何在提高查询效率的同时,避免增本文档来自技高网...

【技术保护点】

1.一种数据查询方法,其特征在于,数据湖包括多个哈希槽,每个哈希槽中包括多条数据,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述范围相似度通过以下步骤确定:

3.根据权利要求1所述的方法,其特征在于,所述目标字段包括第一字段和第二字段,所述第一字段的优先级高于所述第二字段;所述获取所述多个哈希槽分别对应的字段值范围,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述在所述多个哈希槽中,将范围相似度大于或等于范围相似度阈值的至少两个哈希槽合并作为文件组,包括:...

【技术特征摘要】

1.一种数据查询方法,其特征在于,数据湖包括多个哈希槽,每个哈希槽中包括多条数据,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述范围相似度通过以下步骤确定:

3.根据权利要求1所述的方法,其特征在于,所述目标字段包括第一字段和第二字段,所述第一字段的优先级高于所述第二字段;所述获取所述多个哈希槽分别对应的字段值范围,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述在所述多个哈希槽中,将范围...

【专利技术属性】
技术研发人员:吕虎
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1