【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种数据查询及相关装置。
技术介绍
1、hudi、iceberg等数据湖采用分布式文件系统集中存储数据,支持数据流式插入和更新,数据湖还可以把数据保存成spark,flink,presto等大数据计算引擎方便读取的形式。数据湖通常包括多个文件组file group,一个文件组中包含多条数据。当需要对数据湖执行数据查询、数据修改或数据增加等操作时,需要先定位到对应的文件组,再执行后续操作。举例来说,当需要对执行数据查询时,则需要根据查询条件中的索引(也可称为主键字段,各条数据在主键字段下的值均不相同),先定位到对应的数据组,再从数据组定位到对应的数据。但数据湖进行数据存储时是无序的,需要挨个遍历数据组,影响查询效率。
2、相关技术中,可以在将多条数据存入数据湖的多个文件组后,再对这多个文件组存储的数据进行排序,重新布局,排序后的数据能够提高查询效率。然而,对数据进行排序并重新布局,相当于需要重新读取这些数据并再次存入数据湖,会给分布该数据湖的系统带来很大的负载。
3、因此,如何在提高查
...【技术保护点】
1.一种数据查询方法,其特征在于,数据湖包括多个哈希槽,每个哈希槽中包括多条数据,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述范围相似度通过以下步骤确定:
3.根据权利要求1所述的方法,其特征在于,所述目标字段包括第一字段和第二字段,所述第一字段的优先级高于所述第二字段;所述获取所述多个哈希槽分别对应的字段值范围,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述在所述多个哈希槽中,将范围相似度大于或等于范围相似度阈值的至少两个哈希槽合并作
...【技术特征摘要】
1.一种数据查询方法,其特征在于,数据湖包括多个哈希槽,每个哈希槽中包括多条数据,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述范围相似度通过以下步骤确定:
3.根据权利要求1所述的方法,其特征在于,所述目标字段包括第一字段和第二字段,所述第一字段的优先级高于所述第二字段;所述获取所述多个哈希槽分别对应的字段值范围,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的方法,其特征在于,所述在所述多个哈希槽中,将范围...
【专利技术属性】
技术研发人员:吕虎,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。