【技术实现步骤摘要】
本申请涉及计算机领域,特别是涉及一种数据湖的分区方法及相关装置。
技术介绍
1、数据湖(data lake)是一种数据存储架构,它可以容纳大量不同类型和不同格式的数据,并支持用于数据分析和机器学习的高级查询和处理。举例来说,hudi数据湖是一个流式数据湖平台,支持通过计算引擎进行写入和查询。hudi数据湖可以包括多个文件组file group,一个文件组中包含多条数据,每条数据包括数据表中多个字段下的值,且每个文件组具有对应的文件组标识file id。当需要对hudi数据湖存储的数据进行查询、修改或增加等操作时,需要先定位到对应的文件组,再执行后续操作。
2、相关技术中,可以采用以下两种方案定位到对应的文件组:
3、一种方案为:在外部数据库,例如hbase数据库中存储每条数据的主键与文件组标识的对应关系,当需要对数据执行操作时,从hbase数据库中可以获取所需执行操作的数据的主键对应的文件组标识,进而定位到文件组。但方案依赖外部数据库,容易存在数据库和数据湖数据不一致的问题,运维困难。
4、另一种方案
...【技术保护点】
1.一种数据湖的分区方法,其特征在于,数据湖包括多个第一分区,所述多个第一分区分别具有不同的分区编号,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述第一分区键字段包括所述多个字段中的至少两个字段;所述基于每条数据中所述第一分区键字段的值和所述第一分区的个数进行哈希处理,得到每条数据对应的分区编号,包括:
4.根据权利要求1所述的方法,其特征在于,所述数据表包括的多条数据为待执行增加操作的数据,或者,所述数据表包括的多条数据为待执行修改操作的数据。
【技术特征摘要】
1.一种数据湖的分区方法,其特征在于,数据湖包括多个第一分区,所述多个第一分区分别具有不同的分区编号,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述第一分区键字段包括所述多个字段中的至少两个字段;所述基于每条数据中所述第一分区键字段的值和所述第一分区的个数进行哈希处理,得到每条数据对应的分区编号,包括:
4.根据权利要求1所述的方法,其特征在于,所述数据表包括的多条数据为待执行增加操作的数据,或者,所述数据表包括的多条数据为待执行修改操作的数据。
5.根据权利要求1所述的方法,其特征在于,所述数据湖包括多个第二分区,每个第二分区包括多个第一分区...
【专利技术属性】
技术研发人员:吕虎,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。