一种数据湖的分区方法及相关装置制造方法及图纸

技术编号：41224765 阅读：27 留言：0更新日期：2024-05-09 23:43

本申请公开了一种数据湖的分区方法及相关装置，在该方法中，从数据表的多个字段中确定第一分区键字段；基于每条数据中第一分区键字段的值和第一分区的个数进行哈希处理，得到每条数据对应的分区编号；将分区编号字段添加至数据表，并将每条数据对应的分区编号作为分区编号字段的值添加至数据表，得到添加后的多条数据；基于添加后的多条数据分别对应的分区编号，将添加后的多条数据分别分布至具有相同分区编号的第一分区中；将每个第一分区中的数据划分为满足数据量阈值的多个文件组，并基于每个文件组生成对应的布隆过滤器。如此，文件组和布隆过滤器的数量均不受第一分区的个数的限制，能够避免影响数据湖的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机领域，特别是涉及一种数据湖的分区方法及相关装置。

技术介绍

1、数据湖(data lake)是一种数据存储架构，它可以容纳大量不同类型和不同格式的数据，并支持用于数据分析和机器学习的高级查询和处理。举例来说，hudi数据湖是一个流式数据湖平台，支持通过计算引擎进行写入和查询。hudi数据湖可以包括多个文件组file group，一个文件组中包含多条数据，每条数据包括数据表中多个字段下的值，且每个文件组具有对应的文件组标识file id。当需要对hudi数据湖存储的数据进行查询、修改或增加等操作时，需要先定位到对应的文件组，再执行后续操作。

2、相关技术中，可以采用以下两种方案定位到对应的文件组：

3、一种方案为：在外部数据库，例如hbase数据库中存储每条数据的主键与文件组标识的对应关系，当需要对数据执行操作时，从hbase数据库中可以获取所需执行操作的数据的主键对应的文件组标识，进而定位到文件组。但方案依赖外部数据库，容易存在数据库和数据湖数据不一致的问题，运维困难。

4、另一种方案...

【技术保护点】

1.一种数据湖的分区方法，其特征在于，数据湖包括多个第一分区，所述多个第一分区分别具有不同的分区编号，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述第一分区键字段包括所述多个字段中的至少两个字段；所述基于每条数据中所述第一分区键字段的值和所述第一分区的个数进行哈希处理，得到每条数据对应的分区编号，包括：

4.根据权利要求1所述的方法，其特征在于，所述数据表包括的多条数据为待执行增加操作的数据，或者，所述数据表包括的多条数据为待执行修改操作的数据。