一种Iceberg中数据处理方法、装置、存储介质及设备制造方法及图纸

技术编号:36260883 阅读:52 留言:0更新日期:2023-01-07 09:58
本申请公开了一种Iceberg中数据处理方法、装置、存储介质及设备,该方法包括:首先在创建Iceberg数据表时,在数据表的元数据文件中添加索引信息,然后在Iceberg中建立数据文件与索引的对应关系;接着在Iceberg中执行目标数据的处理操作时,根据数据文件与索引的对应关系,对目标数据进行行组级别的索引匹配,确定目标数据文件;进而对目标数据文件中的目标行组数据进行相应的数据处理操作,得到数据处理结果。由于本申请是先在创建Iceberg表时,在元数据中添加了索引信息,这样,在建立了数据文件与索引的对应关系后,在进行数据更新、查询等操作时,可以通过行组级别的索引匹配,快速定位出目标数据文件所在位置并进行相应的处理操作,从而能够提高Iceberg中数据的处理效率。理效率。理效率。

【技术实现步骤摘要】
一种Iceberg中数据处理方法、装置、存储介质及设备


[0001]本申请涉及计算机
,尤其涉及一种Iceberg中数据处理方法、装置、存储介质及设备。

技术介绍

[0002]Iceberg是目前比较流行的数据湖技术框架之一,提供了一种独立的数据组织方式,可实现大数据场景下数据的添加、删除、修改、查询等处理操作。
[0003]目前,Iceberg是通过元数据文件(manifest)为表实现了各种数据处理功能,Iceberg表结构示意图如图1所示。目前在Iceberg中执行数据修改、删除、查询等处理操作时,处理流程通常为:元数据文件(metadata file)

>元数据文件列表(mamifest list)

>元文件(manifest file)

>数据文件(data file),通过这四层处理才能获取到data file的列表信息。然后再通过遍历读取所有data file,查看是否存在与待查询数据相匹配的数据,导致整体查询速率较慢,数据的处理性能较差。

技术实现思路

[0004]本申请实施例的主要目的在于提供一种Iceberg中数据处理方法、装置、存储介质及设备,能够通过在Iceberg中添加索引(index)的方式快速实现数据的处理(如数据的添加、删除、修改、查询等)操作,从而提高了Iceberg中数据的处理效率。
[0005]本申请实施例提供了一种Iceberg中数据处理方法,包括:
[0006]在创建Iceberg数据表时,在所述数据表的元数据文件中添加索引信息;
[0007]在所述Iceberg中建立数据文件与所述索引的对应关系;
[0008]在所述Iceberg中执行目标数据的处理操作时,根据所述数据文件与所述索引的对应关系,对所述目标数据进行行组级别的索引匹配,确定目标数据文件;
[0009]对所述目标数据文件中的目标行组数据进行相应的数据处理操作,得到数据处理结果。
[0010]一种可能的实现方式中,所述在所述Iceberg中建立数据文件与所述索引的对应关系,包括:
[0011]在所述Iceberg中将数据文件以行组为单位进行切分,生成对应的任务列表;
[0012]根据所述数据文件中行组的列名,构建与所述索引的对应关系。
[0013]一种可能的实现方式中,在所述根据所述数据文件中行组的列名,构建与所述索引的对应关系之后,所述方法还包括:
[0014]将所述索引对应的行组所在的数据文件的名称、所述行组的区间范围、所述行组的长度存入统计文件内相应的数据存储对象中;
[0015]所述在所述Iceberg中执行目标数据的处理操作时,根据所述数据文件与所述索引的对应关系,对所述目标数据进行行组级别的索引匹配,确定目标数据文件,包括:
[0016]在所述Iceberg中执行目标数据的处理操作时,根据所述数据文件与所述索引的
对应关系,确定统计文件内对应的目标数据存储对象;
[0017]根据所述目标数据存储对象包含的索引信息,确定目标数据文件以及所述目标数据文件中目标行组数据的区间范围和长度。
[0018]一种可能的实现方式中,所述对所述目标数据文件中的目标行组数据进行相应的数据处理操作,得到数据处理结果,包括:
[0019]根据所述目标数据文件中的目标行组数据的区间范围和长度,进行任务切分,并在执行了切分后的任务后,得到数据处理结果。
[0020]一种可能的实现方式中,所述方法还包括:
[0021]确定所述Iceberg中新增的第一数据文件,并生成所述第一数据文件对应的索引信息和元数据信息;
[0022]对比所述Iceberg中新增第一数据文件之前和之后的快照信息,并根据对比结果删除第二数据文件;
[0023]将所述新增第一数据文件对应的索引信息与所述Iceberg中新增第一数据文件之前的索引信息进行合并,并删除所述第二数据文件对应的索引信息,得到更新后的索引信息。
[0024]一种可能的实现方式中,所述方法还包括:
[0025]按照预设周期,在所述Iceberg中进行增量构建索引信息,得到所述Iceberg中数据文件与所述索引的更新后的对应关系。
[0026]一种可能的实现方式中,所述方法还包括:
[0027]在对索引的配置信息进行修改后,在所述Iceberg中进行全量构建索引信息,得到所述Iceberg中数据文件与所述索引的更新后的对应关系。
[0028]本申请实施例还提供了一种Iceberg中数据处理装置,所述装置包括:
[0029]添加单元,用于在创建Iceberg数据表时,在所述数据表的元数据文件中添加索引信息;
[0030]建立单元,用于在所述Iceberg中建立数据文件与所述索引的对应关系;
[0031]匹配单元,用于在所述Iceberg中执行目标数据的处理操作时,根据所述数据文件与所述索引的对应关系,对所述目标数据进行行组级别的索引匹配,确定目标数据文件;
[0032]处理单元,用于对所述目标数据文件中的目标行组数据进行相应的数据处理操作,得到数据处理结果。
[0033]一种可能的实现方式中,所述建立单元包括:
[0034]切分子单元,用于在所述Iceberg中将数据文件以行组为单位进行切分,生成对应的任务列表;
[0035]构建子单元,用于根据所述数据文件中行组的列名,构建与所述索引的对应关系。
[0036]一种可能的实现方式中,所述建立单元还包括:
[0037]存入子单元,用于将所述索引对应的行组所在的数据文件的名称、所述行组的区间范围、所述行组的长度存入统计文件内相应的数据存储对象中;
[0038]所述匹配单元包括:
[0039]第一确定子单元,用于在所述Iceberg中执行目标数据的处理操作时,根据所述数据文件与所述索引的对应关系,确定统计文件内对应的目标数据存储对象;
[0040]第二确定子单元,用于根据所述目标数据存储对象包含的索引信息,确定目标数据文件以及所述目标数据文件中目标行组数据的区间范围和长度。
[0041]一种可能的实现方式中,所述处理单元具体用于:
[0042]根据所述目标数据文件中的目标行组数据的区间范围和长度,进行任务切分,并在执行了切分后的任务后,得到数据处理结果。
[0043]一种可能的实现方式中,所述装置还包括:
[0044]生成单元,用于确定所述Iceberg中新增的第一数据文件,并生成所述第一数据文件对应的索引信息和元数据信息;
[0045]对比单元,用于对比所述Iceberg中新增第一数据文件之前和之后的快照信息,并根据对比结果删除第二数据文件;
[0046]合并单元,用于将所述新增第一数据文件对应的索引信息与所述Ice本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种Iceberg中数据处理方法,其特征在于,所述方法包括:在创建Iceberg数据表时,在所述数据表的元数据文件中添加索引信息;在所述Iceberg中建立数据文件与所述索引的对应关系;在所述Iceberg中执行目标数据的处理操作时,根据所述数据文件与所述索引的对应关系,对所述目标数据进行行组级别的索引匹配,确定目标数据文件;对所述目标数据文件中的目标行组数据进行相应的数据处理操作,得到数据处理结果。2.根据权利要求1所述的方法,其特征在于,所述在所述Iceberg中建立数据文件与所述索引的对应关系,包括:在所述Iceberg中将数据文件以行组为单位进行切分,生成对应的任务列表;根据所述数据文件中行组的列名,构建与所述索引的对应关系。3.根据权利要求2所述的方法,其特征在于,在所述根据所述数据文件中行组的列名,构建与所述索引的对应关系之后,所述方法还包括:将所述索引对应的行组所在的数据文件的名称、所述行组的区间范围、所述行组的长度存入统计文件内相应的数据存储对象中;所述在所述Iceberg中执行目标数据的处理操作时,根据所述数据文件与所述索引的对应关系,对所述目标数据进行行组级别的索引匹配,确定目标数据文件,包括:在所述Iceberg中执行目标数据的处理操作时,根据所述数据文件与所述索引的对应关系,确定统计文件内对应的目标数据存储对象;根据所述目标数据存储对象包含的索引信息,确定目标数据文件以及所述目标数据文件中目标行组数据的区间范围和长度。4.根据权利要求3所述的方法,其特征在于,所述对所述目标数据文件中的目标行组数据进行相应的数据处理操作,得到数据处理结果,包括:根据所述目标数据文件中的目标行组数据的区间范围和长度,进行任务切分,并在执行了切分后的任务后,得到数据处理结果。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述Iceberg中新增的第一数据文件,并生成所述第一数据文件对应的索引信息和元数据信息;对比...

【专利技术属性】
技术研发人员:户蕾蕾丁远普杜军令罗旋
申请(专利权)人:北京火山引擎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1