【技术实现步骤摘要】
一种数据湖元数据管理方法及装置
[0001]本申请实施例涉及大数据
,尤其涉及一种数据湖元数据管理方法及装置。
技术介绍
[0002]随着大数据技术的不断发展,数据呈现多源井喷式发展趋势,各种数据库和数据格式内容层出不穷。数据的应用场景向复杂化、多元化转变,从最初的交易场景,到分析场景,再到混合场景、复杂分析场景,以及目前的实时混合场景。用户对数据时效性的要求越来越高,通过对所有数据统一管理,能够进行实时决策、实时变现,挖掘数据价值。
[0003]传统的数据仓库在大数据导入和分析时存在时效性慢、成本高、弹性伸缩差、数据格式单一等缺点,难以满足云环境下异构海量数据实时处理与存储的要求。数据湖的出现有效地解决了以上的几个问题,能够以较低地成本存储海量不同格式的数据。然而,现有的数据湖尚未对元数据进行有效管理和维护,在数据扩展性、分布式一致性和并发控制方面存在不足。
技术实现思路
[0004]有鉴于此,本申请实施例的目的在于提出一种数据湖元数据管理方法及装置,以解决数据湖的元数据管理问题。
[ ...
【技术保护点】
【技术特征摘要】
1.一种数据湖元数据管理方法,其特征在于,包括:将数据文件提交至数据湖时,将所述数据文件的元数据写入预先构建的元数据提交表;其中,所述元数据提交表包括表标识字段、提交状态字段和提交标识字段,所述表标识字段用于记录所述元数据中包括的数据文件对应的表标识,所述提交状态字段用于记录所述数据文件是否成功提交,所述提交标识字段用于记录所述数据文件提交时生成的提交标识;将写入的元数据对应的提交状态字段的值设置为未提交;根据所述表标识查询预先构建的分区信息表,得到对应的提交标识集合和当前版本;其中,所述提交标识集合包括所有已提交的数据文件对应的提交标识;根据所述提交标识更新所述提交标识集合,得到最新提交标识集合;根据所述当前版本计算最新版本;根据所述最新提交标识集合和所述最新版本,更新所述分区信息表;将所述提交状态字段的值修改为已提交。2.根据权利要求1所述的方法,其特征在于,还包括:将至少两个数据文件同时提交至数据湖时,根据设置的各数据文件的提交类型,判断是否存在冲突;如果不存在冲突,将各数据文件的元数据分别写入所述元数据提交表;如果存在冲突且兼容,确定优先级较高的提交类型,将该提交类型的数据文件的元数据写入所述元数据提交表;如果存在冲突且不兼容,输出错误提示信息。3.根据权利要求2所述的方法,其特征在于,所述提交类型包括追加操作、合并操作和拼接操作;将至少两个数据文件同时提交至数据湖时,根据设置的各数据文件的提交类型,判断是否存在冲突,包括:同时提交的至少两个数据文件的提交类型均为追加操作或合并操作时,判断不存在冲突;同时提交的至少两个数据文件的提交类型包括追加操作和合并操作时,判断不存在冲突;同时提交的至少两个数据文件的提交类型包括合并操作和拼接操作时,判断不存在冲突。4.根据权利要求2所述的方法,其特征在于,所述提交类型包括合并操作和更新操作;将至少两个数据文件同时提交至数据湖时,根据设置的各数据文件的提交类型,判断是否存在冲突,包括:同时提交的至少两个数据文件的提交类型包括合并操作和更新操作时,判断存在冲突且兼容;如果存在冲突且兼容,确定优先级较高的提交类型,将该提交类型的数据文件的元数据写入所述元数据提交表,包括:将更新操作的数据文件的元数据写入所述元数据提交表。5.根据权利要求2所述的方法,其特征在于,所述提交类型包括追加操作、更新操作和
拼接操作;将至少两个数据文件同时提交至数据湖时,根据设置的各数据文件的提交类型,判断是否存在冲突,包括:同时提交的至少两个数据文件的提交类型包括追加操作和更新操作时,判断存在冲突且不兼容;同时提交的至少两个数据文件的提交类型包括追加操作和拼接操作时,判断存在冲突且不兼容;同时提交的至少两个数据文件的提交类型包括更新操作和拼接操作时,判断存在冲突且不兼容;同时...
【专利技术属性】
技术研发人员:朱亚东,孙茂森,
申请(专利权)人:北京数元灵科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。