【技术实现步骤摘要】
本专利技术涉及数据处理,特别是涉及一种数据湖的数据存储方法及装置、存储介质及电子设备。
技术介绍
1、在数据治理的场景中,数据湖是常用的存储工具之一。数据湖采用分布式文件系统(如hdfs或对象存储)集中存储各类数据,如结构化数据、半结构化数据、非结构化数据和二进制数据等。
2、流式数据湖是数据湖场景中常见的实际应用,流式数据湖中的结构化数据支持流式数据更新。目前流式数据湖的数据存储方式,对于数据的操作一般是分批对文件进行数据处理。具体的,对数据的操作请求进行积攒,当积攒的操作达到一定数量后,将积攒的操作请求视为一个批次,基于该批次的操作请求统一对分布式文件系统中相应的原文件进行修改,执行相应的写入、删除等操作,实现数据更新。
3、在实际的应用场景中,数据湖的数据操作十分频繁。基于现有方式,数据的更新需对分布式文件系统中的文件进行重写,需进行大量数据删除和写入操作,存在写放大的问题。其次,采用攒批写入的方式进行数据存储,更新请求需在其对应批次的处理过程结束后才能完成更新响应,数据更新具有一定的延迟性。
/>技术本文档来自技高网...
【技术保护点】
1.一种数据湖的数据存储方法,其特征在于,所述方法应用于数据湖的计算节点,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一操作标识对应的第一删除位图文件,包括:
3.根据权利要求2所述的方法,其特征在于,所述确定所述目标存储文件对应的目标删除位图文件,包括:
4.根据权利要求2所述的方法,其特征在于,所述对所述第一删除位图文件进行更新的过程,包括:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求1所
...【技术特征摘要】
1.一种数据湖的数据存储方法,其特征在于,所述方法应用于数据湖的计算节点,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一操作标识对应的第一删除位图文件,包括:
3.根据权利要求2所述的方法,其特征在于,所述确定所述目标存储文件对应的目标删除位图文件,包括:
4.根据权利要求2所述的方法,其特征在于,所述对所述第一删除位图文件进行更新的过程,包括:
5.根据权利要求1所述的方法,其特征在于,还包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
<...【专利技术属性】
技术研发人员:吕虎,
申请(专利权)人:中国农业银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。