数据湖的数据存储方法及装置、存储介质及电子设备制造方法及图纸

技术编号:41617556 阅读:13 留言:0更新日期:2024-06-13 02:20
本发明专利技术提供一种数据湖的数据存储方法及装置、存储介质及电子设备,该方法包括:当接收到数据操作请求时,确定目标操作标识;确定目标操作类型;若目标操作类型表征数据修改操作,则确定第一数据主键和其对应的更新数据;在主键索引文件中,确定第一操作标识;确定第一删除位图文件;对第一删除位图文件进行更新,以标记第一操作标识对应的文件数据已被删除;将主键索引文件中,第一数据主键对应的操作标识修改为目标操作标识;确定第一数据文件,并将目标操作标识、第一数据主键和更新数据写入第一数据文件,并进行本地存储。应用本发明专利技术的方法,无需对分布式文件系统中的文件进行操作便可实现数据更新,可避免写放大问题,提高数据更新时效性。

【技术实现步骤摘要】

本专利技术涉及数据处理,特别是涉及一种数据湖的数据存储方法及装置、存储介质及电子设备


技术介绍

1、在数据治理的场景中,数据湖是常用的存储工具之一。数据湖采用分布式文件系统(如hdfs或对象存储)集中存储各类数据,如结构化数据、半结构化数据、非结构化数据和二进制数据等。

2、流式数据湖是数据湖场景中常见的实际应用,流式数据湖中的结构化数据支持流式数据更新。目前流式数据湖的数据存储方式,对于数据的操作一般是分批对文件进行数据处理。具体的,对数据的操作请求进行积攒,当积攒的操作达到一定数量后,将积攒的操作请求视为一个批次,基于该批次的操作请求统一对分布式文件系统中相应的原文件进行修改,执行相应的写入、删除等操作,实现数据更新。

3、在实际的应用场景中,数据湖的数据操作十分频繁。基于现有方式,数据的更新需对分布式文件系统中的文件进行重写,需进行大量数据删除和写入操作,存在写放大的问题。其次,采用攒批写入的方式进行数据存储,更新请求需在其对应批次的处理过程结束后才能完成更新响应,数据更新具有一定的延迟性。

/>

技术本文档来自技高网...

【技术保护点】

1.一种数据湖的数据存储方法,其特征在于,所述方法应用于数据湖的计算节点,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述第一操作标识对应的第一删除位图文件,包括:

3.根据权利要求2所述的方法,其特征在于,所述确定所述目标存储文件对应的目标删除位图文件,包括:

4.根据权利要求2所述的方法,其特征在于,所述对所述第一删除位图文件进行更新的过程,包括:

5.根据权利要求1所述的方法,其特征在于,还包括:

6.根据权利要求1所述的方法,其特征在于,还包括:

7.根据权利要求1所述的方法,其特征在于...

【技术特征摘要】

1.一种数据湖的数据存储方法,其特征在于,所述方法应用于数据湖的计算节点,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述第一操作标识对应的第一删除位图文件,包括:

3.根据权利要求2所述的方法,其特征在于,所述确定所述目标存储文件对应的目标删除位图文件,包括:

4.根据权利要求2所述的方法,其特征在于,所述对所述第一删除位图文件进行更新的过程,包括:

5.根据权利要求1所述的方法,其特征在于,还包括:

6.根据权利要求1所述的方法,其特征在于,还包括:

<...

【专利技术属性】
技术研发人员:吕虎
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1