数据湖数据管理方法、系统、设备和可读存储介质技术方案

技术编号:38850117 阅读:14 留言:0更新日期:2023-09-17 09:58
本申请公开了一种数据湖数据管理方法、系统、设备和可读存储介质,方法包括:创建与每一业务类型匹配的每一生命周期规则;按照所述生命周期规则计算所述数据湖中每一数据的过期日期和删除日期,并把所述过期日期和删除日期更新到对应的元数据中;通过所述元数据确定所述数据湖中已到达所述过期日期的过期数据,将所述过期数据归档转存到冷存储中并更新所述元数据;通过所述元数据确定所述数据湖中已到达所述删除日期的删除数据,将所述删除数据从所述数据湖中删除并更新元数据。基于元数据来构建生命周期规则,降低了数据生命周期的管理成本,同时提供数据转存到冷存储以及恢复的完整链路,在满足各方业务需求的前提下,最大化降低存储成本。降低存储成本。降低存储成本。

【技术实现步骤摘要】
数据湖数据管理方法、系统、设备和可读存储介质


[0001]本申请涉及数据管理领域,更具体地说,涉及一种数据湖数据管理方法、系统、设备和可读存储介质。

技术介绍

[0002]数据湖中管理的数据种类繁多,数据量大,多个系统数据消费方从数据湖中获取不同数据,实现不同的业务需求,包括数据展现,数据训练,数据挖掘等。所以每一种类型的数据,甚至每一个文件都服务于不同的业务。因此,传统数据湖管理存在以下问题:
[0003]第一、在数据湖中管理的数据种类多,每一个数据user基于不同的业务需求,依赖不同的数据。每天产生的数据量大,导致数据中心的存储压力逐渐增大,存储成本越来越高,为了降低存储成本,之前采取基于日期的维度来删除旧数据,导致某些业务上需要的数据被删除,而无法提供完整的数据给到数据消费者。
[0004]第二、已经基于数据湖中数据构建了业务层的元数据,但没有一套通用的规则来对数据进行分类管理,导致在删除数据时无法细粒度地区分不同业务需求的数据的生命周期的不同,导致很多保存下来的数据实际上访问频率比较低或者非必需保存,从而增加了存储的成本。
[0005]基于上述情况,亟需一种数据湖数据管理方案,在满足各方业务需求的前提下,最大化降低存储成本。

技术实现思路

[0006]有鉴于此,本申请提供了一种数据湖数据管理方法、系统、设备和可读存储介质,基于元数据来构建生命周期规则,根据不同业务方的需求,动态添加不同的规则,降低了数据生命周期的管理成本,同时提供自动化负责数据从热存储转存到冷存储,以及从冷存储中恢复数据的完整链路,在满足各方业务需求的前提下,最大化降低存储成本。
[0007]一种数据湖数据管理方法,包括:
[0008]创建与每一业务类型匹配的每一生命周期规则;
[0009]按照所述生命周期规则计算所述数据湖中每一数据的过期日期和删除日期,并把所述过期日期和删除日期更新到对应的元数据中;
[0010]通过所述元数据确定所述数据湖中已到达所述过期日期的过期数据,将所述过期数据归档转存到冷存储中并更新所述元数据;
[0011]通过所述元数据确定所述数据湖中已到达所述删除日期的删除数据,将所述删除数据从所述数据湖中删除并更新元数据。
[0012]优选的,还包括:
[0013]从所述元数据中获取需要恢复的数据列表并按照所述数据列表提交冷储存数据恢复请求,以从所述冷存储中恢复所述数据列表中的各条数据。
[0014]优选的,还包括:
[0015]若识别到规则版本号更新,则按照更新后生命周期规则计算所述数据湖中辐射的更新业务类型下的每一数据的过期日期和删除日期,并更新到对应的元数据中。
[0016]优选的,通过所述元数据确定所述数据湖中已到达所述过期日期的过期数据,将所述过期数据归档转存到冷存储中并更新所述元数据,包括:
[0017]从所述元数据中获取所述数据湖中已到达所述过期日期的过期数据;
[0018]将所述过期数据归档转存到冷存储中;
[0019]更新所述过期数据相应的状态和动作到元数据中。
[0020]优选的,创建与每一业务类型匹配的每一生命周期规则,包括:
[0021]确定与所述每一业务类型对应的应用于生命周期的数据类型;
[0022]确定与所述每一业务类型对应的应用于生命周期的数据匹配条件;
[0023]基于所述数据类型和所述数据匹配条件,按照当前规则版本建立与所述每一业务类型匹配的每一生命周期规则。
[0024]优选的,在按照所述生命周期规则计算所述数据湖中每一数据的过期日期和删除日期之前,还包括:
[0025]对创建的所述与每一业务类型匹配的每一生命周期规则进行审核和激活。
[0026]一种数据湖数据管理系统,包括规则中心和数据中心;
[0027]所述数据中心由数据调度单元、数据存储单元和数据删除单元构成;
[0028]所述规则中心用于创建与每一业务类型匹配的每一生命周期规则;
[0029]所述数据调度单元用于按照所述生命周期规则计算所述数据湖中每一数据的过期日期和删除日期,并把所述过期日期和删除日期更新到对应的元数据中;
[0030]所述数据存储单元用于通过所述元数据确定所述数据湖中已到达所述过期日期的过期数据,将所述过期数据归档转存到冷存储中并更新所述元数据;
[0031]所述数据删除单元用于通过所述元数据确定所述数据湖中已到达所述删除日期的删除数据,将所述删除数据从所述数据湖中删除并更新元数据。
[0032]优选的,所述数据中心还包括数据恢复单元;
[0033]所述数据恢复单元用于从所述元数据中获取需要恢复的数据列表并按照所述数据列表提交冷储存数据恢复请求,以从所述冷存储中恢复所述数据列表中的各条数据。
[0034]一种数据湖数据管理设备,包括存储器和处理器;
[0035]所述存储器,用于存储程序;
[0036]所述处理器,用于执行所述程序,实现如上述任一项所述的数据湖数据管理方法的各个步骤。
[0037]一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上述任一项所述的数据湖数据管理方法的各个步骤。
[0038]从上述的技术方案可以看出,本申请实施例提供的一种数据湖数据管理方法、系统、设备和可读存储介质,通过创建与每一业务类型匹配的每一生命周期规则,按照所述生命周期规则计算所述数据湖中每一数据的过期日期和删除日期,并把所述过期日期和删除日期更新到对应的元数据中。之后,通过所述元数据确定所述数据湖中已到达所述过期日期的过期数据,将所述过期数据归档转存到冷存储中并更新所述元数据,以及通过所述元数据确定所述数据湖中已到达所述删除日期的删除数据,将所述删除数据从所述数据湖中
删除并更新元数据。
[0039]本申请结合元数据信息,根据不同的业务需求,动态添加不同的规则,采用低代码配置方式快速设置各种数据生命周期管理规则,即快速满足不同的业务方的需求,也降低了数据生命周期的管理成本,之后基于对应的生命周期规则来管理数据湖中数据,实现数据湖中数据的自动化生命周期分层管理,以最少的人工干预成本的情况下,优化数据湖中数据资产的管理。同时本申请也提供了一种自动化负责数据从热存储转存到冷存储,以及从冷存储中恢复数据的完整链路,满足不断变化的业务对数据的需求,最大化降低存储成本。
附图说明
[0040]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0041]图1为本申请实施例公开的一种数据湖数据管理系统的示意图;
[0042]图2为本申请实施例公开的一种数据湖数据管理方法流程图;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据湖数据管理方法,其特征在于,包括:创建与每一业务类型匹配的每一生命周期规则;按照所述生命周期规则计算所述数据湖中每一数据的过期日期和删除日期,并把所述过期日期和删除日期更新到对应的元数据中;通过所述元数据确定所述数据湖中已到达所述过期日期的过期数据,将所述过期数据归档转存到冷存储中并更新所述元数据;通过所述元数据确定所述数据湖中已到达所述删除日期的删除数据,将所述删除数据从所述数据湖中删除并更新元数据。2.根据权利要求1所述的方法,其特征在于,还包括:从所述元数据中获取需要恢复的数据列表并按照所述数据列表提交冷储存数据恢复请求,以从所述冷存储中恢复所述数据列表中的各条数据。3.根据权利要求1所述的方法,其特征在于,还包括:若识别到规则版本号更新,则按照更新后生命周期规则计算所述数据湖中辐射的更新业务类型下的每一数据的过期日期和删除日期,并更新到对应的元数据中。4.根据权利要求1所述的方法,其特征在于,通过所述元数据确定所述数据湖中已到达所述过期日期的过期数据,将所述过期数据归档转存到冷存储中并更新所述元数据,包括:从所述元数据中获取所述数据湖中已到达所述过期日期的过期数据;将所述过期数据归档转存到冷存储中;更新所述过期数据相应的状态和动作到元数据中。5.根据权利要求1所述的方法,其特征在于,创建与每一业务类型匹配的每一生命周期规则,包括:确定与所述每一业务类型对应的应用于生命周期的数据类型;确定与所述每一业务类型对应的应用于生命周期的数据匹配条件;基于所述数据类型和所述数据匹配条件,按照当前规则版本建立与所述每一业务类型匹配的每一生命周期规则。6.根...

【专利技术属性】
技术研发人员:魏飞
申请(专利权)人:广州文远知行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1