文件删除处理方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:40499240 阅读:19 留言:0更新日期:2024-02-26 19:26
本申请提供了一种文件删除处理方法、装置、电子设备及可读存储介质,其中,该方法包括:获取抓取后文件版本号,根据当前时间以及用户预先设定的文件保留时长,确定初始待删除版本号,根据抓取后文件版本号及初始待删除版本号,确定目标待删除版本号,根据目标待删除版本号中的文件保留目标截止时间进行文件删除。本申请通过获取流任务抓取后文件版本号,并将该版本号与根据当前时间和预设保留时长确定的初始待删除版本号做对比,从而确定需要删除的文件,从而保证变更数据及时清理的情况下,避免出现在下游CDC实时流任务出现失败重启或者读取滞后情况下无法读取Delta Lake中的过期文件。

【技术实现步骤摘要】

本申请涉及大数据存储,具体而言,涉及一种文件删除处理方法、装置、电子设备及可读存储介质


技术介绍

1、delta lake是一种数据湖架构技术,其通过spark或flink大数据计算框架将数据集成到hadoop分布式文件系统(hdfs)上通过表进行管理。delta lake可以支持数据读取和数据变更。在数据变更过程中,delta lake会存储过期的历史文件,从而给开发人员提供一个误操作回滚的机会。

2、目前,delta lake会基于设定的保存期限直接删除过期文件。

3、但是,直接按照设定的保存期限删除过期的文件后,过期的文件即无法获取到,而下游变更数据抓取(change data capture,cdc)实时流任务在失败重启或者读取滞后的情况下,又需要读取delta lake中的某些过期文件,在这种情况下,就会导致实时流任务无法正常进行。


技术实现思路

1、本申请的目的在于,针对上述现有技术中的不足,提供一种文件删除处理方法、装置、电子设备及可读存储介质,以解决现有技术中无法获取本文档来自技高网...

【技术保护点】

1.一种文件删除处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据当前时间以及用户预先设定的文件保留时长,确定初始待删除版本号,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述文件保留初始截止时间,确定初始待删除版本号,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述抓取后文件版本号及初始待删除版本号,确定目标待删除版本号,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述抓取后文件版本号中的文件保留目标截止时间及所述初始待删除版本号中的创建时间,确定目标待删除版...

【技术特征摘要】

1.一种文件删除处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据当前时间以及用户预先设定的文件保留时长,确定初始待删除版本号,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述文件保留初始截止时间,确定初始待删除版本号,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述抓取后文件版本号及初始待删除版本号,确定目标待删除版本号,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述抓取后文件版本号中的文件保留目标截止时间及所述初始待删除版本号中的创建时间,确定目标待删除版本号,包括:

6.根据权利要求1所述的方法,其特征在于,所述根...

【专利技术属性】
技术研发人员:姜雪明陈雄锋黄乙元
申请(专利权)人:浙江中控信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1