【技术实现步骤摘要】
本申请涉及大数据存储,具体而言,涉及一种文件删除处理方法、装置、电子设备及可读存储介质。
技术介绍
1、delta lake是一种数据湖架构技术,其通过spark或flink大数据计算框架将数据集成到hadoop分布式文件系统(hdfs)上通过表进行管理。delta lake可以支持数据读取和数据变更。在数据变更过程中,delta lake会存储过期的历史文件,从而给开发人员提供一个误操作回滚的机会。
2、目前,delta lake会基于设定的保存期限直接删除过期文件。
3、但是,直接按照设定的保存期限删除过期的文件后,过期的文件即无法获取到,而下游变更数据抓取(change data capture,cdc)实时流任务在失败重启或者读取滞后的情况下,又需要读取delta lake中的某些过期文件,在这种情况下,就会导致实时流任务无法正常进行。
技术实现思路
1、本申请的目的在于,针对上述现有技术中的不足,提供一种文件删除处理方法、装置、电子设备及可读存储介质,以解
...【技术保护点】
1.一种文件删除处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据当前时间以及用户预先设定的文件保留时长,确定初始待删除版本号,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述文件保留初始截止时间,确定初始待删除版本号,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述抓取后文件版本号及初始待删除版本号,确定目标待删除版本号,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述抓取后文件版本号中的文件保留目标截止时间及所述初始待删除版本号中的创建时
...【技术特征摘要】
1.一种文件删除处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据当前时间以及用户预先设定的文件保留时长,确定初始待删除版本号,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述文件保留初始截止时间,确定初始待删除版本号,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述抓取后文件版本号及初始待删除版本号,确定目标待删除版本号,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述抓取后文件版本号中的文件保留目标截止时间及所述初始待删除版本号中的创建时间,确定目标待删除版本号,包括:
6.根据权利要求1所述的方法,其特征在于,所述根...
【专利技术属性】
技术研发人员:姜雪明,陈雄锋,黄乙元,
申请(专利权)人:浙江中控信息产业股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。