数据表生命周期确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37124865 阅读:23 留言:0更新日期:2023-04-01 05:21
本公开提供了一种数据表生命周期确定方法、装置、电子设备及存储介质,涉及大数据存储处理领域。该方法包括解析待确定生命周期的目标数据表的表名,根据解析结果判断目标数据表是否为预设类型的数据表;若目标数据表是预设类型的数据表,将预设类型的数据表的生命周期作为目标数据表的生命周期;否则,从预设数据库中查找出目标数据表的一个或多个相似数据表,计算一个或多个相似数据表的生命周期的平均值,作为目标数据表的生命周期。本公开根据数据表的表名对数据表进行分类,为分类后的预设类型的数据表确定默认生命周期;对于分类后的非预设类型的数据表,将相似数据表的平均生命周期确定为其生命周期,从而更加准确地确定数据表的生命周期。数据表的生命周期。数据表的生命周期。

【技术实现步骤摘要】
数据表生命周期确定方法、装置、电子设备及存储介质


[0001]本公开涉及大数据存储处理领域,尤其涉及一种数据表生命周期确定方法、装置、电子设备及存储介质。

技术介绍

[0002]随着数据库中业务数据不断增长,存储的数据越来越多,而很多历史数据已经处于无效、过期等状态,不及时清理的话,会造成存储资源的浪费。为了避免存储资源的浪费,采用了为数据库中的数据表赋予生命周期的方法,用于控制数据表的存储大小,限制数据无限增长,定期对生产时间较长的数据进行删除。
[0003]数据表生命周期设置方式主要有以下几种:1、人工评估保留时间,通过评估模型业务重要性和使用场景,确定分区保留时间;2、设置默认保留周期;3、根据数据表近期最早有访问分区至今的天数作为生命周期;4、根据数据表历史访问量、热点数据访问等指标预测生命周期。
[0004]但上述几种方式存在如下缺点:1、人工评估:无生命周期的数据表数量较多时,人工评估生命周期成本较高。2、默认保留周期:设置时间过长,无法达到过期数据自动清理的目的,设置时间过短,则会导致一些重要历史数据被清除,造成数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据表生命周期确定方法,其特征在于,包括:获取待确定生命周期的目标数据表;对所述目标数据表的表名进行解析;根据解析结果,确定所述目标数据表是否是预设类型的数据表;若所述目标数据表是预设类型的数据表,则将预设生命周期确定为所述目标数据表的生命周期;若所述目标数据表不是预设类型的数据表,则根据所述目标数据表的表名,从预设数据库中查找所述目标数据表的一个或多个相似数据表,其中,所述预设数据库中包含:多个数据表,每个数据表对应一个生命周期;根据所述一个或多个相似数据表的生命周期,确定所述目标数据表的生命周期。2.根据权利要求1所述的数据表生命周期确定方法,其特征在于,所述目标数据表为Hive数据表。3.根据权利要求1所述的数据表生命周期确定方法,其特征在于,所述对所述目标数据表的表名进行解析,包括:对所述目标数据表的表名进行分词,得到对应的一个或多个单词。4.根据权利要求3所述的数据表生命周期确定方法,其特征在于,所述根据解析结果,确定所述目标数据表是否是预设类型的数据表,还包括:判断所述目标数据表分词后的单词中是否包含预设关键词;若所述所述目标数据表分词后的单词中包含预设关键词,则确定所述目标数据表是预设类型的数据表;若所述所述目标数据表分词后的单词中未包含预设关键词,则确定所述目标数据表不是预设类型的数据表。5.根据权利要求3所述的数据表生命周期确定方法,其特征在于,所述根据所述目标数据表的表名,从预设数据库中查找所述目标数据表的一个或多个相似数据表,包括:获取所述目标数据表的表名和所述预设数据库中各个数据表的表名;根据所述目标数据表的表名和所述预设数据库中各个数据表的表名,采用编辑距离算法计算所述目标数据表与每个数据表的最短编辑距离;根据所述目标数据表与每个数据表的最短编辑距离,计算所述目标数据表和每个数据表的相似度;将所述预设数据库中相似度大于或等于预设阈值的数据表,确定为所述目标数据表的相似数据表。6....

【专利技术属性】
技术研发人员:燕媛媛阮宜龙李锋简义凯付继发柏华李哲李念
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1