超期数据识别方法及装置、存储介质及电子设备制造方法及图纸

技术编号:37137798 阅读:32 留言:0更新日期:2023-04-06 21:39
本发明专利技术提供了一种超期数据识别方法及装置、存储介质及电子设备,该方法包括:根据数据库的元数据,确定其对应的表名集合、分区表信息、操作记录信息和每个预设数据维度对应的表名信息;依据表名集合、分区表信息和预设的时间分区识别条件,将数据库表确定为第一数据库表或第二数据库表;依据分区表信息,确定每个第一数据库表的时间信息;依据操作记录信息,确定每个第二数据库表的时间信息;依据数据库表的时间信息判断其是否为超期数据表;在各个超期数据表中,确定每个预设数据维度对应的目标超期数据表,据此得到每个预设数据维度对应的超期数据识别结果。应用本发明专利技术的方法,对于分区表和非分区表均可进行超期识别,适用范围较大。较大。较大。

【技术实现步骤摘要】
超期数据识别方法及装置、存储介质及电子设备


[0001]本专利技术涉及数据库
,特别是涉及一种超期数据识别方法及装置、存储介质及电子设备。

技术介绍

[0002]随着大数据云时代的到来,数据的存储架构从数据孤岛架构向共建共享的数据中台架构不断衍进,大规模并行处理(Massively Parallel Processing,MPP)数据库已成为常用的数据存储架构之一。
[0003]在信息系统的数据生命周期管理过程中,需识别数据库中的超期数据,并及时将超期数据删除。目前MPP数据库的超期数据识别方式通常是基于分区表的结构进行识别,分区表是将大表的数据分成多个小的子集(即分区)所形成的数据库表,数据基于分区键进行划分,分区键由大表上的一个列或者多个列组成,用于确定某一行特定数据分布在哪个分区,数据会根据分区键值分到对应的分区。超期数据的识别过程一般是对数据表进行整表扫描,逐一确认每张数据表的时间分区字段,根据时间分区字段确定数据的生命周期阶段,以此识别超期数据。
[0004]在实际的数据存储场景中,MPP数据库中不仅存在分区表,也存在非分区表,而且一些分区表不以时间分区。而对于非分区表或是不以时间分区的分区表,无法获取其中数据的时间分区字段,故基于现有的方式无法识别这类数据表中的超期数据,数据识别的覆盖面不足,适用范围较小,难以实现所有数据的全周期自动管理。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供了一种超期数据识别方法,以解决现有识别方法无法对非分区表的数据进行超期识别,数据覆盖面较小,难以实现所有数据的生命周期自动化管理的问题。
[0006]本专利技术实施例还提供了一种超期数据识别装置,用以保证上述方法实际中的实现及应用。
[0007]为实现上述目的,本专利技术实施例提供如下技术方案:
[0008]一种超期数据识别方法,包括:
[0009]在需要识别数据库超期数据的情况下,确定所述数据库对应的元数据信息和表名集合,所述表名集合包括所述数据库中每个数据库表的表名;
[0010]依据所述元数据信息,确定分区表信息、操作记录信息以及每个预设数据维度对应的表名信息;
[0011]依据所述表名集合以及所述分区表信息,判断每个所述数据库表是否符合预设的时间分区识别条件,并将符合所述时间分区识别条件的数据库表确定为第一数据库表,将不符合所述时间分区识别条件的数据库表确定为第二数据库表;
[0012]依据所述分区表信息,确定每个所述第一数据库表对应的时间信息;
[0013]依据所述操作记录信息,确定每个所述第二数据库表对应的时间信息;
[0014]对于每个所述数据库表,依据该数据库表对应的时间信息,判断该数据库表是否符合预设的数据超期条件,若该数据库表符合所述数据超期条件,则将该数据库表确定为超期数据表;
[0015]对于每个所述预设数据维度,依据该预设数据维度对应的表名信息,在各个所述超期数据表中,确定该预设数据维度对应的目标超期数据表;
[0016]对于每个所述预设数据维度,对该预设数据维度对应的所有目标超期数据表进行数据汇总,得到该预设数据维度对应的超期数据识别结果。
[0017]上述的方法,可选的,所述依据所述表名集合以及所述分区表信息,判断每个所述数据库表是否符合预设的时间分区识别条件,包括:
[0018]从所述分区表信息中,获取所有分区表表名;
[0019]对于每个所述数据库表,判断各个所述分区表表名中是否存在目标表名,若各个所述分区表表名中存在所述目标表名,则将该数据库表确定为第三数据库表,若各个所述分区表表名中不存在所述目标表名,则确定该数据库表不符合所述时间分区识别条件,所述目标表名为与该数据库表的表名相匹配的分区表表名;
[0020]在所述分区表信息中,确定每个所述第三数据库表对应的分区类型;
[0021]对于每个所述第三数据库表,若该第三数据库表对应的分区类型表征以时间分区,则确定该第三数据库表符合所述时间分区识别条件。
[0022]上述的方法,可选的,所述依据所述分区表信息,确定每个所述第一数据库表对应的时间信息,包括:
[0023]对于每个所述第一数据库表,在所述分区表信息中,确定该第一数据库表对应的时间分区字段,并将该时间分区字段作为该第一数据库表对应的时间信息。
[0024]上述的方法,可选的,所述依据所述操作记录信息,确定每个所述第二数据库表对应的时间信息,包括:
[0025]对于每个所述第二数据库表,在所述操作记录信息中,确定该第二数据库表对应的操作记录集合,该操作记录集合包括该第二数据库表对应的每个表操作的操作记录;
[0026]对于每个所述第二数据库表,判断该第二数据库表对应的操作记录集合中是否存在数据插入操作的操作记录;
[0027]对于每个所述第二数据库表,若该第二数据库表对应的操作记录集合中存在数据插入操作的操作记录,则将该第二数据库表对应的操作记录集合中最后一个数据插入操作的操作记录作为该第二数据库表对应的目标操作记录;
[0028]对于每个所述第二数据库表,若该第二数据库表对应的操作记录集合中不存在数据插入操作的操作记录,则将该第二数据库表对应的操作记录集合中创建操作的操作记录作为该第二数据库表对应的目标操作记录;
[0029]将每个所述第二数据库表对应的目标操作记录中的操作时间,作为每个所述第二数据库表对应的时间信息。
[0030]上述的方法,可选的,所述依据该数据库表对应的时间信息,判断该数据库表是否符合预设的数据超期条件,包括:
[0031]确定该数据库表对应的预设存储时长;
[0032]依据该数据库表对应的时间信息和当前时间,确定该数据库表对应的当前存储时长;
[0033]判断所述当前存储时长是否大于或等于所述预设存储时长;
[0034]若所述当前存储时长大于或等于所述预设存储时长,则确定该数据库表符合所述数据超期条件。
[0035]上述的方法,可选的,所述依据该预设数据维度对应的表名信息,在各个所述超期数据表中,确定该预设数据维度对应的目标超期数据表,包括:
[0036]在该预设数据维度对应的表名信息中,确定该预设数据维度对应的多个维度数据和每个所述维度数据对应的多个表名;
[0037]对于每个所述维度数据对应的每个表名,判断每个所述超期数据表是否与该表名相匹配,并将与该表名相匹配的超期数据表作为该维度数据对应的超期数据表;
[0038]将每个所述维度数据对应的超期数据表作为该预设数据维度对应的目标超期数据表。
[0039]上述的方法,可选的,所述对该预设数据维度对应的所有目标超期数据表进行数据汇总,得到该预设数据维度对应的超期数据识别结果,包括:
[0040]获取该预设数据维度对应的每个目标超期数据表的数据;
[0041]将该预设数据维度对应的各个维度数据、该预设数据维度对应的每个维度数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种超期数据识别方法,其特征在于,包括:在需要识别数据库超期数据的情况下,确定所述数据库对应的元数据信息和表名集合,所述表名集合包括所述数据库中每个数据库表的表名;依据所述元数据信息,确定分区表信息、操作记录信息以及每个预设数据维度对应的表名信息;依据所述表名集合以及所述分区表信息,判断每个所述数据库表是否符合预设的时间分区识别条件,并将符合所述时间分区识别条件的数据库表确定为第一数据库表,将不符合所述时间分区识别条件的数据库表确定为第二数据库表;依据所述分区表信息,确定每个所述第一数据库表对应的时间信息;依据所述操作记录信息,确定每个所述第二数据库表对应的时间信息;对于每个所述数据库表,依据该数据库表对应的时间信息,判断该数据库表是否符合预设的数据超期条件,若该数据库表符合所述数据超期条件,则将该数据库表确定为超期数据表;对于每个所述预设数据维度,依据该预设数据维度对应的表名信息,在各个所述超期数据表中,确定该预设数据维度对应的目标超期数据表;对于每个所述预设数据维度,对该预设数据维度对应的所有目标超期数据表进行数据汇总,得到该预设数据维度对应的超期数据识别结果。2.根据权利要求1所述的方法,其特征在于,所述依据所述表名集合以及所述分区表信息,判断每个所述数据库表是否符合预设的时间分区识别条件,包括:从所述分区表信息中,获取所有分区表表名;对于每个所述数据库表,判断各个所述分区表表名中是否存在目标表名,若各个所述分区表表名中存在所述目标表名,则将该数据库表确定为第三数据库表,若各个所述分区表表名中不存在所述目标表名,则确定该数据库表不符合所述时间分区识别条件,所述目标表名为与该数据库表的表名相匹配的分区表表名;在所述分区表信息中,确定每个所述第三数据库表对应的分区类型;对于每个所述第三数据库表,若该第三数据库表对应的分区类型表征以时间分区,则确定该第三数据库表符合所述时间分区识别条件。3.根据权利要求1所述的方法,其特征在于,所述依据所述分区表信息,确定每个所述第一数据库表对应的时间信息,包括:对于每个所述第一数据库表,在所述分区表信息中,确定该第一数据库表对应的时间分区字段,并将该时间分区字段作为该第一数据库表对应的时间信息。4.根据权利要求1所述的方法,其特征在于,所述依据所述操作记录信息,确定每个所述第二数据库表对应的时间信息,包括:对于每个所述第二数据库表,在所述操作记录信息中,确定该第二数据库表对应的操作记录集合,该操作记录集合包括该第二数据库表对应的每个表操作的操作记录;对于每个所述第二数据库表,判断该第二数据库表对应的操作记录集合中是否存在数据插入操作的操作记录;对于每个所述第二数据库表,若该第二数据库表对应的操作记录集合中存在数据插入操作的操作记录,则将该第二数据库表对应的操作记录集合中最后一个数据插入操作的操
作记录作为该第二数据库表对应的目标操作记录;对于每个所述第二数据库表,若该第二数据库表对应的操作记录集合中不存在数据插入操作的操作记录,则将该第二数据库表对应的操作记录集合中创建操作的操作记录作为该第二数据库表对应的目标操作记录;将每个所述第二数据库表对应的目标操作记录中的操作时间,作为每个所述第二数据库表对应的时间信息。5....

【专利技术属性】
技术研发人员:郭优郭玉章陈洁李颢周政明
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1