System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种元数据清理方法、元数据清理装置、设备及存储介质。
技术介绍
1、在大数据处理
,为了能应对处理大规模的海量业务数据,通常会采用基于分布式系统的hive数据仓库来代替传统的数据仓库,实现对所接入的业务数据进行存储和管理。采用基于分布式系统的hive数据仓库来代替传统的数据仓库是因为hive数据仓库具有高度的扩展性和并发性,能够有效地处理大规模数据集的数据。其中,hive数据仓库中的元数据是描述数据的数据,它包括表定义、列定义、分区等信息,为用户提供了对数据的深入理解和操作。
2、在数据处理过程中,由于一些操作的不规范,hive数据仓库中的元数据可能会存在与实际数据不一致、重复、错误等问题。例如,当用户在没有同步元数据的情况下直接操作分布式文件系统(hadoop distributed file system,简称:hdfs)中的文件,或者在元数据存储的hive数据仓库中直接进行修改,都可能导致元数据的不一致。进而会影响到大数据分析的正确性和可靠性,甚至可能导致通过元数据查询实际数据的失败。
3、目前,现有的元数据清理技术主要是通过在元数据表中执行结构化查询语句,进而手动筛选出需要清理的元数据。然而,由于各元数据表之间的关联性极强,手动清理可能会导致清理不完整,造成元数据的漏清、错清。例如,由于元数据表数量比较多,漏清某个元数据表中与该元数据相关的数据信息。并且手动清理元数据的效率较低,需要投入大量的人力和时间,难以满足目前大规模、复杂的数据的处理需求。基于此,亟需一种元
技术实现思路
1、本申请提供一种元数据清理方法、元数据清理装置、设备及存储介质,用以解决清理元数据的效率较低的技术问题。
2、第一方面,本申请提供一种元数据清理方法,包括:
3、根据预设清理周期,获取元数据清理表,并依次对元数据库中与所述元数据清理表对应的可识别的元数据信息进行失效标记,以获取标记后的不可识别的待清理失效数据信息;
4、根据所述失效标记,获取所述待清理失效数据信息的数据清理时间,若确定存在所述待清理失效数据信息被错误标记,则在到达所述数据清理时间之前,根据预置的数据回退规则,对被错误标记的待清理失效数据信息进行数据恢复,以实现所述待清理失效数据信息恢复为可识别的元数据信息;
5、在到达所述数据清理时间时,对所述待清理失效数据信息进行清理。
6、可选地,如上所述的方法,所述方法还包括:
7、根据数据清理规则库中预置的数据清理规则,从所述元数据库中筛选获取与所述数据清理规则匹配的元数据信息,并将所述元数据信息添加至所述元数据清理表。
8、可选地,如上所述的方法,所述根据数据清理规则库中预置的数据清理规则,从所述元数据库中筛选获取与所述数据清理规则匹配的元数据信息,并将所述元数据信息添加至所述元数据清理表,包括:
9、根据所述数据清理规则库中预置的数据清理规则,从所述元数据库中获取与所述元数据信息对应的实际数据存储路径;所述实际数据存储路径为实际数据在分布式文件系统中的存储路径,其中,所述实际数据与所述元数据信息相对应;
10、根据所述实际数据存储路径读取所述分布式文件系统,并判断所述分布式文件系统中所述实际数据存储路径下是否存在与所述元数据信息对应的实际数据;
11、若所述实际数据存储路径下不存在与所述元数据信息对应的实际数据,则将所述元数据信息添加至所述元数据清理表。
12、可选地,如上所述的方法,所述方法还包括:
13、获取所述元数据库中的多个元数据表,并根据所述元数据表中每个元数据的标识符字段,将与所述标识符字段相关的信息进行关联,以获取每个元数据的关联关系;
14、根据所述元数据的关联关系建立携带有元数据标识符的元数据表关系图,以获取每个所述元数据对应的元数据信息;其中,所述元数据对应的元数据信息分布在元数据库中的各个元数据表中。
15、可选地,如上所述的方法,所述根据数据清理规则库中预置的数据清理规则,从所述元数据库中筛选获取与所述数据清理规则匹配的元数据信息,并将所述元数据信息添加至所述元数据清理表,包括:
16、根据所述数据清理规则库中预置的数据清理规则,从所述元数据库中任一元数据表中获取与任一元数据相关的信息,并根据所述携带有元数据标识符的元数据表关系图,依次判断其他元数据表中是否存在与所述元数据相关的信息;
17、若至少一个元数据表中不存在与所述元数据相关的信息,则所述元数据的元数据信息添加至元数据清理表。
18、可选地,如上所述的方法,所述方法还包括:
19、根据所述元数据信息,获取与所述元数据对应的实际数据的最后访问时间,并判断所述最后访问时间是否大于预设时间阈值;
20、若所述最后访问时间大于预设时间阈值,则通过元数据信息获取所述实际数据的标识符,并将所述实际信息的标识符添加至冷数据表;
21、根据预设核实时间周期,将所述冷数据表发送至业务人员终端。
22、可选地,如上所述的方法,所述确定所述待清理失效数据信息被错误标记,则在到达所述数据清理时间之前,根据预置的数据回退规则,对被错误标记的待清理失效数据信息进行数据恢复,包括:
23、在确定所述待清理失效数据信息被错误标记时,获取所述待清理失效数据信息,并删除所述待清理失效数据信息中的失效标记或通过预置还原点将所述元数据库恢复至所述还原点建立时元数据库状态,以使待清理失效数据信息恢复为可识别的元数据信息;其中,所述失效标记为携带有清理时间戳的失效标记或为携带有当前清理作业标识符的失效标记。
24、可选的,如上所述的方法,所述依次对元数据库中与所述元数据清理表对应的可识别的元数据信息进行失效标记,包括:
25、从所述元数据库中依次获取所述元数据清理表对应的可识别的元数据信息,并在所述元数据信息的标识符字段添加携带有清理时间戳的失效标记或添加携带有当前清理作业标识符的失效标记。
26、可选的,如上所述的方法,所述根据所述失效标记,获取所述待清理失效数据信息的数据清理时间,包括:
27、若所述待清理失效数据信息的失效标记为所述携带有清理时间戳的失效标记,则所述时间戳对应的时间为所述数据清理时间;
28、或者,
29、若所述待清理失效数据信息的失效标记为所述携带有当前清理作业标识符的失效标记,则根据所述当前清理作业获取预设的数据清理时间。
30、第二方面,本申请提供一种元数据清理装置,包括:
31、元数据失效标记模块,用于根据预设清理周期,获取元数据清理表,并依次对元数据库中与所述元数据清理表对应的可识别的元数据信息进行失效标记,以得到不可识别的待清理失效数据信息;
32、元数据恢复模块,用于根本文档来自技高网...
【技术保护点】
1.一种元数据清理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据数据清理规则库中预置的数据清理规则,从所述元数据库中筛选获取与所述数据清理规则匹配的元数据信息,并将所述元数据信息添加至所述元数据清理表,包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述根据数据清理规则库中预置的数据清理规则,从所述元数据库中筛选获取与所述数据清理规则匹配的元数据信息,并将所述元数据信息添加至所述元数据清理表,包括:
6.根据权利要求1-5任一所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述确定所述待清理失效数据信息被错误标记,则在到达所述数据清理时间之前,根据预置的数据回退规则,对被错误标记的待清理失效数据信息进行数据恢复,包括:
8.一种元数据清理装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:处
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的方法。
...【技术特征摘要】
1.一种元数据清理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述根据数据清理规则库中预置的数据清理规则,从所述元数据库中筛选获取与所述数据清理规则匹配的元数据信息,并将所述元数据信息添加至所述元数据清理表,包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述根据数据清理规则库中预置的数据清理规则,从所述元数据库中筛选获取与所述数据清理规则匹配的元数据信息,并将所述元数据信息添加至所述元数据清理表,包括:
【专利技术属性】
技术研发人员:史云鹏,李大中,肖威,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。