一种数据仓库垃圾表的识别方法及系统技术方案

技术编号:36535135 阅读:16 留言:0更新日期:2023-02-01 16:20
本发明专利技术公开了一种数据仓库垃圾表的识别方法及系统,方法包括:采集数据库的执行日志信息,对执行日志信息进行解析以获取数据库的表使用信息;采集数据仓库的加工脚本,对加工脚本进行解析以获取数据表血缘关系;利用预先建立的垃圾表识别模型对数据仓库中的数据表进行判断,判定在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表。通过本发明专利技术的技术方案,识别方式简单,自动化程度高,垃圾表识别模型设置灵活、判断要素少且识别准确率高,能够适配市面主流的数据库或者数据仓库,有效弥补了数据监控运维短板,解决了垃圾表积累问题。解决了垃圾表积累问题。解决了垃圾表积累问题。

【技术实现步骤摘要】
一种数据仓库垃圾表的识别方法及系统


[0001]本专利技术涉及数据库
,尤其涉及一种数据仓库垃圾表的识别方法以及一种数据仓库垃圾表的识别系统。

技术介绍

[0002]数据仓库在运行运营过程中,需要不断的采集数据,持续加工数据,沉淀数据资产,为数据消费人员提供数据服务;随着这个过程的推进,伴随数据资产增长的同时,冗余数据也在不断增长,垃圾表也在持续的增加。
[0003]一般情况,通过运维和管理手段,可以及时的进行垃圾表的处理,在大数据应用场景下,多租户、多个开发单位、大量使用用户的场景下,很容易因为疏漏造成数据冗余资产的生成。
[0004]另外,在数据仓库处理过程中,如果没有严格的审核机制,由开发人员进行相对松散的开发和上线,很容易造成一些临时表的创建,但没有及时释放的情况。
[0005]再者,为了应用灵活的业务场景,大量临时性的数据需求,也容易造成数据垃圾表的创建及堆积。
[0006]通过严格的管理手段进行数据仓库数据表的管理,不仅要求管理部门有很强的管理能力,同时对各个环节的管控,会造成数据开发效率低下。在实际场景下,仓库的建设都是开放租户或者权限的方式下放到具体的部门和厂商进行,仅靠管理手段,很难做到及时有效的管控;随着实际的推移,势必造成数据仓库中垃圾表的不断产生。

技术实现思路

[0007]针对上述问题,本专利技术提供了一种数据仓库垃圾表的识别方法及系统,通过数据库访问日志、执行日志信息及数据仓库加工脚本解析出数据表的使用情况和血缘关系等关键要素信息,结合访问周期、访问次数及血缘影响链路次数,利用预先建立的垃圾表识别模型对数据表进行自动化综合判断,识别方式简单,自动化程度高,垃圾表识别模型设置灵活、判断要素少且识别准确率高,能够适配市面主流的数据库或者数据仓库,有效弥补了数据监控运维短板,解决了垃圾表积累问题。
[0008]为实现上述目的,本专利技术提供了一种数据仓库垃圾表的识别方法,包括:
[0009]采集数据库的执行日志信息,对所述执行日志信息进行解析以获取所述数据库的表使用信息;
[0010]采集数据仓库的加工脚本,对所述加工脚本进行解析以获取数据表血缘关系;
[0011]利用预先建立的垃圾表识别模型对所述数据仓库中的数据表进行判断,判定在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表。
[0012]在上述技术方案中,优选地,数据仓库垃圾表的识别方法还包括:
[0013]对所述数据仓库中的垃圾表进行定时清理和下线。
[0014]在上述技术方案中,优选地,所述采集数据仓库的加工脚本,对所述加工脚本进行解析以获取数据表血缘关系的具体过程包括:
[0015]采集数据仓库的SQL加工脚本,通过解析所述加工脚本中的解析逻辑关系,将所述解析逻辑关系中的源表与目录表建立联系,获取对应数据表的数据表血缘关系。
[0016]在上述技术方案中,优选地,所述判定在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表的具体过程包括:
[0017]根据所述数据表血缘关系得到数据表之间的影响关系,获取每个数据表的所有影响表,得到每个数据表的血缘影响链路使用次数,
[0018]根据所述表使用信息得到每个数据表的表使用量;
[0019]判断在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表。
[0020]在上述技术方案中,优选地,根据每个数据表的血缘影响链路使用次数,以整个血缘影响关系链路中既没有向前的来源依赖关系、也没有向后的影响关系的数据表作为孤立表,将预设判定时间周期内使用量小于预设阈值的孤立表判定为垃圾表。
[0021]本专利技术还提出一种数据仓库垃圾表的识别系统,应用如上述技术方案中任一项公开的数据仓库垃圾表的识别方法,包括:
[0022]表使用信息采集模块,用于采集数据库的执行日志信息,对所述执行日志信息进行解析以获取所述数据库的表使用信息;
[0023]表血缘关系采集模块,用于采集数据仓库的加工脚本,对所述加工脚本进行解析以获取数据表血缘关系;
[0024]垃圾表判断模块,用于利用预先建立的垃圾表识别模型对所述数据仓库中的数据表进行判断,判定在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表。
[0025]在上述技术方案中,优选地,数据仓库垃圾表的识别系统还包括垃圾表清理模块,用于对所述数据仓库中的垃圾表进行定时清理和下线。
[0026]在上述技术方案中,优选地,所述表血缘关系采集模块具体用于:
[0027]采集数据仓库的SQL加工脚本,通过解析所述加工脚本中的解析逻辑关系,将所述解析逻辑关系中的源表与目录表建立联系,获取对应数据表的数据表血缘关系。
[0028]在上述技术方案中,优选地,所述垃圾表判断模块具体用于:
[0029]根据所述数据表血缘关系得到数据表之间的影响关系,获取每个数据表的所有影响表,得到每个数据表的血缘影响链路使用次数,
[0030]根据所述表使用信息得到每个数据表的表使用量;
[0031]判断在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表。
[0032]在上述技术方案中,优选地,所述垃圾表判断模块具体用于:
[0033]根据每个数据表的血缘影响链路使用次数,以整个血缘影响关系链路中既没有向前的来源依赖关系、也没有向后的影响关系的数据表作为孤立表,将预设判定时间周期内使用量小于预设阈值的孤立表判定为垃圾表。
[0034]与现有技术相比,本专利技术的有益效果为:通过数据库访问日志、执行日志信息及数
据仓库加工脚本解析出数据表的使用情况和血缘关系等关键要素信息,结合访问周期、访问次数及血缘影响链路次数,利用预先建立的垃圾表识别模型对数据表进行自动化综合判断,识别方式简单,自动化程度高,垃圾表识别模型设置灵活、判断要素少且识别准确率高,能够适配市面主流的数据库或者数据仓库,有效弥补了数据监控运维短板,解决了垃圾表积累问题。
附图说明
[0035]图1为本专利技术一种实施例公开的数据仓库垃圾表的识别方法的流程示意图;
[0036]图2为本专利技术一种实施例公开的数据仓库垃圾表的识别系统的模块示意图。
[0037]图中,各组件与附图标记之间的对应关系为:
[0038]1.表使用信息采集模块,2.表血缘关系采集模块,3.垃圾表判断模块,4.垃圾表清理模块。
具体实施方式
[0039]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据仓库垃圾表的识别方法,其特征在于,包括:采集数据库的执行日志信息,对所述执行日志信息进行解析以获取所述数据库的表使用信息;采集数据仓库的加工脚本,对所述加工脚本进行解析以获取数据表血缘关系;利用预先建立的垃圾表识别模型对所述数据仓库中的数据表进行判断,判定在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表。2.根据权利要求1所述的数据仓库垃圾表的识别方法,其特征在于,还包括:对所述数据仓库中的垃圾表进行定时清理和下线。3.根据权利要求1所述的数据仓库垃圾表的识别方法,其特征在于,所述采集数据仓库的加工脚本,对所述加工脚本进行解析以获取数据表血缘关系的具体过程包括:采集数据仓库的SQL加工脚本,通过解析所述加工脚本中的解析逻辑关系,将所述解析逻辑关系中的源表与目录表建立联系,获取对应数据表的数据表血缘关系。4.根据权利要求1所述的数据仓库垃圾表的识别方法,其特征在于,所述判定在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表的具体过程包括:根据所述数据表血缘关系得到数据表之间的影响关系,获取每个数据表的所有影响表,得到每个数据表的血缘影响链路使用次数,根据所述表使用信息得到每个数据表的表使用量;判断在预设判定时间周期内使用量小于预设阈值、血缘影响链路次数小于预设阈值的数据表为垃圾表。5.根据权利要求4所述的数据仓库垃圾表的识别方法,其特征在于,根据每个数据表的血缘影响链路使用次数,以整个血缘影响关系链路中既没有向前的来源依赖关系、也没有向后的影响关系的数据表作为孤立表,将预设判定时间周期内使用量小于预设阈值的孤立表判定为垃圾表。6.一种数据仓库垃圾表的识别系统,...

【专利技术属性】
技术研发人员:严敏
申请(专利权)人:北京思特奇信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1