【技术实现步骤摘要】
基于任务和字段的数据下线方法及系统
本专利技术涉及大数据的数据治理
,尤其涉及一种基于任务和字段的数据下线方法及系统。
技术介绍
随着大数据技术的发展,数据量和加工复杂度都有很大提升。当大数据系统的数据仓库建设到一定程度后,会带来计算资源和存储资源的紧张。那么大数据系统的数据治理就显得尤为重要。在数据治理时,会着重于对数据加工任务和任务中的数据表进行下线处理。现有方案通常是根据任务粒度元数据、表粒度元数据,确定该任务及其产出表是否可下线,此时会把可下线列表推送给任务和表的维护者执行下线处理。其中,下线是指将相关的任务和表数据从数据库中删除。现有方案在数据治理方面能够有效的推荐出可下线的表和任务,但存在推荐的下线列表不完整问题,不能够全面的进行数据治理。
技术实现思路
本专利技术的一个目的在于提供一种基于任务和字段的数据下线方法,解决现有数据下线确定的不完整问题。本专利技术的另一个目的在于提供一种基于任务和字段的数据下线系统。本专利技术的再一个目的在于提供一种计算机设备。本专利技术的还 ...
【技术保护点】
1.一种基于任务和字段的数据下线方法,其特征在于,包括:/n根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图;/n根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务;/n根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线。/n
【技术特征摘要】
1.一种基于任务和字段的数据下线方法,其特征在于,包括:
根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图;
根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务;
根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线。
2.根据权利要求1所述的基于任务和字段的数据下线方法,其特征在于,所述根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图具体包括:
获取元数据库中二元关系对的任务依赖关系信息;
通过图计算技术将所述二元关系对转换为任务依赖关系图,所述任务依赖关系图包括分层设置的多个节点,其中,第一层为根节点层,包括至少一个根节点;最后一层为叶子节点层,包括至少一个叶子节点;其他层为中间层,包括至少一个中间节点;每个节点对应一个任务,相邻两层的节点根据所述二元关系对形成对应关系。
3.根据权利要求2所述的基于任务和字段的数据下线方法,其特征在于,所述根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务具体包括:
对叶子节点进行下线检测,所述下线检测过程包括通过预设任务下线规则检测每个叶子节点对应的任务是否符合下线条件,若是,确定符合下线条件的任务为下线任务;
删除所述任务依赖关系图中的所述下线任务得到更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测得到下线任务,重复形成更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测直至更新后的任务依赖关系图的所有叶子节点对应的任务均不符合下线条件;
确定所述下线任务为待下线任务,所有任务中除了待下线任务的其他任务为不可下线任务。
4.根据权利要求3所述的基于任务和字段的数据下线方法,其特征在于,所述根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段具体包括:
根据不可下线任务和任务依赖关系信息形成不可下线任务的任务依赖关系图;
根据字段依赖关系信息确定不可下线任务的任务依赖关系图的任务中与待下线任务中的字段具有依赖关系的待检测字段;
根据预设字段下线规则确定所述待检测字段是否符合字段下线规则,若是,则确定所述符合字段下线规则的待检测字段为待下线字段。
5.根据权利要求1所述的基于任务和字段的数据下线方法,其特征在于,所述预设任务下线规则包括任务没有下游依赖、任务产生的表无下游依赖和任务产生的表在预设时间内无访问;
预设字段下线规则包括字段没有下游依赖。
6.一种基于任务和字段的数据下线系统,其特征在于,包括:
图转换模块,用于根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图;
任务下线检测模块,用于根据任务依...
【专利技术属性】
技术研发人员:梁婷,康永乐,祁成,徐李融,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。