System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于数据血缘关系优化数据管理策略的方法技术_技高网

一种基于数据血缘关系优化数据管理策略的方法技术

技术编号:40590832 阅读:4 留言:0更新日期:2024-03-12 21:51
本发明专利技术涉及数据管理领域,其公开了一种基于数据血缘关系优化数据管理策略的方法,通过优化管理策略,提高数据资产的运维管理效率。本发明专利技术通过解析数据处理脚本中数据表关系对,生成血缘关系图谱;通过解析调度任务策略,生成血缘关系图谱中的节点间的路径权重,获得最终血缘关系图谱;结合最终数据血缘关系图谱上的各节点及其关联节点对应的数据表重要程度以及节点之间路径权重,计算各节点的重要性程度;然后,针对每一个调度任务,根据该调度任务中的所有目标表在最终数据血缘关系图谱上对应节点的重要性程度,进行加总求和,作为该调度任务的优先级数值;最后根据各调度任务的优先级数值进行降序排序,优先维护排序靠前的调度任务。

【技术实现步骤摘要】

本专利技术涉及数据管理领域,具体涉及一种基于数据血缘关系优化数据管理策略的方法


技术介绍

1、现有数据管理平台需要管理企业海量的业务数据,以及基于业务数据产生的大量数据分析需求,由此会产生大量的数据统计脚本与数据更新任务。管理与维护数据资产,探索业务数据价值,需要编写大量数据处理脚本,定义多样化调度策略的数据处理任务。因此,如何优化调度策略,使得所有数据处理任务按用户期望的顺序执行,是数据开发人员和数据运维人员需要考虑的问题。

2、目前,现有技术中的数据管理方法主要有两类:

3、一、按用户定义的任务调度策略执行数据处理任务:

4、例如:公开号为cn116777158a,名为“一种电信业务系统数据处理任务的调度系统及方法”的专利申请中使用人员定义好目标任务和执行文件,配置好目标任务的执行计划后提交给任务调度模块执行。

5、其存在以下缺陷:

6、(1)该方案只说明了任务调度系统的设计,没有涉及调度任务是否合理,如何优化。调度策略的调优,完全依赖于开发人员和运维人员手工处理,没有一个可以辅助指导管理策略优化的方案。

7、(2)数据资源是公共的基础资源,会有多个数据开发团队基于该调度系统发布任务,而该方法没有涉及基于全局任务调度的优化策略。

8、二、按优先级算法排序的任务调度方法:

9、例如:公开号为cn116795517a,名为“一种多策略自适应的异步任务调度方法、系统及装置”的专利申请中定义了一种动态权重策略,其中适应性权重基于该任务历史在近30天内是否被使用的均值,业务任务权重的增减和人员权重由外部输入,最后计算一个总体权重,最后根据优先级顺序派发任务执行。

10、其存在以下缺陷:

11、(1)该方法是基于任务计算的优先级顺序,适应性权重计算没有考虑任务所执行的数据处理脚本所产出的数据,是否是高价值的数据,有可能导致优先程度较高的任务产出的数据并不是使用人员所关心的数据。

12、(2)该方法没有考虑数据表依赖对权重值的影响,而一份重要性程度较高的数据表,所依赖的前置数据,重要性程度应相应的提高。

13、综上,现有技术中的数据管理方法没有从全局管理方面出发,也无法兼顾调度策略与数据重要程度间的平衡关系,从而在一定程度上影响了数据资产的运维管理效率。


技术实现思路

1、本专利技术所要解决的技术问题是:提出一种基于数据血缘关系优化数据管理策略的方法,通过优化管理策略,提高数据资产的运维管理效率。

2、本专利技术解决上述技术问题采用的技术方案是:

3、一种基于数据血缘关系优化数据管理策略的方法,包括以下步骤:

4、s1、读取数据仓库元数据库,获取数据表清单,为每个数据表赋予数据表重要程度;

5、s2、读取任务调度元数据库的调度任务和调度策略,根据调度策略对每个调度任务赋予任务重要性程度;

6、s3、读取任务调度元数据库中的数据处理脚本,解析出脚本中使用的数据表,并区分来源表和目标表,确定数据指向关系;

7、s4、建立根据数据处理脚本解析出来的源表和目标表的关系对;

8、s5、对步骤s4建立的所有源表和目标表的关系对进行汇总,生成数据血缘关系图谱,图谱中的每个节点对应一个数据表,节点与节点之间的有向连边对应数据指向关系;

9、s6、在数据血缘关系图谱的相应节点上标注对应数据表的数据表重要程度;

10、s7、根据调度任务的数据指向关系,在数据血缘关系图谱中的节点与节点之间的有向连边上标注相应调度任务的任务重要性程度,获得最终数据血缘关系图谱;

11、s8、结合所述最终数据血缘关系图谱上的各节点及其关联节点对应的数据表重要程度以及节点之间对应调度任务的任务重要性程度,计算各节点的重要性程度;

12、s9、针对每一个调度任务,根据该调度任务中的所有目标表在所述最终数据血缘关系图谱上对应节点的重要性程度,进行加总求和计算,作为该调度任务的优先级数值;

13、s10、根据各调度任务的优先级数值,对各调度任务进行降序排序,优先维护排序靠前的调度任务。

14、进一步的,步骤s2中,所述任务调度策略分为周期性执行和依赖任务触发两类策略,其中,周期性执行是指按固定小时、日期、周、月、年执行;依赖任务触发是指上游依赖任务执行完成后执行当前任务;根据不同调度策略对调度任务配置对应的任务重要性程度。

15、进一步的,步骤s3中,解析出脚本中使用的数据表,并区分来源表和目标表,包括:

16、在解析数据表时,通过insert、from关键字区分来源表和目标表;其中,将insert关键字后续数据表标记为目标表tt,将from关键字后续数据表标记为来源表tf。

17、进一步的,步骤s5中,所述对所有源表和目标表的关系对进行汇总,包括:

18、当一组关系对中的来源表、目标表与其他关系对中的来源表、目标表有相同部分时,按照数据指向关系合并两组关系对。

19、进一步的,步骤s8中,所述结合所述最终数据血缘关系图谱上的各节点及其关联节点对应的数据表重要程度以及节点之间对应调度任务的任务重要性程度,计算各节点的重要性程度,包括:

20、s=wt当前+∑wt目标*ws

21、其中,wt当前表示血缘关系图当前节点对应的数据表重要程度;wt目标表示血缘关系图谱当前节点的下游节点对应的数据表重要程度;ws为当前节点与下游节点之间的有向连边上标注的对应任务重要性程度;∑为加总求和符号。

22、进一步的,步骤s10中,所述优先维护排序靠前的调度任务,包括:

23、根据调度任务的降序排序,优先维护排序靠前的n个调度任务,n为大于或等于1的正整数,根据用户需求取值。

24、本专利技术的有益效果是:

25、(1)本专利技术方案基于数据管理的全局资源使用情况出发,分析不同团队提交的所有数据处理脚本和调度任务,来进行调度任务优化,从而避免不同开发团队共享数据资源时的调度冲突问题。

26、(2)本专利技术方案在计算数据表的重要性程度时考虑了数据表初始配置的重要性程度,被使用次数、数据依赖关系等,使得数据表的重要性程度体现更加合理。

27、(3)本专利技术方案在计算调度任务的优先级数值时,兼顾了调度策略与数据重要程度间的平衡关系,调度任务产出的数据表越多,产出的数据表重要性程度越高,调度任务的重要性程度累加值越高,优先级越高。

28、基于本专利技术的方案可以辅助运维人员分主次、分重点关注重要性程度较高的数据表与调度任务,有效优化数据资产管理的维护策略,帮助运维人员减少日常维护任务,提高数据资产的运维管理效率。

本文档来自技高网...

【技术保护点】

1.一种基于数据血缘关系优化数据管理策略的方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于数据血缘关系优化数据管理策略的方法,其特征在于,

3.如权利要求1所述的一种基于数据血缘关系优化数据管理策略的方法,其特征在于,

4.如权利要求1所述的一种基于数据血缘关系优化数据管理策略的方法,其特征在于,

5.如权利要求1所述的一种基于数据血缘关系优化数据管理策略的方法,其特征在于,

6.如权利要求1-5任意一项所述的一种基于数据血缘关系优化数据管理策略的方法,其特征在于,步骤S10中,所述优先维护排序靠前的调度任务,包括:

【技术特征摘要】

1.一种基于数据血缘关系优化数据管理策略的方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于数据血缘关系优化数据管理策略的方法,其特征在于,

3.如权利要求1所述的一种基于数据血缘关系优化数据管理策略的方法,其特征在于,

4.如权利要求1所述的一种基...

【专利技术属性】
技术研发人员:梁敏杜科
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1