控制数据产品生命周期的方法、装置及电子设备制造方法及图纸

技术编号:39249450 阅读:6 留言:0更新日期:2023-10-30 12:01
本公开提供了一种控制数据产品生命周期的方法、装置及电子设备,涉及数据处理技术领域,尤其涉及大数据领域。具体实现方案为:获取目标数据产品在数据生命周期中不同阶段分别对应的数据产品属性,其中,数据生命周期包括:多个阶段,目标数据产品在数据生命周期中不同阶段之间进行状态流转;按照数据产品属性确定数据生命周期中不同阶段对应的数据适用范围;基于目标数据产品在数据生命周期中不同阶段对应的数据状态和数据适用范围,对目标数据产品进行数据约束审核,得到审核结果;利用审核结果重新调整目标数据产品在数据生命周期中不同阶段之间的状态流转。不同阶段之间的状态流转。不同阶段之间的状态流转。

【技术实现步骤摘要】
控制数据产品生命周期的方法、装置及电子设备


[0001]本公开涉及数据处理
,进一步涉及大数据领域,尤其涉及一种控制数据产品生命周期的方法、装置及电子设备。

技术介绍

[0002]数据产品生命周期管理,是指在大数据处理环节中,对数据产品的关键信息和状态进行管理的技术。在当今的互联网大数据时代,每个企业都会生产、加工大量高价值数据,这些数据具备规模大、链路长、参与角色多的特点,随着企业大数据爆炸式增长,必然引发数据追踪、数据管理、数据安全等实际问题,因此,数据治理成为了企业必需开展的重要工作。
[0003]相关技术在进行数据治理时,一般采用基于数据挂载的数据产品管理机制和基于自动退场与信息同步的数据产品生命周期管理机制。其中,基于数据挂载的数据产品管理机制能够提供简单的数据产品信息管理及检索的功能,但是无法进行数据产品生命周期的管理,在长时间运行后,数据产品信息的可靠性变差;基于自动退场与信息同步的数据产品生命周期管理机制能够保障数据产品信息的准确性与实时性,但是在复杂数据链路场景下无法准确管理数据产品生命周期。

技术实现思路

[0004]本公开提供了一种控制数据产品生命周期的方法、装置及电子设备,以至少解决相关技术对于数据产品生命周期进行管理时的可靠性低下的技术问题。
[0005]根据本公开的一方面,提供了一种控制数据产品生命周期的方法,包括:获取目标数据产品在数据生命周期中不同阶段分别对应的数据产品属性,其中,数据生命周期包括:多个阶段,目标数据产品在数据生命周期中不同阶段之间进行状态流转;按照数据产品属性确定数据生命周期中不同阶段对应的数据适用范围;基于目标数据产品在数据生命周期中不同阶段对应的数据状态和数据适用范围,对目标数据产品进行数据约束审核,得到审核结果;利用审核结果重新调整目标数据产品在数据生命周期中不同阶段之间的状态流转。
[0006]根据本公开的又一方面,提供了一种控制数据产品生命周期的装置,包括:获取模块,用于获取目标数据产品在数据生命周期中不同阶段分别对应的数据产品属性,其中,数据生命周期包括:多个阶段,目标数据产品在数据生命周期中不同阶段之间进行状态流转;确定模块,用于按照数据产品属性确定数据生命周期中不同阶段对应的数据适用范围;审核模块,用于基于目标数据产品在数据生命周期中不同阶段对应的数据状态和数据适用范围,对目标数据产品进行数据约束审核,得到审核结果;控制模块,用于利用审核结果重新调整目标数据产品在数据生命周期中不同阶段之间的状态流转。
[0007]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指
令被至少一个处理器执行,以使至少一个处理器能够执行本公开提出的控制数据产品生命周期的方法。
[0008]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提出的控制数据产品生命周期的方法。
[0009]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开提出的控制数据产品生命周期的方法。
[0010]在本公开中,通过获取目标数据产品在数据生命周期中不同阶段分别对应的数据产品属性,进而按照数据产品属性确定数据生命周期中不同阶段对应的数据适用范围,随后基于目标数据产品在数据生命周期中不同阶段对应的数据状态和数据适用范围,对目标数据产品进行数据约束审核,得到审核结果,最后利用审核结果重新调整目标数据产品在数据生命周期中不同阶段之间的状态流转,达到了对目标数据产品的数据生命周期进行高效管理的目的,实现了提高对于数据产品生命周期的管理准确性的效果,从而解决了相关技术对于数据产品生命周期进行管理时的可靠性低下的技术问题。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开实施例的一种用于实现控制数据产品生命周期的方法的计算机终端(或移动设备)的硬件结构框图;
[0014]图2是根据本公开实施例的一种控制数据产品生命周期的方法流程图;
[0015]图3是根据本公开实施例的一种数据生命周期流转示意图;
[0016]图4是根据本公开实施例的一种控制数据产品生命周期的方法示意图;
[0017]图5是根据本公开实施例的又一种控制数据产品生命周期的方法示意图;
[0018]图6是根据本公开实施例的一种控制数据产品生命周期的装置的结构框图。
具体实施方式
[0019]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0020]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0021]数据产品生命周期管理,是指在大数据处理环节中,对数据产品的关键信息和状
态进行管理的技术。
[0022]相关技术一般采用以下两种方案进行数据产品生命周期的管理:
[0023]方案一:基于数据挂载的数据产品管理机制。常见的数据产品管理系统是通过数据源挂载的模式进行实现的。具体的,作为生产方,用户将自己产出的数据,例如,数据仓库(Hive)、分布式文件系统(Hadoop Distributed File System,HDFS)、关系型数据库等,挂载在平台上供其他用户使用,在挂载过程中需要手动标注或者通过系统生成相应的数据产品信息,其中,数据产品信息包括:字段(Schema)、产出时效、产出周期、保留天数等。作为使用方,可以在平台的数据集市筛选相应的数据产品信息,从而获取需要的数据产品信息进行使用。
[0024]方案一虽然能够实现数据产品管理的功能,并且提供了简单的数据产品信息管理及检索的功能。但是,由于不存在数据产品生命周期的概念,在长时间运行后可能出现大量数据过时或出错,数据产品信息的可靠性变差。例如,数据A在挂载在平台管理系统后,可能出现一些数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种控制数据产品生命周期的方法,包括:获取目标数据产品在数据生命周期中不同阶段分别对应的数据产品属性,其中,所述数据生命周期包括:多个阶段,所述目标数据产品在所述数据生命周期中不同阶段之间进行状态流转;按照所述数据产品属性确定所述数据生命周期中不同阶段对应的数据适用范围;基于所述目标数据产品在所述数据生命周期中不同阶段对应的数据状态和数据适用范围,对所述目标数据产品进行数据约束审核,得到审核结果;利用所述审核结果重新调整所述目标数据产品在所述数据生命周期中不同阶段之间的状态流转。2.根据权利要求1所述的方法,其中,所述多个阶段用于描述所述目标数据产品的数据生产、数据使用以及数据下线整个过程,所述多个阶段包括:初始化阶段、创建中阶段、已创建阶段、待发布阶段、已校验阶段、已部署阶段、已发布阶段、已下线阶段。3.根据权利要求2所述的方法,其中,所述数据产品属性包括:基本信息、元信息、负责人信息、产出周期信息、时效信息、优先级信息。4.根据权利要求3所述的方法,其中,获取所述目标数据产品在所述数据生命周期中不同阶段分别对应的数据产品属性包括:在所述初始化阶段获取所述基本信息;在所述已创建阶段获取所述元信息;在所述已部署阶段以及后续阶段获取所述产出周期信息、所述时效信息和所述优先级信息;在所述已发布阶段获取所述负责人信息。5.根据权利要求3所述的方法,其中,按照所述数据产品属性确定所述数据生命周期中不同阶段对应的数据适用范围包括:按照所述基本信息和所述元信息,确定所述数据生命周期中的第一部分数据的第一适用范围,其中,所述第一适用范围用于表示所述第一部分数据对调试作业处于可见状态,所述第一部分数据包括:目标租户已创建数据和除所述目标租户之外其余租户已发布数据;按照所述基本信息、所述元信息、所述产出周期信息、所述时效信息和所述优先级信息,确定所述数据生命周期中的第二部分数据的第二适用范围,其中,所述第二适用范围用于表示所述第二部分数据对第一例行作业处于可见状态,所述第二部分数据包括:所述目标租户已部署数据和除所述目标租户之外其余租户已发布数据;按照所述基本信息、所述元信息、所述产出周期信息、所述时效信息、所述优先级信息和所述负责人信息,确定所述数据生命周期中的第三部分数据的第三适用范围,其中,所述第三适用范围用于表示所述第三部分数据对第二例行作业处于可见状态,所述第三部分数据包括:所有租户已发布数据。6.根据权利要求3所述的方法,其中,基于所述目标数据产品在所述数据生命周期中不同阶段对应的数据状态和数据适用范围,对所述目标数据产品进行数据约束审核,得到所述审核结果包括:基于所述目标数据产品在所述已下线阶段之前不同阶段对应的数据状态和数据适用范围,对所述目标数据产品进行第一约束审核,得到第一审核结果,其中,所述第一审核结
果用于审核所述时效信息;基于所述目标数据产品在所述已下线阶段之前不同阶段对应的数据状态和数据适用范围,对所述目标数据产品进行第二约束审核,得到第二审核结果,其中,所述第二审核结果用于审核更改后的时效信息对血缘链路中的上游数据和下游数据的影响;基于所述目标数据产品在所述已下线阶段之前不同阶段对应的数据状态和数据适用范围,对所述目标数据产品进行第三约束审核,得到第三审核结果,其中,所述第三审核结果用于审核所述目标数据产品的作业成功率。7.根据权利要求3所述的方法,其中,基于所述目标数据产品在所述数据生命周期中不同阶段对应的数据状态和数据适用范围,对所述目标数据产品进行数据约束审核,得到所述审核结果包括:基于所述目标数据产品在所述已下线阶段对应的数据状态和数据适用范围,对所述目标数据产品进行第四约束审核,得到第四审核结果,其中,所述第四审核结果用于审核所述目标数据产品是否被血缘链路中的下游数据所引用;基于所述目标数据产品在所述已下线阶段对应的数据状态和数据适用范围,对所述目标数据产品进行第五约束审核,得到第五审核结果,其中,所述第五审核结果用于审核所述目标数据产品是否不再产生数据。8.一种控制数据产品生命周期的装置,包括:获取模块,用于获取目标数据产品在数据生命周期中不同阶段分别对应的数据产品属性,其中,所述数据生命周期包括:多个阶段...

【专利技术属性】
技术研发人员:崔金涛叶玮彬刘涛
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1