跨引擎的数据血缘关系生成方法、装置、设备及存储介质制造方法及图纸

技术编号：40005534 阅读：7 留言：0更新日期：2024-01-09 04:56

本申请提供一种跨引擎的数据血缘关系生成方法、装置、设备及存储介质。该方法包括：获取目标数据以及数据平台中对目标数据执行数据处理的多个引擎的引擎标识符；在目标数据中确定每个引擎标识符对应的子目标数据；根据引擎标识符生成对应的词法文件和语法文件，词法文件和语法文件用于对对应的子目标数据进行数据血缘关系分析，得到数据子血缘关系；将根据多个引擎标识符得到的数据子血缘关系进行整合，生成得到目标数据的全局数据血缘关系。本申请的方法，提高了跨引擎的数据血缘关系生成方法的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，尤其涉及一种跨引擎的数据血缘关系生成方法、装置、设备及存储介质。

技术介绍

1、数据的血缘关系被比喻为数据的“一条龙脉”，其重要性不言而喻。随着数据应用场景日益繁多，数据没有形成血缘关系问题逐渐凸显，从宏观看，数据如同珍珠散落各处，逐渐形成数据孤岛；从微观看，数据如dna断裂，无法快速地识别数据来源、加工逻辑或计算口径。数据没有形成一张网，没有一条龙脉，数据就无法变成一个可迁移、可溯源、可判断、可量化的活的生态有机体。在如今的开源时代，涌现出大量的不同种类的计算引擎，其中，因引擎特性被应用在不同的使用场景，这些计算引擎虽然语法上支持sql语言或已在sql语言化，且国际上也有sql语言标准，但是各个引擎的语法方言却多少有点各不相同。

2、现有技术中，可以利用传统etl(extract-transform-load，抽取-转换-加载)工具：informatica、kettle和datastage等工具、使用其hook中取执行计划plan取得源表格source table、目标表格target table或字段关系、通过元数据管理开源组件等方式获取数据的血缘关系。

3、然而，现有的血缘关系的获取方式未考虑各引擎之间的语法方言，会导致数据血缘关系断裂、生成的血缘关系不准确的问题。

技术实现思路

1、本申请提供一种跨引擎的数据血缘关系生成方法、装置、设备及存储介质，用以解决跨引擎的数据血缘关系生成不准确的问题。

2、第一方面，本申请提供

3、获取目标数据以及数据平台中对所述目标数据执行数据处理的多个引擎的引擎标识符；

4、在所述目标数据中确定每个所述引擎标识符对应的子目标数据；

5、根据所述引擎标识符生成对应的词法文件和语法文件，所述词法文件和语法文件用于对对应的所述子目标数据进行数据血缘关系分析，得到数据子血缘关系；

6、将根据多个引擎标识符得到的数据子血缘关系进行整合，生成所述目标数据的全局数据血缘关系。

7、第二方面，本申请提供一种跨引擎的数据血缘关系生成装置，包括：

8、获取模块，用于获取目标数据以及数据平台中对所述目标数据执行数据处理的多个引擎的引擎标识符；

9、确定模块，用于在所述目标数据中确定每个所述引擎标识符对应的子目标数据；

10、生成模块，用于根据所述引擎标识符生成对应的词法文件和语法文件，所述词法文件和语法文件用于对对应的所述子目标数据进行数据血缘关系分析，得到数据子血缘关系；

11、所述生成模块，还用于将根据多个引擎标识符得到的数据子血缘关系进行整合，生成所述目标数据的全局数据血缘关系。

12、第三方面，本申请提供一种跨引擎的数据血缘关系生成设备，包括：

13、处理器，存储器，通信接口；

14、所述存储器用于存储所述处理器的可执行指令；

15、其中，所述处理器配置为经由执行所述可执行指令来执行如上第一方面所述的跨引擎的数据血缘关系生成方法。

16、第四方面，本申请提供一种可读存储介质，包括：其上存储有计算机程序，所述计算机程序被处理器执行时实现执行如上第一方面所述的跨引擎的数据血缘关系生成方法。

17、本申请提供的跨引擎的数据血缘关系生成方法、装置、设备及存储介质，通过获取目标数据以及数据平台中对目标数据执行数据处理的多个引擎的引擎标识符，在目标数据中确定每个引擎标识符对应的子目标数据，根据引擎标识符生成对应的词法文件和语法文件，词法文件和语法文件用于对对应的子目标数据进行数据血缘关系分析，得到数据子血缘关系，将根据多个引擎标识符得到的数据子血缘关系进行整合，生成目标数据的全局数据血缘关系，其中，通过将目标数据根据引擎标识符划分为多个子目标数据，并生成对应的词法文件以及语法文件对各子目标数据进行数据血缘关系分析，提高了各子目标数据的数据血缘关系分析的准确性，提高了各数据子血缘关系的准确性，进一步提高了目标数据的全局数据血缘关系的准确性，提高了跨引擎的数据血缘关系生成方法的准确性。

本文档来自技高网...

【技术保护点】

1.一种跨引擎的数据血缘关系生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述词法文件的基本结构包括：引入语句、词法规则、特殊词法规则以及词法模式。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述对对应的所述子目标数据进行数据血缘关系分析，得到目标数据的数据子血缘关系，包括：

5.根据权利要求4所述的方法，其特征在于，所述语法文件包括语法规则，所述通过访问者模式对所述语法树进行遍历，得到所述目标数据的子数据血缘关系，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述访问方法类型对所述语法树进行遍历，包括：

7.根据权利要求6所述的方法，其特征在于，所述目标数据包括：系统级数据、表项级数据和字段级数据；所述将所述子目标数据的字符划分为词法单元，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种跨引擎的数据血缘关系生成装置，其特征在于，包括：

10.一种跨

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现执行权利要求1至8任一项所述的跨引擎的数据血缘关系生成方法。

...

【技术特征摘要】

1.一种跨引擎的数据血缘关系生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述词法文件的基本结构包括：引入语句、词法规则、特殊词法规则以及词法模式。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述对对应的所述子目标数据进行数据血缘关系分析，得到目标数据的数据子血缘关系，包括：

6.根据权利要求5所述的方法...

【专利技术属性】
技术研发人员：刘钧，章超，
申请(专利权)人：阿维塔科技重庆有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人