一种基于数仓血缘链路图谱优化血缘依赖模型的方法及装置制造方法及图纸

技术编号：41142432 阅读：2 留言：0更新日期：2024-04-30 18:11

本发明专利技术公开一种基于数仓血缘链路图谱优化血缘依赖模型的方法及装置，所述方法包括：接收并存储血缘数据；依据血缘关系对血缘数据进行递归处理，生成数仓血缘链路图谱，并确定所述数仓血缘链路图谱中各个血缘依赖模型的权重；基于所述权重确定业务查询过程中数仓中间层的完善度和/或支持度，并对血缘依赖模型进行优化。本发明专利技术在依据血缘关系对血缘数据进行递归处理生成数仓血缘链路图谱的同时，确定数仓血缘链路图谱中各个血缘依赖模型的权重；从而根据权重确定业务查询过程中数仓中间层的完善度和/或支持度，根据数仓中间层的完善度和/或支持度对血缘依赖模型进行优化，以提升数仓中间层血缘依赖模型的服务价值、提高资源配置及利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及血缘数据处理，具体而言，涉及一种基于数仓血缘链路图谱优化血缘依赖模型的方法及装置。

技术介绍

1、数据仓库(简称：数仓)将能够接收并存储来自多个不同数据来源的数据，完成数据分析。在创建数据仓库时，需要先梳理清楚各个中间层(比如：ods层、dw层、dm层)的字段/表之间的血缘关系，这就需要在中间层建立模型血缘关系来反映表与表之间的血缘关系，通过建立的模型支持业务日常分析、挖掘以及日常报表平台展示的使用需要。

2、现有的模型血缘关系仅能够展示当前表的上游及下游，无法确定用户在实际应用场景中对模型的查询使用情况，因此也无法对当前数据仓库中间层的模型建设好坏进行有效反馈，导致中间层模型数据无法优化的问题，影响数据仓库中间层的服务效率。

技术实现思路

1、有鉴于此，本专利技术主要目的在于提出一种基于数仓血缘链路图谱优化血缘依赖模型的方法及装置，以期至少部分地解决上述技术问题中的至少之一。

2、为了解决上述技术问题，本专利技术第一方面提出一种基于数仓血缘链路图谱优化血缘依赖模型的方法，所述方法包括：

3、根据数据来源选择对应数据接收入口接收并存储血缘数据；

4、依据血缘关系对血缘数据进行递归处理，生成数仓血缘链路图谱，并确定所述数仓血缘链路图谱中各个血缘依赖模型的权重；所述血缘依赖模型对应数仓血缘链路图谱中的节点；

5、基于所述权重确定业务查询过程中数仓中间层的完善度和/或支持度；

6、根据数仓中间层的完善度

7、根据本专利技术一种优选实施方式，所述依据所述血缘关系对血缘数据进行递归处理，生成数仓血缘链路图谱包括：

8、确定数仓血缘链路图谱中的顶点，并根据所述血缘关系建立节点之间的边关系，所述节点包括：顶点和叶子节点；

9、输入顶点，根据边关系进行递归处理，直到寻找到全部叶子节点为止；或者，基于集群的分布式并行计算方式对血缘数据进行分布式计算，实现递归。

10、根据本专利技术一种优选实施方式，所述基于集群的分布式并行计算方式对血缘数据进行分布式计算，实现递归包括：

11、根据顶点及边关系依次确定各个递归层的数据及层级数，并统计各个递归层的遗留数据项，直到递归层的遗留数据项为零为止，建立不同深度的递归层；

12、根据层级数将递归层合并成数仓血缘链路图谱。

13、根据本专利技术一种优选实施方式，每个递归层的数据包括：根数据和边数据，当前递归层的数据通过如下方式确定：

14、根据顶点、边关系确定当前递归层的原始数据，根据剪边数据集对所述原始数据进行剪边处理，得到当前递归层的根数据和边数据，并将当前递归层的边数据合并到剪边数据集中，用做下一递归层的剪边处理。

15、根据本专利技术一种优选实施方式，所述确定所述数仓血缘链路图谱中各个血缘依赖模型的权重包括：

16、将数仓血缘链路图谱中顶点处血缘依赖模型的权重配置为1；

17、根据预定分配关系将父节点处血缘依赖模型的权重分配给子节点处血缘依赖模型。

18、根据本专利技术一种优选实施方式，所述根据数据来源选择对应数据接收入口接收血缘数据包括：

19、通过监听器入口拦截接收工作流调度数据；

20、通过即席查询入口接收分析查询数据；

21、通过预设表入口接收拆分和/或合并处理后的输入项数据。

22、根据本专利技术一种优选实施方式，所述存储血缘数据包括：

23、将各个接收入口接收的血缘数据发送至消息系统；

24、实时根据唯一键消费所述消息系统中的血缘数据存入指定数据库。

25、为解决上述技术问题，本专利技术第二方面提供一种基于数仓血缘链路图谱优化血缘依赖模型的装置，所述装置包括：

26、接收模块，用于根据数据来源选择对应数据接收入口接收并存储血缘数据；

27、构建模块，用于依据血缘关系对血缘数据进行递归处理，生成数仓血缘链路图谱，并确定所述数仓血缘链路图谱中各个血缘依赖模型的权重；所述血缘依赖模型对应数仓血缘链路图谱中的节点；

28、确定模块，用于基于所述权重确定业务查询过程中数仓中间层的完善度和/或支持度；

29、优化模块，用于根据数仓中间层的完善度和/或支持度对血缘依赖模型进行优化。

30、根据本专利技术一种优选实施方式，所述构建模块包括：

31、建立模块，用于确定数仓血缘链路图谱中的顶点，并根据所述血缘关系建立节点之间的边关系，所述节点包括：顶点和叶子节点；

32、递归模块，用于输入顶点，根据边关系进行递归处理，直到寻找到全部叶子节点为止；或者，基于集群的分布式并行计算方式对血缘数据进行分布式计算，实现递归。

33、根据本专利技术一种优选实施方式，所述递归模块包括：

34、层级递归模块，根据顶点及边关系依次确定各个递归层的数据及层级数，并统计各个递归层的遗留数据项，直到递归层的遗留数据项为零为止，建立不同深度的递归层；

35、合并模块，用于根据层级数将递归层合并成数仓血缘链路图谱。

36、根据本专利技术一种优选实施方式，每个递归层的数据包括：根数据和边数据，层级递归模块通过如下方式确定当前递归层的数据：

37、根据顶点、边关系确定当前递归层的原始数据，根据剪边数据集对所述原始数据进行剪边处理，得到当前递归层的根数据和边数据，并将当前递归层的边数据合并到剪边数据集中，用做下一递归层的剪边处理。

38、根据本专利技术一种优选实施方式，所述构建模块还包括：

39、第一配置模块，用于将数仓血缘链路图谱中顶点处血缘依赖模型的权重配置为1；

40、第二配置模块，用于根据预定分配关系将父节点处血缘依赖模型的权重分配给子节点处血缘依赖模型。

41、根据本专利技术一种优选实施方式，所述接收模块，通过监听器入口拦截接收工作流调度数据；通过即席查询入口接收分析查询数据；通过预设表入口接收拆分和/或合并处理后的输入项数据。

42、根据本专利技术一种优选实施方式，所述接收模块还包括：

43、发送模块，用于将各个接收入口接收的血缘数据发送至消息系统；

44、存储模块，用于实时根据唯一键消费所述消息系统中的血缘数据存入指定数据库。

45、综上所述，本专利技术通过不同的数据接收入口接收不同来源的数据生成全面、完整的血缘数据；依据血缘数据之间的关系对血缘数据进行递归处理，生成数仓血缘链路图谱，并确定所述数仓血缘链路图谱中各个血缘依赖模型的权重；从而基于所述权重确定业务查询过程中数仓中间层的完善度和/或支持度；该数仓中间层的完善度和/或支持度能反映数据仓库中间层建设的完善程度和/或数仓中间层对业务的支持能力，最后，根据数仓中间层的完善度和/或支持度对血缘依赖模型进行优化，从而提升数据仓库中间层血缘依赖模型的服本文档来自技高网...

【技术保护点】

1.一种基于数仓血缘链路图谱优化血缘依赖模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述依据所述血缘关系对血缘数据进行递归处理，生成数仓血缘链路图谱包括：

3.根据权利要求2所述的方法，其特征在于，所述基于集群的分布式并行计算方式对血缘数据进行分布式计算，实现递归包括：

4.根据权利要求3所述的方法，其特征在于，每个递归层的数据包括：根数据和边数据，当前递归层的数据通过如下方式确定：

5.根据权利要求3所述的方法，其特征在于，所述确定所述数仓血缘链路图谱中各个血缘依赖模型的权重包括：

6.根据权利要求1所述的方法，其特征在于，所述根据数据来源选择对应数据接收入口接收血缘数据包括：

7.根据权利要求2所述的方法，其特征在于，所述存储血缘数据包括：

8.一种基于数仓血缘链路图谱优化血缘依赖模型的装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述构建模块包括：

10.根据权利要求9所述的装置，其特征在于，所述递归模块包括：

11.根据权利要求10所述的方法，其特征在于，每个递归层的数据包括：根数据和边数据，层级递归模块通过如下方式确定当前递归层的数据：

12.根据权利要求10所述的方法，其特征在于，所述构建模块还包括：

13.根据权利要求8所述的装置，其特征在于，所述接收模块，通过监听器入口拦截接收工作流调度数据；通过即席查询入口接收分析查询数据；通过预设表入口接收拆分和/或合并处理后的输入项数据。

14.根据权利要求9所述的装置，其特征在于，所述接收模块还包括：

...

【技术特征摘要】

1.一种基于数仓血缘链路图谱优化血缘依赖模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述依据所述血缘关系对血缘数据进行递归处理，生成数仓血缘链路图谱包括：

3.根据权利要求2所述的方法，其特征在于，所述基于集群的分布式并行计算方式对血缘数据进行分布式计算，实现递归包括：

4.根据权利要求3所述的方法，其特征在于，每个递归层的数据包括：根数据和边数据，当前递归层的数据通过如下方式确定：

5.根据权利要求3所述的方法，其特征在于，所述确定所述数仓血缘链路图谱中各个血缘依赖模型的权重包括：

6.根据权利要求1所述的方法，其特征在于，所述根据数据来源选择对应数据接收入口接收血缘数据包括：

7.根据权利要求2所述的方法，其特征在于，所述存储血缘...

【专利技术属性】
技术研发人员：罗磊，苏荣友，宋荣鑫，程志晓，赵迎新，林振烈，
申请(专利权)人：上海淇玥信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人