一种数据血缘关系预测方法、系统、设备及可读存储介质技术方案

技术编号：40524394 阅读：8 留言：0更新日期：2024-03-01 13:43

本申请提供了一种数据血缘关系预测方法、系统、设备及可读存储介质，其中，训练集构建模块根据每个指示元数据的第一数值和每个指示元数据的数据血缘关系的第二数值构建训练样本集；第一模型训练模块分别对每个初始模型进行目标次数的迭代训练得到多个候选模型；分析模型确定模块将具有最高候选准确率的候选模型确定为目标模型；第二模型训练模块利用训练样本集对目标模型进行模型训练得到优化模型；血缘关系预测模块利用优化模型对待分析数据的元数据的数据血缘关系进行预测得到预测数据血缘关系。采用上述方法，以减少在确定元数据的数据血缘关系时所需耗费的人力成本，同时提高确定得到的数据血缘关系的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，具体而言，涉及一种数据血缘关系预测方法、系统、设备及可读存储介质。

技术介绍

1、数据血缘关系又称数据血统、数据起源、数据谱系，是指数据的全生命周期中，数据从产生、处理、加工、融合、流转到最终消亡，数据之间自然形成一种关系。其记录了数据产生的链路关系，这些关系与人类的血缘关系比较相似，所以被成为数据血缘关系。比如，数据a经过etl处理生成了数据b，那么我们就说数据a与b有着血缘关系，且数据a是数据b的上游数据，同时数据b是数据a的下游数据。按血缘对象来分，可分为系统级血缘、表级血缘、字段(列)级血缘。不管是结构化数据还是非结构化数据，都必定存在数据血缘关系。而数据血缘分析是元数据管理的重要应用之一，其梳理系统、表、视图、存储过程、etl、程序代码、字段等之间的关系，并采用图数据库进行可视化展示。简单地说就是通过可视化展示数据是怎么来的，经过了哪些过程、阶段及计算逻辑。

2、现有技术中，在确定元数据的数据血缘关系时，通常是基于规则和静态的元数据信息，通过人工手动配置规则或者通过经验对元数据进行分析对数据的流动和变化进行跟踪，从而实现对元数据的数据血缘关系的获取。在研究中发现，在通过上述方式进行数据血缘关系的确定时，需要由相关人员事先定义规则并进行元数据分析，而依赖于人工定义规则和元数据分析，很可能会受限于经验不足、人为因素干扰以及主观判断的影响，使得得到的数据血缘关系是不准确的。除此之外，由于元数据的种类较多，数量较庞，若仅依靠人为定义规则和数据分析，会造成配置、维护、分析等较大的工作量，导致在确

技术实现思路

1、有鉴于此，本专利技术的目的在于提供一种数据血缘关系预测方法、系统、设备及可读存储介质，以减少在确定元数据的数据血缘关系时所需耗费的人力成本，同时提高确定得到的数据血缘关系的准确性。

2、第一方面，本申请实施例提供了一种数据血缘关系预测方法，应用于数据血缘关系预测系统，所述系统包括训练集构建模块、第一模型训练模块、分析模型确定模块、第二模型训练模块和血缘关系预测模块，所述方法包括：

3、所述训练集构建模块根据每个用于指示历史数据的元数据的第一数值和每个用于指示所述历史数据的元数据的数据血缘关系的第二数值构建训练样本集；

4、所述第一模型训练模块从模型数据库中随机选择多个初始模型，并利用所述训练样本集分别对每个所述初始模型进行目标次数的迭代训练得到多个候选模型，其中，所述初始模型的输入为所述第一数值，所述初始模型的输出为所述第二数值；

5、所述分析模型确定模块利用测试样本集确定出每个所述候选模型的候选准确率，并将具有最高候选准确率的候选模型确定为目标模型；

6、所述第二模型训练模块利用所述训练样本集对所述目标模型进行模型训练，直至得到目标准确率满足标准准确率的优化模型；

7、所述血缘关系预测模块利用所述优化模型对待分析数据的元数据的数据血缘关系进行预测，得到所述待分析数据的元数据的预测数据血缘关系。

8、可选地，所述训练集构建模块根据每个用于指示历史数据的元数据的第一数值和每个用于指示所述历史数据的元数据的数据血缘关系的第二数值构建训练样本集，包括：

9、对于每个所述第二数值，所述训练集构建模块判断该第二数值与预设标准数值是否相同；

10、若该第二数值与所述预设标准数值相同，所述训练集构建模块则将该第二数值和指示该第二数值对应的数据血缘关系所归属于的元数据的第一数值确定为正常样本；

11、若该第二数值与所述预设标准数值不相同，所述训练集构建模块则将该第二数值和指示该第二数值对应的数据血缘关系所归属于的元数据的第一数值确定为异常样本；

12、所述训练集构建模块将所述正常样本和所述异常样本随机组合得到所述训练样本集。

13、可选地，多个所述初始模型包括决策树模型、随机森林模型、支持向量机模型和逻辑回归模型。

14、可选地，所述分析模型确定模块利用测试样本集确定出每个所述候选模型的候选准确率，包括：

15、所述分析模型确定模块利用所述训练样本集中未参与所述初始模型的训练的剩余第一数值和剩余第二数值构建所述测试样本集；

16、对于每个所述候选模型，所述分析模型确定模块将每个所述剩余第一数值输入至该候选模型中得到实际数值；

17、所述分析模型确定模块统计与所述剩余第二数值相同的实际数值的数量，并将与所述剩余第二数值相同的实际数值的数量与所述剩余第二数值的数量相除得到该候选模型的候选准确率。

18、可选地，所述系统还包括训练样本生成模块，在所述训练集构建模块根据每个用于指示历史数据的元数据的第一数值和每个用于指示所述历史数据的元数据的数据血缘关系的第二数值构建训练样本集前，所述方法还包括：

19、所述训练样本生成模块根据预设的赋值表对每个所述历史数据的元数据进行数值化处理得到第三数值，并对每个所述历史数据的元数据的数据血缘关系进行数值化处理得到第四数值；

20、所述训练样本生成模块分别对所述第三数值和所述第四数值进行归一化处理得到所述第一数值和所述第二数值。

21、可选地，所述血缘关系预测模块利用所述优化模型对待分析数据的元数据的数据血缘关系进行预测，得到所述待分析数据的元数据的预测数据血缘关系，包括：

22、所述血缘关系预测模块根据所述赋值表对所述待分析数据的元数据进行数值化处理和归一化处理得到第五数值；

23、所述血缘关系预测模块将所述第五数值输入至所述优化模型得到指示所述待分析数据的元数据的数据血缘关系的第六数值；

24、所述血缘关系预测模块对所述第六数值进行反归一化处理，并根据所述赋值表确定出反归一化处理后的第六数值所指示的所述预测数据血缘关系。

25、可选地，所述系统还包括模型监测模块，在所述血缘关系预测模块利用所述优化模型对待分析数据的元数据的数据血缘关系进行预测，得到所述待分析数据的元数据的预测数据血缘关系后，所述方法还包括：

26、所述模型监测模块用于判断所述预测数据血缘关系与所述待分析数据的元数据的标准数据血缘关系是否相同；

27、若所述预测数据血缘关系与所述标准数据血缘关系不相同，所述模型监测模块则进行异常预警，其中，所述异常预警的方式包括发送警报和记录日志。

28、第二方面，本申请实施例提供了一种数据血缘关系预测系统，所述系统包括训练集构建模块、第一模型训练模块、分析模型确定模块、第二模型训练模块和血缘关系预测模块；

29、所述训练集构建模块，用于根据每个用于指示历史数据的元数据的第一数值和每个用于指示所述历史数据的元数据的数据血缘关系的第二数值构建训练样本集；

30、所述第一模型训练模块，用于从模型数据库中随机选择多个初始模型，并利用所述训练样本集分别对每个所述初始模型进行目本文档来自技高网...

【技术保护点】

1.一种数据血缘关系预测方法，其特征在于，应用于数据血缘关系预测系统，所述系统包括训练集构建模块、第一模型训练模块、分析模型确定模块、第二模型训练模块和血缘关系预测模块，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练集构建模块根据每个用于指示历史数据的元数据的第一数值和每个用于指示所述历史数据的元数据的数据血缘关系的第二数值构建训练样本集，包括：

3.根据权利要求1所述的方法，其特征在于，多个所述初始模型包括决策树模型、随机森林模型、支持向量机模型和逻辑回归模型。

4.根据权利要求1所述的方法，其特征在于，所述分析模型确定模块利用测试样本集确定出每个所述候选模型的候选准确率，包括：

5.根据权利要求1所述的方法，其特征在于，所述系统还包括训练样本生成模块，在所述训练集构建模块根据每个用于指示历史数据的元数据的第一数值和每个用于指示所述历史数据的元数据的数据血缘关系的第二数值构建训练样本集前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述血缘关系预测模块利用所述优化模型对待分析数据的元

7.根据权利要求1所述的方法，其特征在于，所述系统还包括模型监测模块，在所述血缘关系预测模块利用所述优化模型对待分析数据的元数据的数据血缘关系进行预测，得到所述待分析数据的元数据的预测数据血缘关系后，所述方法还包括：

8.一种数据血缘关系预测系统，其特征在于，所述系统包括训练集构建模块、第一模型训练模块、分析模型确定模块、第二模型训练模块和血缘关系预测模块：

9.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7中任意一项所述的数据血缘关系预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7中任意一项所述的数据血缘关系预测的步骤。

...

【技术特征摘要】

3.根据权利要求1所述的方法，其特征在于，多个所述初始模型包括决策树模型、随机森林模型、支持向量机模型和逻辑回归模型。

4.根据权利要求1所述的方法，其特征在于，所述分析模型确定模块利用测试样本集确定出每个所述候选模型的候选准确率，包括：

6.根据权利要求5所述的方法，其特征在于，所述血缘关系预测模块...

【专利技术属性】
技术研发人员：姚晨，肖勃飞，贾栩杰，沈阳超，袁野，
申请(专利权)人：中电金信软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人