元数据管理方法及装置制造方法及图纸

技术编号:36295416 阅读:17 留言:0更新日期:2023-01-13 10:09
本申请公开了一种元数据管理方法及装置。其中,该方法包括:获取目标数据系统中在目标时刻之前的所有存量的第一元数据,并基于第一元数据生成元数据库;利用预训练的数据分类模型对元数据库中的所有第一元数据进行分类,将各个第一元数据划分为第一热元数据或第一冷元数据;确定多个第一热元数据中满足预设数据标准的第一子热元数据和不满足预设数据标准的第二子热元数据,并对第二子热元数据进行数据修正;将第一子热元数据和数据修正后的第二子热元数据同步至区块链中。本申请解决了相关技术中对于元数据的管理较为混乱,导致元数据质量不高且难以应用的技术问题。质量不高且难以应用的技术问题。质量不高且难以应用的技术问题。

【技术实现步骤摘要】
元数据管理方法及装置


[0001]本申请涉及人工智能
,具体而言,涉及一种元数据管理方法及装置。

技术介绍

[0002]随着大数据时代的迅速发展,历经多年信息化建设的企业积累了大量IT系统和海量元数据。但由于大规模数据的汇聚导致数据被不合理的分配与享用、隐私数据泄露与数据滥用、数据质量低下,因而关于数据决策不可信等问题亟待解决。
[0003]通常,企业级元数据管理架构通常采用集中式管理架构和分布式管理架构。集中式管理架构便于元数据标准化统一管理和应用,但为了保证数据的一致性,集中式管理架构需要处理大量数据,且对存储要求和平台要求高;分布式管理架构的优势在于元数据总能保持最新且有效,查询简单,但分布式管理架构难以保证数据的一致性,且不同数据源的数据标准难以统一。
[0004]因此,上述两种管理架构均无法保证元数据的准确性、完整性、一致性,从而导致元数据质量差且难以通过元数据对企业数据进行有效治理。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本申请实施例提供了一种元数据管理方法及装置,以至少解决相关技术中对于元数据的管理较为混乱,导致元数据质量不高且难以应用的技术问题。
[0007]根据本申请实施例的一个方面,提供了一种元数据管理方法,包括:获取目标数据系统中在目标时刻之前的所有存量的第一元数据,并基于第一元数据生成元数据库;利用预训练的数据分类模型对元数据库中的所有第一元数据进行分类,将各个第一元数据划分为第一热元数据或第一冷元数据;确定多个第一热元数据中满足预设数据标准的第一子热元数据和不满足预设数据标准的第二子热元数据,并对第二子热元数据进行数据修正;将第一子热元数据和数据修正后的第二子热元数据同步至区块链中。
[0008]可选地,获取目标数据系统中在目标时刻之后的增量的第二元数据;对第二元数据进行数据校验,其中,数据校验至少包括:数据准确性校验、数据完整性校验和数据一致性校验;在第二元数据通过数据校验时,将第二元数据添加至元数据库中,并将第二元数据同步至区块链中。
[0009]可选地,每经过预设的时间周期后,重新利用数据分类模型对元数据库中的所有第一冷元数据进行分类,将各个第一冷元数据划分为第二热元数据或第二冷元数据;确定多个第二热元数据中满足预设数据标准的第三子热元数据和不满足预设数据标准的第四子热元数据,并对第四子热元数据进行数据修正;将第三子热元数据和数据修正后的第四子热元数据同步至区块链中。
[0010]可选地,获取目标数据系统中在目标时刻之前的所有存量的第一元数据,并基于第一元数据生成元数据库,包括:确定目标采集任务,其中,目标采集任务中至少包括:建表
语句、路径信息、所需权限和采集频度;基于目标采集任务对目标数据系统中的多个关系型数据库及非关系型数据库进行数据采集,得到目标时刻之前的所有存量的技术元数据;对技术元数据进行数据清洗和转换,得到第一元数据,其中,第一元数据中至少包括:数据源系统信息、数据库信息、数据表信息、表字段信息、索引信息和约束信息。
[0011]可选地,数据分类模型的训练过程包括:构建待训练的基于门控循环单元的神经网络模型,其中,神经网络模型包括输入层、输出层、重置门和更新门;通过解析元数据操作日志确定元数据库中各个第一元数据在目标时间段内的操作次数及最晚操作时间,并分别依据操作次数和最晚操作时间对多个第一元数据进行排序;对于每个第一元数据,确定与第一元数据对应的训练词向量和超参数,其中,训练词向量中至少包括:第一元数据的元数据名、第一元数据在目标时间段内的操作次数和第一元数据在目标时间段内的最晚操作时间,超参数为第一元数据的操作次数排名和第一元数据的最晚操作时间排名的加权平均值;将各个训练词向量和超参数依次输入神经网络模型进行迭代训练,并基于后向传播算法调整神经网络模型的模型参数,得到数据分类模型。
[0012]可选地,对第二子热元数据进行数据修正,包括:对于每个第二子热元数据,确定第二子热元数据对应的数据源系统中的多个表元数据,并确定每个表元数据中的多个字段元数据;通过独热编码技术将多个字段元数据进行向量化,基于连续词袋模型算法确定每个表元数据的中心词,并基于概率潜在语义分析算法确定多个表元数据的中心主题;从目标数据系统中确定与中心主题相匹配的目标子数据系统,并基于目标子数据系统中的数据确定第二子热元数据的修正值;基于修正值对第二子热元数据进行数据修正。
[0013]可选地,将第一子热元数据和数据修正后的第二子热元数据同步至区块链中,包括:将第一子热元数据和数据修正后的第二子热元数据上传至目标区块链平台,其中,目标区块链平台用于对第一子热元数据和数据修正后的第二子热元数据进行验重和确权,并基于智能合约的方式对第一子热元数据和数据修正后的第二子热元数据进行可信交易。
[0014]可选地,对第二元数据进行数据校验,包括:将第二元数据输入预训练的数据校验模型,得到数据校验模型输出的目标置信度,其中,数据校验模型用于对输入的数据进行准确性校验、完整性校验和一致性校验,并输出数据通过校验的置信度;在目标置信度大于预设的置信度阈值时,确定第二元数据通过数据校验;在目标置信度不大于预设的置信度阈值时,将第二元数据发送至人工校验模块进行人工数据校验。
[0015]根据本申请实施例的另一方面,还提供了一种元数据管理装置,包括:获取模块,用于获取目标数据系统中在目标时刻之前的所有存量的第一元数据,并基于第一元数据生成元数据库;分类模块,用于利用预训练的数据分类模型对元数据库中的所有第一元数据进行分类,将各个第一元数据划分为第一热元数据或第一冷元数据;修正模块,用于确定多个第一热元数据中满足预设数据标准的第一子热元数据和不满足预设数据标准的第二子热元数据,并对第二子热元数据进行数据修正;同步模块,用于将第一子热元数据和数据修正后的第二子热元数据同步至区块链中。
[0016]根据本申请实施例的另一方面,还提供了一种电子设备,该电子设备包括:存储器和处理器,其中,存储器中存储有计算机程序,处理器被配置为通过计算机程序执行上述的元数据管理方法。
[0017]在本申请实施例中,通过获取目标数据系统中在目标时刻之前的所有存量的第一
元数据,并基于第一元数据生成元数据库;利用预训练的数据分类模型对元数据库中的所有第一元数据进行分类,将各个第一元数据划分为第一热元数据或第一冷元数据;确定多个第一热元数据中满足预设数据标准的第一子热元数据和不满足预设数据标准的第二子热元数据,并对第二子热元数据进行数据修正;将第一子热元数据和数据修正后的第二子热元数据同步至区块链中。其中,通过预训练的数据分类模型将第一元数据进行分类后,对分类后的第二子热元数据进行精准修正,并将修正后的第二子热元数与第一子热元数据同步至区块链中,以实现企业内对元数据的共享交易,从而保证元数据的质量和数据一致性,同时也能保证元数据最新且状态有效,查询方式也简单,进而解决了相关技术中对于元数据的管理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种元数据管理方法,其特征在于,包括:获取目标数据系统中在目标时刻之前的所有存量的第一元数据,并基于所述第一元数据生成元数据库;利用预训练的数据分类模型对所述元数据库中的所有所述第一元数据进行分类,将各个所述第一元数据划分为第一热元数据或第一冷元数据;确定多个所述第一热元数据中满足预设数据标准的第一子热元数据和不满足所述预设数据标准的第二子热元数据,并对所述第二子热元数据进行数据修正;将所述第一子热元数据和数据修正后的所述第二子热元数据同步至区块链中。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述目标数据系统中在所述目标时刻之后的增量的第二元数据;对所述第二元数据进行数据校验,其中,所述数据校验至少包括:数据准确性校验、数据完整性校验和数据一致性校验;在所述第二元数据通过所述数据校验时,将所述第二元数据添加至所述元数据库中,并将所述第二元数据同步至所述区块链中。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:每经过预设的时间周期后,重新利用所述数据分类模型对所述元数据库中的所有所述第一冷元数据进行分类,将各个所述第一冷元数据划分为第二热元数据或第二冷元数据;确定多个所述第二热元数据中满足所述预设数据标准的第三子热元数据和不满足所述预设数据标准的第四子热元数据,并对所述第四子热元数据进行数据修正;将所述第三子热元数据和数据修正后的所述第四子热元数据同步至区块链中。4.根据权利要求1所述的方法,其特征在于,获取目标数据系统中在目标时刻之前的所有存量的第一元数据,并基于所述第一元数据生成元数据库,包括:确定目标采集任务,其中,所述目标采集任务中至少包括:建表语句、路径信息、所需权限和采集频度;基于所述目标采集任务对所述目标数据系统中的多个关系型数据库及非关系型数据库进行数据采集,得到所述目标时刻之前的所有存量的技术元数据;对所述技术元数据进行数据清洗和转换,得到所述第一元数据,其中,所述第一元数据中至少包括:数据源系统信息、数据库信息、数据表信息、表字段信息、索引信息和约束信息。5.根据权利要求1所述的方法,其特征在于,所述数据分类模型的训练过程包括:构建待训练的基于门控循环单元的神经网络模型,其中,所述神经网络模型包括输入层、输出层、重置门和更新门;通过解析元数据操作日志确定所述元数据库中各个所述第一元数据在目标时间段内的操作次数及最晚操作时间,并分别依据所述操作次数和所述最晚操作时间对多个所述第一元数据进行排序;对于每个所述第一元数据,确定与所述第一元数据对应的训练词向量和超参数,其中,所述训练词向量中至少包括:所述第一元数据的元数据名、所述第一元数据在所述目标时间段内的操作次数和所述第一元数据在所述目标时间段内的最晚操作时间,...

【专利技术属性】
技术研发人员:马静杨卓群姜凯文
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1