一种元数据信息的生成方法、相关装置、设备及存储介质制造方法及图纸

技术编号:35241745 阅读:13 留言:0更新日期:2022-10-19 09:47
本申请公开了一种元数据信息的生成方法,包括:获取目标元数据表的已有元数据,已有元数据为在目标元数据表中已经存在的元数据,且已有元数据包括K个元数据;根据已有元数据获取K个元数据信息;对K个元数据信息进行特征处理,得到K个元数据特征;基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。本申请还提供了相关装置、设备及存储介质。本申请一方面节省人工成本,提升工作效率。另一方面能够避免主观因素的影响,由此提升信息准确性。由此提升信息准确性。由此提升信息准确性。

【技术实现步骤摘要】
一种元数据信息的生成方法、相关装置、设备及存储介质


[0001]本申请涉及计算机领域,尤其涉及一种元数据信息的生成方法、相关装置、设备及存储介质。

技术介绍

[0002]随着业务的发展,元数据(metadata)在数据侧的重要程度也与日俱增。元数据是描述其它数据的数据,或者说是用于提供某种资源的有关信息的结构数据。元数据是描述信息资源或数据等对象的数据,其使用目的在于识别资源,评价资源,追踪资源在使用过程中的变化,实现简单高效地管理大量网络化数据,实现对使用资源的有效管理等。
[0003]但是元数据信息的缺失是在所难免的,例如,一张数据表中缺少表描述信息,或者缺少字段信息等,因此,目前通常需要由技术人员通过数据平台对这些缺失的元数据信息进行补充,以此得到元数据信息更加完善的数据表。
[0004]然而,对于补充缺失的元数据信息而言,往往需要花费技术人员大量的时间和精力,不但人工成本较高,而且工作效率较低,还可能影响到相关业务的正常运行。与此同时,还可能因为主观因素,导致人为补充的元数据信息并不准确。

技术实现思路

[0005]本申请实施例提供了一种元数据信息的生成方法、相关装置、设备及存储介质,一方面无需花费技术人员大量的时间和精力来手动补充缺失的元数据信息,从而节省人工成本,提升工作效率。另一方面通过模型进行缺失元数据信息的预测,能够避免主观因素的影响,由此提升信息准确性。
[0006]有鉴于此,本申请一方面提供一种元数据信息的生成方法,包括:
[0007]获取目标元数据表的已有元数据,其中,已有元数据为在目标元数据表中已经存在的元数据,且已有元数据包括K个元数据,K为大于或等于1的整数;
[0008]根据已有元数据获取K个元数据信息,其中,元数据信息与元数据具有一一对应的关系;
[0009]对K个元数据信息进行特征处理,得到K个元数据特征,其中,元数据特征与元数据信息具有一一对应的关系;
[0010]基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。
[0011]本申请另一方面提供一种元数据信息生成装置,包括:
[0012]获取模块,用于获取目标元数据表的已有元数据,其中,已有元数据为在目标元数据表中已经存在的元数据,且已有元数据包括K个元数据,K为大于或等于1的整数;
[0013]获取模块,还用于根据已有元数据获取K个元数据信息,其中,元数据信息与元数据具有一一对应的关系;
[0014]处理模块,用于对K个元数据信息进行特征处理,得到K个元数据特征,其中,元数据特征与元数据信息具有一一对应的关系;
[0015]获取模块,还用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的目标元数据信息,其中,目标元数据信息为缺失元数据所对应的元数据信息,缺失元数据为在目标元数据表中不存在的元数据。
[0016]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,K个元数据信息包括表名文本信息,其中,表名文本信息属于预设语种;
[0017]处理模块,具体用于对表名文本信息进行分词处理,得到表名文本序列,其中,表名文本序列包括M个词语,M为大于或等于1的整数;
[0018]对表名文本序列中的每个词语进行预处理,得到M个词向量嵌入,其中,词向量嵌入与词语具有一一对应的关系,M个词向量嵌入属于表名文本信息的元数据特征;
[0019]获取模块,具体用于基于M个词向量嵌入,通过元数据预测模型所包括的编码器,获取表名文本序列所对应的语义信息向量;
[0020]基于语义信息向量,通过元数据预测模型所包括的解码器获取表描述信息,其中,表描述信息属于目标元数据信息。
[0021]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
[0022]获取模块,具体用于若已有元数据包括数据表名,则从目标元数据表中获取数据表名所对应的表名文本信息;
[0023]或者,
[0024]获取模块,具体用于若已有元数据未包括数据表名,则根据已有元数据所包括的数据血缘获取关联元数据表,其中,关联元数据表为上游元数据表或下游元数据表;
[0025]从关联元数据表中获取数据表名所对应的表名文本信息。
[0026]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,已有元数据包括下游依赖任务数、上游依赖任务数、访问频率、在线业务服务情况、在线业务数量、字段数量、数据行数以及存储大小中的至少一项;
[0027]处理模块,具体用于若已有元数据包括下游依赖任务数,则对下游依赖任务数的元数据信息进行数据分箱处理,得到下游依赖任务数的元数据特征,其中,下游依赖任务数的元数据特征属于K个元数据特征;
[0028]若已有元数据包括上游依赖任务数,则对上游依赖任务数的元数据信息进行数据分箱处理,得到上游依赖任务数的元数据特征,其中,上游依赖任务数的元数据特征属于K个元数据特征;
[0029]若已有元数据包括访问频率,则对访问频率进行数据分箱处理,得到访问频率的元数据特征,其中,访问频率的元数据特征属于K个元数据特征;
[0030]若已有元数据包括在线业务服务情况,则对在线业务服务情况进行独热编码处理,得到在线业务服务情况的元数据特征,其中,在线业务服务情况的元数据特征属于K个元数据特征;
[0031]若已有元数据包括在线业务数量,对在线业务数量进行特征缩放处理,得到在线业务数量的元数据特征,其中,在线业务数量的元数据特征属于K个元数据特征;
[0032]若已有元数据包括字段数量,对字段数量进行特征缩放处理,得到字段数量的元
数据特征,其中,字段数量的元数据特征属于K个元数据特征;
[0033]若已有元数据包括数据行数,对数据行数进行特征缩放处理,得到数据行数的元数据特征,其中,数据行数的元数据特征属于K个元数据特征;
[0034]若已有元数据包括存储大小,对存储大小进行特征缩放处理,得到存储大小的元数据特征,其中,存储大小的元数据特征属于K个元数据特征。
[0035]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,已有元数据还包括业务重要等级以及业务敏感情况中的至少一项;
[0036]处理模块,具体用于若已有元数据包括业务重要等级,则对业务重要等级所对应的元数据信息进行独热编码处理,得到业务重要等级的元数据特征,其中,业务重要等级的元数据特征属于K个元数据特征;
[0037]若已有元数据包括业务敏感情况,则对业务敏感情况所对应的元数据信息进行独热编码处理,得到业务敏感情况的元数据特征,其中,业务敏感情况的元数据特征属于K个元数据特征;
[0038]获取模块,具体用于基于K个元数据特征,通过元数据预测模型获取针对于目标元数据表的所属业务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种元数据信息的生成方法,其特征在于,包括:获取目标元数据表的已有元数据,其中,所述已有元数据为在所述目标元数据表中已经存在的元数据,且所述已有元数据包括K个元数据,所述K为大于或等于1的整数;根据所述已有元数据获取K个元数据信息,其中,所述元数据信息与所述元数据具有一一对应的关系;对所述K个元数据信息进行特征处理,得到K个元数据特征,其中,所述元数据特征与所述元数据信息具有一一对应的关系;基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息,其中,所述目标元数据信息为缺失元数据所对应的元数据信息,所述缺失元数据为在所述目标元数据表中不存在的元数据。2.根据权利要求1所述的生成方法,其特征在于,所述K个元数据信息包括表名文本信息,其中,所述表名文本信息属于预设语种;所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:对所述表名文本信息进行分词处理,得到表名文本序列,其中,所述表名文本序列包括M个词语,所述M为大于或等于1的整数;对所述表名文本序列中的每个词语进行预处理,得到M个词向量嵌入,其中,所述词向量嵌入与所述词语具有一一对应的关系,所述M个词向量嵌入属于所述表名文本信息的元数据特征;所述基于所述K个元数据特征,通过元数据预测模型获取目标元数据信息,包括:基于所述M个词向量嵌入,通过所述元数据预测模型所包括的编码器,获取所述表名文本序列所对应的语义信息向量;基于所述语义信息向量,通过所述元数据预测模型所包括的解码器获取表描述信息,其中,所述表描述信息属于所述目标元数据信息。3.根据权利要求2所述的生成方法,其特征在于,所述根据所述已有元数据获取K个元数据信息,包括:若所述已有元数据包括数据表名,则从所述目标元数据表中获取所述数据表名所对应的所述表名文本信息;或者,所述根据所述已有元数据获取K个元数据信息,包括:若所述已有元数据未包括所述数据表名,则根据所述已有元数据所包括的数据血缘获取关联元数据表,其中,所述关联元数据表为上游元数据表或下游元数据表;从所述关联元数据表中获取所述数据表名所对应的所述表名文本信息。4.根据权利要求1所述的生成方法,其特征在于,所述已有元数据包括下游依赖任务数、上游依赖任务数、访问频率、在线业务服务情况、在线业务数量、字段数量、数据行数以及存储大小中的至少一项;所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:若所述已有元数据包括所述下游依赖任务数,则对所述下游依赖任务数的元数据信息进行数据分箱处理,得到所述下游依赖任务数的元数据特征,其中,所述下游依赖任务数的元数据特征属于所述K个元数据特征;
若所述已有元数据包括所述上游依赖任务数,则对所述上游依赖任务数的元数据信息进行数据分箱处理,得到所述上游依赖任务数的元数据特征,其中,所述上游依赖任务数的元数据特征属于所述K个元数据特征;若所述已有元数据包括所述访问频率,则对所述访问频率进行数据分箱处理,得到所述访问频率的元数据特征,其中,所述访问频率的元数据特征属于所述K个元数据特征;若所述已有元数据包括所述在线业务服务情况,则对所述在线业务服务情况进行独热编码处理,得到所述在线业务服务情况的元数据特征,其中,所述在线业务服务情况的元数据特征属于所述K个元数据特征;若所述已有元数据包括所述在线业务数量,对所述在线业务数量进行特征缩放处理,得到所述在线业务数量的元数据特征,其中,所述在线业务数量的元数据特征属于所述K个元数据特征;若所述已有元数据包括所述字段数量,对所述字段数量进行特征缩放处理,得到所述字段数量的元数据特征,其中,所述字段数量的元数据特征属于所述K个元数据特征;若所述已有元数据包括所述数据行数,对所述数据行数进行特征缩放处理,得到所述数据行数的元数据特征,其中,所述数据行数的元数据特征属于所述K个元数据特征;若所述已有元数据包括所述存储大小,对所述存储大小进行特征缩放处理,得到所述存储大小的元数据特征,其中,所述存储大小的元数据特征属于所述K个元数据特征。5.根据权利要求4所述的生成方法,其特征在于,所述已有元数据还包括业务重要等级以及业务敏感情况中的至少一项;所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:若所述已有元数据包括所述业务重要等级,则对所述业务重要等级所对应的元数据信息进行独热编码处理,得到所述业务重要等级的元数据特征,其中,所述业务重要等级的元数据特征属于所述K个元数据特征;若所述已有元数据包括所述业务敏感情况,则对所述业务敏感情况所对应的元数据信息进行独热编码处理,得到所述业务敏感情况的元数据特征,其中,所述业务敏感情况的元数据特征属于所述K个元数据特征;所述基于所述K个元数据特征,通过元数据预测模型获取针对于所述目标元数据表的目标元数据信息,包括:基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息。6.根据权利要求5所述的生成方法,其特征在于,所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息,包括:基于所述K个元数据特征,通过决策树模型获取针对于所述目标元数据表的所属业务类型信息,其中,所述决策树模型属于所述元数据预测模型,所述决策树模型为根据节点之间的关系构成的网络,每个节点对应于不同的元数据特征;或者,所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息,包括:基于所述K个元数据特征,通过随机森林模型获取针对于所述目标元数据表的所属业
务类型信息,其中,所述随机森林模型属于所述元数据预测模型,所述随机森林模型包括至少两个决策树,每个决策树用于预测一个分类结果;或者,所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息,包括:基于所述K个元数据特征,通过可扩展提升树模型获取针对于所述目标元数据表的所属业务类型;或者,所述基于所述K个元数据特征,通过所述元数据预测模型获取针对于所述目标元数据表的所属业务类型信息,包括:基于所述K个元数据特征,通过所述元数据预测模型所包括的输入层,得到第一特征向量;基于所述第一特征向量,通过所述元数据预测模型所包括的至少一个隐藏层,得到第二特征向量;基于所述第二特征向量,通过所述元数据预测模型所包括的输出层,得到概率分布;根据所述概率分布确定所述目标元数据表的所属业务类型信息。7.根据权利要求4所述的生成方法,其特征在于,所述已有元数据还包括所属业务类型以及业务敏感情况中的至少一项;所述对所述K个元数据信息进行特征处理,得到K个元数据特征,包括:若所述已有元数据包括所述所属业务类型,则对所述所属业务类型所对应的元数...

【专利技术属性】
技术研发人员:林岳陈守志刘妍赵文
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1