System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据,尤其涉及一种元数据处理方法、装置、服务器及存储介质。
技术介绍
1、随着数字化和信息化建设的发展,企业每天都在产生海量的数据。然而,巨大的数据量和非结构化的数据类型使数据管理复杂性进一步复杂化,增加了元数据识别和分类的难度。
2、目前,现有技术中,主要通过将元数据导出到适当格式的文件,然后使用相应的数据处理工具或脚本对导出的数据进行处理,实现元数据的分类分级。
3、然而,元数据普遍具有命名不规则和不统一的问题,使得这种方法需要投入大量的人力,浪费人力资源,从而增加时间成本,降低元数据分类分级的效率。
技术实现思路
1、本申请提供一种元数据处理方法、装置、服务器及存储介质,用以解决元数据分类分级效率低的技术问题。
2、第一方面,本申请提供一种元数据处理方法,包括:
3、接收数据终端发送的多个元数据,其中所述多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息,每个字段名称对应一个字段描述信息。
4、获取每个字段描述信息对应的字段关键词,以得到多个字段关键词。
5、获取每个表名对应的表关键词,以得到多个表关键词。
6、根据所述多个表关键词和所述多个字段关键词,设置多个类别规则。
7、根据所述多个类别规则,获取所述每个字段描述信息的类别标签。
8、根据所述每个字段描述信息、所述每个字段描述信息对应的所述字段名称和所述每个字段描述信息的类别标签,获取三
9、根据所述多个三元组格式的元数据,得到元数据分类模型,其中所述元数据分类模型用于对待分类元数据进行分类。
10、可选地,如上所述的方法,所述获取每个字段描述信息对应的字段关键词,包括:采用分词方法和关键词提取方法,获取所述每个字段描述信息对应的字段关键词。
11、可选地,如上所述的方法,所述每个表名关联一个中文表名和一个英文表名;相应地,所述获取每个表名对应的表关键词,包括:将中文表名和英文表名进行拼接,得到所述表名;采用分词方法和关键词提取方法,获取所述每个表名对应的表关键词。
12、可选地,如上所述的方法,所述根据所述多个表关键词和所述多个字段关键词,设置多个类别规则,包括:根据每个表关键词,得到每个表名中的多个字段关键词;设置每个字段关键词对应的类别规则,以得到所述多个类别规则。
13、可选地,如上所述的方法,所述根据所述多个三元组格式的元数据,得到元数据分类模型,包括:将所述多个三元组格式的元数据,确定为样本数据;其中所述样本数据包括训练集、验证集和测试集;构建深度学习网络模型,将所述训练集输入至所述深度学习网络模型进行训练,得到初始的元数据分类模型;根据所述验证集,对所述初始的元数据分类模型进行调参,得到训练好的元数据分类模型;根据所述测试集,对所述训练好的元数据分类模型进行测试,确定所述元数据分类模型。
14、可选地,如上所述的方法,还包括:获取任一字段名称和所述任一字段名称对应的字段描述信息;根据所述任一字段名称和所述任一字段名称对应的字段描述信息,获取二元组格式的元数据,并将所述二元组格式的元数据确定为所述待分类元数据;将所述待分类元数据输入至所述元数据分类模型,以输出所述待分类元数据的元数据类别。
15、可选地,如上所述的方法,所述将所述待分类元数据输入至所述元数据分类模型,以输出所述待分类元数据的元数据类别之后,还包括:将所述元数据类别发送至用户终端,以使所述用户终端对所述元数据类别进行审核,得到审核结果;接收所述用户终端发送的所述审核结果,若判定所述审核结果为审核通过,则根据类别和级别映射表,得到所述元数据类别对应的元数据级别。
16、可选地,如上所述的方法,所述将所述元数据类别发送至用户终端,以使所述用户终端对所述元数据类别进行审核,得到审核结果之后,还包括:接收所述用户终端发送的所述审核结果,若判定所述审核结果为审核不通过,则将所述待分类元数据发送至所述用户终端,以使所述用户终端根据所述待分类元数据,得到所述元数据类别;接收所述用户终端发送的所述元数据类别;根据所述元数据类别和所述二元组格式的元数据,得到所述三元组格式的元数据;将所述三元组格式的元数据,确定为新增样本数据;当所述新增样本数据满足预设条件时,根据所述新增样本数据,对所述元数据分类模型进行优化,得到优化后的元数据分类模型;其中所述优化后的元数据分类模型用于对所述待分类元数据进行分类。
17、第二方面,本申请提供一种元数据处理装置,包括:
18、接收模块,用于接收数据终端发送的多个元数据,其中所述多个元数据包括多个表名,每个表名包括多个字段名称和多个字段描述信息,每个字段名称对应一个字段描述信息。
19、第一获取模块,用于获取每个字段描述信息对应的字段关键词,以得到多个字段关键词。
20、第二获取模块,用于获取每个表名对应的表关键词,以得到多个表关键词。
21、设置模块,用于根据所述多个表关键词和所述多个字段关键词,设置多个类别规则。
22、第三获取模块,用于根据所述多个类别规则,获取所述每个字段描述信息的类别标签。
23、第四获取模块,用于根据所述每个字段描述信息、所述每个字段描述信息对应的所述字段名称和所述每个字段描述信息的类别标签,获取三元组格式的元数据,以得到多个三元组格式的元数据。
24、第五获取模块,用于根据所述多个三元组格式的元数据,得到元数据分类模型,其中所述元数据分类模型用于对待分类元数据进行分类。
25、第三方面,本申请提供一种服务器,包括:
26、至少一个处理器和存储器;
27、所述存储器存储计算机执行指令;
28、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的元数据处理方法。
29、第四方面,本申请提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的元数据处理方法。
30、本申请提供的元数据处理方法、装置、服务器及存储介质,通过获取每个元数据中的表名对应的表关键词和字段描述信息对应的关键词,设置多个类别规则,根据类别规则获取每个字段描述信息的标签类别;以及根据每个字段名称、每个字段描述信息和每个字段描述信息的类别标签,获得多个三元组格式的元数据,构建并训练元数据分类模型。避免了因元数据命名不规则和不统一,导致投入大量的人力,浪费人力资源,增加时间成本问题,提高了元数据分类的效率,从而也提高了元数据分级的效率。
本文档来自技高网...【技术保护点】
1.一种元数据处理方法,其特征在于,应用于服务器,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取每个字段描述信息对应的字段关键词,包括:
3.根据权利要求1所述的方法,其特征在于,所述每个表名关联一个中文表名和一个英文表名;
4.根据权利要求1所述的方法,其特征在于,所述根据所述多个表关键词和所述多个字段关键词,设置多个类别规则,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述多个三元组格式的元数据,得到元数据分类模型,包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求6所述的方法,其特征在于,所述将所述待分类元数据输入至所述元数据分类模型,以输出所述待分类元数据的元数据类别之后,还包括:
8.根据权利要求7所述的方法,其特征在于,所述将所述元数据类别发送至用户终端,以使所述用户终端对所述元数据类别进行审核,得到审核结果之后,还包括:
9.一种元数据处理装置,其特征在于,应用于服务器,包括:
10.一种服务器,其
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-8任一项所述的元数据处理方法。
...【技术特征摘要】
1.一种元数据处理方法,其特征在于,应用于服务器,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取每个字段描述信息对应的字段关键词,包括:
3.根据权利要求1所述的方法,其特征在于,所述每个表名关联一个中文表名和一个英文表名;
4.根据权利要求1所述的方法,其特征在于,所述根据所述多个表关键词和所述多个字段关键词,设置多个类别规则,包括:
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述多个三元组格式的元数据,得到元数据分类模型,包括:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.根据权利要求6所述的方...
【专利技术属性】
技术研发人员:李晓娟,贾玉武,周莉,秦宏伟,桑海岩,李大中,宋雨伦,倪明鉴,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。