【技术实现步骤摘要】
基于数据类别的大数据治理中数据标准制定方法及系统
[0001]本专利技术涉及数据分析
,具体是涉及基于数据类别的大数据治理中数据标准制定方法及系统。
技术介绍
[0002]随着全球信息化和数字化的发展,各行各业都在进行或即将进行数据治理,根据国际及国内对数据治理的主流理解,数据标准化是数据治理中非常重要的组成部分。
[0003]在数据时代,数据的合理使用存在着一系列的问题。企业的决策和运营需要从依赖数据进行决策,然而在数据的治理过程中通常存在着由于时代或行业变迁的等多种原因,通常存在的多种类别的数据,每一类别的数据有着不同的治理标准,通过人工识别方式建立数据同治理标准之间的关系会花费大量的时间及精力,基于此,本方案提出基于数据类别的大数据治理中数据标准制定方法及系统。
技术实现思路
[0004]为解决上述技术问题,提供基于数据类别的大数据治理中数据标准制定方法及系统,本技术方案解决了上述的在数据的治理过程中通常存在着由于时代或行业变迁的等多种原因,通常存在的多种类别的数据,每一类别的数据有着不同的治理标准,通过人工识别方式建立数据同治理标准之间的关系会花费大量的时间及精力的问题。
[0005]为达到以上目的,本专利技术采用的技术方案为:一种基于数据类别的大数据治理中数据标准制定方法,包括:基于大数据治理领域涉及到的数据类别建立数据类别库,所述数据类别库内包括若干个数据类;针对每个数据类的属性,提取数据类对应的属性特征,建立数据特征集合,获得每个数据类的标准元特征集合;针对每个数据 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,包括:基于大数据治理领域涉及到的数据类别建立数据类别库,所述数据类别库内包括若干个数据类;针对每个数据类的属性,提取数据类对应的属性特征,建立数据特征集合,获得每个数据类的标准元特征集合;针对每个数据类,进行训练每个数据类对应的标准化模型,所述标准化模型以每个数据类的元数据为输入,以每个数据类的标准化处理数据为输出;获取需要进行数据治理的待处理数据;对待处理数据进行数据特征提取,获得待处理数据的所有属性特征,将待处理数据的所有属性特征进行组合成待处理元特征集合;将待处理元特征集合与每个数据类的标准元特征集合进行距离计算,获得待处理数据与每个数据类之间的距离系数;确定与待处理数据距离系数最小的数据类,记对应的数据类为最适配数据类,记最适配数据类对应的距离系数为最佳距离系数;判断最佳距离系数是否小于距离预设值,若是,则判定需要进行数据治理的待处理数据为最适配数据类,若否,则判定需要进行数据治理的待处理数据为新类别数据;将判定为新类别数据的待处理数据上传至数据后台;对判定为最适配数据类的待处理数据,调取最适配数据类的标准化模型,将待处理数据的元数据输入最适配数据类的标准化模型,获得待处理数据的标准化数据。2.根据权利要求1所述的一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,所述针对每个数据类,进行训练每个数据类对应的标准化模型具体为采用神经网络模型训练每个数据类对应的标准化模型。3.根据权利要求2所述的一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,所述标准化模型包括:输入层,所述输入层用于输入输入值,所述输入值为待处理数据的元数据;数据层,所述数据层用于对待处理数据的元数据进行向量化拼接,获得向量化数据;重组层,所述重组层用于对向量化数据进行重组设计,获得重组数据;变换层,所述变换层用于对向量化数据进行高维变换,获得高维数据;激活层,所述激活层用于对高维数据进行非线性映射,获得激活数据;拼接层,所述拼接层用于对重组数据和激活数据进行拼接处理,获得拼接数据;缩放层,所述缩放层用于对拼接数据进行归一化,获得归一化数据;重新映射层,所述重新映射层用于对归一化数据进行重新映射,获得输出值;输出层,所述输出层用于输出输出值,所述输出值为待处理数据的标准化处理数据。4.根据权利要求3所述的一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,所述神经网络模型包括:损失层,所述损失层用于基于损失函数确定损失函数最小的神经网络模型作为数据类对应的标准化模型。5.根据权利要求4所述的一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,所述采用神经网络模型训练每个数据类对应的标准化模型具体包括:
获取数据类对应的若干训练样本元数据;基于数据类对应的标准化逻辑对训练样本元数据附加标准化值,获得训练标准化值;将若干训练样本元数据输入输入层,并以训练标准化值作为预设的输出层,进行训练数据层、重组层、变换层、激活层、拼接层、缩放层和重新映射层之间的节点连接关系,获得若干个初步训练模型;获取数据类对应的若干测试样本元数据;基于数据类对应的标准化逻辑对训练样本元数据附加标准化值,获得测试真实标准化值;将若干测试样本元数据输入每个初步训练模型,获得每个初步...
【专利技术属性】
技术研发人员:丁勇,
申请(专利权)人:北京希嘉创智数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。