基于数据类别的大数据治理中数据标准制定方法及系统技术方案

技术编号:38039351 阅读:9 留言:0更新日期:2023-06-30 11:05
本发明专利技术公开了基于数据类别的大数据治理中数据标准制定方法及系统,涉及数据分析技术领域,建立数据类别库;获得每个数据类的标准元特征集合;训练每个数据类对应的标准化模型;获取需要进行数据治理的待处理数据;获得待处理数据的所有属性特征;获得待处理数据与每个数据类之间的距离系数;确定与待处理数据距离系数最小的数据类;判断最佳距离系数是否小于距离预设值;对判定为最适配数据类的待处理数据,调取最适配数据类的标准化模型进行数据标准化。本发明专利技术的优点在于:实现针对数据治理过程中的数据智能化分类识别,并按照数据类别进行数据标准化转化,可有效的缩短数据治理过程中的数据分类耗时,可实现企业快速高效的实现数据数字化。实现数据数字化。实现数据数字化。

【技术实现步骤摘要】
基于数据类别的大数据治理中数据标准制定方法及系统


[0001]本专利技术涉及数据分析
,具体是涉及基于数据类别的大数据治理中数据标准制定方法及系统。

技术介绍

[0002]随着全球信息化和数字化的发展,各行各业都在进行或即将进行数据治理,根据国际及国内对数据治理的主流理解,数据标准化是数据治理中非常重要的组成部分。
[0003]在数据时代,数据的合理使用存在着一系列的问题。企业的决策和运营需要从依赖数据进行决策,然而在数据的治理过程中通常存在着由于时代或行业变迁的等多种原因,通常存在的多种类别的数据,每一类别的数据有着不同的治理标准,通过人工识别方式建立数据同治理标准之间的关系会花费大量的时间及精力,基于此,本方案提出基于数据类别的大数据治理中数据标准制定方法及系统。

技术实现思路

[0004]为解决上述技术问题,提供基于数据类别的大数据治理中数据标准制定方法及系统,本技术方案解决了上述的在数据的治理过程中通常存在着由于时代或行业变迁的等多种原因,通常存在的多种类别的数据,每一类别的数据有着不同的治理标准,通过人工识别方式建立数据同治理标准之间的关系会花费大量的时间及精力的问题。
[0005]为达到以上目的,本专利技术采用的技术方案为:一种基于数据类别的大数据治理中数据标准制定方法,包括:基于大数据治理领域涉及到的数据类别建立数据类别库,所述数据类别库内包括若干个数据类;针对每个数据类的属性,提取数据类对应的属性特征,建立数据特征集合,获得每个数据类的标准元特征集合;针对每个数据类,进行训练每个数据类对应的标准化模型,所述标准化模型以每个数据类的元数据为输入,以每个数据类的标准化处理数据为输出;获取需要进行数据治理的待处理数据;对待处理数据进行数据特征提取,获得待处理数据的所有属性特征,将待处理数据的所有属性特征进行组合成待处理元特征集合;将待处理元特征集合与每个数据类的标准元特征集合进行距离计算,获得待处理数据与每个数据类之间的距离系数;确定与待处理数据距离系数最小的数据类,记对应的数据类为最适配数据类,记最适配数据类对应的距离系数为最佳距离系数;判断最佳距离系数是否小于距离预设值,若是,则判定需要进行数据治理的待处理数据为最适配数据类,若否,则判定需要进行数据治理的待处理数据为新类别数据;将判定为新类别数据的待处理数据上传至数据后台;
对判定为最适配数据类的待处理数据,调取最适配数据类的标准化模型,将待处理数据的元数据输入最适配数据类的标准化模型,获得待处理数据的标准化数据。
[0006]优选的,所述针对每个数据类,进行训练每个数据类对应的标准化模型具体为采用神经网络模型训练每个数据类对应的标准化模型。
[0007]优选的,所述标准化模型包括:输入层,所述输入层用于输入输入值,所述输入值为待处理数据的元数据;数据层,所述数据层用于对待处理数据的元数据进行向量化拼接,获得向量化数据;重组层,所述重组层用于对向量化数据进行重组设计,获得重组数据;变换层,所述变换层用于对向量化数据进行高维变换,获得高维数据;激活层,所述激活层用于对高维数据进行非线性映射,获得激活数据;拼接层,所述拼接层用于对重组数据和激活数据进行拼接处理,获得拼接数据;缩放层,所述缩放层用于对拼接数据进行归一化,获得归一化数据;重新映射层,所述重新映射层用于对归一化数据进行重新映射,获得输出值;输出层,所述输出层用于输出输出值,所述输出值为待处理数据的标准化处理数据。
[0008]优选的,所述神经网络模型包括:损失层,所述损失层用于基于损失函数确定损失函数最小的神经网络模型作为数据类对应的标准化模型。
[0009]优选的,所述采用神经网络模型训练每个数据类对应的标准化模型具体包括:获取数据类对应的若干训练样本元数据;基于数据类对应的标准化逻辑对训练样本元数据附加标准化值,获得训练标准化值;将若干训练样本元数据输入输入层,并以训练标准化值作为预设的输出层,进行训练数据层、重组层、变换层、激活层、拼接层、缩放层和重新映射层之间的节点连接关系,获得若干个初步训练模型;获取数据类对应的若干测试样本元数据;基于数据类对应的标准化逻辑对训练样本元数据附加标准化值,获得测试真实标准化值;将若干测试样本元数据输入每个初步训练模型,获得每个初步训练模型输出的测试预测标准化值;损失层基于损失函数确定每个初步训练模型的损失函数值,并筛选出损失函数值最小值;判断损失函数值最小值是否小于第一预设值,若是,则判定损失函数值最小值对应的初步训练模型为数据类对应的标准化模型,若否,则判定为数据类对应的标准化模型训练失败,重新获取数据类对应的若干测试样本元数据,并重新进行数据类对应的标准化模型训练。
[0010]优选的,所述将待处理元特征集合与每个数据类的标准元特征集合进行距离计算具体包括:
获得待处理元特征集合中的元素数量;获得每个数据类的标准元特征集合的元素数量;确定待处理元特征集合与每个数据类的标准元特征集合中相同元素的数量;基于距离系数计算公式计算待处理元特征集合与每个数据类的标准元特征集合之间的距离系数;其中,所述距离系数计算公式为:式中,为待处理元特征集合与第i个数据类的标准元特征集合之间的距离系数,为待处理元特征集合中的元素数量,为第i个数据类的标准元特征集合的元素数量,为待处理元特征集合与第i个数据类的标准元特征集合中相同元素的数量,为数据类别库内包括的数据类总数。
[0011]进一步的,提出一种基于数据类别的大数据治理中数据标准制定系统,用于实现如上述的基于数据类别的大数据治理中数据标准制定方法,包括:存储器,所述存储器用于存储数据类别库和每个数据类的标准元特征集合;模型训练模块,所述模型训练模块用于针对每个数据类,进行训练每个数据类对应的标准化模型;处理器,处理器与所述存储器和模型训练模块电性连接,所述处理器用于对待处理数据进行数据特征提取,获得待处理数据的所有属性特征,将待处理数据的所有属性特征进行组合成待处理元特征集合、将待处理元特征集合与每个数据类的标准元特征集合进行距离计算,获得待处理数据与每个数据类之间的距离系数、判断最佳距离系数是否小于距离预设值、获得待处理数据的标准化数据;输入模块,输入模块与所述处理器电性连接,所述输入模块用于输入待处理数据;输出模块,输出模块与所述处理器电性连接,所述输出模块用于输出待处理数据的标准化数据。
[0012]可选的,所述处理器内部集成有匹配模块和数据标准化模块。
[0013]可选的,所述匹配模块包括:数据属性分析单元,所述数据属性分析单元用于分析待处理数据的属性特征,对待处理数据进行数据特征提取,获得待处理数据的所有属性特征,将待处理数据的所有属性特征进行组合成待处理元特征集合;计算单元,所述计算单元用于将待处理元特征集合与每个数据类的标准元特征集合进行距离计算,获得待处理数据与每个数据类之间的距离系数;筛选单元,所述筛选单元用于确定与待处理数据距离系数最小的数据类。
[0014]可选的,所述数据标准化模块包括:判断单元,所述判断单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,包括:基于大数据治理领域涉及到的数据类别建立数据类别库,所述数据类别库内包括若干个数据类;针对每个数据类的属性,提取数据类对应的属性特征,建立数据特征集合,获得每个数据类的标准元特征集合;针对每个数据类,进行训练每个数据类对应的标准化模型,所述标准化模型以每个数据类的元数据为输入,以每个数据类的标准化处理数据为输出;获取需要进行数据治理的待处理数据;对待处理数据进行数据特征提取,获得待处理数据的所有属性特征,将待处理数据的所有属性特征进行组合成待处理元特征集合;将待处理元特征集合与每个数据类的标准元特征集合进行距离计算,获得待处理数据与每个数据类之间的距离系数;确定与待处理数据距离系数最小的数据类,记对应的数据类为最适配数据类,记最适配数据类对应的距离系数为最佳距离系数;判断最佳距离系数是否小于距离预设值,若是,则判定需要进行数据治理的待处理数据为最适配数据类,若否,则判定需要进行数据治理的待处理数据为新类别数据;将判定为新类别数据的待处理数据上传至数据后台;对判定为最适配数据类的待处理数据,调取最适配数据类的标准化模型,将待处理数据的元数据输入最适配数据类的标准化模型,获得待处理数据的标准化数据。2.根据权利要求1所述的一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,所述针对每个数据类,进行训练每个数据类对应的标准化模型具体为采用神经网络模型训练每个数据类对应的标准化模型。3.根据权利要求2所述的一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,所述标准化模型包括:输入层,所述输入层用于输入输入值,所述输入值为待处理数据的元数据;数据层,所述数据层用于对待处理数据的元数据进行向量化拼接,获得向量化数据;重组层,所述重组层用于对向量化数据进行重组设计,获得重组数据;变换层,所述变换层用于对向量化数据进行高维变换,获得高维数据;激活层,所述激活层用于对高维数据进行非线性映射,获得激活数据;拼接层,所述拼接层用于对重组数据和激活数据进行拼接处理,获得拼接数据;缩放层,所述缩放层用于对拼接数据进行归一化,获得归一化数据;重新映射层,所述重新映射层用于对归一化数据进行重新映射,获得输出值;输出层,所述输出层用于输出输出值,所述输出值为待处理数据的标准化处理数据。4.根据权利要求3所述的一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,所述神经网络模型包括:损失层,所述损失层用于基于损失函数确定损失函数最小的神经网络模型作为数据类对应的标准化模型。5.根据权利要求4所述的一种基于数据类别的大数据治理中数据标准制定方法,其特征在于,所述采用神经网络模型训练每个数据类对应的标准化模型具体包括:
获取数据类对应的若干训练样本元数据;基于数据类对应的标准化逻辑对训练样本元数据附加标准化值,获得训练标准化值;将若干训练样本元数据输入输入层,并以训练标准化值作为预设的输出层,进行训练数据层、重组层、变换层、激活层、拼接层、缩放层和重新映射层之间的节点连接关系,获得若干个初步训练模型;获取数据类对应的若干测试样本元数据;基于数据类对应的标准化逻辑对训练样本元数据附加标准化值,获得测试真实标准化值;将若干测试样本元数据输入每个初步训练模型,获得每个初步...

【专利技术属性】
技术研发人员:丁勇
申请(专利权)人:北京希嘉创智数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1