一种基于机器学习的大数据智能治理决策方法及系统技术方案

技术编号:39846540 阅读:12 留言:0更新日期:2023-12-29 16:44
本发明专利技术公开了一种基于机器学习的大数据智能治理决策方法及系统,涉及数据治理技术领域,包括:构建数据评价指标体系;确定自动化质量度量工具;获取对大数据库中的历史治理数据;获得若干训练数据质量指标值;构建数据质量风险预测概率模型;获得待治理数据的若干数据质量指标值;获得待治理数据的质量总指标值;得到待治理数据的数据质量风险指标;判断待治理数据的数据质量风险指标是否大于预设值,筛选正常数据,基于所有正常数据作为大数据智能治理决策的数据基础

【技术实现步骤摘要】
一种基于机器学习的大数据智能治理决策方法及系统


[0001]本专利技术涉及数据治理
,具体是涉及一种基于机器学习的大数据智能治理决策方法及系统


技术介绍

[0002]数据质量是指数据的特性和属性是否满足特定需求和期望的程度

数据质量在现代信息时代变得至关重要

正确

可靠和高质量的数据对于个人

企业和社会都具有重要意义

高质量数据是制定明智决策的基础,高质量数据可以降低操作成本和维护成本,高质量数据可以建立和维护强大的客户关系,高质量数据还可以作为研究人员和分析师识别趋势

做出预测和支持决策的依据

综上所述,对于保持数据高质量的特性至关重要

[0003]现有的大数据治理决策过程中,由于不完善的数据源

数据清洗不足

参数设置不合理

数据漂移等,会导致误报正常数据为异常或漏报真正的数据问题,导致大数据智能治理决策难以获得高质量的数据支撑,进而导致最终的决策策略难以最贴合大数据趋势


技术实现思路

[0004]为解决上述技术问题,提供一种基于机器学习的大数据智能治理决策方法及系统,本技术方案解决了上述的现有的大数据治理决策过程中,由于不完善的数据源

数据清洗不足

参数设置不合理

数据漂移等,会导致误报正常数据为异常或漏报真正的数据问题,导致大数据智能治理决策难以获得高质量的数据支撑,进而导致最终的决策策略难以最贴合大数据趋势的问题

[0005]为达到以上目的,本专利技术采用的技术方案为:一种基于机器学习的大数据智能治理决策方法,包括:构建数据评价指标体系,所述数据评价指标体系有若干个数据质量指标组成,所述数据评价指标体系包括准确性

一致性

可靠性

及时性

唯一性

有效性

可理解性

合规性和安全性中一种或多种;确定自动化质量度量工具,所述自动化质量度量工具用于对数据质量指标进行度量赋值,所述自动化质量度量工具为
Trifacta、OpenRefine

DataWrangler
其中一种或多种;获取对大数据库中的历史治理数据;采用自动化质量度量工具对历史治理数据的数据质量指标进行度量赋值,获得若干训练数据质量指标值;基于蒙特卡洛对训练数据质量指标值进行模拟,构建数据质量风险预测概率模型;采用自动化质量度量工具对待治理数据的数据质量指标进行度量赋值,获得待治理数据的若干数据质量指标值;将待治理数据的若干数据质量指标值进行求和,获得待治理数据的质量总指标
值;将待治理数据的质量总指标值代入数据质量风险预测概率模型中,得到待治理数据的数据质量风险指标;判断待治理数据的数据质量风险指标是否大于预设值,若是,则判定待治理数据为异常数据,若否,则判定待治理数据为正常数据;基于所有正常数据作为大数据智能治理决策的数据基础

[0006]优选的,所述基于蒙特卡洛对训练数据质量指标值进行模拟,构建数据质量风险预测概率模型具体包括:基于训练数据质量指标值,确定训练数据锚点,所述训练数据锚点由最乐观数据质量指标值

最高频数据质量指标值

最悲观数据质量指标值组成;计算所有训练数据质量指标值的算术平均值;基于所有训练数据质量指标值的算术平均值和训练数据锚点,计算训练数据质量指标值的标准偏差;基于训练数据质量指标值的标准偏差和训练数据质量指标值的算术平均值,构建与训练数据质量指标值对应的数据质量指标随机变量值计算模型,所述数据质量指标随机变量值计算模型以设定的概率值为输入,以数据质量指标的随机变量值为输出;设定一数据训练指标;以设定的数据训练指标为取值间隔,在0‑1取值区间内遍历取值,得到若干个训练概率值;将训练概率值代入数据质量指标随机变量值计算模型,得到数据质量指标的若干个随机变量值;将所有数据质量指标的所有随机变量值进行随机组合,获得若干组随机变量值组;对每一个随机变量值组中的所有随机变量值进行求和,得到若干个随机变量总值;基于若干个随机变量总值,进行统计分析,得到数据质量风险预测概率模型

[0007]优选的,所述最乐观数据质量指标值是指训练数据质量指标值中的最大值;所述最高频数据质量指标值是指训练数据质量指标值中的出现频率最多的数值;所述最悲观数据质量指标值是指训练数据质量指标值中的最小值

[0008]优选的,所述训练数据质量指标值的标准偏差的计算公式为:;式中,为训练数据质量指标值的标准偏差,为所有训练数据质量指标值的算术平均值,为最乐观数据质量指标值,为最高频数据质量指标值,为最悲观数据质量指标值

[0009]优选的,所述数据质量指标随机变量值计算模型的表达式为:;式中,为数据质量指标的随机变量值,
p
为设定的概率值,
norminnv
为计算正态分
布的逆累积分布函数

[0010]优选的,所述基于若干个随机变量总值,进行统计分析,得到数据质量风险预测概率模型具体包括:计算出每一个随机变量总值出现的次数在全部随机变量总值出现的次数所占的比例,记为随机变量总值的出现概率;基于每一个随机变量总值的出现概率,将小于当前随机变量总值的所有随机变量总值的出现概率进行累加,记为随机变量总值的累加概率;以随机变量总值为
x
轴,随机变量总值的累积概率为
y
轴,得到数据质量风险预测概率曲线;进行拟合数据质量风险预测概率曲线的数学表达式,得到数据质量风险预测概率模型

[0011]进一步的,提出一种基于机器学习的大数据智能治理决策系统,其特征在于,用于实现如上述的基于机器学习的大数据智能治理决策方法,包括:质量度量模块,所述质量度量模块用于确定自动化质量度量工具,并采用自动化质量度量工具对历史治理数据的数据质量指标进行度量赋值和采用自动化质量度量工具对待治理数据的数据质量指标进行度量赋值;风险模型构建模块,所述风险模型构建模块与所述质量度量模块电性连接,所述风险模型构建单元用于基于蒙特卡洛对训练数据质量指标值进行模拟,构建数据质量风险预测概率模型;数据风险计算模块,所述数据风险计算模块与所述质量度量模块和所述风险模型构建模块电性连接,所述数据风险计算模块用于将待治理数据的若干数据质量指标值进行求和,获得待治理数据的质量总指标值并将待治理数据的质量总指标值代入数据质量风险预测概率模型中,得到待治理数据的数据质量风险指标;数据分析模块,所述数据分析模块与所述数据风险计算模块电性连接,所述数据分析模块用于判断待治理数据的数据质量风险指标是否大于预设值,若是,则判本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于机器学习的大数据智能治理决策方法,其特征在于,包括:构建数据评价指标体系,所述数据评价指标体系有若干个数据质量指标组成,所述数据评价指标体系包括准确性

一致性

可靠性

及时性

唯一性

有效性

可理解性

合规性和安全性中一种或多种;确定自动化质量度量工具,所述自动化质量度量工具用于对数据质量指标进行度量赋值,所述自动化质量度量工具为
Trifacta、OpenRefine

DataWrangler
其中一种或多种;获取对大数据库中的历史治理数据;采用自动化质量度量工具对历史治理数据的数据质量指标进行度量赋值,获得若干训练数据质量指标值;基于蒙特卡洛对训练数据质量指标值进行模拟,构建数据质量风险预测概率模型;采用自动化质量度量工具对待治理数据的数据质量指标进行度量赋值,获得待治理数据的若干数据质量指标值;将待治理数据的若干数据质量指标值进行求和,获得待治理数据的质量总指标值;将待治理数据的质量总指标值代入数据质量风险预测概率模型中,得到待治理数据的数据质量风险指标;判断待治理数据的数据质量风险指标是否大于预设值,若是,则判定待治理数据为异常数据,若否,则判定待治理数据为正常数据;基于所有正常数据作为大数据智能治理决策的数据基础
。2.
根据权利要求1所述的一种基于机器学习的大数据智能治理决策方法,其特征在于,所述基于蒙特卡洛对训练数据质量指标值进行模拟,构建数据质量风险预测概率模型具体包括:基于训练数据质量指标值,确定训练数据锚点,所述训练数据锚点由最乐观数据质量指标值

最高频数据质量指标值

最悲观数据质量指标值组成;计算所有训练数据质量指标值的算术平均值;基于所有训练数据质量指标值的算术平均值和训练数据锚点,计算训练数据质量指标值的标准偏差;基于训练数据质量指标值的标准偏差和训练数据质量指标值的算术平均值,构建与训练数据质量指标值对应的数据质量指标随机变量值计算模型,所述数据质量指标随机变量值计算模型以设定的概率值为输入,以数据质量指标的随机变量值为输出;设定一数据训练指标;以设定的数据训练指标为取值间隔,在0‑1取值区间内遍历取值,得到若干个训练概率值;将训练概率值代入数据质量指标随机变量值计算模型,得到数据质量指标的若干个随机变量值;将所有数据质量指标的所有随机变量值进行随机组合,获得若干组随机变量值组;对每一个随机变量值组中的所有随机变量值进行求和,得到若干个随机变量总值;基于若干个随机变量总值,进行统计分析,得到数据质量风险预测概率模型
。3.
根据权利要求2所述的一种基于机器学习的大数据智能治理决策方法,其特征在于,所述最乐观数据质量指标值是指训练数据质量指标值中的最大值;
所述最高频数据质量指标值是指训练数据质量指标值中的出现频率最多的数值;所述最悲观数据质量指标值是指训练数据质量指标值中的最小值
。4.
根据权利要求3所述的一种基于机器学习的大数据智能治理决策方法,其特征在于,所述训练数据质量指标值的标准偏差的计算公式为:;式中,为训练数据质量指标值的标准偏差,为所有训练数据质量指标值的算术平均值,为最乐观数据质量指标值,为最高频数据质量指标值,为最悲观数据质量指标值
。5.
根据权利要求4所述的一种基于机器学习的大数据智能治理决策方法,其特征在于,所述数据质量指标随机变量值计算模型的表达式为:;式中,为数据质量指标的随机变量值,<...

【专利技术属性】
技术研发人员:苗敬峰胥继云夏敏周芳张新军张迪
申请(专利权)人:山东顺国电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1