一种基于机器学习的大数据智能治理决策方法及系统技术方案

技术编号：39846540 阅读：32 留言：0更新日期：2023-12-29 16:44

本发明专利技术公开了一种基于机器学习的大数据智能治理决策方法及系统，涉及数据治理技术领域，包括：构建数据评价指标体系；确定自动化质量度量工具；获取对大数据库中的历史治理数据；获得若干训练数据质量指标值；构建数据质量风险预测概率模型；获得待治理数据的若干数据质量指标值；获得待治理数据的质量总指标值；得到待治理数据的数据质量风险指标；判断待治理数据的数据质量风险指标是否大于预设值，筛选正常数据，基于所有正常数据作为大数据智能治理决策的数据基础

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的大数据智能治理决策方法及系统

[0001]本专利技术涉及数据治理
，具体是涉及一种基于机器学习的大数据智能治理决策方法及系统
。

技术介绍

[0002]数据质量是指数据的特性和属性是否满足特定需求和期望的程度
。
数据质量在现代信息时代变得至关重要
。
正确
、
可靠和高质量的数据对于个人
、
企业和社会都具有重要意义
。
高质量数据是制定明智决策的基础，高质量数据可以降低操作成本和维护成本，高质量数据可以建立和维护强大的客户关系，高质量数据还可以作为研究人员和分析师识别趋势
、
做出预测和支持决策的依据
。
综上所述，对于保持数据高质量的特性至关重要
。
[0003]现有的大数据治理决策过程中，由于不完善的数据源
、
数据清洗不足
、
参数设置不合理
、
数据漂移等，会导致误报正常数据为异常或漏报真正的数据问题，导致大...

【技术保护点】

【技术特征摘要】
1.
一种基于机器学习的大数据智能治理决策方法，其特征在于，包括：构建数据评价指标体系，所述数据评价指标体系有若干个数据质量指标组成，所述数据评价指标体系包括准确性
、
一致性
、
可靠性
、
及时性
、
唯一性
、
有效性
、
可理解性
、
合规性和安全性中一种或多种；确定自动化质量度量工具，所述自动化质量度量工具用于对数据质量指标进行度量赋值，所述自动化质量度量工具为
Trifacta、OpenRefine
或
DataWrangler
其中一种或多种；获取对大数据库中的历史治理数据；采用自动化质量度量工具对历史治理数据的数据质量指标进行度量赋值，获得若干训练数据质量指标值；基于蒙特卡洛对训练数据质量指标值进行模拟，构建数据质量风险预测概率模型；采用自动化质量度量工具对待治理数据的数据质量指标进行度量赋值，获得待治理数据的若干数据质量指标值；将待治理数据的若干数据质量指标值进行求和，获得待治理数据的质量总指标值；将待治理数据的质量总指标值代入数据质量风险预测概率模型中，得到待治理数据的数据质量风险指标；判断待治理数据的数据质量风险指标是否大于预设值，若是，则判定待治理数据为异常数据，若否，则判定待治理数据为正常数据；基于所有正常数据作为大数据智能治理决策的数据基础
。2.
根据权利要求1所述的一种基于机器学习的大数据智能治理决策方法，其特征在于，所述基于蒙特卡洛对训练数据质量指标值进行模拟，构建数据质量风险预测概率模型具体包括：基于训练数据质量指标值，确定训练数据锚点，所述训练数据锚点由最乐观数据质量指标值
、
最高频数据质量指标值
、
最悲观数据质量指标值组成；计算所有训练数据质量指标值的算术平均值；基于所有训练数据质量指标值的算术平均值和训练数据锚点，计算训练数据质量指标值的标准偏差；基于训练数据质量指标值的标准偏差和训练数据质量指标值的算术平均值，构建与训练数据质量指标值对应的数据质量指标随机变量值计算模型，所述数据质量指标随机变量值计算模型以设定的概率值为输入，以数据质量指标的随机变量值为输出；设定一数据训练指标；以设定的数据训练指标为取值间隔，在0‑1取值区间内遍历取值，得到若干个训练概率值；将训练概率值代入数据质量指标随机变量值计算模型，得到数据质量指标的若干个随机变量值；将所有数据质量指标的所有随机变量值进行随机组合，获得若干组随机变量值组；对每一个随机变量值组中的所有随机变量值进行求和，得到若干个随机变量总值；基于若干个随机变量总值，进行统计分析，得到数据质量风险预测概率模型
。3.
根据权利要求2所述的一种基于机器学习的大数据智能治理决策方法，其特征在于，所述最乐观数据质量指标值是指训练数据质量指标值中的最大值；
所述最高频数据质量指标值是指训练数据质量指标值中的出现频率最多的数值；所述最悲观数据质量指标值是指训练数据质量指标值中的最小值
。4.
根据权利要求3所述的一种基于机器学习的大数据智能治理决策方法，其特征在于，所述训练数据质量指标值的标准偏差的计算公式为：；式中，为训练数据质量指标值的标准偏差，为所有训练数据质量指标值的算术平均值，为最乐观数据质量指标值，为最高频数据质量指标值，为最悲观数据质量指标值
。5.
根据权利要求4所述的一种基于机器学习的大数据智能治理决策方法，其特征在于，所述数据质量指标随机变量值计算模型的表达式为：；式中，为数据质量指标的随机变量值，<...

【专利技术属性】
技术研发人员：苗敬峰，胥继云，夏敏，周芳，张新军，张迪，
申请(专利权)人：山东顺国电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人