数据质量监控方法、装置及大数据计算平台制造方法及图纸

技术编号:17779728 阅读:41 留言:0更新日期:2018-04-22 08:14
一种数据质量监控方法、装置及大数据计算平台,数据质量监控装置采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。本申请实现了监控阈值的智能设定。比人为设定阈值更加准确,减少了误报率。基于上述预测分析方法,本申请还提供了一种大数据计算服务的用户数据质量监控方法和相应的大数据计算平台。

【技术实现步骤摘要】
数据质量监控方法、装置及大数据计算平台
本专利技术涉及数据处理,更具体地,涉及一种数据质量监控方法、装置及大数据计算平台。
技术介绍
大数据不仅成为各大互联网公司的战略方向,其他行业也开始探索大数据。但是伴随大数据而来的数据质量问题也比传统数据库中的问题要严峻的多。大数据服务每天有PB级别的数据计算量,为了保证数据质量,对于数据产出过程中的数据监控显得尤为重要。如果数据内容质量不符合标准,数据监控可以给出报警,告知用户,避免造成下游数据更大规模的数据污染。数据质量中心(DQC:DataQualityCenter)系统可以对大数据计算服务如MaxCompute(原名ODPS)的数据进行监控。数据质量监控阈值一旦设定,则每天的业务产生后,都会按数据质量规则与这个监控阈值进行比较,如果超出监控阈值界定的正常取值范围,系统会给出报警。例如,当天生产时间的数据与数据质量规则统计值(如七天均值、最值等等)的相对误差率若小于监控阀值界定的正常取值范围(正负10%之内),则说明数据正常,否则报警并阻塞下游数据任务。报警后进行检验,若发现确实有问题,则进行代码修改,否则属于误报。相关技术中是基于人工经验的判断,手动设定数据质量监控的阈值。但这种阀值设定的方式存在以下弊端:第一,阈值设定过于依赖设置者的经验。例如:对于金融业务的数据:贷款业务贷款总金额,设置者A理解设置数据波动范围5%左右是合理范围。而设置者B可能理解设置数据波动范围3%是合理范围。第二,每天产出的业务数据是在不断变化的,但都用相同的阈值来校验,可能造成误报警。第三,阈值设定后,如果影响数据的上游关系变化或者业务变化,而阈值的设置者未感知,仍采用原设定阈值进行校验,则设置出的阈值可能是不合理的,不能准确报警。在监控阈值设定不合理时,业务数据正常波动(上涨或下跌)也会超过监控阈值界定的正常取值范围,造成频繁的误报警,增加运维的工作量。目前大数据计算服务的数据质量监控是针对大数据计算平台如云计算平台数据库中的总体业务数据进行的,并不对所服务的特定用户的数据进行质量监控,用户要对自己的数据进行质量监控,必须自行设计监控程序并且从大数据计算平台下载数据才能实现,对于用户来说非常难以实现。另外,服务等级协议(SLA:Service-LevelAgreement)是关于网络服务供应商和用户间的一份合同,其中定义了服务类型、服务质量和客户付款等术语。但是,目前大数据计算的SLA中没有将数据质量报警作为衡量服务质量的参数之一,这使得对服务质量的评估不够完善,不利于对大数据计算服务的服务质量进行监控。
技术实现思路
有鉴于此,本专利技术实施例提供了以下方案。一种数据质量监控方法,包括:采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。一种数据质量监控装置,包括:模型建立模块;用于采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;阈值确定模块,用于根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;报警处理模块,用于采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。一种数据质量监控装置,包括处理器和存储器,其中:所述存储器,设置为:保存程序代码;所述处理器,设置为:读取所述程序代码并执行以下处理:采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。上述数据质量监控方法和装置通过数据建模的方式预测参数的正常波动范围,实现了监控阈值的智能设定。比人为设定阈值更加准确,减少了误报率,减轻了运维的工作量。有鉴于此,本专利技术实施例还提供了以下方案。一种大数据计算服务的用户数据质量监控方法,包括:大数据计算平台从保存的用户数据中采集与需要监控的参数相关的历史数据,根据所述历史数据对所述参数的当前数据进行预测,得到预测结果;所述大数据计算平台采集所述参数的当前数据并与所述预测结果比较,根据比较结果进行用户数据质量的报警处理。一种大数据计算平台,包括用户数据质量监控模块,所述用户数据质量监控模块包括:预测单元,用于从保存的用户数据中采集与需要监控的参数相关的历史数据,根据所述历史数据对所述参数的当前数据进行预测,得到预测结果;报警单元,用于采集所述参数的当前数据并与所述预测结果比较,根据比较结果进行用户数据质量的报警处理。一种大数据计算平台,包括处理器和存储器,其中:所述存储器,设置为:保存程序代码;所述处理器,设置为:读取所述程序代码并执行以下处理:从保存的用户数据中采集与需要监控的参数相关的历史数据,根据所述历史数据对所述参数的当前数据进行预测,得到预测结果;及,采集所述参数的当前数据并与所述预测结果比较,根据比较结果进行用户数据质量的报警处理。上述用户数据质量监控方法和大数据计算平台针对特定用户的数据提供了数据质量监控服务,拓展了大数据计算服务的领域,有助于大数据计算服务的优化。附图说明图1是本专利技术实施例一数据质量监控方法的流程图;图2是本专利技术实施例一数据质量监控装置的模块图;图3是本专利技术实施例二用户数据质量监控方法的流程图;图4是本专利技术实施例二大数据计算平台的模块图;图5是本专利技术示例一只增不减的参数的变化示意图;图6是本专利技术示例二周期性变化的参数的变化示意图;图7是本专利技术示例三云计算的体系结构的示意图;图8是本专利技术示例三用户数据质量监控方法的流程图;图9是本专利技术示例三用户设备和大数据计算平台的信令交互示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。实施例一本实施例采用统计预测的方法,根据参数的历史数据对参数的当前数据进行预测,采集参数的当前数据并与和预测结果进行比较,根据比较结果进行报警处理。本实施例涉及的是数据仓库中数据的数据质量监控,所述数据仓库设置在提供大数据计算服务的计算集群中。但本专利技术并不局限于此,也可用于其他系统、其他节点中数据的数据质量监控。如图1所示,本实施例的数据质量监控方法包括:步骤110,采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;统计预测属于预测方法研究范畴,即如何利用科学的统计方法对事物的未来发展进行定量推测。数据模型是预测的手段。定量的预测方法有多种,包括趋势外推预测法、时间序列预测法和回归预测法等。本实施例采用的是回归预测法,即以所述历史数据为样本进行回归分析,建立以所述参数为因变量的回归模型。但也可以采用其他的预测分析方法。回归分析(regressionanalysis)是研究一个变量(称为因变量或被解释变量)关于其他变量(称为自变量或解释变量)的具体依赖关系的计算方法和理本文档来自技高网
...
数据质量监控方法、装置及大数据计算平台

【技术保护点】
一种数据质量监控方法,包括:采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。

【技术特征摘要】
1.一种数据质量监控方法,包括:采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。2.如权利要求1所述的方法,其特征在于:所述需要监控的参数包括以下参数中的至少一种:数据表的记录数;数据表的文件大小;数据表中的字段;数据表中字段的统计值。3.如权利要求1或2所述的方法,其特征在于:以所述历史数据为样本建立所述参数的预测模型,包括:以所述历史数据为样本进行回归分析,建立以所述参数为因变量的回归模型。4.如权利要求3所述的方法,其特征在于:如所述参数对其他参数存在依赖关系,所述回归模型采用自变量包括所述其他参数的回归模型;如所述参数对其他参数不存在依赖关系,所述回归模型采用自回归模型。5.如权利要求3所述的方法,其特征在于:根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值,包括:根据所述回归模型计算所述参数的当前数据的置信区间,将所述置信区间的边界确定为所述参数的监控阈值;或者根据所述回归模型计算所述参数的当前数据的预测值,根据所述预测值与波动系数的积确定所述参数的监控阈值,所述波动系数根据所述历史数据和基于所述回归模型计算的历史预测值之间的波动范围确定。6.一种数据质量监控装置,其特征在于,包括:模型建立模块;用于采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;阈值确定模块,用于根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;报警处理模块,用于采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。7.如权利要求6所述的装置,其特征在于:所述模型建立模块采集与需要监控的参数相关的历史数据,其中,所述需要监控的参数包括以下参数中的至少一种:数据表的记录数,数据表的文件大小,数据表中的字段,数据表中字段的统计值。8.如权利要求6或7所述的装置,其特征在于:所述模型建立模块以所述历史数据为样本建立所述参数的预测模型,包括:以所述历史数据为样本进行回归分析,建立以所述参数为因变量的回归模型。9.如权利要求8所述的装置,其特征在于:所述阈值确定模块根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值,包括:根据所述回归模型计算所述参数的当前数据的置信区间,将所述置信区间的边界确定为所述参数的监控阈值;或者根据所述回归模型计算所述参数的当前数据的预测值,根据所述预测值与波动系数的积确定所述参数的监控阈值,所述波动系数根据所述历史数据和基于所述回归模型计算的历史预测值之间的波动范围确定。10.一种数据质量监控装置,包括处理器和存储器,其特征在于:所述存储器,设置为:保存程序代码;所述处理器,设置为:读取所述程序代码并执行以下处理:采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。11.一种大数据计算服务的用户数据质量监控方法,包括:大数据计算平台从保存的用户数据中采集与需要监控的参数相关的历史数据,根据所述历史数据对所述参数的当前数据进行预测,得到预测结果;所述大数据计算平台采集所述参数的当前数据并与所述预测结果比较,根据比较结果进行用户数据质量的报警处理。12.如权利要求11所述的方法,其特征在于:所述大数据计算平台根据历史数据对所述参数的当前数据进行预测,得到预测结果,包括:以所述历史数据为样本建立所述参数的预测模型,根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;所述大数据计算平台采集所述参数的当前数据并与所述预测结果比较,根据比较结果进行用户数据质量的报警处...

【专利技术属性】
技术研发人员:解敏陈欢范茸
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1