【技术实现步骤摘要】
数据质量监控方法、装置及大数据计算平台
本专利技术涉及数据处理,更具体地,涉及一种数据质量监控方法、装置及大数据计算平台。
技术介绍
大数据不仅成为各大互联网公司的战略方向,其他行业也开始探索大数据。但是伴随大数据而来的数据质量问题也比传统数据库中的问题要严峻的多。大数据服务每天有PB级别的数据计算量,为了保证数据质量,对于数据产出过程中的数据监控显得尤为重要。如果数据内容质量不符合标准,数据监控可以给出报警,告知用户,避免造成下游数据更大规模的数据污染。数据质量中心(DQC:DataQualityCenter)系统可以对大数据计算服务如MaxCompute(原名ODPS)的数据进行监控。数据质量监控阈值一旦设定,则每天的业务产生后,都会按数据质量规则与这个监控阈值进行比较,如果超出监控阈值界定的正常取值范围,系统会给出报警。例如,当天生产时间的数据与数据质量规则统计值(如七天均值、最值等等)的相对误差率若小于监控阀值界定的正常取值范围(正负10%之内),则说明数据正常,否则报警并阻塞下游数据任务。报警后进行检验,若发现确实有问题,则进行代码修改,否则属于误报。相关技术中是基于人工经验的判断,手动设定数据质量监控的阈值。但这种阀值设定的方式存在以下弊端:第一,阈值设定过于依赖设置者的经验。例如:对于金融业务的数据:贷款业务贷款总金额,设置者A理解设置数据波动范围5%左右是合理范围。而设置者B可能理解设置数据波动范围3%是合理范围。第二,每天产出的业务数据是在不断变化的,但都用相同的阈值来校验,可能造成误报警。第三,阈值设定后,如果影响数据的上游关系变化或者 ...
【技术保护点】
一种数据质量监控方法,包括:采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。
【技术特征摘要】
1.一种数据质量监控方法,包括:采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。2.如权利要求1所述的方法,其特征在于:所述需要监控的参数包括以下参数中的至少一种:数据表的记录数;数据表的文件大小;数据表中的字段;数据表中字段的统计值。3.如权利要求1或2所述的方法,其特征在于:以所述历史数据为样本建立所述参数的预测模型,包括:以所述历史数据为样本进行回归分析,建立以所述参数为因变量的回归模型。4.如权利要求3所述的方法,其特征在于:如所述参数对其他参数存在依赖关系,所述回归模型采用自变量包括所述其他参数的回归模型;如所述参数对其他参数不存在依赖关系,所述回归模型采用自回归模型。5.如权利要求3所述的方法,其特征在于:根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值,包括:根据所述回归模型计算所述参数的当前数据的置信区间,将所述置信区间的边界确定为所述参数的监控阈值;或者根据所述回归模型计算所述参数的当前数据的预测值,根据所述预测值与波动系数的积确定所述参数的监控阈值,所述波动系数根据所述历史数据和基于所述回归模型计算的历史预测值之间的波动范围确定。6.一种数据质量监控装置,其特征在于,包括:模型建立模块;用于采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;阈值确定模块,用于根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;报警处理模块,用于采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。7.如权利要求6所述的装置,其特征在于:所述模型建立模块采集与需要监控的参数相关的历史数据,其中,所述需要监控的参数包括以下参数中的至少一种:数据表的记录数,数据表的文件大小,数据表中的字段,数据表中字段的统计值。8.如权利要求6或7所述的装置,其特征在于:所述模型建立模块以所述历史数据为样本建立所述参数的预测模型,包括:以所述历史数据为样本进行回归分析,建立以所述参数为因变量的回归模型。9.如权利要求8所述的装置,其特征在于:所述阈值确定模块根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值,包括:根据所述回归模型计算所述参数的当前数据的置信区间,将所述置信区间的边界确定为所述参数的监控阈值;或者根据所述回归模型计算所述参数的当前数据的预测值,根据所述预测值与波动系数的积确定所述参数的监控阈值,所述波动系数根据所述历史数据和基于所述回归模型计算的历史预测值之间的波动范围确定。10.一种数据质量监控装置,包括处理器和存储器,其特征在于:所述存储器,设置为:保存程序代码;所述处理器,设置为:读取所述程序代码并执行以下处理:采集与需要监控的参数相关的历史数据,以所述历史数据为样本建立所述参数的预测模型;根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;采集所述参数的当前数据并与所述监控阈值界定的正常取值范围进行比较,根据比较结果进行报警处理。11.一种大数据计算服务的用户数据质量监控方法,包括:大数据计算平台从保存的用户数据中采集与需要监控的参数相关的历史数据,根据所述历史数据对所述参数的当前数据进行预测,得到预测结果;所述大数据计算平台采集所述参数的当前数据并与所述预测结果比较,根据比较结果进行用户数据质量的报警处理。12.如权利要求11所述的方法,其特征在于:所述大数据计算平台根据历史数据对所述参数的当前数据进行预测,得到预测结果,包括:以所述历史数据为样本建立所述参数的预测模型,根据所述预测模型对所述参数的当前数据进行预测,根据预测结果确定所述参数的监控阈值;所述大数据计算平台采集所述参数的当前数据并与所述预测结果比较,根据比较结果进行用户数据质量的报警处...
【专利技术属性】
技术研发人员:解敏,陈欢,范茸,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。