一种数据质量检测方法及装置制造方法及图纸

技术编号:21686938 阅读:32 留言:0更新日期:2019-07-24 14:53
本说明书提供一种数据质量检测方法及装置,通过对数据的质量特征属性信息的提取和属性划分,利用朴素贝叶斯分类器计算待检测数据存在质量问题的概率和不存在质量问题的概率。可以实现数据质量的快速、准确检测,不需要使用深度学习等复杂的计算模型,方法简单。并且,在获取数据的质量特征属性信息时加入了数据链路信息,可以实现数据上下游变动的监测,加入了链路管理,提高数据质量检测结果的准确性。

A Method and Device for Data Quality Detection

【技术实现步骤摘要】
一种数据质量检测方法及装置
本说明书属于数据质量管理
,尤其涉及一种数据质量检测方法及装置。
技术介绍
数据质量问题往往会影响模型构建的准确率和模型输出结果,数据质量的管理是数据建模、数据分析的一项关键技术。随着计算机和互联网技术的发展,数据量也在不断的增加,如何快速准确的检测出大量的数据中是否存在问题的数据是一项比较重要的技术。现有技术中,往往是基于检测规则进行数据质量的检测,如:对掉0、非空、数据变化趋势的监测。现有技术进行数据质量的检测通常需要人工参与决策,或是无法准确定位到数据质量问题,影响数据质量检测结果的准确性。
技术实现思路
本说明书目的在于提供一种数据质量检测方法及装置,提高了数据质量检测的准确性。一方面本说明书实施例提供了一种数据质量检测方法,包括:获取待检测数据的质量特征属性信息,所述质量特征属性信息包括数据链路信息;确定所述质量特征属性信息对应的属性划分区间;根据所述属性划分区间,利用构建的朴素贝叶斯分类器计算所述待检测数据存在质量问题的概率和所述待检测数据不存在质量问题的概率;根据所述存在质量问题的概率和所述不存在质量问题的概率,确定所述待检测数据是否存在质本文档来自技高网...

【技术保护点】
1.一种数据质量检测方法,包括:获取待检测数据的质量特征属性信息,所述质量特征属性信息包括数据链路信息;确定所述质量特征属性信息对应的属性划分区间;根据所述属性划分区间,利用构建的朴素贝叶斯分类器计算所述待检测数据存在质量问题的概率和所述待检测数据不存在质量问题的概率;根据所述存在质量问题的概率和所述不存在质量问题的概率,确定所述待检测数据是否存在质量问题。

【技术特征摘要】
1.一种数据质量检测方法,包括:获取待检测数据的质量特征属性信息,所述质量特征属性信息包括数据链路信息;确定所述质量特征属性信息对应的属性划分区间;根据所述属性划分区间,利用构建的朴素贝叶斯分类器计算所述待检测数据存在质量问题的概率和所述待检测数据不存在质量问题的概率;根据所述存在质量问题的概率和所述不存在质量问题的概率,确定所述待检测数据是否存在质量问题。2.如权利要求1所述的方法,所述数据链路信息包括:上游数据量增长比例、上游数据指标变动比例、下游数据指标变动比例、日志数据中的异常情况、链路调度情况中的至少一种。3.如权利要求1所述的方法,所述朴素贝叶斯分类器采用下述方法进行构建:设置数据质量类别;确定质量特征属性信息,对所述质量特征属性信息进行属性区间划分;获取样本数据,所述样本数据中包括相同数据链路中存在质量问题的数据和不存在质量问题的数据;计算所述样本数据中各数据质量类别对应的频率;计算所述样本数据中每个数据质量类别条件下,各个质量特征属性信息对应的各个属性划分区间的频率,完成所述朴素贝叶斯分类器的构建。4.如权利要求3所述的方法,所述方法还包括:采用回归测试方法对所述朴素贝叶斯分类器进行准确率评估。5.如权利要求3所述的方法,所述方法还包括:将所述样本数据划分为构建样本数据和测试样本数据;采用所述构建样本数据构建所述朴素贝叶斯分类器;采用所述测试样本数据对构建的所述朴素贝叶斯分类器进行准确率评估。6.如权利要求1所述的方法,所述根据所述存在质量问题的概率和所述不存在质量问题的概率,确定所述待检测数据是否存在质量问题,包括:若所述存在质量问题的概率大于样本问题数据比例,或所述不存在质量问题到的概率小于样本正常数据比例,则确定所述待检测数据存在质量问题,进行质量预警;其中,所述样本问题数据比例表示构建所述朴素贝叶斯分类器使用的样本数据中存在质量问题的数据比例;所述样本正常数据比例表示构建所述朴素贝叶斯分类器使用的样本数据中不存在质量问题的数据比例。7.一种数据质量检测装置,包括:质量属性获取模块,用于获取待检测数据的质量特征属性信息,所述质量特征属性信息包括数据链路信息;属性区间确定模块,用于确定所述质量特征属性信息对应的属性划分区间;概率计算...

【专利技术属性】
技术研发人员:游紫微
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1