一种数据质量检测方法及装置制造方法及图纸

技术编号:20160331 阅读:46 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种数据质量检测方法及装置,所述方法包括:针对待检测数据集合中的每个检测字段,根据检测字段预先设置的每个属性值区间,及待检测数据集合中每个数据的检测字段的属性值,确定属性值位于检测字段的每个属性值区间的数据的第一数量;根据每个属性值区间对应数据的第一数量与待检测数据集合中数据的第一总数量的比值,确定每个属性值区间对应的当前占比;并根据每个属性值区间对应的当前占比与保存的属性值区间对应的历史占比,确定的每个属性值区间对应的子波动值的和,确定检测字段的波动值,并在波动值小于设定的波动阈值时,确定待检测数据集合在检测字段的质量达标。用以提供一种从数据的稳定性出发,确定数据质量的方案。

【技术实现步骤摘要】
一种数据质量检测方法及装置
本专利技术涉及大数据科学
,尤其涉及一种数据质量检测方法及装置。
技术介绍
随着信息化的高速发展,大数据应运而生,大数据指的是一种规模达到在获取、存储、管理、分析等方面大大超出了传统数据库软件工具能力范围的数据集合,通过对大数据进行分析,可以为企业的决策等提供强有力的支持。目前大数据不仅成为各大互联网公司的战略方向,其它行业也开始探索大数据,但是伴随大数据而来的数据质量问题也比传统数据库中的问题要严峻的多。大数据每天有拍字节(petabyte,PB)级别的数据计算量,如果无法对数据质量进行检测,错误的采用低劣的数据可能会导致对数据的利用出现错误,企业决策出现偏差等问题,企业不得不投入大量的资源来弥补采用低劣的数据产生的问题,因此数据质量检测对数据的应用至关重要。然而,现有数据质量检测方案通常对数据集合中的数据进行缺失值、异常值及规范性的检测,无法对数据集合中数据的稳定性进行检测,例如:针对性别字段,历史数据集合中男女性别比例为1:1,待检测数据集合中男女性别比例为100:1,待检测数据集合中男女比例较历史数据集合中男女比例存在较大的波动,待检测数据集本文档来自技高网...

【技术保护点】
1.一种数据质量检测方法,其特征在于,所述方法包括:针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量;针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值;针对待检测数据集合中的每个检测字...

【技术特征摘要】
1.一种数据质量检测方法,其特征在于,所述方法包括:针对待检测数据集合中的每个检测字段,根据所述检测字段预先设置的每个属性值区间,及所述待检测数据集合中每个数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的数据的第一数量;针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应数据的第一数量与所述待检测数据集合中数据的第一总数量的比值,确定所述检测字段的每个属性值区间对应的当前占比;并针对所述检测字段的每个属性值区间,根据所述属性值区间对应的当前占比与保存的所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值;针对待检测数据集合中的每个检测字段,根据所述检测字段的每个属性值区间对应的子波动值的和,确定所述检测字段的波动值,并判断所述检测字段的波动值是否小于设定的波动阈值;如果是,确定所述待检测数据集合在所述检测字段的质量达标。2.如权利要求1所述的方法,其特征在于,所述根据所述属性值区间对应的当前占比与所述属性值区间对应的历史占比,确定所述属性值区间对应的子波动值包括:根据S=(X-Y)*ln(X/Y)确定属性值区间对应的子波动值,其中S为属性值区间对应的子波动值,X为属性值区间对应的当前占比,Y为属性值区间对应的历史占比。3.如权利要求1所述的方法,其特征在于,针对所述检测字段预先设置每个属性值区间的过程包括:识别所述检测字段是否为分类型字段;如果是,将所述检测字段对应的每个分类类别作为一个属性值区间;如果否,对所述检测字段对应的取值范围进行等宽分箱,将每个分箱对应的子取值范围作为一个属性值区间,其中,分箱的数量为至少两个。4.如权利要求1所述的方法,其特征在于,确定所述检测字段的每个属性值区间对应的历史占比包括:根据预设的抽样比例,从历史数据集合中抽取所述抽样比例的样本数据生成历史样本数据集合;并根据所述历史样本数据集合中每个样本数据的所述检测字段对应的属性值,确定属性值位于所述检测字段的每个属性值区间的样本数据的第二数量;针对所述检测字段的每个属性值区间,根据所述属性值区间对应样本数据的第二数量与所述历史样本数据集合中样本数据的第二总数量的比值,确定所述属性值区间对应的历史占比。5.如权利要求1所述的方法,其特征在于,如果所述检测字段的波动值不小于设定的波动阈值,所述方法还包括:将所述待检测数据集合的所述检测字段标记为...

【专利技术属性】
技术研发人员:曾伟雄莫卉星刘晓东
申请(专利权)人:蜜小蜂智慧北京科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1