【技术实现步骤摘要】
一种数据质量检测方法及装置
本专利技术涉及大数据科学
,尤其涉及一种数据质量检测方法及装置。
技术介绍
随着信息化的高速发展,大数据应运而生,大数据指的是一种规模达到在获取、存储、管理、分析等方面大大超出了传统数据库软件工具能力范围的数据集合,通过对大数据进行分析,可以为企业的决策等提供强有力的支持。目前大数据不仅成为各大互联网公司的战略方向,其它行业也开始探索大数据,但是伴随大数据而来的数据质量问题也比传统数据库中的问题要严峻的多。数据质量检测是数据分析的前提和基础,因此能从不同方面对数据质量进行检测显得尤为重要,现有数据质量检测主要是对数据集合中数据的完整性、有效性等进行检测,并没有考虑到数据自身所表示的实际意义,只是从数据的完整性、有效性等浅层次对数据的质量进行检测,不能反映数据内在的实际意义的质量,因此急需一种能够反映数据内在实际意义的质量的数据质量检测方案。
技术实现思路
本专利技术提供一种数据质量检测方法及装置,用以解决现有技术不能反映数据内在实际意义的质量的问题。第一方面,本专利技术公开了一种数据质量检测方法,所述方法包括:针对待检测数据集合中每个 ...
【技术保护点】
1.一种数据质量检测方法,其特征在于,所述方法包括:针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。
【技术特征摘要】
1.一种数据质量检测方法,其特征在于,所述方法包括:针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量;针对待检测数据集合中每个检测字段,确定该检测字段对应不满足逻辑关系的数据的数量与所述待检测数据集合中数据的总数量的比值,并判断该检测字段对应的比值是否小于设定的阈值;如果是,确定所述待检测数据集合在该检测字段的质量达标。2.如权利要求1所述的方法,其特征在于,所述根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,所述方法还包括:去除所述待检测数据集合中在该检测字段存在缺失值的数据。3.如权利要求1所述的方法,其特征在于,如果该检测字段对应的比值不小于设定的阈值,所述方法还包括:将所述待检测数据集合的该检测字段标记为存在逻辑问题,并发出告警信息。4.如权利要求1所述的方法,其特征在于,所述针对待检测数据集合中每个检测字段,根据该检测字段的属性值,及预设的与该检测字段存在逻辑关系的至少一个目标字段的属性值,确定所述待检测数据集合中该检测字段的属性值与所述至少一个目标字段的属性值不满足所述逻辑关系的数据的数量之前,所述方法还包...
【专利技术属性】
技术研发人员:曾伟雄,
申请(专利权)人:蜜小蜂智慧北京科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。