【技术实现步骤摘要】
线下导入数据的质量检测方法和装置
[0001]本专利技术涉及计算机
,尤其涉及一种线下导入数据的质量检测方法和装置。
技术介绍
[0002]在大数据时代,各行各业都建立了许多数据仓库系统,并积累了大量的数据。为了使数据能够有效地支持日常工作,人们对数据质量问题越来越重视。目前,多是采用通用的数据质量检测方法,例如使用Apache Griffin等数据质量监控软件,来进行数据质量检测。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]现有技术中多应用通用数据质量检测方法来进行数据质量检测,可适用于线上数据。但是对于线下导入的数据,由于其是通过人工处理后得到的,现有的数据质量监控软件提供的功能无法满足线下导入数据的质量检测的需要。
技术实现思路
[0005]有鉴于此,本专利技术实施例提供一种线下导入数据的质量检测方法和装置,能够结合线下数据的特点,选择合适的数据质量检测指标,满足线下导入数据的质量检测的需要,且能使得数据质量检测过程更为合理可控且检
【技术保护点】
【技术特征摘要】
1.一种线下导入数据的质量检测方法,其特征在于,包括:获取线下产生的待检测数据,所述待检测数据包括字段及对应的字段值;对第一字段及对应的字段值进行完整性检测,以得到所述待检测数据的完整率;将完整性检测后的数据进行有效性修复后,对第二字段及对应的字段值进行有效性检测,以得到所述待检测数据的有效率;有效性检测后,分别对第三字段及对应的字段值进行精确性检测和对第四字段及对应的字段值进行唯一性检测,以得到所述待检测数据的精确率和唯一率;根据所述待检测数据的完整率、有效率、精确率和唯一率,计算所述待检测数据的质量得分。2.根据权利要求1所述的方法,其特征在于,在将完整性检测后的数据进行有效性修复之前,还包括:根据指定的填充值对所述第一字段对应的字段值中的空值进行替换以进行完整性修复;以及,在完整性修复后将所述待检测数据的完整率修改为100%。3.根据权利要求1所述的方法,其特征在于,所述有效性修复包括:对完整性检测后的数据的所有字段对应的字段值,进行左右空格消除。4.根据权利要求1所述的方法,其特征在于,在对第三字段及对应的字段值进行精确性检测之前,还包括:确定所述第三字段所属的类型,并进行所述类型的精确性检测,其中,所述类型包括维度和事实。5.根据权利要求4所述的方法,其特征在于,若所述第三字段为维度字段,则精确性检测包括:对每个进行精确性检测的维度字段,分别计算所述维度字段的每个字段值与对应的指定维度字段的字段值之间的相似度;统计相似度小于设定相似度阈值的字段值数量在所述维度字段的字段值数量中所占的第一比例;将所有维度字段对应的第一比例的平均值作为维度精确度,以进行精确性检测。6.根据权利要求4所述的方法,其特征在于,若所述第三字段为事实字段,则精确性检测包括:对每个进行精确性检测的事实字段,统计所述事实字段的字段值中满足设定精度阈值的字段值数量在所述事实字段的字段值数量中所占的第二比例;将所有事实字段对应的第二比例的平均值作为事实精确度,以进行精确性检测。7.根据权利要求4所述的方法,其特征在于,若所述第三字段中既包括维度字段又包括事实字段,则...
【专利技术属性】
技术研发人员:王子璠,
申请(专利权)人:北京京东振世信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。