一种数据质量测量方法、装置及介质制造方法及图纸

技术编号:27685283 阅读:17 留言:0更新日期:2021-03-17 03:50
本申请公开了一种数据质量测量方法、装置及介质,其中该方法包括,预先存储各数据名称与各统计指标的对应关系,在识别待测量数据的数据名称后,根据该对应关系确定与目标数据名称对应的目标统计指标,并根据目标统计指标计算目标数据的指标值。由于预先存储有各数据名称与各统计指标的对应关系,故能够及时的选择与目标数据对应的统计指标,使得数据有固定的、详细的质量测量方法,即在同一时间段内的数据其质量检测结果相同,因此提高了数据分析的实时性,提高了数据质量测量结果的可靠性。此外,本申请还公开了一种数据质量测量装置及介质,与上述数据质量测量方法对应,效果同上。

【技术实现步骤摘要】
一种数据质量测量方法、装置及介质
本申请涉及数据质量管理
,特别是涉及一种数据质量测量方法、装置及介质。
技术介绍
随着大数据和互联网技术的广泛应用,对全球的金融业务产生了深刻的影响,尤其是企业征信。在企业征信系统中,数据的质量决定了征信系统评估能力的上限,但由于数据的质量参差不齐,严重降低了征信评估结果的准确性。目前,数据质量测量方法主要是通过数据分析师从数据的完整性、一致性和准确性三方面进行测量,由于数据分析师分析数据的速度缓慢,因此降低了数据分析的实时性。同时,由于不同的数据分析师对数据的完整性、一致性和准确性的界定存在差异,其分析的结果也存在差异,因此降低了数据质量测量结果的可靠性。由此可见,如何提高数据分析的实时性以及提高数据质量测量结果的可靠性是本领域技术人员亟待解决的问题。
技术实现思路
本申请的目的是提供一种数据质量测量方法,以便于提高数据分析的实时性,提高数据质量测量结果的可靠性。此外,本申请的目的是还提供一种数据质量测量装置及介质。为解决上述技术问题,本申请提供一种数据质量测量方法,包括:预先存储各数据名称与各统计指标的对应关系;识别待测量数据的数据名称;根据所述对应关系确定与目标数据名称对应的目标统计指标;根据所述目标统计指标计算所述目标数据的指标值。优选的,所述识别待测量数据的数据名称后,还包括:读取所述待测量数据的数据类型;根据所述数据名称对所述数据类型进行校正后,将各所述数据按所述数据类型分类;根据各所述数据类型与各所述统计指标的对应关系,确定对应的统计指标库;优选的,所述根据所述对应关系确定与目标数据名称对应的目标统计指标包括:根据各所述数据名称与所述统计指标库中的各统计指标的对应关系,确定所述目标统计指标;其中,所述统计指标库为所述数据名称所在的所述数据类型对应的统计指标库。优选的,所述根据所述对应关系确定与目标数据名称对应的目标统计指标具体为:在各所述数据名称与各预设方案存在对应关系的情况下,确定目标数据名称对应的目标预设方案;其中,所述预设方案中包含了与所述数据名称对应的统计指标;在各所述数据名称与各预设方案不存在对应关系的情况下,选取通用预设方案。优选的,根据所述目标统计指标计算所述目标数据的所述指标值具体为:根据所述目标预设方案或所述通用预设方案,计算所述目标数据的所述指标值。优选的,还包括:在所述指标值不符合预设要求的情况下,发送告警信号。优选的,所述预设要求包括:根据预设周期内各所述数据的指标值所确定的预警范围。优选的,所述预设要求包括:各所述统计指标的固定预警范围。为解决上述技术问题,本申请还提供一种数据质量测量装置,包括:存储模块,用于预先存储各数据名称与各统计指标的对应关系;识别模块,用于识别待测量数据的数据名称;第一确定模块,用于根据所述对应关系,确定与目标数据名称对应的目标统计指标;第一计算模块,用于根据所述目标统计指标计算所述目标数据的指标值。为解决上述技术问题,本申请还提供一种数据质量测量装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上所述的数据质量测量方法的步骤。为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据质量测量方法的步骤。本申请所提供的数据质量测量方法,预先存储各数据名称与各统计指标的对应关系,在识别待测量数据的数据名称后,根据该对应关系确定与目标数据名称对应的目标统计指标,并根据目标统计指标计算目标数据的指标值。由于预先存储有各数据名称与各统计指标的对应关系,故能够及时的选择与目标数据对应的统计指标,使得数据有固定的、详细的质量测量方法,即在同一时间段内的数据其质量检测结果相同,因此提高了数据分析的实时性,提高了数据质量测量结果的可靠性。此外,本申请提供的一种数据质量测量装置及介质,与上述数据质量测量方法对应,效果同上。附图说明为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种数据质量测量方法的流程图;图2为本申请实施例提供的另一种数据质量测量方法的流程图;图3为本申请实施例提供的一种确定目标统计指标的流程图;图4为本申请实施例提供的一种根据对应关系确定与目标数据名称对应的目标统计指标的流程图;图5为本申请实施例提供的一种数据质量测量装置的结构示意图;图6为本申请实施例提供的另一种数据质量测量装置的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。本申请的核心是提供一种数据质量测量方法,以便于提高数据分析的实时性,提高数据质量测量结果的可靠性。本申请的核心是还提供一种数据质量测量装置及介质。为了使本
的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。图1为本申请实施例提供的一种数据质量测量方法的流程图。如图1所示,该方法包括:S10:预先存储各数据名称与各统计指标的对应关系。本申请实施例中,统计指标包括总数量、缺失值、0值、最大单一值、最大值、最小值、中位数、众数、平均数中的一种或多种组合。其中,总数量具体是统计指定数据的非空计数,缺失值具体是统计指定数据空值的数量占总数量的比值,0值具体是统计指定数据0值的数量占总数量的比值,最大单一值具体是统计指定数据的单一值的数量占总数量的比值的最大占比,最大值具体是统计指定数据的最大值,最小值具体是统计指定数据的最小值,中位数具体是统计指定数据的中位数,众数具体是统计指定数据的众数,平均数具体是统计指定数据的平均数。S11:识别待测量数据的数据名称。识别待测量数据的数据名称的步骤具体包含两步,第一步:在将数据从关系数据库管理系统(Oracle)按周期同步至分布式大数据平台(Hadoop),并通过数据转化安装配置与基本操作命令(ApcheSqoop)构建异构数据同步工具,通过该工具完成数据从Oracle到Hadoop的存储,其中数据的存储格式与Hadoop的数据库的格式匹配即可。第二步:识别Hadoop中存储的数据(即待测量数据)的数据名称,其中需要说明的是,带测量数据中包含有多种数据名称。S12:根据对应关系确定本文档来自技高网
...

【技术保护点】
1.一种数据质量测量方法,其特征在于,包括:/n预先存储各数据名称与各统计指标的对应关系;/n识别待测量数据的数据名称;/n根据所述对应关系确定与目标数据名称对应的目标统计指标;/n根据所述目标统计指标计算所述目标数据的指标值。/n

【技术特征摘要】
1.一种数据质量测量方法,其特征在于,包括:
预先存储各数据名称与各统计指标的对应关系;
识别待测量数据的数据名称;
根据所述对应关系确定与目标数据名称对应的目标统计指标;
根据所述目标统计指标计算所述目标数据的指标值。


2.根据权利要求1所述的数据质量测量方法,其特征在于,所述识别待测量数据的数据名称后,还包括:
读取所述待测量数据的数据类型;
根据所述数据名称对所述数据类型进行校正后,将各所述数据按所述数据类型分类;
根据各所述数据类型与各所述统计指标的对应关系,确定对应的统计指标库;
所述根据所述对应关系确定与目标数据名称对应的目标统计指标包括:
根据各所述数据名称与所述统计指标库中的各统计指标的对应关系,确定所述目标统计指标;其中,所述统计指标库为所述数据名称所在的所述数据类型对应的统计指标库。


3.根据权利要求1所述的数据质量测量方法,其特征在于,所述根据所述对应关系确定与目标数据名称对应的目标统计指标具体为:
在各所述数据名称与各预设方案存在对应关系的情况下,确定目标数据名称对应的目标预设方案;其中,所述预设方案中包含了与所述数据名称对应的统计指标;
在各所述数据名称与各预设方案不存在对应关系的情况下,选取通用预设方案。


4.根据权利要求3所述的数据质量测量方法,其特征在于,根据所述目标统计指标...

【专利技术属性】
技术研发人员:许卫张帆何志坚赵彦晖耿心伟曾源
申请(专利权)人:深圳微众信用科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1