大数据离线数据质量检查方法及装置制造方法及图纸

技术编号:26259230 阅读:17 留言:0更新日期:2020-11-06 17:53
本发明专利技术公开一种大数据离线数据质量检查方法及装置,涉及大数据技术领域,对运行在Hive数据仓库上面的数据进行质量检查,推动数据质量的提升。该方法包括:基于数据质量检查系统中预设的检查规则配置检查语句;将检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行检查语句并从数据仓库中获取检查结果;数据质量检查系统同步检测结果,同时向用户可视化展示。该装置应用有上述方案所述的方法。

【技术实现步骤摘要】
大数据离线数据质量检查方法及装置
本专利技术涉及大数据
,尤其涉及一种大数据离线数据质量检查方法及装置。
技术介绍
为了保证数据仓库中数据的正确性和完整性,确保数据在抽取、传输、整合、加载、分析等各个环节不失真及准确表达,并为逐步修正和改善各业务系统中的数据质量、加强业务操作规范化管理等提供依据,数据质量检查是数据仓库建设中必不可少的重要组成部分。缺乏数据质量检查将造成用户对数据不认可、对数据缺少信任、增加构建数据仓库的难度等后果。在数据仓库建设过程中,数据质量检查需要从源数据分析开始,自始至终全程贯彻落实,并要求得到数据仓库的全体开发人员、管理人员及相关业务人员的积极参与,使各方对数据质量有一个合理的预期和客观的评价,提高数据仓库的使用率和可信度,更好地为决策分析提供服务。
技术实现思路
本专利技术的目的在于提供一种大数据离线数据质量检查方法及装置,对运行在Hive数据仓库上面的数据进行质量检查,推动数据质量的提升。为了实现上述目的,本专利技术的第一方面提供一种大数据离线数据质量检查方法,包括:基于数据质量检查系统中预设的检查规则配置检查语句;将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;数据质量检查系统同步所述检测结果,同时向用户可视化展示。优选地,数据质量检查系统中预设的检查规则包括:数据及时性检查规则、字段非空检查规则、字段值域检查规则、字段唯一性检查规则、字段数据长度检查规则、字段特定值占比检查规则、数据量同比检查规则、数据量环比检查规则、记录数一致性检查规则、数据子集检查规则中的一种或多种。较佳地,基于数据质量检查系统中预设的检查规则配置检查语句的方法包括:根据检测需求在数据质量检查系统中选择对应的检查规则,并配置检测参数;基于所选的检查规则和配置的检测参数,自动生成SQL检查语句。进一步地,在步骤将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果之前还进行以下配置参数设置:通过数据质量检查系统中的工作流配置模块,设置检查语句在大数据平台上的定时执行时间;通过数据质量检查系统中的预定义参数配置模块,对检查语句中的检测参数做定期更新;通过数据质量检查系统中的源系统配置模块,设置数据仓库中待查数据的归属系统并关联对应责任人;通过数据质量检查系统中的告警原因配置模块,预设多种产生数据质量问题原因的分类。优选地,将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果的方法包括:通过大数据平台将检查语句和配置参数同步到配置表中,由大数据平台的程序脚本定时执行相应的检查语句对数据仓库的数据执行筛检;利用大数据平台把检查结果中的合格数据记录到结果表中,把检查结果中的异常数据记录到异常表中。较佳地,数据质量检查系统同步所述检测结果,同时向用户可视化展示的方法包括:数据质量检查系统同步结果表和异常表,并根据数据质量问题原因的分类对异常表中的问题数据进行归类;根据结果表和异常表进行指标计算分析,并将指标计算分析的结果以图表形式向用户展示,所述指标包括数据仓库中被检测数据的及时性指标和准确性指标。进一步地,数据质量检查系统同步所述检测结果,同时向用户可视化展示之后还包括:数据质量检查系统将问题数据及其归类结果向相关责任人告警,以提醒相关责任人及时处理该问题数据。与现有技术相比,本专利技术提供的大数据离线数据质量检查方法具有以下有益效果:考虑到现有大数据平台之上的数据仓库限制了底层数据直接被连接获取的权限,本专利技术采取构建数据质量检查系统的方案,通过调用大数据平台提供的相关组件功能实现数据交换,使得在数据质量检查系统配置完成的检查语句能够同步至大数据平台的配置表中,然后由大数据平台的程序脚本执行检查语句并从数据仓库中获取检查结果,最后由数据质量检查系统同步检测结果,实现向用户的可视化展示。可见,本专利技术方案检查语句的配置在数据质量检查系统中操作,检查语句的执行在大数据平台中运行,通过将检查语句的配置与运行分离设计,使得数据质量检测的适用场景更广阔、扩增性能也得到了提升,能够灵活对数据仓库中的离线数据进行大规模检测,推动了数据质量的提升,提高了数据的可用性。本专利技术的第二方面提供一种大数据离线数据质量检查装置,应用于上述技术方案所述的大数据离线数据质量检查方法中,所述装置包括:配置单元,基于数据质量检查系统中预设的检查规则配置检查语句;检查执行单元,用于将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;结果显示单元,利用数据质量检查系统同步所述检测结果,同时向用户可视化展示。优选地,还包括:告警提醒单元,用于将问题数据及其归类结果向相关责任人告警,以提醒相关责任人及时处理该问题数据。与现有技术相比,本专利技术提供的大数据离线数据质量检查装置的有益效果与上述技术方案提供的大数据离线数据质量检查方法的有益效果相同,在此不做赘述。本专利技术的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述大数据离线数据质量检查方法的步骤。与现有技术相比,本专利技术提供的计算机可读存储介质的有益效果与上述技术方案提供的大数据离线数据质量检查方法的有益效果相同,在此不做赘述。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例一中大数据离线数据质量检查方法的流程示意图;图2为本专利技术实施例一中数据质量检查系统的系统框架图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本专利技术保护的范围。实施例一请参阅图1,本实施例提供一种大数据离线数据质量检查方法,包括:基于数据质量检查系统中预设的检查规则配置检查语句;将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;数据质量检查系统同步所述检测结果,同时向用户可视化展示。考虑到现有大数据平台之上的数据仓库限制了底层数据直接被连接获取的权限,本实施例采取构建数据质量检查系统的方案,通过调用大数据平台提供的相关组件功能实现数据交换,使得在数据质量检查系统配置完成的检查语句能够同本文档来自技高网...

【技术保护点】
1.一种大数据离线数据质量检查方法,其特征在于,包括:/n基于数据质量检查系统中预设的检查规则配置检查语句;/n将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;/n数据质量检查系统同步所述检测结果,同时向用户可视化展示。/n

【技术特征摘要】
1.一种大数据离线数据质量检查方法,其特征在于,包括:
基于数据质量检查系统中预设的检查规则配置检查语句;
将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果;
数据质量检查系统同步所述检测结果,同时向用户可视化展示。


2.根据权利要求1所述的方法,其特征在于,数据质量检查系统中预设的检查规则包括:
数据及时性检查规则、字段非空检查规则、字段值域检查规则、字段唯一性检查规则、字段数据长度检查规则、字段特定值占比检查规则、数据量同比检查规则、数据量环比检查规则、记录数一致性检查规则、数据子集检查规则中的一种或多种。


3.根据权利要求2所述的方法,其特征在于,基于数据质量检查系统中预设的检查规则配置检查语句的方法包括:
根据检测需求在数据质量检查系统中选择对应的检查规则,并配置检测参数;
基于所选的检查规则和配置的检测参数,自动生成SQL检查语句。


4.根据权利要求1-3任一项所述的方法,其特征在于,在步骤将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执行所述检查语句并从数据仓库中获取检查结果之前还进行以下配置参数设置:
通过数据质量检查系统中的工作流配置模块,设置检查语句在大数据平台上的定时执行时间;
通过数据质量检查系统中的预定义参数配置模块,对检查语句中的检测参数做定期更新;
通过数据质量检查系统中的源系统配置模块,设置数据仓库中待查数据的归属系统并关联对应责任人;
通过数据质量检查系统中的告警原因配置模块,预设多种产生数据质量问题原因的分类。


5.根据权利要求4所述的方法,其特征在于,将所述检查语句同步至大数据平台的配置表中,由大数据平台的程序脚本执...

【专利技术属性】
技术研发人员:赵旭晖张侦
申请(专利权)人:苏宁金融科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1