适用于海量数据的数据质量分析方法、装置、终端及介质制造方法及图纸

技术编号:24206114 阅读:36 留言:0更新日期:2020-05-20 14:44
本申请提供适用于海量数据的数据质量分析方法、装置、终端及介质,本发明专利技术实现了高度的自动化,用户在发起质量分析任务时,只需指定外部数据源,勾选所需的质量指标,并选取输出报告的形式,便可自动获取数据质量分析报告,极大程度地降低了人力成本和时间成本,进而极大地提升了数据工作的效率。此外,本发明专利技术的输出报告具有友好的用户界面,质量报告的类型既有适用于数据开发人员的文字形式,也有面向业务人员的图形格式,不同类型的用户,可以根据各自的需求和偏好做出选择。

Data quality analysis methods, devices, terminals and media for massive data

【技术实现步骤摘要】
适用于海量数据的数据质量分析方法、装置、终端及介质
本申请涉及数据质量分析
,特别是涉及适用于海量数据的数据质量分析方法、装置、终端及介质。
技术介绍
近年以来,随着大数据和人工智能的发展,作为这些先进数据科技的基础资源,用户对原始数据的需求越来越普遍和频繁。在对原始数据进行采集、整合、清洗、转化、应用等过程中,质量不高的数据会对数据仓库的建设以及后续的大数据分析和应用产生极为负面的影响。因此,如何从海量的原始数据中,筛选出可靠的高质量的数据,用于大数据分析及应用,也就成为数据科学中的一个难点。在传统的较小量级的数据质量分析中,通常会采用人工方式来进行处理,例如在数据库客户端对每个数据表和字段执行数据查询和统计,或者将待分析的原始数据导入Excel等表格工具中,应用其内置的公式来进行统计分析。从数据集的角度来说,海量原始数据,每个数据集的大小往往都在亿级及以上,而Excel表格的数据容量,仅仅只在百万级别,其数据量级远不能满足大规模数据质量分析的需要。从数据表和字段的角度来说,大数据应用所对应的原始数据,往往来源于十几个甚至几十个业务数据库,涉及成百上千个数据表、成千上万个数据字段,使用人工查询统计或公式分析,需要花费的人力和时间资源难以估量,这对于任何大数据项目的实施来说,是不可接受的。因此,本领域亟需一种能够自动对海量数据进行数据质量分析并输出分析结果的技术解决方案。申请内容鉴于以上所述现有技术的缺点,本申请的目的在于提供适用于海量数据的数据质量分析方法、装置、终端及介质,用于解决现有技术中的问题。为实现上述目的及其他相关目的,本申请的第一方面提供一种适用于海量数据的数据质量分析方法,其包括:通过元数据管理系统获取待分析的数据源;读取所述待分析的数据源的元数据描述信息;根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。于本申请的第一方面的一些实施例中,所述通过元数据管理系统获取待分析的数据源,其包括:从一或多类源数据库中获取待分析的源数据的数据描述信息;其中,所述源数据库包括Oracle源、MySQL源、SQLServer源及Excel源中的任意一种或多种的组合;所述数据描述信息包括源数据的库、表、字段信息。于本申请的第一方面的一些实施例中,获取数据质量评价指标的用户选择信息,其中的数据质量评价指标包括:数据完整性评价指标、数据准确性评价指标、数据有效性评价指标、数据时效性评价指标以及数据一致性评价指标中的任意一种或多种的组合。于本申请的第一方面的一些实施例中,所述根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类,其包括:根据读取到的元数据描述信息中的字段信息,将待分析的数据源分为数值型数据、文本型数据或者日期型数据。于本申请的第一方面的一些实施例中,所述获取输出形式的用户选择信息,其中的输出形式包括以数据形式输出数据质量分析结果和/或以图形形式输出数据质量分析结果。于本申请的第一方面的一些实施例中,所述以数据形式输出数据质量分析结果,包括输出全部数据的汇总统计结果和/或输出全部数据中的高占比数据。于本申请的第一方面的一些实施例中,所述元数据管理系统包括:数据源登记模块,用于将数据源的基本信息登记入库;异构数据源字典获取模块,用于根据所述数据源登记模块所登记的数据源基本信息,获取多种异构数据源系统字典;梳理加工模块,用于对所述数据源系统字典进行梳理,以确定需要采集的表和字段;源数据质量分析模块,用于对待分析的数据源进行质量分析;源文档生成模块,用于根据所述梳理加工模块梳理的数据源系统字典,生成源系统字典文档和现有数据源现状调研报告文档;源表结构一致性检查模块,用于定期扫描数据源系统字典,并在发现系统结构产生变化时生成对应的结构差异报告。为实现上述目的及其他相关目的,本申请的第二方面提供一种适用于海量数据的数据质量分析装置,其包括:数据源获取模块,用于通过元数据管理系统获取待分析的数据源;元数据描述信息读取模块,用于读取所述待分析的数据源的元数据描述信息;分类模块,用于根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;质量评估脚本生成模块,用于获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;质量评估报告输出模块,用于获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。为实现上述目的及其他相关目的,本申请的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述适用于海量数据的数据质量分析方法。为实现上述目的及其他相关目的,本申请的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述适用于海量数据的数据质量分析方法。如上所述,本申请的适用于海量数据的数据质量分析方法、装置、终端及介质,具有以下有益效果:本专利技术实现了高度的自动化,用户在发起质量分析任务时,只需指定外部数据源,勾选所需的质量指标,并选取输出报告的形式,便可自动获取数据质量分析报告,极大程度地降低了人力成本和时间成本,进而极大地提升了数据工作的效率。此外,本专利技术的输出报告具有友好的用户界面,质量报告的类型既有适用于数据开发人员的文字形式,也有面向业务人员的图形格式,不同类型的用户,可以根据各自的需求和偏好做出选择。附图说明图1显示为本申请一实施例中的适用于海量数据的数据质量分析方法的流程示意图。图2A显示为本申请一实施例中的源元数据管理系统的结构示意图。图2B显示为本申请一实施例中的源元数据管理系统的结构示意图。图3显示为本申请一实施例中的适用于海量数据的数据质量分析装置的结构示意图。图4显示为本申请一实施例中电子终端的结构示意图。具体实施方式以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”本文档来自技高网...

【技术保护点】
1.一种适用于海量数据的数据质量分析方法,其特征在于,包括:/n通过元数据管理系统获取待分析的数据源;/n读取所述待分析的数据源的元数据描述信息;/n根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;/n获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;/n获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。/n

【技术特征摘要】
1.一种适用于海量数据的数据质量分析方法,其特征在于,包括:
通过元数据管理系统获取待分析的数据源;
读取所述待分析的数据源的元数据描述信息;
根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类;
获取数据质量评价指标的用户选择信息,据以生成对应的数据质量评估脚本;
获取输出形式的用户选择信息,据以输出对应形式的质量评估报告。


2.根据权利要求1所述的方法,其特征在于,所述通过元数据管理系统获取待分析的数据源,其包括:
从一或多类源数据库中获取待分析的源数据的数据描述信息;其中,所述源数据库包括Oracle源、MySQL源、SQLServer源及Excel源中的任意一种或多种的组合;所述数据描述信息包括源数据的库、表、字段信息。


3.根据权利要求1所述的方法,其特征在于,获取数据质量评价指标的用户选择信息,其中的数据质量评价指标包括:数据完整性评价指标、数据准确性评价指标、数据有效性评价指标、数据时效性评价指标以及数据一致性评价指标中的任意一种或多种的组合。


4.根据权利要求1所述的方法,其特征在于,所述根据所述元数据描述信息中的字段信息,对所述待分析的数据源进行分类,其包括:
根据读取到的元数据描述信息中的字段信息,将待分析的数据源分为数值型数据、文本型数据或者日期型数据。


5.根据权利要求1所述的方法,其特征在于,所述获取输出形式的用户选择信息,其中的输出形式包括以数据形式输出数据质量分析结果和/或以图形形式输出数据质量分析结果。


6.根据权利要求5所述的方法,其特征在于,所述以数据形式输出数据质量分析结果,包括输出全部数据的汇总统计结果和/或输出全部数据中的高占比数据。<...

【专利技术属性】
技术研发人员:张嘉锐孙虎徐旻昕袁晓夏刘晋元崔丽春吴洁李敏王茜赵燕
申请(专利权)人:上海科技发展有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1