数据质量管理方法、装置、电子设备、存储介质制造方法及图纸

技术编号:20992543 阅读:27 留言:0更新日期:2019-04-29 22:32
本发明专利技术提供一种数据仓库的数据质量管理方法、装置、电子设备、存储介质,数据仓库的数据质量管理方法包括:配置管理步骤,管理不同类别的账户并配置数据仓库的建表规则;预防管理步骤,提供公共指标的数据口径,并根据所配置的建表规则校验建表语句;监控报警步骤,在关联数据仓库的数据表的任务执行时,监控所述数据仓库中数据源的变更、监控该任务的执行状态、根据预配置的数据表的数据质量规则检验所述数据表,并根据监控的数据质量事件向不同类别的账户报警;以及分析统计步骤,记录并统计所述数据质量事件的数据。本发明专利技术提供方法及装置改善数据仓库的数据质量管理。

Data Quality Management Method, Device, Electronic Equipment, Storage Media

The invention provides a data quality management method, device, electronic equipment and storage medium of a data warehouse. The data quality management method of a data warehouse includes: configuration management steps, management of different types of accounts and configuration of data warehouse table building rules; preventive management steps, providing data calibre of common indicators, and checking table building statements according to the configured table building rules; Monitoring alarm steps: monitoring the changes of data sources in the data warehouse, monitoring the status of the task, checking the data tables according to the data quality rules of the pre-configured data tables, and alarming different types of accounts according to the data quality events monitored; and analyzing the statistical steps, recording and counting the number mentioned. Data from quality events. The invention provides a method and device for improving data quality management of data warehouse.

【技术实现步骤摘要】
数据质量管理方法、装置、电子设备、存储介质
本专利技术涉及计算机应用
,尤其涉及一种数据仓库的数据质量管理方法、装置、电子设备、存储介质。
技术介绍
在互联网的不同业务场景下,不同的数据流入数据仓库。一方面,这些数据分布在各个系统、各类数据库中。并且这些业务和数据源也在快速变化。另一方面,数据仓库作为公司的基础设施,支撑了运营、风控、各类大数据匹配算法等核心业务。数据质量尤为关键。现有的数据质量管理工具都非常局限,没有从事前预防,事中告警和事后分析做到数据质量管理的闭环,很多现有的工具缺失了影响数据质量的核心流程管理,比如数据仓库上线流程的管理。
技术实现思路
本专利技术为了克服上述相关技术存在的缺陷,提供一种数据仓库的数据质量管理方法、装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。根据本专利技术的一个方面,提供一种数据仓库的数据质量管理方法,包括:配置管理步骤,管理不同类别的账户并配置数据仓库的建表规则;预防管理步骤,提供公共指标的数据口径,并根据所配置的建表规则校验建表语句;监控报警步骤,在关联数据仓库的数据表的任务执行时,监控所述数据仓库中数据源的变更、监控该任务的执行状态、根据预配置的数据表的数据质量规则检验所述数据表,并根据监控的数据质量事件向不同类别的账户报警;以及分析统计步骤,记录并统计所述数据质量事件的数据。可选地,所述提供公共指标的数据口径包括:提供公共指标的业务口径,所述业务口径根据业务定义该公共指标;提供公共指标的技术口径,所述技术口径根据技术定义该公共指标;提供包含该公共指标的宽表。可选地,所述不同类别的账户包括第一类账户和第二类账户,所述数据表的数据质量规则由第一类账户配置,所述第二类账户接收所述数据质量事件的报警。可选地,根据所述数据质量事件的等级,通过不同等级的通信方式向所述第二类账户报警。可选地,所述不同等级的通信方式包括电话通信、通信软件通信及邮件通信。可选地,所述记录并统计所述数据质量事件的数据包括:监控所述数据质量事件的状态;统计所述数据质量事件的数据并提供图表化显示。可选地,所述记录并统计所述数据质量事件的数据包括:记录所述第二类账户处理所述数据质量事件时,录入的所述数据质量事件的影响数据、所述数据质量事件的解决方式及所述数据质量事件的解决事件;自动获取所述数据质量事件的发生时间、事件等级、事件类型、关联该数据质量时间的第一类账户;根据记录的及获取的数据对数据质量时间进行统计并以提供图表化显示。根据本专利技术的又一方面,还提供一种数据仓库的数据质量管理装置,包括:配置管理模块,用于管理不同类别的账户并配置数据仓库的建表规则;预防管理模块,用于提供公共指标的数据口径,并根据所配置的建表规则校验建表语句;监控报警模块,用于在关联数据仓库的数据表的任务执行时,监控所述数据仓库中数据源的变更、监控该任务的执行状态、根据预配置的数据表的数据质量规则检验所述数据表,并根据监控的数据质量事件向不同类别的账户报警;以及分析统计模块,用于记录并统计所述数据质量事件的数据。根据本专利技术的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。根据本专利技术的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。相比现有技术,本专利技术的优势在于:本专利技术通过在与数据仓库内的数据关联的任务执行前、执行中和执行后对数据仓库进行完整的数据质量管理,且各阶段的数据质量管理紧耦合,不仅可以减少数据质量问题,同时还可以对数据质量问题进行闭环的监控、记录和统计,进一步优化数据仓库的数据质量管理,由此,本专利技术可以在互联网业务和数据源快速变化的场景下,通过覆盖数据仓库开发的核心流程和数据质量管理的关键环节,一站式解决数据仓库数据质量问题。附图说明通过参照附图详细描述其示例实施方式,本专利技术的上述和其它特征及优点将变得更加明显。图1示出了根据本专利技术实施例的数据仓库的数据质量管理方法的流程图。图2示出了根据本专利技术实施例的数据仓库的数据质量管理装置的示意图。图3示出了根据本专利技术实施例的数据仓库的数据质量管理系统的示意图。图4示意性示出本专利技术示例性实施例中一种计算机可读存储介质示意图。图5示意性示出本专利技术示例性实施例中一种电子设备示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本专利技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。此外,附图仅为本专利技术的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。图1示出了根据本专利技术实施例的数据仓库的数据质量管理方法的流程图。参考图1,所述数据仓库的数据质量管理方法包括如下步骤:步骤S110:配置管理步骤,管理不同类别的账户并配置数据仓库的建表规则;步骤S120:预防管理步骤,提供公共指标的数据口径,并根据所配置的建表规则校验建表语句;步骤S130:监控报警步骤,在关联数据仓库的数据表的任务执行时,监控所述数据仓库中数据源的变更、监控该任务的执行状态、根据预配置的数据表的数据质量规则检验所述数据表,并根据监控的数据质量事件向不同类别的账户报警;以及步骤S140:分析统计步骤,记录并统计所述数据质量事件的数据。在本专利技术的示例性实施方式的数据仓库的数据质量管理方法中,通过在与数据仓库内的数据关联的任务执行前、执行中和执行后对数据仓库进行完整的数据质量管理,且各阶段的数据质量管理紧耦合,不仅可以减少数据质量问题,同时还可以对数据质量问题进行闭环的监控、记录和统计,进一步优化数据仓库的数据质量管理,由此,本专利技术可以在互联网业务和数据源快速变化的场景下,通过覆盖数据仓库开发的核心流程和数据质量管理的关键环节,一站式解决数据仓库数据质量问题。具体而言,步骤S110:配置管理步骤,管理不同类别的账户并配置数据仓库的建表规则中,不同类别的账户至少包括第一类账户和第二类账户。在本实施例中,第一类账户可以是数据仓库的数据表的负责人员账户,负责人员账户例如可以是建表账户、数据表关联的任务的负责账户等等。第二类账户可以是值班人员账户。值班人员在数据仓库出现问题时进行处理的人员。在一些实施例中,可以手动分配数据表和数据任务关联的责任人账户,或自动从系统中获取数据表和数据任务关联的责任人账户,由此,便于确定后续步骤中的报警对象及数据统计对象等。在一些实施例中,可以配置或自动分配数据仓库每天本文档来自技高网...

【技术保护点】
1.一种数据仓库的数据质量管理方法,其特征在于,包括:配置管理步骤,管理不同类别的账户并配置数据仓库的建表规则;预防管理步骤,提供公共指标的数据口径,并根据所配置的建表规则校验建表语句;监控报警步骤,在关联数据仓库的数据表的任务执行时,监控所述数据仓库中数据源的变更、监控该任务的执行状态、根据预配置的数据表的数据质量规则检验所述数据表,并根据监控的数据质量事件向不同类别的账户报警;以及分析统计步骤,记录并统计所述数据质量事件的数据。

【技术特征摘要】
1.一种数据仓库的数据质量管理方法,其特征在于,包括:配置管理步骤,管理不同类别的账户并配置数据仓库的建表规则;预防管理步骤,提供公共指标的数据口径,并根据所配置的建表规则校验建表语句;监控报警步骤,在关联数据仓库的数据表的任务执行时,监控所述数据仓库中数据源的变更、监控该任务的执行状态、根据预配置的数据表的数据质量规则检验所述数据表,并根据监控的数据质量事件向不同类别的账户报警;以及分析统计步骤,记录并统计所述数据质量事件的数据。2.如权利要求1所述的数据仓库的数据质量管理方法,其特征在于,所述提供公共指标的数据口径包括:提供公共指标的业务口径,所述业务口径根据业务定义该公共指标;提供公共指标的技术口径,所述技术口径根据技术定义该公共指标;提供包含该公共指标的宽表。3.如权利要求1所述的数据仓库的数据质量管理方法,其特征在于,所述不同类别的账户包括第一类账户和第二类账户,所述数据表的数据质量规则由第一类账户配置,所述第二类账户接收所述数据质量事件的报警。4.如权利要求3所述的数据仓库的数据质量管理方法,其特征在于,根据所述数据质量事件的等级,通过不同等级的通信方式向所述第二类账户报警。5.如权利要求4所述的数据仓库的数据质量管理方法,其特征在于,所述不同等级的通信方式包括电话通信、通信软件通信及邮件通信。6.如权利要求3所述的数据仓库的数据质量管理方法,其特征在于,所述记录并统计所述数据质量...

【专利技术属性】
技术研发人员:王东李大学
申请(专利权)人:江苏满运软件科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1