System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种智能化数据仓库数据质量监控系统及方法技术方案_技高网

一种智能化数据仓库数据质量监控系统及方法技术方案

技术编号:40558190 阅读:9 留言:0更新日期:2024-03-05 19:19
本发明专利技术涉及计算机技术领域,具体涉及一种智能化数据仓库数据质量监控系统,包括质量知识库与可插拔计算引擎;所述质量知识库包括数据血缘关系模块、质量校验规则模块与数据归属信息模块,其中,所述数据血缘关系模块用于存储与管理数据血缘关系,所述数据血缘关系是指数据经过ETL过程到数据仓库整个生命周期中的相互关系;所述质量校验规则模块用于存储和管理质量校验规则,所述质量校验规则根据产品或数据的特性、质量要求和标准制定;所述可插拔计算引擎用于基于用户的选择和规则的复杂度将任务提交到不同的计算引擎上进行计算。本发明专利技术可以节约计算资源,提升通用性和计算效率。

【技术实现步骤摘要】

本专利技术涉及计算机,具体涉及一种智能化数据仓库数据质量监控系统及方法


技术介绍

1、企业数据仓库集成了企业内部不同领域、不同部门的核心数据,是企业和组织在信息管理系统中核心的、战略性的组成部分,是企业数据化能力的关键能力。数据仓库是一个复杂的数据处理系统,由成千上万个etl任务(extract-transform-load,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)组成,极易出问题,而一个错误的数据有可能导致经验管理层或者企业内的智能决策系统出现决策失误,导致企业重大的损失。因此,如何及时发现问题,如何从成千上万个任务,以及数以万亿级的数据中快速找到错误的数据,具有重要的技术和经济价值。

2、目前,业内成熟的企业一般都会设计一系列的数据质量校验规则,以检测数据的缺失、重复、跨业务过程的数据不一致性等。为了及时、准确的发现问题,往往需要成千上万的校验规则来覆盖所有的数据和问题类型,并且需要每天重复执行这些校验规则以发现问题。然而,实际问题的发生率可能只有千分之一、万分之一,因此绝大部分的校验任务是浪费的,而一个tb、pb级别的数据仓库,数据校验任务消耗的计算资源是极其巨大的。因此,如何在不牺牲质量检测效果的同时,减少数据质量校验规则的执行数量,既能减少对计算资源的消耗也能加速问题发现的速度,具有重要意义。


技术实现思路

1、本专利技术提供一种智能化数据仓库数据质量监控系统及方法,解决了现有技术不能在不牺牲质量检测效果的同时,减少数据质量校验规则的执行数量和计算资源消耗的技术问题。

2、本专利技术提供的基础方案为:一种智能化数据仓库数据质量监控系统,包括质量知识库与可插拔计算引擎;

3、所述质量知识库包括数据血缘关系模块、质量校验规则模块与数据归属信息模块,其中,所述数据血缘关系模块用于存储与管理数据血缘关系,所述数据血缘关系是指数据经过etl过程到数据仓库整个生命周期中的相互关系;所述质量校验规则模块用于存储和管理质量校验规则,所述质量校验规则根据产品或数据的特性、质量要求和标准制定;

4、所述可插拔计算引擎用于基于用户的选择和规则的复杂度将任务提交到不同的计算引擎上进行计算。

5、本专利技术的工作原理及优点在于:

6、1.在本方案中,通过建立质量知识库,按照数据血缘关系,可以从上到下、从粗到细按需扫描,实现数据仓库数据质量的智能化诊断,相较于全面、重复的质量规则扫描,这样可以节约90%以上的计算资源,在不牺牲质量检测效果的同时,减少数据质量校验规则的执行数量,提高扫描效率;数据血缘关系记录了数据从源头到最终使用过程中所经历的各个阶段和流程,反映了数据各层级间的依赖关系,在进行数仓数据的质量校验过程中结合数据血缘关系和数据勾稽关系,自上而下,智能化地按需明确校验规则的执行范围,可自动识别优先执行统计粒度的规则,当统计数据的质量校验通过时,对应的相关明细粒度的规则可默认不再执行,这样不仅可以提高数据问题处理的效率和准确性,也可以避免大量的重复校验从而节约集群的计算资源和跑批成本。

7、2.质量校验规则模块主要负责集合并统一管理各类质量校验规则,支持质量校验规则的存储、分类和维护等功能,用户可以将质量校验规则根据不同的分类方式进行分类,例如根据业务流程、行业标准、监管要求等可以对规则进行添加、修改、删除、禁用、启用等操作,同时还提供对质量校验规则的查询、筛选和导出等功能,方便用户查找和使用。

8、3.本方案通过建立插拔式计算引擎,可以实现存算分离、适配不同企业数据仓库存储引擎,从而提升通用性和计算效率。

9、本专利技术可以节约计算资源,实现存算分离、适配不同企业数据仓库存储引擎,从而提升通用性和计算效率。

10、进一步,所述质量知识库包括数据归属信息模块,所述数据归属信息模块用于记录数据的所有权、使用权和管理权。

11、有益效果在于:数据归属信息模块负责存储和管理数据相关的所有权、使用权和管理权信息等,可以通过数据接口对接数据资产管理系统实时同步信息,用户也可以通过系统进行查询、修改和更新,数据的归属信息能够帮助用户在质量问题发生时快速明确相关方和相关业务,评估出合适的处置方案。

12、进一步,还包括质量应用中心,所述质量应用中心包括质量配置中心模块,所述质量配置中心模块用于配置数据质量相关的参数和规则。

13、有益效果在于:质量配置中心模块负责配置数据质量相关的参数和规则,用户可以创建、编辑、更新质量规则,配置信息包括规则名称、规则描述、规则所属业务、校验类型、规则内容、对比关系和对比值等,用户可以根据实际需求设置规则的强弱等级、应用范围以及选择不同的通知渠道;与此同时,提供自定义规则触发条件的功能,用户可将质量规则与相关表的调度任务相关联,目标表的任务跑批结束后自动执行规则扫描问题,也可以基于固定时间或其他条件触发规则执行;此外,还提供规则模板复制、批量导入、智能规则识别、推荐等功能,以实现规则的快速配置,从而降低数据质量规则配置的时间。

14、进一步,所述质量应用中心还包括质量问题处置模块,所述质量问题处置模块用于识别、告警及处理问题。

15、有益效果在于:质量问题处置模块负责问题的识别、告警及处理,当规则执行检测到质量问题时,自动生成问题报告,详细记录问题的具体情况、原因及影响范围等,并按照用户选择的告警途径进行问题通知;提供的问题处置功能,可根据用户预设的规则强弱等级和处置流程进行问题的处理,例如说强规则触发问题会直接阻塞目标表跑批任务,弱规则只报警不阻塞等;同时,还可以跟踪问题的处理进度,确保问题得到及时解决;此外,可以对问题的处置过程进行评估和反馈,帮助用户了解问题的处理效果和质量,通过评估反馈用户可以及时发现和处理新的问题,并不断完善和优化质量问题处置流程。

16、进一步,所述质量应用中心还包括质量分析报告模块,所述质量分析报告模块用于生成数据质量的分析报告。

17、有益效果在于:质量分析报告模块负责生成数据质量的分析报告,包括质量统计、趋势分析、问题分布等,可以根据评估标准为用户提供数据问题的具体情况,问题原因分析,影响范围等;用户也可以根据实际需求自定义报告格式和内容,支持多种导出格式,方便用户进行查看和使用;支持将分析结果进行可视化展示,比如图表、仪表板等,方便用户直观地了解质量状况和趋势。

18、进一步,还包括数据源与系统管理平台,所述数据源包括企业数据仓库与源头数据库,所述系统管理平台用于系统的配置、维护和管理。

19、基于上述一种智能化数据仓库数据质量监控系统,本专利技术还提供一种智能化数据仓库数据质量监控方法,包括:

20、s1、数据血缘关系模块存储与管理数据血缘关系,所述数据血缘关系是指数据经过etl过程到数据仓库整个生命周期中的相互关系;质量校验规则模块存储和管理质量校验规则,所述质量校验规则根据产本文档来自技高网...

【技术保护点】

1.一种智能化数据仓库数据质量监控系统,其特征在于,包括质量知识库与可插拔计算引擎;

2.如权利要求1所述的一种智能化数据仓库数据质量监控系统,其特征在于,所述质量知识库包括数据归属信息模块,所述数据归属信息模块用于记录数据的所有权、使用权和管理权。

3.如权利要求2所述的一种智能化数据仓库数据质量监控系统,其特征在于,还包括质量应用中心,所述质量应用中心包括质量配置中心模块,所述质量配置中心模块用于配置数据质量相关的参数和规则。

4.如权利要求3所述的一种智能化数据仓库数据质量监控系统,其特征在于,所述质量应用中心还包括质量问题处置模块,所述质量问题处置模块用于识别、告警及处理问题。

5.如权利要求4所述的一种智能化数据仓库数据质量监控系统,其特征在于,所述质量应用中心还包括质量分析报告模块,所述质量分析报告模块用于生成数据质量的分析报告。

6.如权利要求5所述的一种智能化数据仓库数据质量监控系统,其特征在于,还包括数据源与系统管理平台,所述数据源包括企业数据仓库与源头数据库,所述系统管理平台用于系统的配置、维护和管理

7.一种智能化数据仓库数据质量监控方法,其特征在于,包括:

8.如权利要求7所述的一种智能化数据仓库数据质量监控方法,其特征在于,S1中,质量配置中心模块配置数据质量相关的参数和规则。

9.如权利要求8所述的一种智能化数据仓库数据质量监控方法,其特征在于,还包括S3,质量问题处置模块识别、告警及处理问题。

10.如权利要求9所述的一种智能化数据仓库数据质量监控方法,其特征在于,还包括S4,质量分析报告模块生成数据质量的分析报告。

...

【技术特征摘要】

1.一种智能化数据仓库数据质量监控系统,其特征在于,包括质量知识库与可插拔计算引擎;

2.如权利要求1所述的一种智能化数据仓库数据质量监控系统,其特征在于,所述质量知识库包括数据归属信息模块,所述数据归属信息模块用于记录数据的所有权、使用权和管理权。

3.如权利要求2所述的一种智能化数据仓库数据质量监控系统,其特征在于,还包括质量应用中心,所述质量应用中心包括质量配置中心模块,所述质量配置中心模块用于配置数据质量相关的参数和规则。

4.如权利要求3所述的一种智能化数据仓库数据质量监控系统,其特征在于,所述质量应用中心还包括质量问题处置模块,所述质量问题处置模块用于识别、告警及处理问题。

5.如权利要求4所述的一种智能化数据仓库数据质量监控系统,其特征在于,所述质量应用中心还包括质量分...

【专利技术属性】
技术研发人员:肖会尧李丹妮
申请(专利权)人:重庆富民银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1