一种分布式多引擎数据质量管理系统技术方案

技术编号：20176674 阅读：29 留言：0更新日期：2019-01-23 00:22

本发明专利技术公开了一种分布式多引擎数据质量管理系统，包括分布储存于多个设备内的数据库、前端系统界面以及用于从数据库内抽取数据至前端系统界面的核心引擎，所述数据库包括有业务数据以及问题数据，所述核心引擎包括有规则引擎、评价引擎和问题数据导出引擎；所述规则引擎抽取数据主键从数据库内抽取业务数据并，所述评价引擎使用分布式运算方式对问题数据进行数据去重和分类；所述问题数据导出引擎根据主键读取明细数据。

A Distributed Multi-Engine Data Quality Management System

The invention discloses a distributed multi-engine data quality management system, which includes a database distributed in multiple devices, a front-end system interface and a core engine for extracting data from a database to a front-end system interface. The database includes business data and problem data, and the core engine includes a rule engine, an evaluation engine and problem data export. The rule engine extracts the primary key of data from the database and extracts business data, and the evaluation engine uses a distributed computing method to de-duplicate and classify the problem data. The problem data export engine reads detailed data according to the primary key.

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式多引擎数据质量管理系统
本专利技术涉及计算机软件系统
，尤其涉及一种分布式多引擎数据质量管理系统。
技术介绍
数据质量管理系统一般需要跨多系统或跨多数据源进行校验，为避免网络异常对跨库校验可能引起的影响或对源库造成的性能浪费，通常解决方案是通过ETL技术将源数据抽到中间库中进行校验。但如果校验数据量十分庞大，或者中间库硬件要求不达标，使用SQL对传统关系数据库数据进行检索，整个校验过程可能会是十分漫长，甚至会造成服务器宕机，影响用户使用体验，并且要对校验出来的问题数据进行进一步分析或展示，对校验库来说也是一个大考验。
技术实现思路
本专利技术的目的在客服现有技术的不足，提供一种响应速度快、容错率高、对硬件要求较低的分布式多引擎数据质量管理系统。为了实现以上目的，本专利技术所采用的技术方案是：一种分布式多引擎数据质量管理系统，包括分布储存于多个设备内的数据库、前端系统界面以及用于从数据库内抽取数据至前端系统界面的核心引擎，所述数据库包括有业务数据以及问题数据，所述核心引擎包括有规则引擎、评价引擎和问题数据导出引擎；所述规则引擎抽取数据主键从数据库内抽取业务数据并，所述评价引擎使用分布式运算方式对问题数据进行数据去重和分类；所述问题数据导出引擎根据主键读取明细数据。进一步，所述数据库为HWAQ数据库并以HDFS文件作为业务数据以及问题数据的储存方式。进一步，还包括有用于储存元数据于校验规则的oracle数据库。进一步，所述规则引擎可并行执行N个任务，当规则引擎的任务数量大于N个时，根据预设规则的优先级对该多个任务进进行任务调度。进一步，当所述规则引...

【技术保护点】
1.一种分布式多引擎数据质量管理系统，其特征在于：包括分布储存于多个设备内的数据库、前端系统界面以及用于从数据库内抽取数据至前端系统界面的核心引擎，所述数据库包括有业务数据以及问题数据，所述核心引擎包括有规则引擎、评价引擎和问题数据导出引擎；所述规则引擎抽取数据主键从数据库内抽取业务数据并，所述评价引擎使用分布式运算方式对问题数据进行数据去重和分类；所述问题数据导出引擎根据主键读取明细数据。

【技术特征摘要】
1.一种分布式多引擎数据质量管理系统，其特征在于：包括分布储存于多个设备内的数据库、前端系统界面以及用于从数据库内抽取数据至前端系统界面的核心引擎，所述数据库包括有业务数据以及问题数据，所述核心引擎包括有规则引擎、评价引擎和问题数据导出引擎；所述规则引擎抽取数据主键从数据库内抽取业务数据并，所述评价引擎使用分布式运算方式对问题数据进行数据去重和分类；所述问题数据导出引擎根据主键读取明细数据。2.根据权利要求1所述的一种分布式多引擎数据质量管理系统，其特征在于：所述数据库为HWAQ数据库并以HDFS...

【专利技术属性】
技术研发人员：杨秋勇，杨朝谊，黄剑文，伍江瑶，魏理豪，万婵，陈健欣，范国勇，卢小攀，李松，
申请(专利权)人：广东电网有限责任公司信息中心，广州博纳信息技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人