一种基于海量数据处理的数据治理的方法及系统技术方案

技术编号:21952235 阅读:46 留言:0更新日期:2019-08-24 17:38
本发明专利技术公开了一种基于海量数据处理的数据治理的方法及系统,属于海量数据处理领域,本发明专利技术要解决的技术问题为如何能够对庞大的数据快速、准确的定位出问题并做到问题数据有源可寻、有据可依、有错必改,采用的技术方案为:①该方法基于大数据批处理框架,采用分布式计算思想,将数据与业务含义进行绑定,在海量数据中进行校验和运算,将问题数据输出并按照json格式结构进行保存;具体步骤如下:S1、建立业务数据库、标准数据库、基础规则库和错误数据库;S2、检测基础规则库;S3、建立业务规则库;S4、建立数据检测模板;S5、制定数据质量检测任务;S6、启动数据质量检测任务。②该系统包括数据层、服务层、表现层和管控层。

A Data Governance Method and System Based on Massive Data Processing

【技术实现步骤摘要】
一种基于海量数据处理的数据治理的方法及系统
本专利技术涉及海量数据处理领域,具体地说是一种基于海量数据处理的数据治理的方法及系统。
技术介绍
随着数据技术时代的来临,数据已成为企业的核心资产和创新驱动力,在电信、电网、银行、保险、证券、流通、传媒、汽车、家电、食品等行业都有极为广泛的应用。在信息化飞速发展的今天,大数据已经是信息化的必然产物,对大数据进行深度挖掘和分析更是重中之重。而数据质量则成为了大数据分析重要指标,只有在数据质量较好的数据中进行深度挖掘和深度分析才能获取最有价值的数据信息。在大数据时代,对海量数据的深度挖掘和深度分析成为了对趋势预测和靶向性分析基础要素,对海量数据治理成为提高数据质量的首要任务,如何能够对庞大的数据快速、准确的定位出问题并做到问题数据有源可寻、有据可依、有错必改是目前现有技术中急需解决的技术问题。专利号为CN109299083A的专利文献公开了一种数据治理系统,包括:权限管理模块,用于对用户的身份信息进行验证,并根据验证结果授予用户操作权限;数据源管理模块,用于从数据源数据库中获取待治理数据,并将待治理数据发送至数据治理模块;任务构建模块,用于获取用户输入的数据治理要求,根据数据治理要求及用户操作权限为待治理数据构建数据治理任务;数据治理模块,用于接收待治理数据,并根据数据治理任务对待治理数据进行数据治理,生成治理结果。但是该技术方案不能对庞大的数据快速、准确的定位出问题并做到问题数据有源可寻、有据可依、有错必改。
技术实现思路
本专利技术的技术任务是提供一种基于海量数据处理的数据治理的方法及系统,来解决如何能够对庞大的数据快速、准确的定位出问题并做到问题数据有源可寻、有据可依、有错必改的问题。本专利技术的技术任务是按以下方式实现的,一种基于海量数据处理的数据治理的方法,该方法基于大数据批处理框架,采用分布式计算思想,将数据与业务含义进行绑定,在海量数据中进行校验和运算,将问题数据输出并按照json格式结构进行保存,确保对问题数据有源可寻、有据可依、有错必改;具体步骤如下:S1、建立业务数据库、标准数据库、基础规则库和错误数据库;S2、检测基础规则库:根据业务场景和行业线提取基础规则库,对数据质量进行检测;S3、建立业务规则库:根据数据的业务含义将数据与业务进行绑定,选取字段,将字段与数据完整性基础规则绑定成为具有业务含义的业务规则,将抽象的基础规则转化为具有指定业务含义的业务规则,业务规则汇集成为业务规则库;S4、建立数据检测模板:将具有业务含义的业务规则按照数据规范或者使用者拟定的数据规范聚合成数据检测模板,方便后续数据检测;S5、制定数据质量检测任务:按照数据规范或者使用者要求的数据规范,选取数据范围、数据量、检测频次和数据检测模板;S6、启动数据质量检测任务:被选定的数据将会在数据检测模板包含的业务规则下进行分布式内存运算。作为优选,所述步骤S1中的业务数据库是指支持系统运行的原始数据库,原始数据库用于保存业务原始数据,通过对业务数据库管理,能够方便在数据质量检测时,选取需要检测的数据表和相关数据。作为优选,所述步骤S1中的标准数据库指按照数据规范或者使用者拟定的数据规范进行建立的数据库,标准数据库保存的数据是通过数据质量检测的数据以及经检测存在问题并修改后的数据。更优地,所述步骤S1中的基础规则库通过对通用的数据校验逻辑提取出基础规则模型,保证基础规则的通用性以及可扩展性。更优地,所述步骤S1中的错误数据库将经过数据质量检测的问题数据保存,同时记录问题原因,并为问题数据治理提供的方案和建议。更优地,所述步骤S2中的检测基础规则库是基于数据完整性、数据有效性、数据正确性、数据冗余性和数据时效性按类别抽查,同时涉及限定数据格式、数据字典项、数据项是否完整的基础规则。更优地,所述步骤S6中被选定的数据将会在数据检测模板包含的业务规则下进行分布式内存运算的具体步骤如下:S601、按照任务检查执行线程数,将待检测数据进行分片处理;S602、按照数据检测模板包含的检测规则进行计算;S603、计算完成后将计算结果合并,将结果数据及问题数据保存至非关系型数据库mangoDB中。一种基于海量数据处理的数据治理的系统,该系统包括数据层、服务层、表现层和管控层;其中,数据层用于提供基础数据和保存结果数据;服务层用于为系统运行提供核心功能;表现层用于为系统用户使用者提供可视化界面展示及操作界面;管控层用于将数据层、服务层和表现层进行统筹调配和资源管控;管控层包括基础规则库、业务规则库、业务数据库和分布式内存计算单元。作为优选,所述数据层包括关系型数据库和非关系型数据库mangoDB;其中,关系型数据库采用oracle,关系型数据库用于存储业务数据库、标准数据库库、基础规则库、业务规则库的数据,作为系统运行的基础数据;非关系型数据库mangoDB用于存储错误数据库的数据,即存储数据质量检测后生成的错误数据。作为优选,所述服务层包括业务规则库和分布式内存计算单元;其中,业务规则库用于提供数据检测的规则;业务规则库的数据具有关联性、正确性、完整性和冗余性;分布式内存计算单元用于提供快速检测和结果结算;分布式内存计算单元对数据的计算包括数据分片、多节点、并行计算以及运算结果合并。本专利技术的基于海量数据处理的数据治理的方法及系统具有以下优点:(一)、本专利技术能够快速、有效的分析出海量数据中的数据质量问题,并能够将问题数据完整的列出,并提供对问题数据溯源和修改;(二)、本专利技术通过对海量数据的业务含义分析、分布式运算技术,快速准确的定位大数据中的问题数据,并且提供完整的数据治理解决方案,对问题数据做到有源可寻、有据可依、有错必改,并且对问题数据出现的源头进行业务指导,对源头数据正确性提出改造建议;(三)、本专利技术对海量数据业务含义数据质量检测,能够快速准确的定位出问题数据,并将问题数据已数据报告的方式列出,对数据治理有指导性意义;(四)、本专利技术基于数据的业务含义对业务数据进行,能够适应各种业务场景和不同行业线;(五)、本专利技术采用分布式内存运算,将单条数据质量检测时间控制在秒级别,提高了数据质量检测的时效。附图说明下面结合附图对本专利技术进一步说明。附图1为基于海量数据处理的数据治理的方法的流程框图;附图2为基于海量数据处理的数据治理的系统的结构框图。具体实施方式参照说明书附图和具体实施例对本专利技术的一种基于海量数据处理的数据治理的方法及系统作以下详细地说明。实施例1:如附图1所示,本专利技术的基于海量数据处理的数据治理的方法,该方法基于大数据批处理框架,采用分布式计算思想,将数据与业务含义进行绑定,在海量数据中进行校验和运算,将问题数据输出并按照json格式结构进行保存,确保对问题数据有源可寻、有据可依、有错必改;具体步骤如下:S1、建立业务数据库、标准数据库、基础规则库和错误数据库;其中,业务数据库是指支持系统运行的原始数据库,原始数据库用于保存业务原始数据,通过对业务数据库管理,能够方便在数据质量检测时,选取需要检测的数据表和相关数据;标准数据库指按照数据规范或者使用者拟定的数据规范进行建立的数据库,标准数据库保存的数据是通过数据质量检测的数据以及经检测存在问题并修改后的数据;基础规则库通过对通用的数据校验本文档来自技高网...

【技术保护点】
1.一种基于海量数据处理的数据治理的方法,其特征在于,该方法基于大数据批处理框架,采用分布式计算思想,将数据与业务含义进行绑定,在海量数据中进行校验和运算,将问题数据输出并按照json格式结构进行保存,确保对问题数据有源可寻、有据可依、有错必改;具体步骤如下:S1、建立业务数据库、标准数据库、基础规则库和错误数据库;S2、检测基础规则库:根据业务场景和行业线提取基础规则库,对数据质量进行检测;S3、建立业务规则库:根据数据的业务含义将数据与业务进行绑定,选取字段,将字段与数据完整性基础规则绑定成为具有业务含义的业务规则,将抽象的基础规则转化为具有指定业务含义的业务规则,业务规则汇集成为业务规则库;S4、建立数据检测模板:将具有业务含义的业务规则按照数据规范或者使用者拟定的数据规范聚合成数据检测模板,方便后续数据检测;S5、制定数据质量检测任务:按照数据规范或者使用者要求的数据规范,选取数据范围、数据量、检测频次和数据检测模板;S6、启动数据质量检测任务:被选定的数据将会在数据检测模板包含的业务规则下进行分布式内存运算。

【技术特征摘要】
1.一种基于海量数据处理的数据治理的方法,其特征在于,该方法基于大数据批处理框架,采用分布式计算思想,将数据与业务含义进行绑定,在海量数据中进行校验和运算,将问题数据输出并按照json格式结构进行保存,确保对问题数据有源可寻、有据可依、有错必改;具体步骤如下:S1、建立业务数据库、标准数据库、基础规则库和错误数据库;S2、检测基础规则库:根据业务场景和行业线提取基础规则库,对数据质量进行检测;S3、建立业务规则库:根据数据的业务含义将数据与业务进行绑定,选取字段,将字段与数据完整性基础规则绑定成为具有业务含义的业务规则,将抽象的基础规则转化为具有指定业务含义的业务规则,业务规则汇集成为业务规则库;S4、建立数据检测模板:将具有业务含义的业务规则按照数据规范或者使用者拟定的数据规范聚合成数据检测模板,方便后续数据检测;S5、制定数据质量检测任务:按照数据规范或者使用者要求的数据规范,选取数据范围、数据量、检测频次和数据检测模板;S6、启动数据质量检测任务:被选定的数据将会在数据检测模板包含的业务规则下进行分布式内存运算。2.根据权利要求1所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S1中的业务数据库是指支持系统运行的原始数据库,原始数据库用于保存业务原始数据,通过对业务数据库管理,能够方便在数据质量检测时,选取需要检测的数据表和相关数据。3.根据权利要求1或2所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S1中的标准数据库指按照数据规范或者使用者拟定的数据规范进行建立的数据库,标准数据库保存的数据是通过数据质量检测的数据以及经检测存在问题并修改后的数据。4.根据权利要求3所述的基于海量数据处理的数据治理的方法,其特征在于,所述步骤S1中的基础规则库通过对通用的数据校验逻辑提取出基础规则模型,保证基础规则的通用性以及可扩展性。5.根据权利要求4所述的基于海量数据处理的数据治理的方法,其...

【专利技术属性】
技术研发人员:宋晗王博张鑫慧蒋宽王为选
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1