一种数据治理系统以及方法技术方案

技术编号:31951539 阅读:9 留言:0更新日期:2022-01-19 21:47
本发明专利技术适用数据处理技术领域,提供了一种数据治理系统以及方法,包括:数据源管理器,用于获取待处理数据的源数据信息;数据模型建立器,用于根据源数据信息,建立与源数据信息对应的数据模型,数据模型配置有预设数据治理规则;治理脚本生成器,用于获取数据模型的模型信息;根据所述模型信息以及预设数据治理规则,生成数据治理脚本,以使治理脚本运行器运行所述数据治理脚本,完成对待处理数据的治理;本发明专利技术以数据模型作为标准的导向,将繁杂的数据进行了标准和格式的规范,避免了在数据治理过程中出现数据结构混杂,标准和格式不统一的现象;实现降低了数据治理的工作量,以及规避了传统的数据治理需要人工编写代码、存储过程等繁杂操作。过程等繁杂操作。过程等繁杂操作。

【技术实现步骤摘要】
一种数据治理系统以及方法


[0001]本专利技术属于数据处理
,尤其涉及一种数据治理系统以及方法。

技术介绍

[0002]伴随着信息技术和互联网的爆发式发展,人类进入了大数据时代,数据已 然成为当今世界的基础性战略资源。大数据技术可分为三个阶段:萌芽阶段, 1990年代,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和 知识管理技术开始应用,如数据仓库、专家系统、知识管理系统等。这阶段数 据基本上是系统营运数据;成熟阶段,21世纪前10年,Web2.0应用迅猛发展, 非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突 破,Hadoop平台开始大行其道。这阶段数据基本上是用户输入数据;大规模应 用阶段,2010年至今,大数据应用渗透到各行各业,数据驱动决策,信息社会 智能化程度大幅提高。
[0003]目前,严重限制人们使用大数据技术的因素在于混乱使用,并且因为没有 选用针对于特定应用场景和海量数据特点的大数据技术,产生了诸多,如系统 建设开销大,应用效果不佳等问题;总体来看,很多应用场景所采用的大数据 技术,在数据采集、存储、处理的某个环节上选用不当;并且,许多大数据技 术应用的从业者,在选用时或是对技术本身掌握的不全面,或是因为实际应用 缺乏,在技术选型上,并没有从多维度角度出发,只简单考虑或参考一个维度 进行选择,大数据技术选型往往不以结果为导向,没有目的性。以社会信用体 系应用系统为例,需要汇集各个政府部门以及信用相关的各个渠道的数据,由 此面临着多源异构系统的数据采集、数据标准不一致、数据整合应用难度大、 数据实时性差等问题,这样就给数据实施人员带来了大量复杂繁琐的编码工作 量。
[0004]由此可见,现有数据治理方式存在着多源异构系统的数据采集、数据标准 不一致、数据整合应用难度大以及数据实时性差的技术问题。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种数据治理系统,旨在解决现有数据治理 方式存在着多源异构系统的数据采集、数据标准不一致、数据整合应用难度大 以及数据实时性差的技术问题。
[0006]本专利技术实施例是这样实现的,一种数据治理系统,包括数据模型建立器以 及与所述数据模型建立器通讯的源数据信息提取器、治理脚本生成器;
[0007]其中,所述源数据信息获取器,用于获取待处理数据的源数据信息;
[0008]所述数据模型建立器,用于根据所述源数据信息,建立与所述源数据信息 对应的数据模型,所述数据模型配置有预设数据治理规则;
[0009]所述治理脚本生成器,用于获取所述数据模型的模型信息;根据所述模型 信息以及预设数据治理规则,生成数据治理脚本,以使治理脚本运行器运行所 述数据治理脚本,完成对所述待处理数据的治理。
[0010]本专利技术实施例的另一目的在于一种数据治理方法,包括:
[0011]获取待处理数据的源数据信息;
[0012]根据所述源数据信息,建立与所述源数据信息对应的数据模型,所述数据 模型配置有预设数据治理规则;
[0013]获取所述数据模型的模型信息;
[0014]根据所述模型信息以及预设数据治理规则,生成数据治理脚本,以使治理 脚本运行器运行所述数据治理脚本,完成对所述待处理数据的治理。
[0015]本专利技术实施例提供的一种数据治理系统,通过数据源管理器对数据源进行 管理,获取待处理数据的源数据信息,以屏蔽所有的异构数据之间的差异性, 数据整合应用难度得以降低;进而基于数据模型建立器对待处理数据进行建模, 以通过数据模型对数据标准以及数据关系进行管理,将繁杂的数据进行了标准 和格式的规范,避免了在数据治理过程中出现数据结构混杂,标准和格式不统 一的现象;最后由治理脚本生成器根据数据模型的模型信息以及预设数据治理 规则,自动生成数据治理脚本,实现降低了数据治理的工作量,以及规避了传 统的数据治理需要人工编写代码、存储过程等繁杂操作,不需要了解各类接入 平台数据源的特征属性,节约了时间成本。
附图说明
[0016]图1为本专利技术实施例提供的一种数据治理系统的结构示意图;
[0017]图2为本专利技术实施例提供的数据源管理器的原理框图;
[0018]图3为本专利技术实施例提供的数据源管理建模语言图;
[0019]图4为本专利技术实施例提供的以信用体系应用中法人库为例的层次数据模型 示意图;
[0020]图5为本专利技术实施例提供的法人库信息概念模型示意图;
[0021]图6为本专利技术实施例提供的法人库逻辑模型示意图;
[0022]图7为本专利技术实施例提供的清洗规则处理过程示意图;
[0023]图8为本专利技术实施例提供的转换规则处理过程示意图;
[0024]图9为本专利技术实施例提供的字符串处理过程示意图;
[0025]图10为本专利技术实施例提供的治理脚本生成器的结构示意图;
[0026]图11为本专利技术实施例提供的另一种数据治理系统的结构示意图;
[0027]图12为本专利技术实施例提供的转换任务治理过程示意图;
[0028]图13为本专利技术实施例提供的抽取加载策略数据变化图;
[0029]图14为本专利技术实施例提供的治理脚本运行器的原理图;
[0030]图15为本专利技术实施例提供的一种数据治理方法的实现流程图;
[0031]图16为本专利技术实施例提供的另一种数据治理方法的实现流程图;
[0032]图17为本专利技术实施例提供的又一种数据治理方法的实现流程图;
[0033]图18为本专利技术实施例提供的再一种数据治理方法的实现流程图。
具体实施方式
[0034]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,
对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本专利技术,并不用于限定本专利技术。
[0035]在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨 在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一 种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当 理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目 的任何或所有可能组合。
[0036]应当理解,尽管在本专利技术实施例中可能采用术语第一、第二等来描述各种 信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此 区分开。
[0037]为了解决现有数据治理方式存在着多源异构系统的数据采集、数据标准不 一致、数据整合应用难度大以及数据实时性差的问题,如何使数据标准统一, 如何屏蔽多源异构带来的复杂性,如何才能高效的解决数据整合,如何确保数 据同步实时性,而采用数据库(oracle、MySQL、Gbase等)自身的存储过程、 各个数据平台和技术框架(Hadoop、MapReduce、spark等)、ETL工具(如kettle) 都需要耗费大量的编码工作量才能解决的。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据治理系统,其特征在于,包括数据模型建立器以及与所述数据模型建立器通讯的源数据信息提取器、治理脚本生成器;其中,所述数据源管理器,用于获取待处理数据的源数据信息;所述数据模型建立器,用于根据所述源数据信息,建立与所述源数据信息对应的数据模型,所述数据模型配置有预设数据治理规则;所述治理脚本生成器,用于获取所述数据模型的模型信息;根据所述模型信息以及预设数据治理规则,生成数据治理脚本,以使治理脚本运行器运行所述数据治理脚本,完成对所述待处理数据的治理。2.根据权利要求1所述的数据治理系统,其特征在于,所述治理脚本生成器,包括:模型信息获取单元,用于获取所述数据模型的模型信息;以及治理脚本生成单元,用于根据所述模型信息以及预设数据治理规则,生成数据治理脚本,以使治理脚本运行器运行所述数据治理脚本,完成对所述待处理数据的治理。3.根据权利要求2所述的数据治理系统,其特征在于,所述治理脚本生成单元,包括:任务类型确定模块,用于根据所述预设数据治理规则,确定任务类型;转换脚本生成模块,用于当所述任务类型为转换任务时,则根据模型信息以及预设数据治理规则,生成转换脚本,以使治理脚本运行器运行所述转换脚本,完成对所述待处理数据的治理;以及质量巡检脚本生成模块,用于当所述任务类型为质量巡检任务时,则根据模型信息以及预设数据治理规则,生成质量巡检脚本,以使治理脚本运行器运行所述质量巡检脚本,完成对所述待处理数据的治理。4.根据权利要求3所述的数据治理系统,其特征在于,所述预设数据治理规则包括清洗规则、字段转换规则以及目标数据集;所述转换脚本生成模块,用于根据所述模型信息、清洗规则以及字段转换规则,生成清洗脚本以及字段转换脚本;根据所述目标数据集,生成对应的目标数据脚本;根据所述模型信息,对所述目标数据脚本进行数据抽取加载处理;根据所述数据抽取加载处理后的目标数据脚本、清洗脚本以及字段转换脚本,生成转换脚本,以使治理脚本运行器运行所述转换脚本,完成对所述待处理数据的治理。5.根据权利要求3所述的数据治理系统,其特征在于,所述预设数据治理规则包括格式检查规则以及业务逻辑检查规则;所述质量巡检脚本生成模块,用于当所述任务类型为质量巡检任务时,则根据模型信息、格式检查规则以及业务逻辑检查规则,生成对应的格式检查脚本、业务逻辑检查脚本以及质量报告脚本;根据所述检查脚本、业务逻辑检查脚本以及质量报告脚本,生成质量巡检脚本,以使治理脚本运行器运行所述质量巡检脚本,完成对所述待处理数据的治理。6.根据权利要求1所述的数据治理系统,其特征在于,所述预设数据...

【专利技术属性】
技术研发人员:王苏栋张学武贾森
申请(专利权)人:中投国信北京科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1