数据治理方法及装置、电子设备制造方法及图纸

技术编号:30333215 阅读:24 留言:0更新日期:2021-10-10 00:55
本申请实施例提供一种数据治理方法及装置、电子设备。所述方法包括:配置包含业务主题库模型中字段信息以及与所述字段信息对应的字段标准的业务数据集;基于所述业务数据集中数据项信息,构建每个数据项与原始库表中字段的映射关系;基于所述原始库表中每个字段对应到所述业务数据集中数据项的数据标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。述主题库表中。述主题库表中。

【技术实现步骤摘要】
数据治理方法及装置、电子设备


[0001]本申请实施例涉及互联网
,尤其涉及一种数据治理方法及装置、电子设备。

技术介绍

[0002]数据治理是指通过数据接入、数据清洗、数据融合、专题加工等数据治理方式,实现内部、外部共享数据的数据治理,并形成统一的大数据资源库。进而由大数据资源库对内部的业务系统和外部共享交换提供统一的数据目录服务。

技术实现思路

[0003]本说明书实施例提供的一种数据治理方法及装置、电子设备:
[0004]根据本说明书实施例的第一方面,提供一种数据治理方法,所述方法包括:
[0005]配置包含主题库模型以及与所述字段信息对应的字段标准的业务数据集;
[0006]基于所述业务数据集信息,构建每个业务数据集数据项与原始库表中字段的映射关系;
[0007]基于所述原始库表中每个字段对应到所述业务数据集的字段标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;
[0008]在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段映射到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。
[0009]根据本说明书实施例的第二方面,提供一种数据治理装置,所述装置包括:
[0010]配置单元,配置包含主题库模型以及与所述字段信息对应的字段标准的业务数据集;
[0011]构建单元,基于所述业务数据集信息,构建每个业务数据集中数据项与原始库表中字段的映射关系;
[0012]清洗单元,基于所述原始库表中每个字段对应到所述业务数据集数据项的数据标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;
[0013]融合单元,在对所述标准库表中的标准化数据进行数据融合后,基于所述业务数据集数据项与原始库表中字段的映射关系,确定所述标准数据库中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库表中。
[0014]根据本说明书实施例的第三方面,提供一种电子设备,包括:
[0015]处理器;
[0016]用于存储处理器可执行指令的存储器;
[0017]其中,所述处理器被配置为上述任一项数据治理方法。
[0018]本说明书实施例提供了数据治理的方案,通过以治理目标为驱动,以结果为导向,先梳理业务级数据集(包含主题库模型和每一个主题库字段的数据元和清洗规则),最终在业务数据集基础上通过映射的方式优化和控制从原始库

>标准库

>主题库

>专题库的数据治理流程,缩短表的标准化清洗的时间,并提升清洗后的数据质量。
附图说明
[0019]图1是本说明书提供的现有数据治理系统的示意图。
[0020]图2是本说明书一实施例提供的数据治理方法的流程图。
[0021]图3是本说明书一实施例提供的改进的数据治理系统的示意图。
[0022]图4是本说明书一实施例提供的数据治理装置的硬件结构图。
[0023]图5是本说明书一实施例提供的数据治理装置的模块示意图。
具体实施方式
[0024]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
[0025]在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0026]应当理解,尽管在本说明书可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0027]数据治理是指通过数据接入、数据清洗、数据融合、专题加工等数据治理方式,实现内部、外部共享数据的数据治理,并形成统一的大数据资源库。进而由大数据资源库对内部的业务系统和外部共享交换提供统一的数据目录服务。
[0028]如图1所示为现有数据治理系统的示意图。图1中,大数据库资源库对接有数据源和应用层的数据服务。
[0029]数据源可以是指各个业务系统,这些业务系统可以通过ETL(数据仓库技术,Extract

Transform

Load)接入大数据资源库,并将业务系统产生的数据传输给大数据资源库的原始库。图1中,数据源的数据类型可以包括结构化数据、半结构化数据和非结构化数据,由此可见数据源的数据标准并不统一。
[0030]应用层的数据服务可以包括数据共享、服务开发、BI报表、数据挖掘等。这些数据服务的运行需要依赖专题库提供的数据治理后的数据。
[0031]如图1所示,大数据库资源库分为原始库、标准库、主题库和专题库。
[0032]其中,所述原始库用于对接数据源,存储从数据源传输过来的数据。原始库主要涉
及数据治理过程中的数据接入环节。
[0033]所述标准库用于对原始库中存储的数据进行探查,根据数据标准(包含数据元、数据字典、清洗规则)进行清洗、转换最终形成标准化数据,清洗完成后的表结构直接继承了原始库的表结构。标准库主要涉及数据治理过程中的数据清洗环节。
[0034]所述主题库用于对标准库中存储的标准化数据进行融合加工(如通过分析、综合、归类和融合等),抽象形成业务领域的实体对象,最终形成一个对实体对象规范性、完整性、一致性数据集合。例如:在安全生产监管领域,多个业务系统均会涉及到生产企业,将不同业务系统企业相关信息经过分析、提取、设计成一个大而全的企业数据模型,经过数据融合形成一个可面向各种业务场景、业务领域的企业主题信息。
[0035]所述专题库为数据集市层,用于根据应用层的要求,依据主题库和标准库数据生成相关满足特定业务场景的数据,从而支撑应用层业务的使用。
[0036]以下将上述库与数据治理过程中涉及的各个环节相结合进行说明,原始库涉及数据对接环节,标准库涉及数据清洗环节,主题库涉及数据融合环节,专题库涉及专题加工环节。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据治理方法,其特征在于,所述方法包括:配置包含业务对应的主题库模型中字段信息以及与所述字段信息对应的字段标准的业务数据集;基于所述业务数据集中的数据项信息,构建与原始库表中字段的映射关系;基于所述原始库表中每个字段对应到所述业务数据集中的数据项的字段标准,对所述原始库表中数据进行数据清洗,将清洗后的标准化数据存储到继承了所述原始库表的字段信息的标准库表中;基于所述业务数据集中的数据项信息与原始库表中字段的映射关系,确定所述标准库表中继承于所述原始库表的字段对应到所述主题库表中的字段,从而将融合后数据存储到所述主题库模型对应的主题库表中。2.根据权利要求1所述的方法,其特征在于,所述配置包含主题库模型以及与所述字段信息对应的字段标准的业务数据集,包括:基于目标业务涉及的行业规范,确定符合所述目标业务的主题库的字段信息;基于所述主题库表的字段信息,确定所述主题库表的字段标准;构建包含主题库模型以及与所述字段信息对应的字段标准的业务数据集。3.根据权利要求2所述的方法,其特征在于,所述每个字段信息对应唯一的字段标准,其中,所述字段标准包括对象词、特性词、表示词以及字段取值规则、字典码、值域范围中的至少一种。4.根据权利要求2所述的方法,其特征在于,所述业务数据集的字段信息包括:字段中文名、英文名、长度、字段出处、数据类型以及字段所表达含义中的至少一种。5.根据权利要求2所述的方法,其特征在于,当所述业务数据集中存在同一字段标准对应不同业务场景数据项时,采用同一字段标准和不同限定词进行区分。6.根据权利要求1所述的方法,其特征在于,所述构建每个业务数据集数据项与原始库表中字段的映射关系,包括:当原始库表中字段对应时,构建所述业务数据集数据项与原始库表中字段的一一对应的映射关系。7.根据权利要求1所述的方法,其特征在于,所述构建每个业务数据集数据项与原始库表中字段的映射关系,包括:当原始库表中包含有其它表的非关键字信息时,将所述原始库根据所述业务数据集拆分为多张临时表;在过滤所述临时表中的重复字段后,构建所述业务数据集与临时表中字段对应在所述原始库表中字段的映射关系。8.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:刘圣财许阳叶科
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1