元数据管理方法及装置制造方法及图纸

技术编号:2819829 阅读:223 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种元数据管理方法及装置。所述方法包括以下步骤:A.对于每一步ETL操作,首先获取输入元数据,并将输入元数据转换为ETL系统统一的ETL元数据;B.针对每一个输出字段,根据ETL数据处理逻辑规则对ETL元数据进行调整;C.根据输出数据源类型将调整后的ETL元数据转换为输出元数据,并根据输出元数据在输出数据源中创建输出数据结构。本发明专利技术能够实现元数据管理的自动化,减少用户干预。

【技术实现步骤摘要】

本专利技术涉及数据仓库技术,尤其涉及元数据管理方法及装置
技术介绍
凄丈寺居4由取、净争^灸和力口载(ETL, Extraction Transformation Loading )是才勾 建数据仓库的重要一环,用于负责完成数据从数据源向目标数据库转化的过 程,是实施数据仓库的重要步骤。图1示出了 ETL处理过程示意图,ETL 系统按照预先设计好的规则,将不同数据源中的数据抽取到临时中间层后进 行清洗、转换和集成,最后加载到目标数据源中,使不同的异构数据源流向 统一的目标数据。其中,元数据是描述数据的数据(data about data),主要是指ETL系 统处理的数据对象的物理字段类型、格式、字段之间的映射关系等基本属性。 目前,对于ETL元数据的管理,大都采用用户干预的方式,即用户在配置 ETL数据处理逻辑规则的同时,还必须人工指定每一步ETL操作(抽取、 转换或加载)的输入数据格式和输出数据格式。这种基于用户显式干预的元 数据管理方法的智能性较差,操作起来较为繁瑣,不利于推广应用。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种元数据管理方法及装置,实现元 数据管理的自动化,减少用户干预。为达到上述目的,本专利技术提供的技术方案如下 一种元数据管理方法,该方法包括以下步骤A、对于每一步ETL操作,首先获取输入元数据,并将输入元数据转换 为ETL系统统一的ETL元数据;B、 针对每一个输出字段,根据ETL数据处理逻辑规则对ETL元数据 进行调整;C、 根据输出数据源类型将调整后的ETL元数据转换为输出元数据,并 根据输出元数据在输出数据源中创建输出数据结构。步骤A所述获取元数据的过程包括确定输入数据源类型,根据输入数据源类型获取输入元数据。 所述步骤B具体包括当针对输出字段的ETL数据处理逻辑规则是字段映射时,无需对ETL 元数据进行调整;当针对输出字段的ETL数据处理逻辑规则是算术运算时,根据算术运 算的最外层运算结果对ETL元数据进行调整;当针对输出字段的ETL数据处理逻辑规则是函数运算时,根据函数输 出的类型和格式对ETL元数据进行调整。一种元数据管理装置,包括输入元数据获取模块、元数据调整模块和 输出元数据管理模块,其中,输入元数据获取模块针对每一步ETL操作,获取输入元数据,将获取 的输入元数据转换为ETL系统统一的ETL元数据,并将转换后的ETL元数 据发送给元数据调整模块;元数据调整模块针对每一个输出字段,根据ETL数据处理逻辑规则对 ETL元数据进行调整,并将调整后的ETL元数据发送给输出元数据管理模 块;输出元数据管理模块根据输出数据源类型将调整后的ETL元数据转换 为输出元数据,并根据输出元数据在输出数据源中创建输出数据结构。当针对输出字段的ETL数据处理逻辑规则是字段映射时,所述元数据 调整模块无需对ETL元数据进行调整;当针对输出字段的ETL数据处理逻辑规则是算术运算时,所述元数据 调整模块根据算术运算的最外层运算结果对ETL元数据进行调整;当针对输出字段的ETL数据处理逻辑规则是函数运算时,所述元数据 调整模块根据函数输出的类型和格式对ETL元数据进行调整。由此可见,在本专利技术所提供的技术方案中,ETL系统可以自动根据ETL 数据处理逻辑规则实现中间数据的存储,ETL中间处理过程对用户来说是透 明的,用户无需关心每一步中间过程数据的存储类型和格式,从而减少了用 户干预,实现了 ETL元数据管理的自动化,提高了 ETL系统的智能性和易 用性。附图说明图1为现有技术中的ETL处理过程示意图; 图2为本专利技术中的ETL元数据管理方法流程图; 图3为本专利技术实施例中的ETL处理过程示意图; 图4为本专利技术中的元数据管理装置结构示意图。具体实施例方式为使本专利技术的目的、技术方案及优点更加清楚明白,下面参照附图并举 实施例,对本专利技术作进一步详细说明。针对现有技术中所存在的问题,本专利技术旨在提供一种新的ETL元数据 管理方法,使得在ETL处理过程中,用户只需要配置ETL数据处理逻辑规 则,而无需关心每一步中间过程数据的存储类型和格式,实现ETL元数据 管理的自动化,增加ETL系统的智能性和易用性。图2示出了本专利技术中的ETL元数据管理方法流程图,包括以下步骤步骤201:对于每一步ETL操作(抽取、转换或加载),首先确定输入 数据源类型,然后根据输入数据源类型调用相应方法,获取输入数据的描述 信息即输入元数据。步骤202:将获取的输入数据描述信息转换为ETL系统统一的数据描述 信息即ETL元数据。步骤203:分析ETL数据处理逻辑规则,对于每一个输出字段,根据该字段的处理过程对ETL元数据进行调整。ETL元数据的调整根据字段处理过程的不同分为以下三种情况 如果字段处理过程是字段映射(即直接将该字段的原始值输出),则输出字段的类型与格式与输入保持一致,此时无需对ETL元数据进行调整; 如果字段处理过程是算术运算(即将一个或多个字段进行加减乘除等),则输出字段的类型和格式视算术运算的最外层运算结果而定,此时需要根据最外层运算结果调整ETL元数据;如果字段处理过程是函数运算,则输出字段的类型和格式与函数输出的类型和格式一致,此时需要根据函数输出的类型和格式调整ETL元数据。 步骤204:确定输出数据源类型,将调整后的ETL元数据转换为输出数据源对应的元数据即输出元数据。步骤205:根据输出元数据,在输出数据源中创建输出数据结构。 下面通过一个具体的例子对本专利技术中的元数据管理方法进行说明。 假设ETL任务功能需求为将SQL Server数据库A中表tbl—flux存放的流量信息flux按照app—id进行聚合(即将app—id相同的flux求和),然后存放到Oracle数据库B中,并将表tbl—flux中的app—id参照表tbl_application—map转换为app一name。<table>table see original document page 7</column></row><table><table>table see original document page 8</column></row><table>表 2b表2a示出了 tbl—application—map表结构,包括app—id、 app_name和 app—desc三个字段;表2b示出了表tbl—application—map中的具体凄t据。为了完成上述ETL任务功能需求,用户需要配置的处理规则(即SQL -浯句)如下抽取头见贝'J: select * form tbl—flux; select * form tbl—application—map; 聚合规则select TO_CHAR (sum(flux》as flux, appjd, from tmp—tbl—flux group by app_id;碎争4奐夫见贝寸 select a.flux, b.app—name from tmp—agg_flux a , tmp—tbl—application_map b where a.app—id = b.app—i本文档来自技高网...

【技术保护点】
一种元数据管理方法,其特征在于,该方法包括以下步骤: A、对于每一步ETL操作,首先获取输入元数据,并将输入元数据转换为ETL系统统一的ETL元数据; B、针对每一个输出字段,根据ETL数据处理逻辑规则对ETL元数据进行调整; C、根据输出数据源类型将调整后的ETL元数据转换为输出元数据,并根据输出元数据在输出数据源中创建输出数据结构。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨静涛朱海涛
申请(专利权)人:杭州华三通信技术有限公司
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1