一种基于湖仓一体的元数据同步方法、装置、设备及介质制造方法及图纸

技术编号:38504692 阅读:9 留言:0更新日期:2023-08-19 16:52
本申请提供一种基于湖仓一体的元数据同步方法、装置、设备及介质。所述方法包括:获取数据源表的元数据信息;判断所述数据源表的元数据信息是否发生改变;在所述数据源表的元数据信息发生改变的情形下,根据改变后的所述元数据信息,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据。库表的元数据。库表的元数据。

【技术实现步骤摘要】
一种基于湖仓一体的元数据同步方法、装置、设备及介质


[0001]本申请涉及大数据领域,尤其涉及一种基于湖仓一体的元数据同步方法、装置、设备及介质。

技术介绍

[0002]在大数据领域中,数据仓库采用结构化方式存储数据,擅长对存量数据的分析和处理;数据湖则可以灵活地集中存储、更新、管理各类结构化、半结构化和非结构化数据。而数据仓库和数据湖结合的存储系统,则既可以灵活地存储各类数据,也可以方便地对其进行分析处理。
[0003]当上述存储系统中的数据对应的源端业务发生更改时,通常需要对上述存储系统中的数据进行同步。

技术实现思路

[0004]有鉴于此,本说明书提供以下方法、装置、设备及介质。
[0005]在本申请的第一方面,提供一种基于湖仓一体的元数据同步方法,所述方法包括:
[0006]获取数据源表的元数据信息;
[0007]判断所述数据源表的元数据信息是否发生改变;
[0008]在所述数据源表的元数据信息发生改变的情形下,根据改变后的所述元数据信息,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据。
[0009]在本申请的第二方面,提供了一种基于湖仓一体的元数据同步装置,所述装置应用于数据湖和数据仓库结合的存储系统,所述存储系统中存储了与数据源表对应的数据湖表和数据仓库表;所述装置包括:
[0010]获取单元,用于获取数据源表的元数据信息;
[0011]判断单元,用于判断所述数据源表的元数据信息是否发生改变;
[0012]同步单元,用于在所述数据源表的元数据信息发生改变的情形下,根据改变后的所述元数据信息,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据。
[0013]在本申请的第三方面,提供了一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
[0014]所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行以下方法:
[0015]获取数据源表的元数据信息;
[0016]判断所述数据源表的元数据信息是否发生改变;
[0017]在所述数据源表的元数据信息发生改变的情形下,根据改变后的所述元数据信息,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库
表的元数据。
[0018]在本申请的第四方面,提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现以下方法:
[0019]获取数据源表的元数据信息;
[0020]判断所述数据源表的元数据信息是否发生改变;
[0021]在所述数据源表的元数据信息发生改变的情形下,根据改变后的所述元数据信息,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据。
[0022]本申请通过在湖仓中存储的数据湖表和数据仓表对应的数据源表的元数据信息发生变化时,同步更新数据湖表的元数据和数据仓表的元数据,以保持湖仓中的数据湖表和数据仓表能够感知到数据源表结构的变化,并始终保持数据湖表和数据仓表的元数据,即表结构始终保持同步,使得针对湖仓中表的查询分析始终能够统一。
附图说明
[0023]图1是一示例性的实施例示出的一种基于湖仓一体的元数据同步方法的流程图;
[0024]图2是一示例性的实施例示出的一种存储系统的数据写入过程的示意图;
[0025]图3是一示例性的实施例示出的一种基于湖仓一体的元数据同步方法的时序示意图;
[0026]图4是一示例性的实施例示出的一种事务执行的示意图;
[0027]图5是一示例性的实施例示出的一种基于湖仓一体的元数据同步装置所在电子设备的硬件结构图;
[0028]图6是一示例性的实施例示出的一种基于湖仓一体的元数据同步装置的框图。
具体实施方式
[0029]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0030]需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
[0031]为了使本
的人员更好地理解本说明书实施例中的技术方案,下面先对本说明书实施例涉及的家具溯源的相关技术,进行简要说明。
[0032]数据仓库(Data Warehouse,可简写为DW或DWH),是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,可以支持管理决策和信息的全局共享,主要用于历史性、综合性和深层次数据分析。
[0033]数据湖(Data Lake)是一个存储各种原始数据的大型数据集合,其中的数据可供
存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob(Binary Large Object,二进制类型的大对象)或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON等),非结构化数据(电子邮件,文档,PDF等)和二进制数据(图像,音频,视频等)。
[0034]数据湖和数据仓库结合的存储系统,也称基于湖仓一体的存储系统,或湖仓,在数据仓库的基础上增加数据湖的支持,以同时具备数据湖的灵活性和数据仓库的数据分析处理能力。
[0035]上述数据湖与数据仓库结合的存储系统中,仍保留了由数据湖表构成的数据湖,和由数据仓库表构成的数据湖。
[0036]其中,数据仓库由其对应的数据仓库管理服务进行管理,数据湖由其对应的数据湖管理服务进行管理。
[0037]通常,上述数据湖和数据仓库结合的存储系统中,对于从源端的数据源表进入该存储系统的数据,经过相应的加工后,同时以数据湖表和数据仓库表的形式在该存储系统中进行存储,并统一进行结构化的管理,以方便后续对数据的分析和处理。
[0038]请参见图1,图1是一示例性的实施例示出的一种基于湖仓一体的元数据同步方法的流程图。
[0039]上述湖仓一体架构的存储系统可以从多样化的来源端,获取多样化的数据源表,经由数据加工之后,可以将数据源表对应的数据以对应的数据湖表和数据仓库表的形式分别存储到上述存储系统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于湖仓一体的元数据同步方法,其特征在于,所述方法包括:获取数据源表的元数据信息;判断所述数据源表的元数据信息是否发生改变;在所述数据源表的元数据信息发生改变的情形下,根据改变后的所述元数据信息,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据。2.根据权利要求1所述的方法,其特征在于,所述获取数据源表的元数据信息,包括:通过预先部署的元数据同步服务,周期性获取所述数据源表的元数据信息;所述判断所述数据源表的元数据信息是否发生改变,包括:将获取的所述元数据信息,与已保存的所述数据源表的元数据信息进行比对;在比对不一致的情形下,确定所述元数据信息发生改变。3.根据权利要求2所述的方法,其特征在于,所述在所述数据源表的溯源数据信息发生改变的情形下,根据改变后的所述元数据信息,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据,包括:在所述数据源表的溯源数据信息发生改变的情形下,通过所述元数据同步服务向预设的消息中间件,发送元数据变更消息;其中,所述元数据变更消息包含改变后的所述元数据;通过预设的元数据管理服务从所述消息中间件,获取所述元数据变更消息;响应于所述元数据管理服务接收到所述元数据变更信息,根据改变后的所述元数据信息,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据。4.根据权利要求3所述的方法,其特征在于,所述根据改变后的所述元数据,同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据,包括:生成事务;所述事务包括第一更新操作与第二更新操作;所述第一更新操作包括根据改变后的所述元数据,更新与所述数据源表对应的数据湖表的元数据,所述第二更新操作包括根据改变后的所述元数据,更新与所述数据源表对应的数据仓库表的元数据;执行所述事务;在所述事务执行成功的情形下,确定完成同步更新与所述数据源表对应的数据湖表的元数据和与所述数据源表对应的数据仓库表的元数据。5.根据权利要求4所述的方法,其特征在于,所述执行所述事务,包括:执行所述事务包括的所述第一更新操作...

【专利技术属性】
技术研发人员:李云锋唐振坤
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1