数据抽取方法及装置制造方法及图纸

技术编号:32967930 阅读:8 留言:0更新日期:2022-04-09 11:27
本申请提供一种数据抽取方法及装置,应用于分布式数据存储系统中的任一数据节点,该方法可以包括:获取数据抽取工具发送的数据抽取请求,所述数据抽取请求包括目标类目信息;根据所述数据抽取请求向所述注册中心发送查询请求,以使所述注册中心确定所述分布式数据存储系统中存储有对应于所述目标类目信息的数据的目标数据节点;接收所述注册中心返回的各个目标数据节点的访问路径,并根据各个目标数据节点的访问路径向各个目标数据节点发送数据获取请求;接收各个目标数据节点返回的对应于所述目标类目信息的数据,以由所述数据抽取工具对所述目标类目信息的数据进行抽取。通过本申请的技术方案,可以快速地对分布式存储的数据进行集中抽取。数据进行集中抽取。数据进行集中抽取。

【技术实现步骤摘要】
数据抽取方法及装置


[0001]本申请涉及数据处理
,特别是数据抽取方法及装置。

技术介绍

[0002]ETL(Extract

Transform

Load,抽取

交互转换

加载)技术,用于从源端抽取数据,并对抽取到的数据进行格式转化、数据清洗等操作,再将其加载至目的端,可以将分散、零乱、标准不统一的数据整合到一起,在数据仓库等领域中具有重要作用。
[0003]相关技术中,在对分布式存储的数据进行数据抽取时,数据抽取工具由于只能够抽取其访问的数据节点中的明确的数据,因此通常需要采用并发运行的方式,对不同的数据节点分别进行数据抽取,无法统一对分布式存储在不同数据节点中的数据进行集中抽取。

技术实现思路

[0004]有鉴于此,本申请提供数据抽取方法及装置,用以对分布式数据存储系统中的数据进行快速的集中抽取。
[0005]具体的,本申请通过如下技术方案实现:
[0006]根据本申请的第一方面,提出了一种数据抽取方法,应用于分布式数据存储系统中的任一数据节点,所述分布式数据存储系统包括注册中心和至少一个数据节点,所述注册中心用于存储所述分布式数据存储系统中各个数据节点的注册信息,所述注册信息包括数据节点的访问路径和该数据节点中所存储的数据的类目信息,包括:
[0007]获取数据抽取工具发送的数据抽取请求,所述数据抽取请求包括目标类目信息,用于请求抽取对应于所述目标类目信息的数据;
[0008]根据所述数据抽取请求向所述注册中心发送查询请求,以使所述注册中心根据所述查询请求查询各个数据节点的注册信息,确定所述分布式数据存储系统中存储有对应于所述目标类目信息的数据的目标数据节点;
[0009]接收所述注册中心返回的各个目标数据节点的注册信息,并根据各个目标数据节点的访问路径向各个目标数据节点发送数据获取请求;
[0010]接收各个目标数据节点返回的对应于所述目标类目信息的数据,以由所述数据抽取工具对所述目标类目信息的数据进行抽取。
[0011]根据本申请的第二方面,提出了一种数据抽取装置,应用于分布式数据存储系统中的任一数据节点,所述分布式数据存储系统包括注册中心和至少一个数据节点,所述注册中心用于存储所述分布式数据存储系统中各个数据节点的注册信息,所述注册信息包括数据节点的访问路径和该数据节点中所存储的数据的类目信息,包括:
[0012]获取单元,用于获取数据抽取工具发送的数据抽取请求,所述数据抽取请求包括目标类目信息,用于请求抽取对应于所述目标类目信息的数据;
[0013]查询单元,用于根据所述数据抽取请求向所述注册中心发送查询请求,以使所述
注册中心根据所述查询请求查询各个数据节点的注册信息,确定所述分布式数据存储系统中存储有对应于所述目标类目信息的数据的目标数据节点;
[0014]接收单元,用于接收所述注册中心返回的各个目标数据节点的注册信息,并根据各个目标数据节点的访问路径向各个目标数据节点发送数据获取请求;
[0015]转发单元,用于接收各个目标数据节点返回的对应于所述目标类目信息的数据,以由所述数据抽取工具对所述目标类目信息的数据进行抽取。
[0016]根据本申请的第三方面,提供一种电子设备,包括:
[0017]处理器;
[0018]用于存储处理器可执行指令的存储器;
[0019]其中,所述处理器通过运行所述可执行指令以实现如上述第一方面的实施例中所述的方法。
[0020]根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述第一方面的实施例中所述方法的步骤。
[0021]由以上本申请提供的技术方案可见,本申请通过对分布式数据存储系统中一个数据节点发送数据抽取请求,由该数据节点代替数据抽取工具,通过查询注册中心中所存储的各个数据节点的注册信息确定分布式数据存储系统中存储有数据抽取工具所要抽取的数据的其他数据节点,由该数据节点统一将存储在该分布式存储系统的不同数据节点中的数据汇集并转发至数据抽取工具,从而可以使得数据抽取工具可以直接通过一个数据节点一次性集中抽取到分布式存储在各个不同数据节点中的所需数据。
附图说明
[0022]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0023]图1是应用本申请一示例性实施例示出的一种分布式数据存储系统的网络架构示意图;
[0024]图2是根据本申请一示例性实施例示出的一种数据抽取方法的流程图;
[0025]图3是应用本申请实施例的数据抽取系统的网络架构示意图;
[0026]图4是根据本申请一示例性实施例示出的一种数据抽取方法的多方交互流程图;
[0027]图5是根据本申请一示例性实施例示出的一种数据抽取电子设备示意图;
[0028]图6是根据本申请一示例性实施例示出的一种数据抽取装置的框图。
具体实施方式
[0029]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0030]在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包
含一个或多个相关联的列出项目的任何或所有可能组合。
[0031]应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0032]接下来对本申请实施例进行详细说明。
[0033]参见图1,为应用本申请一示例性实施例示出的一种分布式数据存储系统的网络架构示意图。分布式数据存储系统包括注册中心和至少一个数据节点,数据节点用于对数据表等资源数据进行存储,注册中心用于对分布式数据存储系统中的各个数据节点所存储的资源数据所登记注册的注册信息进行管理和存储。注册中心可以与各个数据节点相连,而各个数据节点则可以组成多层级的树型拓扑结构,也可以组成星型拓扑或者其他类型的结构,本申请对此不作限制。以图1所示结构为例,一级数据节点1、二级数据节点2

1、二级本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据抽取方法,其特征在于,应用于分布式数据存储系统中的任一数据节点,所述分布式数据存储系统包括注册中心和至少一个数据节点,所述注册中心用于存储所述分布式数据存储系统中各个数据节点的注册信息,所述注册信息包括数据节点的访问路径和该数据节点中所存储的数据的类目信息,所述方法包括:获取数据抽取工具发送的数据抽取请求,所述数据抽取请求包括目标类目信息,用于请求抽取对应于所述目标类目信息的数据;根据所述数据抽取请求向所述注册中心发送查询请求,以使所述注册中心根据所述查询请求查询各个数据节点的注册信息,确定所述分布式数据存储系统中存储有对应于所述目标类目信息的数据的目标数据节点;接收所述注册中心返回的各个目标数据节点的注册信息,并根据各个目标数据节点的访问路径向各个目标数据节点发送数据获取请求;接收各个目标数据节点返回的对应于所述目标类目信息的数据,以由所述数据抽取工具对所述目标类目信息的数据进行抽取。2.根据权利要求1所述方法,其特征在于,所述分布式数据存储系统还包括用于对数据进行权限管理的权限中心,所述数据抽取请求还包括所述数据抽取工具的请求方信息,所述根据所述数据抽取请求向所述注册中心发送查询请求,包括:向所述权限中心发送所述数据抽取工具的请求方信息,以使所述权限中心对所述数据抽取工具的权限进行认证;在认证通过的情况下,根据所述数据抽取请求向所述注册中心发送查询请求。3.根据权利要求2所述方法,其特征在于,所述数据获取请求包括所述任一数据节点的请求方信息,所述对应于所述目标类目信息的数据由各个目标数据节点在所述权限中心对所述任一数据节点的请求方信息权限认证通过后发送。4.根据权利要求1所述方法,其特征在于,所述分布式数据存储系统中的各个数据节点按照树型拓扑结构分布,所述注册信息包括数据节点的节点编码,所述查询请求包括所述任一数据节点的节点编码,用于使所述注册中心根据所述任一数据节点的节点编码查询下属于所述任一数据节点的各个数据节点的注册信息,所述目标数据节点为所述分布式数据存储系统中存储有对应于所述目标类目信息的数据且下属于所述任一数据节点的数据节点。5.根据权利要求1所述方法,其特征在于,所述分布式数据存储系统中的各个数据节点按照树型拓扑结构分布,所述注册信息还包括数据节点的节点编码,所述方...

【专利技术属性】
技术研发人员:林鹏程
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1