一种数据的提取方法、系统及装置制造方法及图纸

技术编号:18165758 阅读:22 留言:0更新日期:2018-06-09 11:36
本发明专利技术公开了一种数据的提取方法,包括:当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取所述目标数据。上述的方法,不需要再map‑reduce框架下编写提取代码,避免了现有技术中提取难度大、提取效率低的问题。

A method, system and device for data extraction

The present invention discloses an extraction method of data, including: when receiving an extraction request to the target data, a set of data sources corresponding to the target data is obtained, and the data source collection contains at least one set of data table names and data source information of the storage path of the data table name; The target data set contains at least one first target data, in which the data source information in the set of the data sources is related to the first target data in the target data set; according to the preset calculation rules, the data source information is related to the first target data in the set of the target data. Then, the first target data in the target data set is distributed to calculate the target data, and the target data is extracted. The above method does not need to compile the extraction code under the framework of map reduce, which avoids the difficulty of extracting difficult and low extraction efficiency in the existing technology.

【技术实现步骤摘要】
一种数据的提取方法、系统及装置
本专利技术涉及大数据领域,尤其涉及一种数据的提取方法、系统及装置。
技术介绍
随着信息科技的发展,在不同的行业中,每时每刻都会产生大量的数据,一般的将产生的大量数据存储在预先建立的数据仓库中。而随着各行业信息系统的发展,产生了对所述数据库中存储的大数据中目标数据进行提取的需求,现有技术中,首先需要分析提取需求,依据所述提取需求在map-reduce框架下编写对应的代码,依据所述代码,实现对大数据中目标数据的提取。专利技术人对现有的数据提取过程进行研究发现,依据map-reduce框架下编写提取代码,具有一定的专业性,一般用户不容易掌握,导致提取难度大、提取效率低。
技术实现思路
有鉴于此,本专利技术提供了一种数据的提取方法,用以解决现有技术中依据map-reduce框架下编写提取代码,具有一定的专业性,一般用户不容易掌握,导致提取难度大、提取效率低的问题,具体方案如下:一种数据的提取方法,应用于大数据集群,包括:当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取所述目标数据。上述的方法,优选的,当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合包括:在请求任务队列中查找与所述提取请求对应的提取代码;将所述提取代码上传至大数据集群;当上传结束时,解析所述提取代码,获取所述提取代码中包含的各组数据源信息;将所述各组数据源信息存储到所述数据源集合中。上述的方法,优选的,依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合包括:解析所述数据源集合,获取所述数据源集合中包含的各个数据表名和所述各个数据表名的存储路径;针对每一个存储路径和其对应的数据表名,判断所述预设的数据仓库中是否存在所述存储路径相同的数据路径,若是,查找所述数据路径中是否存在与所述数据表名相同的数据源,若是,将与所述数据表名相同的数据源作为目标数据。上述的方法,优选的,依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据包括:获取所述第一目标数据的对应的各个目标关键字;针对每一个目标关键字在所述目标数据集合中查找与所述目标关键字匹配的子数据源,将所述子数据源存储到子数据源集合中;当接收到查找完成指令时,将所述子数据源集合中的数据源进行整合,得到目标数据。上述的方法,优选的,还包括:将所述目标数据存储到所述大数据集群中预设的待提取区。一种数据的提取系统,应用于大数据集群,包括:获取模块,用于当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;查找模块,用于依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;计算模块,用于依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取模块,用于提取所述目标数据。上述的系统,优选的,所述获取模块包括:第一查找单元,用于在请求任务队列中查找与所述提取请求对应的提取代码;上传单元,用于将所述提取代码上传至大数据集群;第一获取单元,用于当上传结束时,解析所述提取代码,获取所述提取代码中包含的各组数据源信息;存储单元,用于将所述各组数据源信息存储到所述数据源集合中。上述的系统,优选的,所述查找模块包括:第二获取单元,用于解析所述数据源集合,获取所述数据源集合中包含的各个数据表名和所述各个数据表名的存储路径;判断单元,用于针对每一个存储路径和其对应的数据表名,判断所述预设的数据仓库中是否存在所述存储路径相同的数据路径,若是,查找所述数据路径中是否存在与所述数据表名相同的数据源,若是,将与所述数据表名相同的数据源作为目标数据。上述的系统,优选的,所述计算模块包括:第三获取单元,用于获取所述第一目标数据的对应的各个目标关键字;第二查找单元,用于针对每一个目标关键字在所述目标数据集合中查找与所述目标关键字匹配的子数据源,将所述子数据源存储到子数据源集合中;整合单元,用于当接收到查找完成指令时,将所述子数据源集合中的数据源进行整合,得到目标数据。一种数据提取装置,应用于Web服务器和大数据集群,包括:输入装置、提交装置和处理器,其中:所述输入装置,运行在Web服务器中,用于提供编写工具编写提取代码,并将所述提取代码存储在请求任务队列中;所述提交装置,运行在所述大数据集群的提交机上,用于在所述请求任务队列中获取所述提取代码,并将所述提取代码提交给所述处理器;所述处理器,运行在所述大数据集群的提交机上,用于当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息,依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系,依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据,提取所述目标数据。与现有技术相比,本专利技术包括以下优点:本专利技术公开了一种数据的提取方法,包括:当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取所述目标数据。上述的方法,不需要再map-reduce框架下编写提取代码,避免了现有技术中提取难度大、提取效率低的问题。当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例公开的一种数据的提取方法流程图;图2为本申请实施例公开的一种数据的提取方法又一方法流程图;图3为本申请实施例公开的一种数据的提取方法又一方法流程图;图4为本申请实施例公开的一种数据的提取系统结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描本文档来自技高网...
一种数据的提取方法、系统及装置

【技术保护点】
一种数据的提取方法,其特征在于,应用于大数据集群,包括:当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取所述目标数据。

【技术特征摘要】
1.一种数据的提取方法,其特征在于,应用于大数据集群,包括:当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取所述目标数据。2.根据权利要求1所述的方法,其特征在于,当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合包括:在请求任务队列中查找与所述提取请求对应的提取代码;将所述提取代码上传至大数据集群;当上传结束时,解析所述提取代码,获取所述提取代码中包含的各组数据源信息;将所述各组数据源信息存储到所述数据源集合中。3.根据权利要求1所述的方法,其特征在于,依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合包括:解析所述数据源集合,获取所述数据源集合中包含的各个数据表名和所述各个数据表名的存储路径;针对每一个存储路径和其对应的数据表名,判断所述预设的数据仓库中是否存在所述存储路径相同的数据路径,若是,查找所述数据路径中是否存在与所述数据表名相同的数据源,若是,将与所述数据表名相同的数据源作为目标数据。4.根据权利要求1所述的方法,其特征在于,依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据包括:获取所述第一目标数据的对应的各个目标关键字;针对每一个目标关键字在所述目标数据集合中查找与所述目标关键字匹配的子数据源,将所述子数据源存储到子数据源集合中;当接收到查找完成指令时,将所述子数据源集合中的数据源进行整合,得到目标数据。5.根据权利要求1所述的方法,其特征在于,还包括:将所述目标数据存储到所述大数据集群中预设的待提取区。6.一种数据的提取系统,其特征在于,应用于大数据集群,包括:获取模块,用于当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;查找模块,用于依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合...

【专利技术属性】
技术研发人员:王飞
申请(专利权)人:北京网信云服信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1