The present invention discloses an extraction method of data, including: when receiving an extraction request to the target data, a set of data sources corresponding to the target data is obtained, and the data source collection contains at least one set of data table names and data source information of the storage path of the data table name; The target data set contains at least one first target data, in which the data source information in the set of the data sources is related to the first target data in the target data set; according to the preset calculation rules, the data source information is related to the first target data in the set of the target data. Then, the first target data in the target data set is distributed to calculate the target data, and the target data is extracted. The above method does not need to compile the extraction code under the framework of map reduce, which avoids the difficulty of extracting difficult and low extraction efficiency in the existing technology.
【技术实现步骤摘要】
一种数据的提取方法、系统及装置
本专利技术涉及大数据领域,尤其涉及一种数据的提取方法、系统及装置。
技术介绍
随着信息科技的发展,在不同的行业中,每时每刻都会产生大量的数据,一般的将产生的大量数据存储在预先建立的数据仓库中。而随着各行业信息系统的发展,产生了对所述数据库中存储的大数据中目标数据进行提取的需求,现有技术中,首先需要分析提取需求,依据所述提取需求在map-reduce框架下编写对应的代码,依据所述代码,实现对大数据中目标数据的提取。专利技术人对现有的数据提取过程进行研究发现,依据map-reduce框架下编写提取代码,具有一定的专业性,一般用户不容易掌握,导致提取难度大、提取效率低。
技术实现思路
有鉴于此,本专利技术提供了一种数据的提取方法,用以解决现有技术中依据map-reduce框架下编写提取代码,具有一定的专业性,一般用户不容易掌握,导致提取难度大、提取效率低的问题,具体方案如下:一种数据的提取方法,应用于大数据集群,包括:当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取所述目标数据。上述的方法,优选的,当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源 ...
【技术保护点】
一种数据的提取方法,其特征在于,应用于大数据集群,包括:当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取所述目标数据。
【技术特征摘要】
1.一种数据的提取方法,其特征在于,应用于大数据集群,包括:当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合中的数据源信息与所述目标数据集合中的第一目标数据存在对应关系;依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据;提取所述目标数据。2.根据权利要求1所述的方法,其特征在于,当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合包括:在请求任务队列中查找与所述提取请求对应的提取代码;将所述提取代码上传至大数据集群;当上传结束时,解析所述提取代码,获取所述提取代码中包含的各组数据源信息;将所述各组数据源信息存储到所述数据源集合中。3.根据权利要求1所述的方法,其特征在于,依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合包括:解析所述数据源集合,获取所述数据源集合中包含的各个数据表名和所述各个数据表名的存储路径;针对每一个存储路径和其对应的数据表名,判断所述预设的数据仓库中是否存在所述存储路径相同的数据路径,若是,查找所述数据路径中是否存在与所述数据表名相同的数据源,若是,将与所述数据表名相同的数据源作为目标数据。4.根据权利要求1所述的方法,其特征在于,依据预设的计算规则,对所述目标数据集合中的第一目标数据进行分布式计算,得到目标数据包括:获取所述第一目标数据的对应的各个目标关键字;针对每一个目标关键字在所述目标数据集合中查找与所述目标关键字匹配的子数据源,将所述子数据源存储到子数据源集合中;当接收到查找完成指令时,将所述子数据源集合中的数据源进行整合,得到目标数据。5.根据权利要求1所述的方法,其特征在于,还包括:将所述目标数据存储到所述大数据集群中预设的待提取区。6.一种数据的提取系统,其特征在于,应用于大数据集群,包括:获取模块,用于当接收到对目标数据的提取请求时,获取与所述目标数据对应的数据源集合,所述数据源集合包含至少一组数据表名和所述数据表名的存储路径的数据源信息;查找模块,用于依据所述数据源集合,在预设的数据仓库中查找与所述数据源集合匹配的目标数据集合,所述目标数据集合包含至少一个第一目标数据,其中,所述数据源集合...
【专利技术属性】
技术研发人员:王飞,
申请(专利权)人:北京网信云服信息科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。