数据提取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:31233356 阅读:65 留言:0更新日期:2021-12-08 10:11
本申请公开了一种数据提取方法、装置、计算机设备和存储介质。该数据提取方法包括:获取数据提取请求,所述数据提取请求携带提取参数;根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;创建所述目标数据库与各导入库的映射表;获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。本申请能够减少数据提取的工作量。作量。作量。

【技术实现步骤摘要】
数据提取方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种数据提取方法、装置、计算机设备和存储介质。

技术介绍

[0002]在大数据生产时代,数据已成为企业生产经营不可或缺的一部分。企业人员在工作过程中,时常需要从数据库中获取所需的数据,以更好地完成工作。传统方式中,是通过在Hive数据仓库中提取数据,并通过人工将提取的数据导出到相应的数据库中。当数据量较大时,会增加数据提取的工作量。

技术实现思路

[0003]本申请的主要目的在于提供一种能够降低数据提取的工作量的数据提取方法、装置、计算机设备和存储介质。
[0004]为了实现上述目的,根据本申请的一个方面,提供了一种数据提取方法。
[0005]根据本申请的数据提取方法包括:
[0006]获取数据提取请求,所述数据提取请求携带提取参数;
[0007]根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;
[0008]创建所述目标数据库与各导入库的映射表;
[0009]获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;
[0010]根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;
[0011]根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。
[0012]进一步的,所述导入库包括检索数据库和关系型数据库,所述创建所述目标数据库与各导入库的映射表,包括:
[0013]通过预设脚本创建所述目标数据库与检索数据库的映射表;
[0014]通过执行预设建表语句创建所述目标数据库与关系型数据库的映射表。
[0015]进一步的,所述根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据,包括:
[0016]通过所述预设脚本根据所述检索数据库的数据筛选条件在所述目标数据库中确定所述检索数据库的导入数据;
[0017]根据所述关系型数据库的数据筛选条件确定所述目标数据库中是否存储对应的表,若存在,则将对应表的数据确定为所述关系型数据库的导入数据。
[0018]进一步的,所述根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库中包括:
[0019]在所述参数配置文件中确定各导入库的路由信息;
[0020]根据所述路由信息以及所述映射表将所述导入数据存储至对应的导入库。
[0021]进一步的,所述导入库包括检索数据库,所述方法还包括:
[0022]当所述导入库为检索数据库时,通过预设脚本创建所述检索数据库的索引;
[0023]根据所述检索数据库的索引、映射表以及参数配置文件将所述检索数据库的导入数据存储至所述检索数据库中。
[0024]进一步的,在根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库之后,所述方法还包括:
[0025]根据工作流任务调度器的数据文件规范信息和所述参数配置文件生成数据提取流程文件,以根据所述数据提取流程文件再次进行数据提取操作。
[0026]为了实现上述目的,根据本申请的另一方面,提供了一种数据提取装置。
[0027]根据本申请的数据提取装置包括:
[0028]通信模块,用于获取数据提取请求,所述数据提取请求携带提取参数;
[0029]数据提取模块,用于根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;
[0030]表创建模块,用于创建所述目标数据库与各导入库的映射表;
[0031]文件获取模块,用于获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;
[0032]数据确定模块,用于根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;
[0033]数据导出模块,用于根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。
[0034]进一步的,所述导入库包括检索数据库和关系型数据库,所述表创建模块还用于通过预设脚本创建所述目标数据库与检索数据库的映射表;通过执行预设建表语句创建所述目标数据库与关系型数据库的映射表。
[0035]一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
[0036]一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
[0037]上述数据提取方法、装置、计算机设备和存储介质,根据提取参数在原始数据库中进行数据提取,构建目标数据库,将提取的数据与原始数据库分隔开,有利于后续数据存储。通过创建目标数据库与各导入库的映射表,在各导入库的参数配置文件中确定各导入库的数据筛选条件,从而在目标数据库中确定各导入库的导入数据,根据映射表以及参数配置文件将所述导入数据存储至对应的导入库。在获取到数据提取请求后,可自动根据该请求进行数据提取及导出操作,无需人工操作,实现类自动化的数据提取,从而有效降低了数据提取的工作量,有利于提高工作人员的开发效率。同时,由于各导入库的参数配置文件是预先生成的,且配置有各导入库的数据筛选条件,可快速将目标数据库中的数据准确导出至各导入库。
附图说明
[0038]构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它
特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0039]图1是一个实施例中数据提取方法的应用环境图;
[0040]图2为一个实施例中数据提取方法的流程示意图;
[0041]图3为一个实施例中数据提取装置的结构框图;
[0042]图4为一个实施例中计算机设备的内部结构图。
具体实施方式
[0043]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0044]需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0045]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0046]本申请提供的数据提取方法,可以应用于如图1所示的应用环境中。具体可以应用于在大量Hive表提取数据并推送数据到MySQL和Elas本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据提取方法,其特征在于,包括:获取数据提取请求,所述数据提取请求携带提取参数;根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;创建所述目标数据库与各导入库的映射表;获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。2.根据权利要求1所述的方法,其特征在于,所述导入库包括检索数据库和关系型数据库,所述创建所述目标数据库与各导入库的映射表,包括:通过预设脚本创建所述目标数据库与检索数据库的映射表;通过执行预设建表语句创建所述目标数据库与关系型数据库的映射表。3.根据权利要求2所述的方法,其特征在于,所述根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据,包括:通过所述预设脚本根据所述检索数据库的数据筛选条件在所述目标数据库中确定所述检索数据库的导入数据;根据所述关系型数据库的数据筛选条件确定所述目标数据库中是否存储对应的表,若存在,则将对应表的数据确定为所述关系型数据库的导入数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库中包括:在所述参数配置文件中确定各导入库的路由信息;根据所述路由信息以及所述映射表将所述导入数据存储至对应的导入库。5.根据权利要求1所述的方法,其特征在于,所述导入库包括检索数据库,所述方法还包括:当所述导入库为检索数据库时,通过预设脚本创建所述检索数据库的索引;根据所述检索数据库的索引、映...

【专利技术属性】
技术研发人员:王锦胤马绍桐
申请(专利权)人:紫金诚征信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1