一种数据抽取方法、装置、设备及存储介质制造方法及图纸

技术编号:36090701 阅读:19 留言:0更新日期:2022-12-24 11:07
本发明专利技术公开了一种数据抽取方法、装置、设备及存储介质,涉及数据处理技术领域,具体涉及大数据技术领域。该方法包括:根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;根据目标映射任务并发数,对目标数据表进行数据抽取。采用该技术方案,可以动态确定目标映射任务并发数,并根据目标映射任务并发数对目标数据表进行并发的数据抽取,缩短了从目标数据表中抽取数据的时间,提高了数据抽取的效率。提高了数据抽取的效率。提高了数据抽取的效率。

【技术实现步骤摘要】
一种数据抽取方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,具体涉及大数据
,尤其涉及一种数据抽取方法、装置、设备及存储介质。

技术介绍

[0002]随着信息技术高速发展,各行业进入大数据时代,Hadoop为各行业提供了大数据解决方案。Hadoop存储的数据量大,传统关系型数据库和Hadoop之间如何进行数据传递,是Hadoop面临的一个问题。Sqoop(出现后,很快成为Hadoop生态圈的一部分,用于关系型数据库和Hadoop之间传递海量数据。使用Sqoop实现传统关系型数据库数据与Hadoop之间进行数据传递,对于小型或中型数据表,可以在较短时间内完成,对于大型数据表,需要一小时或几小时才能完成,极大地影响了传统关系型数据库数据与Hadoop之间的数据传递效率。因此,亟需改进。

技术实现思路

[0003]本专利技术提供了一种数据抽取方法、装置、设备及存储介质,以缩短数据抽取的时间,提高数据的抽取效率。
[0004]根据本专利技术的一方面,提供了一种数据抽取方法,包括:
[0005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据抽取方法,其特征在于,包括:根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;根据所述目标映射任务并发数,对所述目标数据表进行数据抽取。2.根据权利要求1所述的方法,其特征在于,所述根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数,包括:根据所述目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的初始映射任务并发数;根据Sqoop进程并发数和所述集群资源中的中央处理器CPU内核数量,确定第一映射任务并发数;根据所述初始映射任务并发数、所述第一映射任务并发数和第二映射任务并发数,确定对目标数据表进行数据抽取时所需的目标映射任务并发数。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的初始映射任务并发数,包括:确定所述目标数据表的空间占用信息与预设数值之间的第一比值结果;对所述第一比值结果进行向下取整处理,将得到的结果作为对目标数据表进行数据抽取时所需的初始映射任务并发数。4.根据权利要求2所述的方法,其特征在于,所述根据Sqoop进程并发数和所述集群资源中的CPU内核数量,确定第一映射任务并发数,包括:确定所述集群资源中的CPU内核数量与所述Sqoop进程并发数之间的第二比值结果;对所述第二比值结果进行向下取整处理,将得到的结果作为第一映射任务并发数。5.根据权利要求2所述的方法,其特征在于,所述根据所述初始映射任务并发数、所述第一映射任务并发数和第二映射任务并发数,确定对目标数据表进行数据抽取时所需的目标映射任务并发数,包括:若所述初始映射任务并发数大于所述第一映射任务并发数,则将所述第一映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数;若所...

【专利技术属性】
技术研发人员:许吉来罗晓峰姜帆张延堂林发全
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1