Spark任务处理方法及装置制造方法及图纸

技术编号:24755517 阅读:143 留言:0更新日期:2020-07-04 09:01
本发明专利技术公开了一种Spark任务处理方法及装置,该Spark任务处理方法包括:获取用户提交的Spark任务;根据所述用户的历史Spark任务处理数据确定所述Spark任务对应的任务执行参数;将所述Spark任务发送到预设的SparkSession对象,以使所述SparkSession对象根据所述任务执行参数处理所述Spark任务。本发明专利技术提高了Spark任务处理的时效性和处理效率。

Spark task processing method and device

【技术实现步骤摘要】
Spark任务处理方法及装置
本专利技术涉及大数据领域,具体而言,涉及一种Spark任务处理方法及装置。
技术介绍
信息技术与经济社会的交汇融合引发了数据的迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。而对于数据的存储和处理,ApacheSpark作为大规模数据处理的快速通用的计算引擎,在大数据领域占据了很重要的地位。它扩展了MapReduce模型,并且基于内存已经形成了一个高速发展应用广泛的生态系统,帮助各行各业基于大数据完成工作。现有的Spark任务可以通过离线批量计算提交到Spark集群中,然后Spark集群基于资源管理工具(例如YARN)对任务进行统一处理。这种任务处理方法适用于生产批量作业环境,便于作业统一提交、统一管理,缺点是不能实时反馈任务运行结果,同时每次提交任务都需要启动一次Driver进程,对于高时效的作业来讲,启动Driver的时间将大大影响任务的处理效率。
技术实现思路
本专利技术为了解决上述
技术介绍
中的至少一个技术问题,提出了一种Spark任务处理方法及装置。为了实现上述目的,根据本专利技术的一个方面,提供了一种Spark任务处理方法,该方法包括:获取用户提交的Spark任务;根据所述用户的历史Spark任务处理数据确定所述Spark任务对应的任务执行参数;将所述Spark任务发送到预设的SparkSession对象,以使所述SparkSession对象根据所述任务执行参数处理所述Spark任务。可选的,所述根据所述用户的历史Spark任务处理数据确定所述Spark任务对应的任务执行参数,具体包括:确定所述Spark任务的任务类型;从所述用户的所有历史Spark任务处理数据中确定出所述任务类型对应的历史Spark任务处理数据;根据所述任务类型对应的历史Spark任务处理数据确定所述任务类型对应的任务执行参数。可选的,所述根据所述任务类型对应的历史Spark任务处理数据确定所述任务类型对应的任务执行参数,具体包括:根据所述任务类型对应的历史Spark任务处理数据确定所述任务类型对应的任务模型;根据所述任务模型确定所述任务类型对应的任务执行参数。可选的,所述历史Spark任务处理数据包括:各历史Spark任务的任务类型、各历史Spark任务的任务执行参数以及各历史Spark任务的任务执行情况。可选的,该Spark任务处理方法还包括:若不存在所述用户对应的历史Spark任务处理数据,则根据所述Spark任务访问的数据信息生成所述Spark任务对应的任务执行参数。可选的,所述将所述Spark任务发送到预设的SparkSession对象,具体包括:根据预设的多个SparkSession对象的运行状态将所述Spark任务分配给所述多个SparkSession对象中的其中一个SparkSession对象。可选的,所述任务执行参数包括:执行器数量、执行器内存以及线程数量中的至少一个。为了实现上述目的,根据本专利技术的另一方面,提供了一种Spark任务处理装置,该装置包括:任务获取单元,用于获取用户提交的Spark任务;第一任务执行参数确定单元,用于根据所述用户的历史Spark任务处理数据确定所述Spark任务对应的任务执行参数;任务处理单元,用于将所述Spark任务发送到预设的SparkSession对象,以使所述SparkSession对象根据所述任务执行参数处理所述Spark任务。可选的,所述第一任务执行参数确定单元,包括:任务类型确定模块,用于确定所述Spark任务的任务类型;历史Spark任务处理数据筛选模块,用于从所述用户的所有历史Spark任务处理数据中确定出所述任务类型对应的历史Spark任务处理数据;参数确定模块,用于根据所述任务类型对应的历史Spark任务处理数据确定所述任务类型对应的任务执行参数。可选的,所述参数确定模块,包括:模型生成子模块,用于根据所述任务类型对应的历史Spark任务处理数据确定所述任务类型对应的任务模型;自调优子模块,用于根据所述任务模型确定所述任务类型对应的任务执行参数。可选的,该Spark任务处理装置还包括:第二任务执行参数确定单元,用于在不存在所述用户对应的历史Spark任务处理数据时根据所述Spark任务访问的数据信息生成所述Spark任务对应的任务执行参数。可选的,所述任务处理单元,具体用于根据预设的多个SparkSession对象的运行状态将所述Spark任务分配给所述多个SparkSession对象中的其中一个SparkSession对象。为了实现上述目的,根据本专利技术的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述Spark任务处理方法中的步骤。为了实现上述目的,根据本专利技术的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述Spark任务处理方法中的步骤。本专利技术的有益效果为:本专利技术通过设置多个SparkSession对象,在处理Spark任务时可以将任务分配到某一个SparkSession上,不需要启动Driver进程,SparkSession对象可以直接开始处理任务,从而提高了任务处理的时效性和处理效率。此外本专利技术根据用户的历史Spark任务处理数据确定出当前Spark任务对应的任务执行参数,进一步提高了任务处理的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术第一实施例Spark任务处理方法的流程图;图2是本专利技术实施例确定Spark任务对应的任务执行参数的第一流程图;图3是本专利技术实施例确定Spark任务对应的任务执行参数的第二流程图;图4是本专利技术第二实施例Spark任务处理方法的流程图;图5是本专利技术实施例Spark任务处理装置的结构框图;图6是本专利技术实施例第一任务执行参数确定单元的结构框图;图7是本专利技术实施例计算机设备示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其本文档来自技高网
...

【技术保护点】
1.一种Spark任务处理方法,其特征在于,包括:/n获取用户提交的Spark任务;/n根据所述用户的历史Spark任务处理数据确定所述Spark任务对应的任务执行参数;/n将所述Spark任务发送到预设的SparkSession对象,以使所述SparkSession对象根据所述任务执行参数处理所述Spark任务。/n

【技术特征摘要】
1.一种Spark任务处理方法,其特征在于,包括:
获取用户提交的Spark任务;
根据所述用户的历史Spark任务处理数据确定所述Spark任务对应的任务执行参数;
将所述Spark任务发送到预设的SparkSession对象,以使所述SparkSession对象根据所述任务执行参数处理所述Spark任务。


2.根据权利要求1所述的Spark任务处理方法,其特征在于,所述根据所述用户的历史Spark任务处理数据确定所述Spark任务对应的任务执行参数,具体包括:
确定所述Spark任务的任务类型;
从所述用户的所有历史Spark任务处理数据中确定出所述任务类型对应的历史Spark任务处理数据;
根据所述任务类型对应的历史Spark任务处理数据确定所述任务类型对应的任务执行参数。


3.根据权利要求2所述的Spark任务处理方法,其特征在于,所述根据所述任务类型对应的历史Spark任务处理数据确定所述任务类型对应的任务执行参数,具体包括:
根据所述任务类型对应的历史Spark任务处理数据确定所述任务类型对应的任务模型;
根据所述任务模型确定所述任务类型对应的任务执行参数。


4.根据权利要求1至3任意之一所述的Spark任务处理方法,其特征在于,所述历史Spark任务处理数据包括:各历史Spark任务的任务类型、各历史Spark任务的任务执行参数以及各历史Spark任务的任务执行情况。


5.根据权利要求1所述的Spark任务处理方法,其特征在于,还包括:
若不存在所述用户对应的历史Spark任务处理数据,则根据所述Spark任务访问的数据信息生成所述Spark任务对应的任务执行参数。


6.根据权利要求1所述的Spark任务处理方法,其特征在于,所述将所述Spark任务发送到预设的SparkSession对象,具体包括:
根据预设的多个SparkSession对象的运行状态将所述Spark任务分配给所述多个SparkSession对象中的其中一个SparkSession对象。


7.根据权利要求1所述的Spark任务处理方法,其特征在于,所述任务执行参数包括:执行器数量、执行器内存以及线程数量中的至少一个。


8.一种Spark任务处理装置,其特征在于,包括:
任务获取单元,用于获取用户提交的Spark任务;
第一任务执行参数确定单元,用于根据所述用户的历史Spark任务处理数据确定所...

【专利技术属性】
技术研发人员:何晓政
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1