一种用于轻客户端的Spark作业提交方法和系统技术方案

技术编号:37168068 阅读:20 留言:0更新日期:2023-04-20 22:40
公开了用于轻客户端的Spark作业提交方法和系统,包括动态代理接收到前端用户发送的作业处理请求,选择第一后端服务处理请求;第一后端服务将请求写入消息队列,通知前端用户请求提交成功进入调度队列等待处理;集群中空闲的第二后端服务从消息队列中获取请求,第二后端服务利用Spark驱动进程调用集执行器对请求进行调度执行,定时将处理进度、结果和采样数据写入NoSQL数据库;前端用户接收到请求提交成功信息后向动态代理发送获取实时进度和处理结果的请求,动态代理根据请求信息,选择第三后端服务处理,从数据库中获取实时进度和处理结果返回前端用户。本申请能够减轻边缘节点服务器的资源使用负担,降低故障发生频率,高效地实现轻客户端的交互效果。效地实现轻客户端的交互效果。效地实现轻客户端的交互效果。

【技术实现步骤摘要】
一种用于轻客户端的Spark作业提交方法和系统


[0001]本专利技术涉及大数据处理的
,尤其是一种用于轻客户端的Spark作业提交方法和系统。

技术介绍

[0002]YARN是一种统一资源管理机制,其上可以运行多套计算框架。Spark作为最常用的大数据计算框架之一,其Spark on YARN运行模式借助YARN良好的弹性资源管理机制,使得用户在YARN集群中运行的服务和资源能够被完全隔离,得以管理同时运行在集群中的多个任务。
[0003]YARN集群环境中每个应用实例都有一个Application Master进程,负责向集群资源管理器请求Container资源。Spark运行时架构主要由Driver和Executor两个重要部件组成,Driver负责作业调度,Executor负责执行具体的计算任务。Spark on YARN根据Spark Driver和Application Master在运行时所处的相对位置可分为两种模式:YARN

Client模式和YARN

Cluster模式。<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于轻客户端的Spark作业提交方法,其特征在于,包括:S1:响应于动态代理HAProxy接收到前端用户发送的作业处理请求,根据负载均衡策略选择第一后端服务处理所述作业处理请求;S2:所述第一后端服务将所述作业处理请求写入消息队列,通知所述前端用户所述作业处理请求提交成功进入调度队列等待处理;S3:YARN集群中其他空闲的第二后端服务从所述消息队列中获取到所述作业处理请求,所述第二后端服务利用Spark驱动进程调用集群中的执行器对所述作业处理请求进行调度执行,定时将处理进度写入NoSQL数据库,并将处理结果和采样数据写入所述NoSQL数据库;S4:所述前端用户从所述S2中接收到所述作业处理请求提交成功的信息后向所述动态代理HAProxy发送获取作业实时进度和处理结果的请求信息,所述动态代理HAProxy根据所述请求信息,按照负载策略选择第三后端服务进行处理,从所述NoSQL数据库中获取作业实时进度和处理结果并通过所述动态代理HAProxy返回所述前端用户。2.根据权利要求1所述的用于轻客户端的Spark作业提交方法,其特征在于,还包括:响应于动态代理HAProxy接收到前端用户发送的取消作业请求,根据负载均衡策略选择第二后端服务从所述NoSQL数据库中获取作业执行进度和作业当前运行时所在的后端服务信息,根据作业进度状态执行取消操作,并将作业取消结果通过所述动态代理HAProxy反馈至所述前端用户。3.根据权利要求2所述的用于轻客户端的Spark作业提交方法,其特征在于,所述根据作业进度状态执行取消操作包括:响应于所述作业执行进度不存在,删除消息队列中作业信息;响应于所述作业执行进度已完成,标记作业已取消;响应于所述作业执行进度未完成,将取消作业的请求信息转发到作业运行时所在的第一后端服务处理,所述第一后端服务通过Spark驱动进程向集群提交作业取消指令,将所述NoSQL数据库中的作业执行进度变更为取消,标记作业已取消并将取消结果反馈给所述第二后端服务。4.根据权利要求3所述的用于轻客户端的Spark作业提交方法,其特征在于,通过动态代理服务屏蔽所述前端用户与所述YARN集群之间的直接交互访问。5.根据权利要求4所述的用于轻客户端的Spark作业提交方法,其特征在于,所述动态代理服务具体包括:在所述YARN集群边缘节点服务器上启动Launcher服务,启动并保持一或多个轻量级Web应用服务,所述Launcher配置用于监听并保证在所述YARN集群中始终能运行一或多个轻量级Web应用服务;启动成功的轻量级Web应用服务将其所在IP和监听窗口通过HAProxy动态配置接口注册至HAProxy后端配置中;HAProxy动态配置接口根据最新配置动态重载HAProxy,对外提供统一代理服务,将Spark相关请求转发至分散在所述YARN集群中的轻量级Web应用服务上进行处...

【专利技术属性】
技术研发人员:张凤魏超朱海勇沈代明陈子沣王杰诚
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1