一种基于制造技术

技术编号:39589737 阅读:22 留言:0更新日期:2023-12-03 19:42
本申请涉及大数据技术领域,公开了一种基于

【技术实现步骤摘要】
一种基于Spark的指定节点运行脚本任务方法及装置


[0001]本申请涉及大数据
,尤其是一种基于
Spark
的指定节点运行脚本任务方法及装置


技术介绍

[0002]Hadoop
是一种分布式系统基础架构

用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储,随着大数据技术的发展,传统的
mysql
已难以满足大量增长的数据服务需求,而逐步发展为
hadoop
集群的分布式处理模式
。Hadoop
集群包含
HDFS、YARN

MAPREDUCE
三大核心组件,其中,
HDFS
为分布式文件系统,用于解决海量数据存储问题,
YARN
为作业调度和集群资源管理的框架,用于解决资源任务调度问题,
MAPREDUCE
为分布式运算编程框架,用于解决海量数据计算问题

[0003]目前运行
sh本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Spark
的指定节点运行脚本任务方法,其特征在于,包括:
S100、
将脚本文件上传到
hdfs
中,并通过
yarn
将脚本文件以及所述脚本文件的依赖附属文件拉取到
container
中;
S200、
将所述脚本文件或依赖附属文件中的
python
脚本设置到
python
进程的
pythonpath
中;
S300、
通过
spark
中的
mapartition
算子启动
Process
进程来执行所述脚本任务;
S400、
获取
SparkConf
对象,并将所述
SparkConf
对象中的
nodes
对应值和
racks
对应值封装到
ContainerRequest
请求中;
S500、
将封装好的
ContainerRequest
请求发送给
applicationMaster
,以指定所述脚本任务运行的节点
。2.
根据权利要求1所述的基于
Spark
的指定节点运行脚本任务方法,其特征在于,通过
yarn
将脚本文件以及所述脚本文件的依赖附属文件拉取到
container
下用于所述脚本任务的运行,包括:通过设置
spark.script.ship

files
参数的方式判断所述脚本文件是否有依赖附属文件;响应于判断结果为是,则将依赖附属文件上传到
HDFS
,并通过
yarn
的分布式缓存将所述脚本文件和依赖附属文件下载到对应的
container
中;响应于判断结果为否,则通过
yarn
的分布式缓存将所述脚本文件下载到对应的
container

。3.
根据权利要求1所述的基于
Spark
的指定节点运行脚本任务方法,其特征在于,将所述脚本文件或依赖附属文件中的
python
脚本设置到
python
进程的
pythonpath
中,包括:通过所述脚本文件或依赖附属文件的后缀判断脚本任务中是否有
python
脚本;响应于判断结果为是,则将所述
python
脚本添加到
container
环境变量的
pythonpath
中,再执行步骤
S300
;响应于判断结果为否,则直接执行步骤
S300。4.
根据权利要求1所述的基于
Spark
的指定节点运行脚本任务方法,其特征在于,将所述
SparkConf
对象中的
nodes
对应值和
racks
对应值封装到
ContainerRequest
请求中,包括:
S401、
判断所述
SparkConf
对象中是否有指定的
nodes
参数;响应于判断结果为是,则执行步骤
S402
;响应于判断结构为否,则执行步骤
S500

S402、
获取所述
SparkConf
对象中的
nodes
参数值,并将所述
nodes
参数值设置到
ContainerRequest
请求中;
S403、
判断所述
SparkConf
对象中是否有指定的
racks
参数;响应于判断结果为是,则执行步骤
S404
;响应于判断结果为否,则执行步骤
S500

S404、
获取所述
SparkConf
对象中的
racks<...

【专利技术属性】
技术研发人员:冯方炜徐进挺郑丽君
申请(专利权)人:杭州玳数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1