一种基于制造技术

技术编号：39589737 阅读：22 留言：0更新日期：2023-12-03 19:42

本申请涉及大数据技术领域，公开了一种基于

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Spark的指定节点运行脚本任务方法及装置

[0001]本申请涉及大数据
，尤其是一种基于
Spark
的指定节点运行脚本任务方法及装置
。

技术介绍

[0002]Hadoop
是一种分布式系统基础架构
。
用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储，随着大数据技术的发展，传统的
mysql
已难以满足大量增长的数据服务需求，而逐步发展为
hadoop
集群的分布式处理模式
。Hadoop
集群包含
HDFS、YARN
和
MAPREDUCE
三大核心组件，其中，
HDFS
为分布式文件系统，用于解决海量数据存储问题，
YARN
为作业调度和集群资源管理的框架，用于解决资源任务调度问题，
MAPREDUCE
为分布式运算编程框架，用于解决海量数据计算问题
。
[0003]目前运行
sh本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于
Spark
的指定节点运行脚本任务方法，其特征在于，包括：
S100、
将脚本文件上传到
hdfs
中，并通过
yarn
将脚本文件以及所述脚本文件的依赖附属文件拉取到
container
中；
S200、
将所述脚本文件或依赖附属文件中的
python
脚本设置到
python
进程的
pythonpath
中；
S300、
通过
spark
中的
mapartition
算子启动
Process
进程来执行所述脚本任务；
S400、
获取
SparkConf
对象，并将所述
SparkConf
对象中的
nodes
对应值和
racks
对应值封装到
ContainerRequest
请求中；
S500、
将封装好的
ContainerRequest
请求发送给
applicationMaster
，以指定所述脚本任务运行的节点
。2.
根据权利要求1所述的基于
Spark
的指定节点运行脚本任务方法，其特征在于，通过
yarn
将脚本文件以及所述脚本文件的依赖附属文件拉取到
container
下用于所述脚本任务的运行，包括：通过设置
spark.script.ship
‑
files
参数的方式判断所述脚本文件是否有依赖附属文件；响应于判断结果为是，则将依赖附属文件上传到
HDFS
，并通过
yarn
的分布式缓存将所述脚本文件和依赖附属文件下载到对应的
container
中；响应于判断结果为否，则通过
yarn
的分布式缓存将所述脚本文件下载到对应的
container
中
。3.
根据权利要求1所述的基于
Spark
的指定节点运行脚本任务方法，其特征在于，将所述脚本文件或依赖附属文件中的
python
脚本设置到
python
进程的
pythonpath
中，包括：通过所述脚本文件或依赖附属文件的后缀判断脚本任务中是否有
python
脚本；响应于判断结果为是，则将所述
python
脚本添加到
container
环境变量的
pythonpath
中，再执行步骤
S300
；响应于判断结果为否，则直接执行步骤
S300。4.
根据权利要求1所述的基于
Spark
的指定节点运行脚本任务方法，其特征在于，将所述
SparkConf
对象中的
nodes
对应值和
racks
对应值封装到
ContainerRequest
请求中，包括：
S401、
判断所述
SparkConf
对象中是否有指定的
nodes
参数；响应于判断结果为是，则执行步骤
S402
；响应于判断结构为否，则执行步骤
S500
；
S402、
获取所述
SparkConf
对象中的
nodes
参数值，并将所述
nodes
参数值设置到
ContainerRequest
请求中；
S403、
判断所述
SparkConf
对象中是否有指定的
racks
参数；响应于判断结果为是，则执行步骤
S404
；响应于判断结果为否，则执行步骤
S500
；
S404、
获取所述
SparkConf
对象中的
racks<...

【专利技术属性】
技术研发人员：冯方炜，徐进挺，郑丽君，
申请(专利权)人：杭州玳数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人