一种分布式数据处理方法技术

技术编号:42202198 阅读:21 留言:0更新日期:2024-07-30 18:48
本发明专利技术涉及数据处理技术领域,尤其涉及一种分布式数据处理方法,包括,在客户端提交PySpark应用时,构建独立于Spark集群外的Python执行环境;Spark Driver解析PySpark应用的Python依赖参数;Python依赖模块检查本地Python环境;将PySpark任务调度给Spark Executor执行;在本地构建pyspark.worker;Spark Executor完成计算任务并返回结果;最终返回给客户端。在提高了Python执行环境的稳定性的同时,进而提高了数据的处理效率。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种分布式数据处理方法


技术介绍

1、借助pyspark技术,spark开发者可以在spark任务中使用python,从而可以充分利用python在科学计算、机器学习方面的生态,极大的扩展spark计算能力。但pyspark往往需要在spark集群中的每个节点都部署python环境以及开发过程中使用到的python库,常见有两种方案:

2、一是在所有spark集群进行手动部署,但随着集群规模增大,部署及运维工作量会显著增加,同时无法满足开发者对python环境及python库的动态需求,开发者可能随时需要引入新的python库。

3、二是提交spark任务时打包携带所有python环境及依赖库,这样虽然解决了动态需求问题,但每个spark任务都需要消耗大量的网络流量,同时每个任务执行前都需要重建python环境。

4、中国专利公开号:cn114996148a,公开了一种基于pyspark的自动化测试方法、装置、计算机设备及存储介质,包括:定时获取任务调度平台中的遗漏监测任务;在运行所述遗本文档来自技高网...

【技术保护点】

1.一种分布式数据处理方法,其特征在于,包括:

2.根据权利要求1所述的分布式数据处理方法,其特征在于,将获取的预设分析时长内Spark Driver接收的字符数记为传输字符数,并根据传输字符数确定执行环境的构建参数是否符合预设标准;

3.根据权利要求2所述的分布式数据处理方法,其特征在于,将获取的PySpark应用中注释的字符数与文件的总字符数的比值记为字符比值,并根据字符比值重新确定执行环境的构建参数是否符合预设标准;

4.根据权利要求3所述的分布式数据处理方法,其特征在于,将第二预设传输字符数与传输字符数的差值记为传输差值,并根据传输差值确定针对...

【技术特征摘要】

1.一种分布式数据处理方法,其特征在于,包括:

2.根据权利要求1所述的分布式数据处理方法,其特征在于,将获取的预设分析时长内spark driver接收的字符数记为传输字符数,并根据传输字符数确定执行环境的构建参数是否符合预设标准;

3.根据权利要求2所述的分布式数据处理方法,其特征在于,将获取的pyspark应用中注释的字符数与文件的总字符数的比值记为字符比值,并根据字符比值重新确定执行环境的构建参数是否符合预设标准;

4.根据权利要求3所述的分布式数据处理方法,其特征在于,将第二预设传输字符数与传输字符数的差值记为传输差值,并根据传输差值确定针对执行环境的构建参数不符合预设标准的处理方式;

5.根据权利要求4所述的分布式数据处理方法,其特征在于,将计算的预设分析时长内各节点分别输出的各字符数的方差记为字符方差,并根据字符方差确定针对各节点的处理方式;

6.根据权利要求5所述的分布式数据处理方法,其特征在于,获取预设历史时长内各预设分析时长对应的各传输字符数,并将计算的各传输字符数的方差记为传输方差,根据传输方差重新确定针对执行环境的构建参数不符合预设标准的处理方式;

7.根据权利要...

【专利技术属性】
技术研发人员:高经郡高海玲李栋
申请(专利权)人:北京科杰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1