基于Pyspark框架的数据处理方法、装置及设备制造方法及图纸

技术编号:39440891 阅读:16 留言:0更新日期:2023-11-19 16:23
本申请提供一种基于Pyspark框架的数据处理方法、装置及设备,涉及数据处理技术或其他相关技术,该方法应用于控制服务器,控制服务器位于分布式集群,分布式集群还包括至少一个执行服务器,分布式集群是基于Pyspark框架构建的,包括:将预处理数据按照预设划分规则进行数据划分,以获得控制服务器对应的第一划分数据以及各执行服务器对应的第二划分数据;调用目标机器学习算法对第一划分数据进行数据处理,以获得对应的第一子结果,并将第二划分数据发送至对应的执行服务器,以指示各执行服务器调用目标机器学习算法对第二划分数据进行数据处理,以获得对应的第二子结果;接收第二子结果;基于第一子结果和各第二子结果确定数据处理最终结果。数据处理最终结果。数据处理最终结果。

【技术实现步骤摘要】
基于Pyspark框架的数据处理方法、装置及设备


[0001]本申请涉及数据处理技术,尤其涉及一种基于Pyspark框架的数据处理方法、装置及设备。

技术介绍

[0002]随着社会不断发展,在日常生活和工作中产生了海量数据,在企业生产、公共交通以及运输等行业需要对海量数据进行处理及分析,从而有利于各大行业发展。
[0003]现有技术中服务器获取原始数据后,对原始数据进行预处理后得到预处理数据,并调用目标机器学习算法,将预处理数据输入至目标机器学习算法,从而获得数据处理结果。
[0004]然而,现有技术中服务器调用目标机器学习算法进行数据处理时,如果是海量数据,服务器则会出现处理能力不足的现象,从而数据处理效率低。

技术实现思路

[0005]本申请提供一种基于Pyspark框架的数据处理方法、装置及设备,用以解决服务器则会出现处理能力不足的现象,从而数据处理效率低的问题。
[0006]第一方面,本申请提供一种基于Pyspark框架的数据处理方法,所述方法应用于控制服务器,所述控制服务器位于分布式集群中,所述分布式集群中还包括至少一个执行服务器,所述分布式集群是基于Pyspark框架构建的,所述方法包括:
[0007]接收数据处理设备发送的数据处理请求,并基于所述数据处理请求获得预处理数据;
[0008]将所述预处理数据按照预设划分规则进行数据划分,以获得控制服务器对应的第一划分数据以及各执行服务器对应的第二划分数据;
[0009]从自身的机器学习库中调用目标机器学习算法对所述第一划分数据进行数据处理,以获得对应的第一子结果,并将第二划分数据发送至对应的执行服务器,以指示各所述执行服务器从自身的机器学习库中调用目标机器学习算法对第二划分数据进行数据处理,以获得对应的第二子结果;
[0010]接收各执行服务器发送的第二子结果;
[0011]基于所述第一子结果和各所述第二子结果确定数据处理最终结果,并生成数据处理响应,所述数据处理响应中包括数据处理最终结果;
[0012]将所述数据处理响应发送至数据处理设备,以提醒用户查看数据处理最终结果。
[0013]第二方面,本申请提供一种基于Pyspark框架的数据处理方法,所述方法应用于至少一个执行服务器,所述至少一个执行服务器位于分布式集群中,所述分布式集群中还包括一个控制服务器,所述分布式集群是基于Pyspark框架构建的,包括:
[0014]接收控制服务器发送的对应的第二划分数据;所述第二划分数据是所述控制服务器将预处理数据按照预设划分规则对分布式集群中的各执行服务器进行数据划分获得的;
所述预处理数据是所述控制服务器基于所述数据处理请求获得的;所述数据处理请求是所述控制服务器接收数据处理设备发送的;
[0015]从自身的机器学习库中调用目标机器学习算法对第二划分数据进行数据处理,以获得对应的第二子结果;
[0016]将第二子结果发送至所述控制服务器,以指示所述控制服务器基于第一子结果和各所述第二子结果确定数据处理最终结果,并生成数据处理响应;所述数据处理响应中包括数据处理最终结果,并指示所述控制服务器将数据处理响应发送至数据处理设备,以提醒用户查看数据处理最终结果;所述第一子结果是所述控制服务器从自身的机器学习库中调用目标机器学习算法对第一划分数据进行数据处理获得的;所述第一划分数据是所述控制服务器将所述预处理数据按照划分规则对分布式集群中的控制服务器进行数据划分获得的。
[0017]第三方面,本申请提供一种基于Pyspark框架的数据处理装置,所述装置位于控制服务器,所述控制服务器位于分布式集群中,所述分布式集群中还包括至少一个执行服务器,所述分布式集群是基于Pyspark框架构建的,所述装置包括:
[0018]接收模块,用于接收数据处理设备发送的数据处理请求,获取模块,用于基于所述数据处理请求获得预处理数据;
[0019]划分模块,用于将所述预处理数据按照预设划分规则进行数据划分,以获得控制服务器对应的第一划分数据以及各执行服务器对应的第二划分数据;
[0020]数据处理模块,用于从自身的机器学习库中调用目标机器学习算法对所述第一划分数据进行数据处理,以获得对应的第一子结果,并将第二划分数据发送至对应的执行服务器,以指示各所述执行服务器从自身的机器学习库中调用目标机器学习算法对第二划分数据进行数据处理,以获得对应的第二子结果;
[0021]接收模块,还用于接收各执行服务器发送的第二子结果;
[0022]确定模块,用于基于所述第一子结果和各所述第二子结果确定数据处理最终结果,生成模块,用于生成数据处理响应,所述数据处理响应中包括数据处理最终结果;
[0023]发送模块,用于将所述数据处理响应发送至数据处理设备,以提醒用户查看数据处理最终结果。
[0024]第四方面,本申请提供一种基于Pyspark框架的数据处理装置,所述装置位于至少一个执行服务器,所述至少一个执行服务器位于分布式集群中,所述分布式集群中还包括一个控制服务器,所述分布式集群是基于Pyspark框架构建的,所述装置包括:
[0025]接收模块,用于接收控制服务器发送的对应的第二划分数据;所述第二划分数据是所述控制服务器将预处理数据按照预设划分规则对分布式集群中的各执行服务器进行数据划分获得的;所述预处理数据是所述控制服务器基于所述数据处理请求获得的;所述数据处理请求是所述控制服务器接收数据处理设备发送的;
[0026]数据处理模块,用于从自身的机器学习库中调用目标机器学习算法对第二划分数据进行数据处理,以获得对应的第二子结果;
[0027]发送模块,用于将第二子结果发送至所述控制服务器,以指示所述控制服务器基于第一子结果和各所述第二子结果确定数据处理最终结果,并生成数据处理响应;所述数据处理响应中包括数据处理最终结果,并指示所述控制服务器将数据处理响应发送至数据
处理设备,以提醒用户查看数据处理最终结果;所述第一子结果是所述控制服务器从自身的机器学习库中调用目标机器学习算法对第一划分数据进行数据处理获得的;所述第一划分数据是所述控制服务器将所述预处理数据按照划分规则对分布式集群中的控制服务器进行数据划分获得的。
[0028]第五方面,本申请提供一种控制服务器,包括:处理器,以及与所述处理器通信连接的存储器和收发器;
[0029]所述存储器存储计算机执行指令;所述收发器,用于收发数据;
[0030]所述处理器执行所述存储器存储的计算机执行指令,以实现如上述第一方面或任一项方式中所述的方法。
[0031]第六方面,本申请提供一种执行服务器,包括:处理器,以及与所述处理器通信连接的存储器和收发器;
[0032]所述存储器存储计算机执行指令;所述收发器,用于收发数据;
[0033]所述处理器执行所述存储器存储的计算机执行指令,以实现如上述第二方面或任一项方式中所述的方法。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Pyspark框架的数据处理方法,其特征在于,所述方法应用于控制服务器,所述控制服务器位于分布式集群中,所述分布式集群中还包括至少一个执行服务器,所述分布式集群是基于Pyspark框架构建的,所述方法包括:接收数据处理设备发送的数据处理请求,并基于所述数据处理请求获得预处理数据;将所述预处理数据按照预设划分规则进行数据划分,以获得控制服务器对应的第一划分数据以及各执行服务器对应的第二划分数据;从自身的机器学习库中调用目标机器学习算法对所述第一划分数据进行数据处理,以获得对应的第一子结果,并将第二划分数据发送至对应的执行服务器,以指示各所述执行服务器从自身的机器学习库中调用目标机器学习算法对第二划分数据进行数据处理,以获得对应的第二子结果;接收各执行服务器发送的第二子结果;基于所述第一子结果和各所述第二子结果确定数据处理最终结果,并生成数据处理响应,所述数据处理响应中包括数据处理最终结果;将所述数据处理响应发送至数据处理设备,以提醒用户查看数据处理最终结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述数据处理请求获得预处理数据,包括:从预设海量原始数据中进行数据清洗,以获得数据清洗数据;在数据清洗数据中按照预设不相关数据条件查询不相关数据;将满足所述预设不相关数据条件的数据确定为不相关数据,并将所述不相关数据删除;将剩余的数据清洗数据确定为预处理数据。3.根据权利要求1所述的方法,其特征在于,所述预设划分规则中包括分布式集群中控制服务器对应的第一预设划分比例以及各执行服务器对应的第二预设划分比例;所述将所述预处理数据按照预设划分规则进行数据划分,以获得控制服务器对应的第一划分数据以及各执行服务器对应的第二划分数据,包括:基于第一预设划分比例对所述预处理数据进行划分,以获得所述控制服务器对应的第一划分数据;基于各第二预设划分比例对除第一划分数据外的预处理数据进行划分,以获得各执行服务器对应的第二划分数据。4.根据权利要求1所述的方法,其特征在于,所述预设划分规则包括预设划分比例公式;所述预设划分比例公式用于按照各服务器的负载量计算对应的划分比例;所述将所述预处理数据按照预设划分规则进行数据划分,以获得控制服务器对应的第一划分数据以及各执行服务器对应的第二划分数据,包括:获取控制服务器以及各执行服务器对应的负载量;将各负载量输入至所述预设划分比例公式,以获得控制服务器对应的第一划分比例以及各执行服务器对应的第二划分比例;基于所述第一划分比例和各第二划分比例对所述预处理数据进行划分,以获得控制服务器对应的第一划分数据以及各执行服务器对应的第二划分数据。5.根据权利要求1所述的方法,其特征在于,所述从自身的机器学习库中调用目标机器
学习算法对所述第一划分数据进行数据处理,以获得对应的第一子结果之前,所述方法还包括:从所述自身的机器学习库中选择任一机器学习算法作为初始机器学习算法;获取所述初始机器学习算法对应的预设参数;采用所述预设参数对所述初始机器学习算法进行配置,以获得目标机器学习算法;所述方法还包括:将所述预设参数以及选择的初始机器学习算法标识发送至各执行服务器,以指示各执行服务器根据所述初始机器学习算法标识在自身的机器学习库中确定出初始机器学习算法,并采用所述预设参数对初始机器学习算法进行配置,以获得目标机器学习算法。6.根据权利要求1

5任一项所述的方法,其特征在于,所述基于所述第一子结果和各所述第二子结果确定数据处理最终结果,包括:将所述第一子结果与各第二子结果按照预处理数据划分时的顺序进行拼接,以确定数据处理最终结果。7.一种基于Pyspark框架的数据处理方法,其特征在于,所述方法应用于至少一个执行服务器,所述至少一个执行服务器位于分布式集群中,所述分布式集群中还包括一个控制服务器,所述分布式集群是基于Pyspark框架构建的,包括:接收控制服务器发送的对应的第二划分数据;所述第二划分数据是所述控制服务器将预处理数据按照预设划分规则对分布式集群中的各执行服务器进行数据划分获得的;所述预处理数据是所述控制服务器基于所述数据处理请求获得的;所述数据处理请求是所述控制服务器接收数据处理设备发送的;从自身的机器学习库中调用目标机器学习算法对第二划分数据进行数据处理,以获得对应的第二子结果;将第二子结果...

【专利技术属性】
技术研发人员:宗胜前
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1