【技术实现步骤摘要】
数据处理方法、装置、服务器及存储介质
[0001]本申请实施例涉及计算机和互联网
,特别涉及一种数据处理方法、装置、服务器及存储介质。
技术介绍
[0002]传统的算法研究和应用通常是基于单个服务器(本申请实施例中又称为“单机”)开发的。然而,随着业务数据量的累计以及实时业务数据量的增长,一台甚至几台服务器的算力越来越难以满足业务增长的需求。
[0003]为解决这一技术问题,算法人员研究并提出了分布式的算法运行框架(以下称为“分布式框架”)。分布式框架是指基于分布式存储、计算和机器学习框架编写的、使算法实现分布式读写和计算的算法接入框架。与之对应的,传统的算法研究和应用所使用的单机式的算法运行框架(以下称为“单机式框架”)是指基于单机和关系型数据库编写的、使算法实现单机读写和计算的算法接入框架。显而易见,由于在分布式框架中,算法能够实现分布式读写和计算,从而分布式框架所能实现的算力远远大于单机式框架所能实现的算力,且适应于数据量较大的业务。例如,随着大数据和机器学习在风机领域的普及,采用分布式框架从风机运行时累 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于分布式框架中,所述方法包括:从分布式数据库中获取待分析数据,所述待分析数据的数据结构为弹性分布式数据集RDD;对所述待分析数据进行格式转换处理,得到转换后数据,所述转换后数据的数据结构符合单机算法对应的数据结构要求;在所述分布式框架所包含的数据处理节点处,采用所述单机算法对所述转换后数据进行并行处理,得到处理后数据;将所述处理后数据存储至所述分布式数据库中。2.根据权利要求1所述的方法,其特征在于,所述分布式框架包含n个数据处理节点,所述n为大于1的整数;所述在所述分布式框架所包含的数据处理节点处,采用所述单机算法对所述转换后数据进行并行处理,得到处理后数据,包括:在所述n个数据处理节点处,采用所述单机算法对所述转换后数据进行并行处理,得到n个处理结果;对所述n个处理结果进行数据融合处理,得到所述处理后数据。3.根据权利要求2所述的方法,其特征在于,所述对所述n个处理结果进行数据融合处理,得到所述处理后数据,包括:虚拟化所述n个处理结果的数据标签,得到虚拟化标签;基于所述虚拟化标签,字典化所述n个处理结果,得到n个字典化结果;对所述n个字典化结果进行数据整合,得到所述处理后数据。4.根据权利要求3所述的方法,其特征在于,所述处理结果的表现形式包括包含至少一列数据的表格;所述处理结果的数据标签包括所述表格的列名;或者,所述处理结果的表现形式包括包含至少一行数据的表格;所述处理结果的数据标签包括所述表格的行名。5.根据权利要求2所述的方法,其特征在于,所述在所述n个数据处理节点处,采用所述单机算法对所述转换后数据进行并行处理,得到n个处理结果,包括:按照目标切分方式,对所述转换后数据进行数据切分,得到n个数据切片;将所述n个数据切片下发至所述n个数据处...
【专利技术属性】
技术研发人员:王志猛,
申请(专利权)人:上海远景科创智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。