一种Spark MLlib数据处理加速的方法及系统技术方案

技术编号:14898812 阅读:54 留言:0更新日期:2017-03-29 13:58
本发明专利技术实施例公开了一种Spark MLlib数据处理加速的方法,包括判断MLlib算法是否满足FPGA OpenCL并行化计算条件;如果满足,则将MLlib算法核心计算部分分配到FPGA进行运算;否则,MLlib算法仍在Spark平台进行运算。根据MLlib算法的性质对其按需所分,将满足条件的算法分配到FPGA进行并行运算,一定程度上解决了内存开销过大的问题;由于FPGA对任务进行的是并行处理,提高了任务运算速度,使得Spark Mllib整体的数据处理速度加快,提升了Spark平台的计算性能。此外,本发明专利技术实施例还提供了相应的系统,进一步使得所述方法更具有实用性,所述系统具有相应的优点。

【技术实现步骤摘要】

本专利技术涉及大数据、云处理以及异构加速领域,特别是涉及一种SparkMLlib数据处理加速的方法及系统。
技术介绍
随着物联网和5G通信时代的到来,大数据领域也面临着巨大的变革,更大更高维度的信息需要在数据中心与智能终端间进行实时交互,而且数据处理度也要求有极大的提高,为满足以上需求,就要对大规模数据库和深度学习实现加速。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,是一个高效的分布式计算系统。启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架,包括相关的测试和数据生成器。是全球目前大数据领域中最活跃、最热门、高效的大数据通用计算平台。ML(MachineLearning,机器学习)是一门多领域交叉学科,专门研究机器怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使本文档来自技高网...
一种Spark MLlib数据处理加速的方法及系统

【技术保护点】
一种Spark MLlib数据处理加速的方法,其特征在于,包括:判断Mllib算法是否符合FPGA OpenCL并行优化设计条件;当判定所述Mllib算法符合所述FPGA OpenCL并行优化设计条件时,将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述,并移植到FPGA上实现并行计算,所述OpenCL通过Scala调用OpenCL专用接口,以实现FPGA与Spark平台的融合;反之,则所述Mllib算法在所述Spark平台进行运算。

【技术特征摘要】
1.一种SparkMLlib数据处理加速的方法,其特征在于,包括:判断Mllib算法是否符合FPGAOpenCL并行优化设计条件;当判定所述Mllib算法符合所述FPGAOpenCL并行优化设计条件时,将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述,并移植到FPGA上实现并行计算,所述OpenCL通过Scala调用OpenCL专用接口,以实现FPGA与Spark平台的融合;反之,则所述Mllib算法在所述Spark平台进行运算。2.根据权利要求1所述的方法,其特征在于,所述判断Mllib算法是否符合FPGAOpenCL并行优化设计条件为:当Mllib算法进行运算的时间超过预设时间且所述Mllib算法适用于并行化计算时,所述Mllib算法符合FPGAOpenCL并行优化设计条件;反之,则不符合所述FPGA并行优化设计条件。3.根据权利要求2所述的方法,其特征在于,在所述将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述,并移植到FPGA上实现并行计算之后还包括:所述FPGA将计算结果返回所述Spark平台并显示。4.根据权利要求1-3任意一项所述的方法,其特征在于,在所述移植到FPGA上实现并行计算之前还包括:将所述Mllib算法利用所述OpenCL进行并行设计。5.一种SparkMLlib数据处理加速的系统,其特征在于,包括:Spark分布式大数据处理装置、多个FPGA以及多个计算节点,其中,所述Spark分布式大数据处理装置部署到多个...

【专利技术属性】
技术研发人员:王丽陈继承王洪伟
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1