一种Spark MLlib数据处理加速的方法及系统技术方案

技术编号：14898812 阅读：54 留言：0更新日期：2017-03-29 13:58

本发明专利技术实施例公开了一种Spark MLlib数据处理加速的方法，包括判断MLlib算法是否满足FPGA OpenCL并行化计算条件；如果满足，则将MLlib算法核心计算部分分配到FPGA进行运算；否则，MLlib算法仍在Spark平台进行运算。根据MLlib算法的性质对其按需所分，将满足条件的算法分配到FPGA进行并行运算，一定程度上解决了内存开销过大的问题；由于FPGA对任务进行的是并行处理，提高了任务运算速度，使得Spark Mllib整体的数据处理速度加快，提升了Spark平台的计算性能。此外，本发明专利技术实施例还提供了相应的系统，进一步使得所述方法更具有实用性，所述系统具有相应的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据、云处理以及异构加速领域，特别是涉及一种SparkMLlib数据处理加速的方法及系统。
技术介绍
随着物联网和5G通信时代的到来，大数据领域也面临着巨大的变革，更大更高维度的信息需要在数据中心与智能终端间进行实时交互，而且数据处理度也要求有极大的提高，为满足以上需求，就要对大规模数据库和深度学习实现加速。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，是一个高效的分布式计算系统。启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark是在Scala语言中实现的，它将Scala用作其应用程序框架，包括相关的测试和数据生成器。是全球目前大数据领域中最活跃、最热门、高效的大数据通用计算平台。ML(MachineLearning，机器学习)是一门多领域交叉学科，专门研究机器怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能...
一种Spark MLlib数据处理加速的方法及系统

【技术保护点】
一种Spark MLlib数据处理加速的方法，其特征在于，包括：判断Mllib算法是否符合FPGA OpenCL并行优化设计条件；当判定所述Mllib算法符合所述FPGA OpenCL并行优化设计条件时，将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述，并移植到FPGA上实现并行计算，所述OpenCL通过Scala调用OpenCL专用接口，以实现FPGA与Spark平台的融合；反之，则所述Mllib算法在所述Spark平台进行运算。

【技术特征摘要】
1.一种SparkMLlib数据处理加速的方法，其特征在于，包括：判断Mllib算法是否符合FPGAOpenCL并行优化设计条件；当判定所述Mllib算法符合所述FPGAOpenCL并行优化设计条件时，将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述，并移植到FPGA上实现并行计算，所述OpenCL通过Scala调用OpenCL专用接口，以实现FPGA与Spark平台的融合；反之，则所述Mllib算法在所述Spark平台进行运算。2.根据权利要求1所述的方法，其特征在于，所述判断Mllib算法是否符合FPGAOpenCL并行优化设计条件为：当Mllib算法进行运算的时间超过预设时间且所述Mllib算法适用于并行化计算时，所述Mllib算法符合FPGAOpenCL并行优化设计条件；反之，则不符合所述FPGA并行优化设计条件。3.根据权利要求2所述的方法，其特征在于，在所述将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述，并移植到FPGA上实现并行计算之后还包括：所述FPGA将计算结果返回所述Spark平台并显示。4.根据权利要求1-3任意一项所述的方法，其特征在于，在所述移植到FPGA上实现并行计算之前还包括：将所述Mllib算法利用所述OpenCL进行并行设计。5.一种SparkMLlib数据处理加速的系统，其特征在于，包括：Spark分布式大数据处理装置、多个FPGA以及多个计算节点，其中，所述Spark分布式大数据处理装置部署到多个...

【专利技术属性】
技术研发人员：王丽，陈继承，王洪伟，
申请(专利权)人：郑州云海信息技术有限公司，
类型：发明
国别省市：河南;41

全部详细技术资料下载我是这个专利的主人