【技术实现步骤摘要】
本专利技术涉及大数据、云处理以及异构加速领域,特别是涉及一种SparkMLlib数据处理加速的方法及系统。
技术介绍
随着物联网和5G通信时代的到来,大数据领域也面临着巨大的变革,更大更高维度的信息需要在数据中心与智能终端间进行实时交互,而且数据处理度也要求有极大的提高,为满足以上需求,就要对大规模数据库和深度学习实现加速。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,是一个高效的分布式计算系统。启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark是在Scala语言中实现的,它将Scala用作其应用程序框架,包括相关的测试和数据生成器。是全球目前大数据领域中最活跃、最热门、高效的大数据通用计算平台。ML(MachineLearning,机器学习)是一门多领域交叉学科,专门研究机器怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能 ...
【技术保护点】
一种Spark MLlib数据处理加速的方法,其特征在于,包括:判断Mllib算法是否符合FPGA OpenCL并行优化设计条件;当判定所述Mllib算法符合所述FPGA OpenCL并行优化设计条件时,将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述,并移植到FPGA上实现并行计算,所述OpenCL通过Scala调用OpenCL专用接口,以实现FPGA与Spark平台的融合;反之,则所述Mllib算法在所述Spark平台进行运算。
【技术特征摘要】
1.一种SparkMLlib数据处理加速的方法,其特征在于,包括:判断Mllib算法是否符合FPGAOpenCL并行优化设计条件;当判定所述Mllib算法符合所述FPGAOpenCL并行优化设计条件时,将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述,并移植到FPGA上实现并行计算,所述OpenCL通过Scala调用OpenCL专用接口,以实现FPGA与Spark平台的融合;反之,则所述Mllib算法在所述Spark平台进行运算。2.根据权利要求1所述的方法,其特征在于,所述判断Mllib算法是否符合FPGAOpenCL并行优化设计条件为:当Mllib算法进行运算的时间超过预设时间且所述Mllib算法适用于并行化计算时,所述Mllib算法符合FPGAOpenCL并行优化设计条件;反之,则不符合所述FPGA并行优化设计条件。3.根据权利要求2所述的方法,其特征在于,在所述将所述Mllib算法的核心计算部分基于OpenCL实现并行化设计描述,并移植到FPGA上实现并行计算之后还包括:所述FPGA将计算结果返回所述Spark平台并显示。4.根据权利要求1-3任意一项所述的方法,其特征在于,在所述移植到FPGA上实现并行计算之前还包括:将所述Mllib算法利用所述OpenCL进行并行设计。5.一种SparkMLlib数据处理加速的系统,其特征在于,包括:Spark分布式大数据处理装置、多个FPGA以及多个计算节点,其中,所述Spark分布式大数据处理装置部署到多个...
【专利技术属性】
技术研发人员:王丽,陈继承,王洪伟,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。