一种GPU上MapReduce负载分配和线程结构优化方法技术

技术编号：10652734 阅读：282 留言：0更新日期：2014-11-19 15:09

为实现数据密集型应用程序并降低并行编程的复杂性，MapReduce提供了一组简单的编程接口。由于采用大规模并行架构，GPU在并行计算平台中逐渐占据主导地位。然而，设计GPU上的高性能MapReduce框架却是一项具有挑战性的任务。本发明专利技术描述了一种GPU上的高性能MapReduce框架，并着眼于该框架的工作负载与线程结构两个参数，这两个参数属于该框架的一级参数。本框架采用的是一种分层搜索方法，结合了负载分配与线程结构优化并对两者进行了协调。由于基于高效而精确的采样和多项式拟合方法，本框架能够快速搜索其设计空间，速度比穷举法快860倍，且准确率可达99.7％。在实际应用程序中，本框架的性能可达到当前GPU上最先进MapReduce框架的7.7倍(平均4.04倍)。

全部详细技术资料下载

【技术实现步骤摘要】
一种GPU上MapReduce的负载分配和线程结构优化方法所属
本专利技术涉及嵌入式系统以及数据并发领域，尤其是涉及一种基于GPU上MapReduce的负载分配和线程结构优化方法。
技术介绍
各种高性能计算加速器的成功，图形处理单元(GPU)，现场可编程门阵列(FPGA)，以及英特尔Xeon处理器(IntelXeonPhi)。由于加速器在计算能力、内存带宽、高度并行和能效等方面的优势，从数据中心领域到嵌入式系统领域，这些加速器已经越来越受到重视。然而，在这些平台上编程仍然具有很大的挑战性。开发商必须使用特定加速器的编程语言，例如CUDA，OpenCL和Verilog等。近年来，上述加速器中，GPU在高性能计算和嵌入式计算领域中获得了很大的成功。由于采用大规模并行架构，GPU线程能够成百上千地并发执行。GPU的计算能力已应用到包括图像处理、电子自动化设计、密码学等在内的众多方法中。本专利技术的研究重点是使用MapReduce模型来设计高性能的GPU应用程序。设计GPU上的高性能MapReduce框架并非易事，主要难点在于性能调整和设计参数的选择。在MARS(目前GPU上最先进的MapReduce框架)中，线程结构(例如线程块数、每块的线程数)由占用率确定。占用率定义为GPU上的活动线程数与允许的最大线程数之比。使用占用率为衡量标准，MARS趋向于高度的并行性。然而，最近的一项研究表明，高度的并行可能会获得次优的性能。由于GPU性能取决于单个线程的性能以及多个线程的并行程度，而高并行可能会导致单个线程占用的计算资源较低，从而降低了单个线程的性能，如果高并行产生...
一种<a href="http://www.xjishu.com/zhuanli/55/201410323420.html" title="一种GPU上MapReduce负载分配和线程结构优化方法原文来自X技术">GPU上MapReduce负载分配和线程结构优化方法</a>

【技术保护点】
一种基于GPU上MapReduce的负载分配和线程结构优化方法，其特征在于该方法的步骤如下：1)heir‑archical搜索方法的提出定义MapReduce框架的输入数据大小为H,将H分割为多块，每次处理一个块，定义数据块大小为D，总共需要次来处理整个数据H，用d表示每个线程的负载(工作量)，则可以得出D/d＝x×y，其中x和y是线程块的数量和每个块中线程的数量，给出数据块大小D，当一个MapReduce框架的GPU使用(x，y)线程结构时，使用时间函数f(x，y)表示其运行时间，得出最优解tD＝minxy＝D/d(f(x,y))，当xy(D/d)在一定范围内增加时，f(x，y)的值也连续递增，通过有效的取样，选择D以及与之相匹配的线程结构最小值[H/d]×tD；2)搜索模型的建立将[xmin,xmax]定义为线程块数量范围，将[ymin,ymax]定义为每个线程块包含线程数量范围，其中x，y都为整数，找到适当的(x，y)值就计算出最小运行时间，定义曲线l′公式l′:t=f(x,y)xy=D/dx∈[xmin,xmax],y∈[ymin,y...

【技术特征摘要】
1.一种基于GPU上MapReduce的负载分配和线程结构优化方法，其特征在于该方法的步骤如下：1)heir-archical搜索方法的提出定义MapReduce框架的输入数据大小为H,将H分割为多块，每次处理一个块，定义数据块大小为D，总共需要次来处理整个数据H，用d表示每个线程的负载即工作量，则可以得出D/d＝x×y，其中x和y是线程块的数量和每个块中线程的数量，给出数据块大小D，当一个MapReduce框架的GPU使用(x，y)线程结构时，使用时间函数f(x，y)表示其运行时间，得出最优解tD＝minxy＝D/d(f(x,y))，当xy(D/d)，即线程的总数量，其中x和y是线程块的数量和每个块中线程的数量，数据块大小为D，d表示每个线程的负载即工作量，在一定范围内增加时，f(x，y)的值也连续递增，通过有效的取样，选择D以及与之相匹配的线程结构最小值[H/d]×tD；2)搜索模型的建立将[xmin,xmax]定义为线程块数量范围，将[ymin,ymax]定义为每个线程块包含线程数量范围，其中x，y都为整数，找到适当的(x，y)值就计算出最小运行时间，定义曲线l′公式曲线l′表示在数据块D固定情况下x和y不同组合的执行时间，定义l为曲面Sd和Sp的交线，其中Sd是满足x×y＝D/d的线结构设置，Sp是St在x-y坐标平面上的投影，St是GPU上特定MapReduce应用程序的时间函数f(x，y),其中相交线可以用来获得实际x和y值，Sd和Sp相互垂直，l是l′在平面Sp上的投影，定义点集P为所有在Sp上离l最近的所有...

【专利技术属性】
技术研发人员：郭兵，沈艳，王继禾，陈辉，马群，杨奔，盛志远，黄勇，张放，陈英超，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人