在CPU-GPU异构框架下遍历固定半径内邻居的自适应并行方法技术

技术编号：13145713 阅读：73 留言：0更新日期：2016-04-10 09:03

本发明专利技术公开了一种在CPU‑GPU异构框架下遍历固定半径内邻居的自适应并行方法，该方法中使用了一个新的并行模型从而让GPU的各种特性能够和问题本身的性质相契合。该方法首先引入自适应并行的概念来对GPU中各个线程进行重组，从而让物理上相邻的线程能够处理逻辑上相似的工作，这样GPU中的很多局部性特征能够得到利用。其次，使用了CPU‑GPU异构框架，让CPU协同处理一些由于使用自适应并行产生的一些对于GPU来说低效率的事务。为了显示出本发明专利技术的特点，其被运用到光滑了粒子流体动力学方法（SPH）上并跟现有方法进行了对比，并在处理大规模高密度粒子的问题上体现出了很大的优势。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于高性能计算领域，具体地说是一种基于自适应并行方法在CPU-GPU异构框架下的新的遍历固定半径内邻居的并行算法，涉及到SIMD架构，GPU硬件特性，异构平台下的任务调度与负载均衡，数据交互策略，计算机图形学以及仿真等。
技术介绍
FNN问题是处理在多维度欧几里德空间中，所有在给定距离内的点与点之间的交互的问题。而固定网格算法是其中最被广泛使用的方法，特别是在数值方法中。这个算法广泛应用于自然环境的模拟，生物仿真，行为模拟以及三维重建。通过这个算法，可以将构建邻居信息的时间复杂度降到〇(wn)(如果使用不基于比较的排序算法），而遍历邻居的时间复杂度降为〇(3 kwnN)，其中w是排序关键字长度，η是空间中点的数量，k是空间维度，N是每一个单元格中点的数量的上限。为了提升上述算法的性能，一个可行的方案是在多核处理器，特别是诸如GPU这种 S頂D加速器上来实现上述算法。由于这个算法非常适合并行化，因此在GPU上已经有了一些针对这个算法比较成熟的并行模型。并且这些传统的并行模型能够在点密度比较低的情况下得到非常好的性能。在传统并行模型中，GPU内核程序的线程网格中所包含的线程数量是和空间中点的数量是相同的。然后这些线程被直接划分为包含线程数量相同的几个线程块，然后在GHJ中以这些线程块为单位进行调度运算。每个线程所作的工作就是读取它们所负责的那一个点的一个邻居点的信息然后做一些运算，如此循环直到所有邻居都访问到了。每个线程块的工作就是读取其所负责的所有点的所有邻居，并做相应的运算。然而，随着点密度的提升，传统的...

【技术保护点】
一种在CPU‑GPU异构框架下遍历固定半径内邻居的自适应并行算法，其特征在于包括以下步骤：a)基于固定网格法将空间划分为互不相交的单元格，通过遍历邻接单元格中的点来寻找所有在固定范围内的其他点；b)GPU自适应并行模型ⅰ)大量GPU内核程序的组织与调度1)从CPU上发射GPU父内核程序，该内核程序中每一个线程负责空间中一个单元格的计算；2)每个父内核程序线程计算其所负责的单元格内的点的数量、点在内存中的存储范围、计算这些点所需要的线程及内存资源；3)每个父内核程序线程根据所需要的线程以及内存资源，使用GPU动态并行快速地为其所负责的单元格发射一个GPU子内核程序来负责该单元格中点的计算；子内核程序中的线程数量依赖于单元格中点的数量；ⅱ)GPU内存访问优化1)为每个子内核程序中的线程块在共享内存中开辟足够存放W个点的必要数据的空间；其中，W是SIMD硬件能够同时执行的指令数量；在时下主流的GPU中这个值为32；2)每个子内核程序中的线程块中的前W个线程读取W个邻居点的数据到共享内存中；通过GPU全局内存的合并访问从而在一次全局内存访问中读取多个点的数据；3)每个子内核程序中的线程读取在共...

【技术特征摘要】

【专利技术属性】
技术研发人员：阮骥鸣，王长波，秦洪，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人