一种基于自适应线程束的GPU并行粒子群优化方法技术

技术编号：14836884 阅读：183 留言：0更新日期：2017-03-17 04:13

本发明专利技术公开了一种基于自适应线程束的GPU并行粒子群优化方法，包括以下步骤：1：初始化问题函数参数，初始化粒子群参数；2：定义三个CUDA核函数，分别用于并行计算粒子的速度和位置、粒子的适应度值及下一代粒子自身所找到的最好适应度值及其对应的解、整个粒子群到目前为止找到的最好适应度值及其对应的解；3：根据自适应线程束算法计算并初始化每个核函数的Block及Grid参数；4：调用核函数并行迭代更新粒子群的速度和位置，并求出当前最好适应度值及其对应的解；5：重复执行步骤4直到达到设定的结束条件，GPU输出计算结果；本发明专利技术可以大幅缩短粒子群算法在GPU上的并行求解时间、减少功耗、节约硬件成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种粒子群优化方法，属于计算机数据处理领域，具体涉及一种基于自适应线程束的GPU并行粒子群优化方法。
技术介绍
粒子群优化(ParticleSwarmOptimization,PSO)算法是一种演化计算技术,由于其概念简单、易于实现，同时又具备较强的全局搜索及收敛能力等特点，而得到了快速的发展和广泛的应用。目前已出现各种并行PSO算法版本，这其中，针对CUDA并行架构，对线程的分配方案主要有两种：1)一个线程对应一个粒子；2)一个线程对应一个维度，一个Block对应一个粒子。第一种粗粒度并行方法，虽然已经取得了不错的加速比，但由于每个线程中粒子所对应的每个维度仍然是串行执行的，并行程度并不高。第二种细粒度并行方式在第一种的前提下做了改进，将每个粒子对应到每个Block，再将每个Blcok中的线程对应到每个粒子中的一个维度。这样无疑加大了并行程度，但值得注意的是，在CUDA并行程序中，所有的Block是被串行的分配到每一个流多处理器上的，还可以继续提高并行度。GPU是一种专用的图形渲染设备。最初GPU是专用于图形处理的硬件，然而自从2006年以来，越来越多的研究人员研究了利用GPU进行通用计算的GPGPU领域，各大厂商也推出了专用的GPGPU语言，比如CUDA、OPENCL等。
技术实现思路
本专利技术的目的是优化原有基于GPU的计算方法，调整其并行架构使之并行效率更高，设计出一套改进的CUDA并行架构方式，利用图像处理器(GPU)加速执行，使得粒子群算法在单个主机上的并行度进一步的提高，相比前两种方法在CPU加速比的倍数上提高了40之多。为了解...
一种基于自适应线程束的GPU并行粒子群优化方法

【技术保护点】
一种基于自适应线程束的GPU并行粒子群优化方法，其特征在于，将每个粒子的维度划分为若干个线程束，使用线程块来包含所述线程束，使得一个线程块中对应一个或多个粒子；其中，所述线程束是SM调度和执行的基本单位。

【技术特征摘要】
1.一种基于自适应线程束的GPU并行粒子群优化方法，其特征在于，将每个粒子的维度划分为若干个线程束，使用线程块来包含所述线程束，使得一个线程块中对应一个或多个粒子；其中，所述线程束是SM调度和执行的基本单位。2.根据权利要求1所述的一种基于自适应线程束的GPU并行粒子群优化方法，其特征在于，基于以下公式调整粒子所对应的线程束的个数WarpNum以及线程块所对应的粒子数ParticleNum：WarpNum＝DivUp(D,WarpSize)(8)ThreadNum＝WarpNum*WarpSize(9)ParticleNum＝DivDown(BlockSize,ThreadNum)(10)式中，D表示求解问题的维度，WarpSize表示CUDA架构中一个线程束的大小；DivUp函数的功能是将D除以WarpSize得到的商做向上取整，以得到粒子所对应Warp的个数WarpNum；ThreadNum用来表示每个粒子实际用到的线程总数；BlockSize表示CUDA架构中一个Block的大小，DivDown函数的功能是将BlockSize除以ThreadNum得到的商做向下取整，以得到Block所对应的粒子数ParticleNum。3.根据权利要求1所述的一种基于自适应线程束的GPU并行粒子群优化方法，其特征在于，在调用核函数之前，基于自适应线程束算法，利用以下公式计算并初始化每个核函数的线程块的个数BlockNum以及网格的个数GridNum：BlockNum＝TreadNum*ParticleNum；GridNum＝DivUp(N,ParticleNum)；式中，ThreadNum用来表示每个粒子实际用到的线程总数；ParticleNum为线程块所对应的粒子数；N为粒子群中粒子的总个数。4.根据权利要求1所述的一种基于自适应线程束的GPU并行粒子群优化方法，其特征在于，定义三个CUDA核函数，分别用于并行计算粒子的速度和位置、粒子的适应度值及下一代粒子自身所找到的最好适应度值及其对应的解、整个粒子群到目前为止找到的最好适应度值及其对应的解。5.根据权利要求4所述的一种基于自适应线程束的GPU并行粒子群优化方法，其特征在于，具体包括以下步骤：步骤2.1：计算粒子的速度和位置内核，每个GPU线程按照分配好的线程块个数BlockNum和网格个数GridNum，通过粒子群算法的计算公式对应的计算每个问题某一维度对应的速度和位置；步骤...

【专利技术属性】
技术研发人员：何发智，张硕，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人