一种支持合并访存和循环队列的GPU模板计算方法技术

技术编号：37611122 阅读：19 留言：0更新日期：2023-05-18 12:02

本发明专利技术公开一种支持合并访存和循环队列的GPU模板计算方法，所述方法包括：合并访存读取二维平面上的一块数据；基于循环队列的模板计算。针对以往在GPU上使用的2.5D分块模板计算方法能够很好地复用某一条轴上的数据(通常为轴)，但无法实现完全的合并访存，也难以适用于计算物理中复杂的复合微分算子。现代GPU的访存效率远小于计算效率，无法利用合并访存的计算应用很难充分利用GPU的性能。本发明专利技术建立一种结合了循环队列和合并访存的分块模板计算方法，能够充分利用GPU的访存性能，并且适用于复杂的微分算子。于复杂的微分算子。于复杂的微分算子。

全部详细技术资料下载

【技术实现步骤摘要】
一种支持合并访存和循环队列的GPU模板计算方法

[0001]本专利技术属于高性能计算领域，尤其涉及一种支持合并访存和循环队列的GPU模板计算方法。

技术介绍

[0002]模板计算是有限差分方法在实现中的一个基本操作，它是一种最近邻计算，通常需要遍历一个二维或三维空间网格，使用相邻网格点的数据计算出一个值。直到整个网格都被计算一遍，就能得到当前时间步的输出结果。在有限差分求解器的具体设计中，存在很多不同类型的微分算子，这些算子对应不同的模板计算格式，例如计算偏导数使用同一方向的3点或5点模板，计算拉普拉斯算子使用三个方向的5点、7点甚至13点模板。典型的5点模板计算格式如下，
[0003][0004]其中，u代表计算涉及的数据，例如温度，下标m,n分别表示X,Y方向的输入数据索引，下标t代表当前时间步的输出数据；G是输入数据的函数，即计算公式。该格式由一个点(,n)周围的5个点计算得到中心位置的新数据。
[0005]通用GPU架构更新换代非常快，但基本采用同一种编程模型，称为SIMT。这种模型目前事实上的标准接...

【技术保护点】

【技术特征摘要】
1.一种支持合并访存和循环队列的GPU模板计算方法，其特征在于，所述方法包括：合并访存读取二维平面上的一块数据；基于循环队列的模板计算：给定三维模板计算问题：模板计算公式F，模板半径r
x
、r
y
和r
z
；三维网格D
x
×
D
y
×
D
z
，周围halo区域大小H
x
、H
y
和H
z
；输入数据指针data，输出数据指针out；初始化指向共享内存不同数据块的指针s
mm
，s
m
，s
c
，s
p
，s
pp
；线程块大小B
x
、B
y
，当前线程块的索引b
x
、b
y
，当前线程的索引t
x
、t
y
；读取最初的数据块到共享内存，除了第一块数据，s
m
，s
m
，s
c
，s
p
，s
pp
；调整输出数据指针，使其指向正确位置：计算二维平面相距的数据点数量，l＝(D
x
+2H
x
)(D
y
+2H
y
)；计算当前线程在二维平面上的索引，i
x
＝t
x
+b
x
B
x
，i
y
＝t
y
+b
y
B
y
；计算当前线程的第一个输出数据所在位置，out＝out+(i
x
+H
x
)+(i
y
+H
y
)(D
x
+2H
x
)+r
z
l；计算二维平面相距的数据点数量，l＝(D
x
+2H
x
)(D
y
+2H
y
)；令k＝2r
z
，表示当前应该读入的数据块沿z方向的索引；如果k＜D
z
+2H
z
，执行下列操作：a)进行必要的线程同步；b)读取新数据到s
mm
；c)轮换指针，使s
mm
指向原s
m
的数据、s
m
指向原s
c
的数据、......、s
pp
指向原S
mm
的数据；d)执行模板计算公式F；e)输出数据到out指向的位置；f)调整out指向下一个输出位置，out＝out+l；g)重新比较k与D
z
+2H
z
的大小；如果k＞D
z
+2H
z
，则表示所有输出数据计算完毕。2.根据权利要求1所述的方法，其特征在于，所述合并访存读取二维平面上的一块数据，具体包括：获取合并访存的线程块大小B
x
、B
y
和冗余数据宽度H
x
、H
y
；给定其他初始数据：输入数据的指针data，二维网格平面大小为(D
x
+2H
x
)
×
(D
y
+2H
y
)，同时假定三维网格存储为一维数组；读取的数据在GPU共享内存上的存放位置指针s；当前活跃线程在线程块内的索引t
x
和t
y
；当前活跃线程块在整个GPU计算网格内的索引b
x
和b
y
；调用GPU线程块的同步方法，以避免读取的数据覆盖正在使用的数据；计算当前活跃线程在线程块内的一维编号，Ind＝t
x
+t
y
B
x
；计算线程块变形后的形状，R
x
＝(B
x
+2H
x
)和计算当前线程在变形后的索引，和其中％和/分别为取余和整数除法；计算当前线程要读取的数据在三维网格中的索引，和计算每个线程读取数据的次数，
令k＝0；如果k＜w，从输入数据中读取数据到共享内存：a)其中括号表示引用数组的对应元素；b)c)i
y
＝i
y
+R
y
；d)k＝k+1；一次读取完毕，重新比较的k和w大小。3.一种支持合并访存和循环队列的GPU模板计算装置，其特征在于，所述装置包括：...

【专利技术属性】
技术研发人员：胡长军，汪岸，李嘉莉，李建江，
申请(专利权)人：北京科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人