当前位置: 首页 > 专利查询>中国人民解放军军事科学院国防科技创新研究院专利>正文

减少GPU片上互连网络拥塞的GPU优化方法技术

技术编号：40520036 阅读：9 留言：0更新日期：2024-03-01 13:37

本发明专利技术公开了一种减少GPU片上互连网络拥塞的GPU优化方法，其特征在于，包括：将若干流处理器划分为若干集群；对GPU应用程序访存局部特性进行分析，相邻线程块block存在对同一个cache行的访问；提出将来自同一个集群的不同流处理器访问同一个cache行的冗余请求进行合并处理的方法，通过分析GPU应用程序访存局部性特点，不同的block的请求会访问同一个cache行的基础上，将来自同一个集群不同SM的冗余请求进行合并，从而达到减少网络拥塞，提高GPU性能的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机硬件，尤其涉及一种减少gpu片上互连网络拥塞的gpu优化方法。

技术介绍

1、gpu，初期作为图像处理的专用加速器，目前已广泛应用于各类高性能的计算机系统中。gpu应用程序利用成千上万个线程的并行，隐藏数据访问延迟，从而提高处理器的性能。

2、流处理器sm是gpu的基本硬件单元。随着工艺制程的进步，为了提升gpu的计算能力，流处理器sm数量的增加是gpu架构变化的典型趋势。特别地，nvidia fermi gpu部署16个sm，新型的pascal和volta架构分别部署了60、80个sm。但sm数量的增加，为gpu片上互连网络的设计带来了新的挑战。为了解决片上网络的可扩展性，当今的gpu采用集群的片上网络互连。例如，gpu pascal架构支持6个集群，每个集群部署10个sm，集群内的sm共用一个互连网络的端口，从而减少互连网络的硬件开销。

3、大量的研究发现gpu片上网络的拥塞是限制gpu性能，尤其是对访存密集型应用程序而言，是主要的瓶颈。而集群的片上网络架构，由于多个sm共享端口，会加剧这一问题；因此，如何减少片上网络的拥塞就成为一个亟待解决的关键技术。

技术实现思路

1、为解决上述现有技术中存在的部分或全部技术问题，本专利技术提供一种减少gpu片上互连网络拥塞的gpu优化方法，能够减少片上网络的拥塞问题。

2、本专利技术的技术方案如下：

3、一种减少gpu片上互连网络拥塞的gpu优化方法，包括：

5、对gpu应用程序访存局部特性进行分析，将来自同一个集群的不同流处理器访问同一个cache行的冗余请求进行合并处理。

6、进一步地，对冗余请求进行数据合并时，采用合并单元进行合并。

7、进一步地，所述合并单元为数据表，用于记录合并来自不同流处理器访问同一个缓存行的请求。

8、进一步地，在对冗余数据进行合并时，合并方法为：

9、当流处理器i发送请求至片上网络时，首先会以访问的地址为索引查找集群内合并单元的合并表；

10、若命中合并表中的某一项，则表示存在相同地址的访问请求，此时将i记录在流处理器列表域；

11、若未命中，且合并表未满时，则将该请求的地址信息、流处理器信息记录在合并表中新的一行，并将有效位域置为1；

12、若未命中，且合并表已满时，则将该请求直接注入片上网络；

13、进一步地，在对冗余数据进行合并时，当集群收到来自片上网络的响应消息时，首先查找合并表，若命中，则读取流处理器列表域的信息，并将该响应消息广播至列表中所有的流处理器，同时将有效位至0。

14、本专利技术技术方案的主要优点如下：

15、本专利技术的一种减少gpu片上互连网络拥塞的gpu优化方法，通过将若干流处理器划分为若干集群；对gpu应用程序访存局部特性进行分析，得到相邻线程块访问的同一个cache行的请求；将来自同一个集群的不同流处理器访问同一个cache行的冗余请求进行合并处理的方法，通过分析gpu应用程序访存局部性特点，不同的block的请求会访问同一个cache行的基础上，将来自同一个集群不同sm的冗余请求进行合并，从而达到减少网络拥塞，提高gpu性能的目的。

本文档来自技高网...

【技术保护点】

1.一种减少GPU片上互连网络拥塞的GPU优化方法，其特征在于，包括：

2.根据权利要求1所述的一种减少GPU片上互连网络拥塞的GPU优化方法，其特征在于，对冗余请求进行数据合并时，采用合并单元进行合并。

3.根据权利要求2所述的一种减少GPU片上互连网络拥塞的GPU优化方法，其特征在于，所述合并单元为数据表，用于记录合并来自不同流处理器访问同一个缓存行的请求。

4.根据权利要求2所述的一种减少GPU片上互连网络拥塞的GPU优化方法，其特征在于，在对冗余数据进行合并时：

5.根据权利要求2所述的一种减少GPU片上互连网络拥塞的GPU优化方法，其特征在于，在对冗余数据进行合并时，当集群收到来自片上网络的响应消息时，先查找合并表，若命中，则读取流处理器列表域的信息，并将该响应消息广播至列表中所有的流处理器，同时将有效位至0。

【技术特征摘要】

1.一种减少gpu片上互连网络拥塞的gpu优化方法，其特征在于，包括：

2.根据权利要求1所述的一种减少gpu片上互连网络拥塞的gpu优化方法，其特征在于，对冗余请求进行数据合并时，采用合并单元进行合并。

3.根据权利要求2所述的一种减少gpu片上互连网络拥塞的gpu优化方法，其特征在于，所述合并单元为数据表，用于记录合并来自不同流处理器访问同一个缓存行的请求。<...

【专利技术属性】
技术研发人员：王璐，温家辉，赵夏，方健，何益百，王会权，张光达，
申请(专利权)人：中国人民解放军军事科学院国防科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人