System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 减少GPU片上互连网络拥塞的GPU优化方法技术_技高网

减少GPU片上互连网络拥塞的GPU优化方法技术

技术编号:40520036 阅读:9 留言:0更新日期:2024-03-01 13:37
本发明专利技术公开了一种减少GPU片上互连网络拥塞的GPU优化方法,其特征在于,包括:将若干流处理器划分为若干集群;对GPU应用程序访存局部特性进行分析,相邻线程块block存在对同一个cache行的访问;提出将来自同一个集群的不同流处理器访问同一个cache行的冗余请求进行合并处理的方法,通过分析GPU应用程序访存局部性特点,不同的block的请求会访问同一个cache行的基础上,将来自同一个集群不同SM的冗余请求进行合并,从而达到减少网络拥塞,提高GPU性能的目的。

【技术实现步骤摘要】

本专利技术涉及计算机硬件,尤其涉及一种减少gpu片上互连网络拥塞的gpu优化方法。


技术介绍

1、gpu,初期作为图像处理的专用加速器,目前已广泛应用于各类高性能的计算机系统中。gpu应用程序利用成千上万个线程的并行,隐藏数据访问延迟,从而提高处理器的性能。

2、流处理器sm是gpu的基本硬件单元。随着工艺制程的进步,为了提升gpu的计算能力,流处理器sm数量的增加是gpu架构变化的典型趋势。特别地,nvidia fermi gpu部署16个sm,新型的pascal和volta架构分别部署了60、80个sm。但sm数量的增加,为gpu片上互连网络的设计带来了新的挑战。为了解决片上网络的可扩展性,当今的gpu采用集群的片上网络互连。例如,gpu pascal架构支持6个集群,每个集群部署10个sm,集群内的sm共用一个互连网络的端口,从而减少互连网络的硬件开销。

3、大量的研究发现gpu片上网络的拥塞是限制gpu性能,尤其是对访存密集型应用程序而言,是主要的瓶颈。而集群的片上网络架构,由于多个sm共享端口,会加剧这一问题;因此,如何减少片上网络的拥塞就成为一个亟待解决的关键技术。


技术实现思路

1、为解决上述现有技术中存在的部分或全部技术问题,本专利技术提供一种减少gpu片上互连网络拥塞的gpu优化方法,能够减少片上网络的拥塞问题。

2、本专利技术的技术方案如下:

3、一种减少gpu片上互连网络拥塞的gpu优化方法,包括:

4、将每个集群内的流处理器共享通信端口;

5、对gpu应用程序访存局部特性进行分析,将来自同一个集群的不同流处理器访问同一个cache行的冗余请求进行合并处理。

6、进一步地,对冗余请求进行数据合并时,采用合并单元进行合并。

7、进一步地,所述合并单元为数据表,用于记录合并来自不同流处理器访问同一个缓存行的请求。

8、进一步地,在对冗余数据进行合并时,合并方法为:

9、当流处理器i发送请求至片上网络时,首先会以访问的地址为索引查找集群内合并单元的合并表;

10、若命中合并表中的某一项,则表示存在相同地址的访问请求,此时将i记录在流处理器列表域;

11、若未命中,且合并表未满时,则将该请求的地址信息、流处理器信息记录在合并表中新的一行,并将有效位域置为1;

12、若未命中,且合并表已满时,则将该请求直接注入片上网络;

13、进一步地,在对冗余数据进行合并时,当集群收到来自片上网络的响应消息时,首先查找合并表,若命中,则读取流处理器列表域的信息,并将该响应消息广播至列表中所有的流处理器,同时将有效位至0。

14、本专利技术技术方案的主要优点如下:

15、本专利技术的一种减少gpu片上互连网络拥塞的gpu优化方法,通过将若干流处理器划分为若干集群;对gpu应用程序访存局部特性进行分析,得到相邻线程块访问的同一个cache行的请求;将来自同一个集群的不同流处理器访问同一个cache行的冗余请求进行合并处理的方法,通过分析gpu应用程序访存局部性特点,不同的block的请求会访问同一个cache行的基础上,将来自同一个集群不同sm的冗余请求进行合并,从而达到减少网络拥塞,提高gpu性能的目的。

本文档来自技高网...

【技术保护点】

1.一种减少GPU片上互连网络拥塞的GPU优化方法,其特征在于,包括:

2.根据权利要求1所述的一种减少GPU片上互连网络拥塞的GPU优化方法,其特征在于,对冗余请求进行数据合并时,采用合并单元进行合并。

3.根据权利要求2所述的一种减少GPU片上互连网络拥塞的GPU优化方法,其特征在于,所述合并单元为数据表,用于记录合并来自不同流处理器访问同一个缓存行的请求。

4.根据权利要求2所述的一种减少GPU片上互连网络拥塞的GPU优化方法,其特征在于,在对冗余数据进行合并时:

5.根据权利要求2所述的一种减少GPU片上互连网络拥塞的GPU优化方法,其特征在于,在对冗余数据进行合并时,当集群收到来自片上网络的响应消息时,先查找合并表,若命中,则读取流处理器列表域的信息,并将该响应消息广播至列表中所有的流处理器,同时将有效位至0。

【技术特征摘要】

1.一种减少gpu片上互连网络拥塞的gpu优化方法,其特征在于,包括:

2.根据权利要求1所述的一种减少gpu片上互连网络拥塞的gpu优化方法,其特征在于,对冗余请求进行数据合并时,采用合并单元进行合并。

3.根据权利要求2所述的一种减少gpu片上互连网络拥塞的gpu优化方法,其特征在于,所述合并单元为数据表,用于记录合并来自不同流处理器访问同一个缓存行的请求。<...

【专利技术属性】
技术研发人员:王璐温家辉赵夏方健何益百王会权张光达
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1