GPU性能优化方法、系统及存储介质技术方案

技术编号：40592704 阅读：5 留言：0更新日期：2024-03-12 21:54

本发明专利技术提供了一种GPU性能优化方法、系统及存储介质，在LDST单元中增加一个load指令队列；load指令的写寄存器操作直接在LDST单元内部完成。本发明专利技术的有益效果是：本发明专利技术通过使用load指令队列来存放阻塞的load指令来大大提升性能，同时保持了整个流水线的执行效率，进而解决了已有技术中由于load指令获取数据导致的执行效率低的技术缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及gpu，尤其涉及一种基于ldst单元中load指令队列的gpu性能优化方法、系统及存储介质。

技术介绍

1、当前mvp微架构流水线中所有写寄存器的操作都是在wb阶段完成，其中包括load指令。

2、load指令取回的数据写入寄存器的操作在wb阶段完成写目的寄存器的技术方案存在一定的缺陷：(1)需要多耗费1个cycle将取回的数据传递到下一个流水线阶段，即wb阶段；(2)由于要传递到wb阶段，必然要占用ex阶段到wb阶段的流水线寄存器，而该寄存器资源是所有ex阶段的执行单元和wb阶段之间共用的。如果被load指令占用了，其他非阻塞的指令就得停滞，等待下一个时钟周期再传递给wb阶段。

3、如图1所示，load指令在取数据的时候，如果cache(高速缓存)不命中，就意味着需要等待较长时间从更底层的memory(内存)中获取需要的数据，那么导致流水线停滞，此时thdc(线程控制器)会将该线程换出流水线。待所需数据返回后，该线程的load指令再重新从流水线进入执行，由此会导致，(1)挤占流水线资源；2)重新进入也会浪费时间。

技术实现思路

1、本专利技术提供了一种gpu性能优化方法，包括如下步骤：

2、增设步骤：在ldst单元中增加一个load指令队列；

3、处理步骤：load指令的写寄存器操作直接在ldst单元内部完成。

4、作为本专利技术的进一步改进，load指令在被访存阻塞后，所属线程会在load指令队列里等待数

5、本专利技术还提供了一种gpu性能优化系统，包括：

6、增设模块：用于在ldst单元中增加一个load指令队列；

7、处理模块：用于load指令的写寄存器操作直接在ldst单元内部完成。

8、作为本专利技术的进一步改进，load指令在被访存阻塞后，所属线程会在load指令队列里等待数据返回，在数据返回后，会立即执行该load指令将数据写入目的寄存器。

9、本专利技术还提供了一种一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本专利技术所述gpu性能优化方法的步骤。

10、本专利技术的有益效果是：本专利技术通过使用load指令队列来存放阻塞的load指令来大大提升性能，同时保持了整个流水线的执行效率，进而解决了已有技术中由于load指令获取数据导致的执行效率低的技术缺陷。

本文档来自技高网...

【技术保护点】

1.一种GPU性能优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的GPU性能优化方法，其特征在于：load指令在被访存阻塞后，所属线程会在load指令队列里等待数据返回，在数据返回后，会立即执行该load指令将数据写入目的寄存器。

3.一种GPU性能优化系统，其特征在于，包括：

4.根据权利要求3所述的GPU性能优化系统，其特征在于：load指令在被访存阻塞后，所属线程会在load指令队列里等待数据返回，在数据返回后，会立即执行该load指令将数据写入目的寄存器。

5.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－2中任一项所述GPU性能优化方法的步骤。

【技术特征摘要】

1.一种gpu性能优化方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的gpu性能优化方法，其特征在于：load指令在被访存阻塞后，所属线程会在load指令队列里等待数据返回，在数据返回后，会立即执行该load指令将数据写入目的寄存器。

3.一种gpu性能优化系统，其特征在于，包括：

4.根据权利要求3所述...

【专利技术属性】
技术研发人员：刘永刚，荣耀程，李刚，竭祥，
申请(专利权)人：深圳中微电科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人