System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及gpu,尤其涉及一种基于ldst单元中load指令队列的gpu性能优化方法、系统及存储介质。
技术介绍
1、当前mvp微架构流水线中所有写寄存器的操作都是在wb阶段完成,其中包括load指令。
2、load指令取回的数据写入寄存器的操作在wb阶段完成写目的寄存器的技术方案存在一定的缺陷:(1)需要多耗费1个cycle将取回的数据传递到下一个流水线阶段,即wb阶段;(2)由于要传递到wb阶段,必然要占用ex阶段到wb阶段的流水线寄存器,而该寄存器资源是所有ex阶段的执行单元和wb阶段之间共用的。如果被load指令占用了,其他非阻塞的指令就得停滞,等待下一个时钟周期再传递给wb阶段。
3、如图1所示,load指令在取数据的时候,如果cache(高速缓存)不命中,就意味着需要等待较长时间从更底层的memory(内存)中获取需要的数据,那么导致流水线停滞,此时thdc(线程控制器)会将该线程换出流水线。待所需数据返回后,该线程的load指令再重新从流水线进入执行,由此会导致,(1)挤占流水线资源;2)重新进入也会浪费时间。
技术实现思路
1、本专利技术提供了一种gpu性能优化方法,包括如下步骤:
2、增设步骤:在ldst单元中增加一个load指令队列;
3、处理步骤:load指令的写寄存器操作直接在ldst单元内部完成。
4、作为本专利技术的进一步改进,load指令在被访存阻塞后,所属线程会在load指令队列里等待数
5、本专利技术还提供了一种gpu性能优化系统,包括:
6、增设模块:用于在ldst单元中增加一个load指令队列;
7、处理模块:用于load指令的写寄存器操作直接在ldst单元内部完成。
8、作为本专利技术的进一步改进,load指令在被访存阻塞后,所属线程会在load指令队列里等待数据返回,在数据返回后,会立即执行该load指令将数据写入目的寄存器。
9、本专利技术还提供了一种一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本专利技术所述gpu性能优化方法的步骤。
10、本专利技术的有益效果是:本专利技术通过使用load指令队列来存放阻塞的load指令来大大提升性能,同时保持了整个流水线的执行效率,进而解决了已有技术中由于load指令获取数据导致的执行效率低的技术缺陷。
本文档来自技高网...【技术保护点】
1.一种GPU性能优化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的GPU性能优化方法,其特征在于:load指令在被访存阻塞后,所属线程会在load指令队列里等待数据返回,在数据返回后,会立即执行该load指令将数据写入目的寄存器。
3.一种GPU性能优化系统,其特征在于,包括:
4.根据权利要求3所述的GPU性能优化系统,其特征在于:load指令在被访存阻塞后,所属线程会在load指令队列里等待数据返回,在数据返回后,会立即执行该load指令将数据写入目的寄存器。
5.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-2中任一项所述GPU性能优化方法的步骤。
【技术特征摘要】
1.一种gpu性能优化方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的gpu性能优化方法,其特征在于:load指令在被访存阻塞后,所属线程会在load指令队列里等待数据返回,在数据返回后,会立即执行该load指令将数据写入目的寄存器。
3.一种gpu性能优化系统,其特征在于,包括:
4.根据权利要求3所述...
【专利技术属性】
技术研发人员:刘永刚,荣耀程,李刚,竭祥,
申请(专利权)人:深圳中微电科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。