【技术实现步骤摘要】
【国外来华专利技术】用于优化GPU线程共享本地存储器访问的装置
实施例总体上涉及图形处理逻辑。更具体地,实施例涉及一种用于通过在图形处理器上执行的线程来优化共享本地存储器访问的装置。
技术介绍
图形线程可以使用单指令多数据(SIMD)消息来访问共享本地存储器(SLM),其中,每个SIMD槽可以寻址SLM区域中的任意位置。为了提供高带宽,SLM已经通常使用多个存储体来实施,每个存储体具有双字(Dword)大小的数据总线。SLM中的每个存储体可以每周期提供高达一个Dword或者四个字节的数据。存储体可以被并行地访问,从而赋予能力以在一个访问周期内访问由SIMD消息中的所有SIMD槽所寻址的所有数据位置。然而,SIMD槽中“存储体冲突”的存在可能减小数据传输的有效带宽。当SIMD消息中的两个或更多个SIMD槽寻址同一SLM存储体时出现存储体冲突。如果每个存储体的访问端口数量小于存储体上冲突的槽数量,则存储体不能在同一周期内服务所有槽,并且需要串行化访问。附图说明通过阅读以下说明书和所附权利要求书,并且通过参考以下附图,实施例的各种优点对于本领域技术人员将变得显而易见,在附图中:图1是具有处 ...
【技术保护点】
1.一种图形处理器,包括:第一逻辑,与第一执行单元耦合,所述第一逻辑用于接收来自所述第一执行单元的第一单指令多数据(SIMD)消息;第二逻辑,与第二执行单元耦合,所述第二逻辑用于接收来自所述第二执行单元的第二SIMD消息;以及第三逻辑,与共享本地存储器(SLM)的存储体耦合,所述第三逻辑用于接收来自所述第一逻辑的用于访问SLM的所述存储体的第一请求、来自所述第二逻辑的用于访问SLM的所述存储体的第二请求,并且用于在单个访问周期内针对所述第一请求将读取访问调度至读取端口以及针对所述第二请求将写入访问调度至写入端口。
【技术特征摘要】
【国外来华专利技术】2016.07.07 US 15/203,9071.一种图形处理器,包括:第一逻辑,与第一执行单元耦合,所述第一逻辑用于接收来自所述第一执行单元的第一单指令多数据(SIMD)消息;第二逻辑,与第二执行单元耦合,所述第二逻辑用于接收来自所述第二执行单元的第二SIMD消息;以及第三逻辑,与共享本地存储器(SLM)的存储体耦合,所述第三逻辑用于接收来自所述第一逻辑的用于访问SLM的所述存储体的第一请求、来自所述第二逻辑的用于访问SLM的所述存储体的第二请求,并且用于在单个访问周期内针对所述第一请求将读取访问调度至读取端口以及针对所述第二请求将写入访问调度至写入端口。2.如权利要求1所述的图形处理器,所述第三逻辑用于另外接收用于访问所述SLM的所述存储体的第三请求,其中,所述第三请求是对SLM的所述存储体的写入请求,所述第二请求是与在SLM的所述存储体处的前一原子操作相关联的回写请求,并且所述第三逻辑用于使所述第二请求优先于所述第三请求。3.如权利要求2所述的图形处理器,其中,所述第三逻辑用于将所述第三请求维持为有效并且被配置用于在后续访问周期内处理所述第三请求。4.如权利要求1所述的图形处理器,所述第三逻辑用于另外接收用于访问所述SLM的所述存储体的第三请求,其中,所述第三请求是来自所述第一逻辑的对SLM的所述存储体的写入请求,并且对所述写入端口的所述写入访问是针对所述第二请求和所述第三请求的组合写入。5.如权利要求1所述的图形处理器,所述第三逻辑用于另外接收用于访问所述SLM的所述存储体的第三请求,其中,所述第三请求是来自所述第二逻辑的对SLM的所述存储体的读取请求,并且对所述读取端口的所述读取访问是针对所述第一请求和所述第三请求的组合读取。6.如权利要求1所述的图形处理器,其中,所述第一请求来自所述第一执行单元上的第一线程,并且所述第二请求来自所述第二执行单元上的第二不同线程。7.如权利要求6所述的图形处理器,其中,所述第一请求是来自所述第一线程的读取请求并且所述第二请求是来自所述第二线程的写入请求,所述读取请求被映射至所述第一端口并且所述写入请求被映射至所述第二端口。8.如权利要求1所述的图形处理器,其中,所述第一逻辑用于检查所述SIMD消息内的每个槽并针对所述第一SIMD消息内的每个SLM访问请求确定相关联的SLM存储体,并且其中,所述第二逻辑用于检查所述SIMD消息内的每个槽并针对所述第二SIMD消息内的每个SLM访问请求确定相关联的SLM存储体。9.如权利要求8所述的图形处理器,其中,所述第一逻辑用于检测所述第一SIMD消息内的存储体冲突并且所述第二逻辑用于检测所述第二SIMD消息内的存储体冲突,其中,用于访问SLM的所述存储体的第一端口的所述第一请求是在所述第一逻辑处所接收的一组冲突请求中的一个,并且用于访问SLM的所述存储体的所述第二端口的所述第二请求是在所述第二逻辑处所接收的一组冲突请求中的一个。10.如权利要求1所述的图形处理器,另外包括所述第三逻辑的多个实例,其中,所述SLM的每个存储体与所述第三逻辑的实例耦合。11.一种用于访问图形处理器内的共享本地存储器(SLM)的方法,所述方法包括:在针对所述SLM的存储体的仲裁逻辑处接收第一访问请求,所述第一访问请求来自所述图形处理器的第一执行单元上的第一线程;在针对所述SLM的所述存储体的仲裁逻辑处接收第二访问请求,所述第二访问请求来自所述图形处理器的第二执行单元上的第二线程;将读取请求调度至所述SLM的所述存储体的读取端口;以及在与所述读取请求同一周期内将写入请求调度至所述SLM的所述存储体的写入端口,其中,所述读取请求和所述写入请求中的每一个与所述第一访问请求或所述第二访问请求之一相关联。12.如权利要求11所述的方法,另外包括:接收来自图形处理器的第一电路处的所述第一执行单元的第一单指令多数据(SIMD)消息,所述第一SIMD消息包括针对所述SLM的多个访问请求;在所述第一电路处针对对所述SLM的所述多个访问请求中的每一个确定到所述SLM的一个或多个存储体的映射;以及针对第一SIMD消息中的所述多个访问请求中的至少一个,将所述第一访问请求传输至针对所述SLM的所述存储体的所述仲裁逻辑。...
【专利技术属性】
技术研发人员:J·雷,A·R·阿普,J·A·瓦莱里奥,B·纳拉希姆哈斯瓦米,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。