一种全局内存访问的方法和设备技术

技术编号：12653685 阅读：313 留言：0更新日期：2016-01-06 11:38

本发明专利技术实施例提供一种全局内存访问的方法和设备，涉及通信领域，解决了全局内存访问中可能出现的非合并访问情况，从而提高全局内存的访问带宽。具体方案为：在访问只读全局内存数据块时，根据数据块的标志位判断数据块是否已进行转置；若未进行转置，则判断访问模式是否为按列依次访问，若访问模式为按列依次访问，则在访问数据块的同时对数据块进行转置，得到转置数据块并对转置数据块进行存储；若已进行转置，则判断访问模式是否为按列依次访问，若访问模式为按列依次访问，则访问转置数据块，使得访问转置数据块时能够进行合并访问，若访问模式不为按列依次访问，则访问转置之前的数据块。本发明专利技术用于只读全局内存的访问。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，尤其涉及一种全局内存访问的方法和设备。
技术介绍
图形处理器（GraphicProcessingUnit,GPU)在对全局内存进行访问时，通常有两种情况：一种是按行的顺序访问数据块，另一种是按列的顺序访问数据块。在按行访问数据块时，一般情况下，各个线程访问的数据地址是连续的，通常会进行合并访问，但是在按列访问数组时，由于访问的数据地址不连续，会出现非合并访问的情况。其中，合并访问是指当访问的数据地址连续时，GPU通常将多个线程的内存访问尽量合并到较少的内存请求命令中，存储器进行一次传输就可以处理多个线程的访存请求。其中，GPU全局内存的访问是否满足合并访问条件，是对图形处理器通用计算技术 (GeneralPurposeComputingonGraphicsProcessingUnits，GPGPU)程序性能影响最明显的因素之一。在计算能力1.0/1.I的GPU硬件上，是否满足合并访问条件在很多情况下会使GPGPU程序的速度产生高达一个数量级的差异，对存储器带宽性能有很大影响。现有技术中，对于计算能力为I.X的设备，half-warp(由warp中的前16个或者后16个线程组成）的16个线程对全局内存进行装载或者存储访问时，当按列依次访问某一块连续的只读全局内存地址空间时，由于线程束依次访问的数据地址不连续，会出现非合并访问的情况，就会造成half-warp中的16个线程会访问16次全局内存，使得全局内存的访问带宽会降到最低。
技术实现思路
本专利技术的实施例提供一种全局内存访问的方法和设备...

【技术保护点】
一种全局内存访问的方法，其特征在于，包括：在访问只读全局内存数据块时，根据所述数据块的标志位判断所述数据块是否已进行转置；若未进行转置，则判断访问模式是否为按列依次访问，若所述访问模式为所述按列依次访问，则在访问所述数据块的同时对所述数据块进行转置，得到转置数据块并对所述转置数据块进行存储；若已进行转置，则判断所述访问模式是否为所述按列依次访问，若所述访问模式为所述按列依次访问，则访问所述转置数据块，使得访问所述转置数据块时能够进行合并访问，若所述访问模式不为所述按列依次访问，则访问转置之前的数据块。

【技术特征摘要】

【专利技术属性】
技术研发人员：王丽娜，史晓华，常玉立，
申请(专利权)人：华为技术有限公司，北京航空航天大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人