一种图形处理器上基于延迟修正的批量矩阵求逆方法技术

技术编号：28561305 阅读：17 留言：0更新日期：2021-05-25 17:56

本发明专利技术涉及一种图形处理器上基于延迟修正的批量矩阵求逆方法，该方法包括以下步骤：产生需要批量求逆的矩阵数据；依次将所述矩阵数据从主机内传输到图形处理器全局内存；在所述图形处理器上建立Grid列条和Block块与矩阵的对应关系；所述图形处理器按照延迟修正方式完成求逆矩阵的批量求逆，并将批量求逆后，得到的逆矩阵从图形处理器的全局内存传会主机内存。本发明专利技术可以减少对全局内存的访问和加快数据的读写速度，减少访存次数的列交换方法，相比静态分配方法，性能得到明显提升。

全部详细技术资料下载

【技术实现步骤摘要】
一种图形处理器上基于延迟修正的批量矩阵求逆方法
本专利技术属于基于图形处理器的批量矩阵求逆技术，具体涉及一种图形处理器上基于延迟修正的批量矩阵求逆方法。
技术介绍
将大量的复杂重复的任务交给图形处理器来处理，从而可以大大加快了数据处理的速度。相比于CPU处理器，图形处理器由于存在大量线程使得对批量任务的处理有着巨大的优势。批量矩阵求逆问题广泛出现于机器学习、数据挖掘、图像和信号处理中，由于需要处理的矩阵规模较小但数量巨大，这给图形处理器上批量处理技术带来巨大挑战。目前的求逆技术采用了一种称为及时修正的技术，该技术将全局内存中需要处理的当前列条块数据读到寄存器，然后进行计算处理，处理完成后再写回到全局内存，及时修正技术存在着较大的全局内存的数据读写量，而对于图像处理器上批量小矩阵求逆问题，影响批处理性能的主要因素是数据的读写量，而不是数据处理时间。目前及时修正批处理求逆技术方案如下：在采用及时修正技术时，如图1所示，首先从全局内存中将当前列条块读到寄存器，然后进行当前列条块内的计算，计算完成后再将列条块写回到全局内存。这时对全局内存的数据读写量为2×(i×NB)×NB。然后与U12来修正列条块右边的部分此时的对全局内存中矩阵W的数据读写量为2×(i×NB)×(n-i×NB)。整个修正尾部矩阵的过程共对矩阵U的上三角部分进行了一次访问，对全局内存中的矩阵U的数据读取量约则整个及时修正的求U-1的块算法对全局内存的读写量约为：为了减少批量处理过程中及时修正技术存在的全局内存的读写次数多和数据量大问题，我们专...

【技术保护点】
1.一种图形处理器上基于延迟修正的批量矩阵求逆方法，其特征在于，包括以下步骤：/n产生需要批量求逆的矩阵数据；/n依次将所述矩阵数据从主机内存传输到图形处理器全局内存；/n在所述图形处理器上建立Grid列条和Block块与矩阵的对应关系；/n所述图形处理器按照延迟修正方式完成求逆矩阵的批量求逆，并将批量求逆后，得到的逆矩阵从图形处理器的全局内存传会主机内存。/n

【技术特征摘要】
1.一种图形处理器上基于延迟修正的批量矩阵求逆方法，其特征在于，包括以下步骤：
产生需要批量求逆的矩阵数据；
依次将所述矩阵数据从主机内存传输到图形处理器全局内存；
在所述图形处理器上建立Grid列条和Block块与矩阵的对应关系；
所述图形处理器按照延迟修正方式完成求逆矩阵的批量求逆，并将批量求逆后，得到的逆矩阵从图形处理器的全局内存传会主机内存。

2.根据权利要求1所述的方法，其特征在于，所述延迟修正方式步骤，包括：
初始化寄存器中的当前列条块；
将上三角矩阵U的子矩阵U01和U11从全局内存中读到共享内存；
在求解当前第i个列条块W01之前，首先用当前列条块左边已经求解出前i-1个列条块W00的结果与上三角矩阵U的子矩阵U01来修正当前第i个列条块W01，修正完成后再求解当前列条块，然后再向右进行下一个列条块的求解，直到最后一个列条块，求解结果存入寄存器中；<...

【专利技术属性】
技术研发人员：赵永华，刘世芳，黄荣锋，
申请(专利权)人：中国科学院计算机网络信息中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人