【技术实现步骤摘要】
用于高效访问ML数据的灵活访问指令
[0001]相关申请的交叉引用
[0002]本申请要求2020年12月21日提交的第63/128,838号美国临时申请的优先权权益,该美国临时申请的公开内容通过引用全文合并于此。
[0003]这里公开的主题涉及图形处理单元(GPU)。更具体地,这里公开的主题涉及一种GPU系统和一种方法,其提高了访问在机器学习(ML)任务中经常遇到的用于三维(3D)矩阵的数据的效率,从而减少存储和存储器访问开销。
技术介绍
[0004]现代GPU用于图形密集型操作和计算密集型工作负载两者。GPU通常包括可编程的高度并行的一组计算引擎和各种固定功能单元的集合。固定功能单元中的一些可以操作用于提供但不限于纹理地址生成和过滤、图元裁剪、剔除、视口变换、合并、光栅化设置和光栅化、深度比较、混合和其他操作。
[0005]机器学习在消费产品中继续变得更加流行,并且在移动设备中已变得相当受欢迎。从高层次的角度来看,ML可以分为训练任务和推理任务。在移动设备上进行训练经常可能是足够计算密集的任务,其 ...
【技术保护点】
【技术特征摘要】
1.一种图形处理单元(GPU),包括:寄存器文件,存储输入特征图的数据和过滤器权重内核的数据;处理器,将对输入特征图的数据和过滤器权重内核的数据的卷积运算执行为矩阵乘法运算;以及状态机,通过展开在寄存器文件中的输入特征图的数据和过滤器权重内核的数据来促进卷积运算的执行。2.根据权利要求1所述的图形处理单元,其中状态机包括控制寄存器,该控制寄存器确定数据通过寄存器文件的移动以促进以展开方式对寄存器文件中的数据执行矩阵乘法运算,控制寄存器基于输入特征图的至少一个参数和过滤器权重内核的至少一个参数来配置。3.根据权利要求2所述的图形处理单元,其中状态机从至少一个指令集架构(ISA)指令接收输入特征图的所述至少一个参数和过滤器权重内核的所述至少一个参数。4.根据权利要求1所述的图形处理单元,其中输入特征图的展开数据和过滤器权重内核的展开数据基于im2col技术和存储器高效卷积(MEC)技术之一来展开。5.根据权利要求1所述的图形处理单元,其中状态机还促进在寄存器文件的第一组寄存器中的输入特征图的展开数据和过滤器权重内核的展开数据矩阵相乘,同时将输入特征图的展开数据和过滤器权重内核的展开数据加载到寄存器文件的第二组寄存器,以及促进在寄存器文件的第二组寄存器中的输入特征图的展开数据和过滤器权重内核的展开数据矩阵相乘。6.根据权利要求5所述的图形处理单元,其中状态机还重复地促进对输入特征图的展开数据和过滤器权重内核的展开数据的矩阵乘法运算,直到通过以下完成矩阵乘法:促进在寄存器文件的第一组寄存器中的输入特征图的展开数据和过滤器权重内核的展开数据矩阵相乘同时将输入特征图的展开数据和过滤器权重内核的展开数据加载到寄存器文件的第二组寄存器,以及促进在寄存器文件的第二组寄存器中的输入特征图的展开数据和过滤器权重内核的展开数据矩阵相乘同时将输入特征图的展开数据和过滤器权重内核的展开数据加载到寄存器文件的第一组寄存器。7.根据权利要求1所述的图形处理单元,其中卷积运算包括卷积神经网络(CNN)、循环神经网络(RNN)、生成对抗网络(GAN)和自动编码器之一的操作。8.一种图形处理单元(GPU),包括:寄存器文件,存储输入特征图的数据和过滤器权重内核的数据;着色器数据路径;以及状态机,通过展开数据并将展开的数据存储在寄存器文件中并控制来自寄存器文件并通过着色器数据路径的数据移动以执行矩阵乘法运算来促进将由着色器数据路径执行为矩阵乘法运算的卷积运算,其中展开的数据包括输入特征图的数据和过滤器权重内核的数据。9.根据权利要求8所述的图形处理单元,其中状态机包括控制寄存器,该控制寄存器确定数据通过寄存器文件和着色器数据路径的移动以按展开方式对寄存器文件中的数据执行矩阵乘法运算,控制寄存器基于输入特征图的至少一个参数和过滤器权重内核的至少一个参数来配置。
10.根据权利要求9所述的图形处理单元,其中状态机从至少一个指令集架构(ISA)指令接收输入特征图的所述至少一个参数和过滤器权重内核的所述至少一个参数。11.根据权利要求8所述的图形处理单元,其中输入特征图的展开数据和过滤器权重内核的展开数据基于im2col技术或存储器高效卷积(MEC)技术之一被展开。12.根据权利要求8所述的图形处理单元,其中状态机还促进在寄存...
【专利技术属性】
技术研发人员:CP弗拉斯卡蒂,S瓦特斯,RSB哈里哈拉,DC坦嫩鲍姆,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。