一种基于隐式GEMM卷积的数据加载方法、装置、设备及介质制造方法及图纸

技术编号：37549347 阅读：19 留言：0更新日期：2023-05-12 16:27

本发明专利技术公开了一种基于隐式GEMM卷积的数据加载方法、装置、设备及介质。包括：接收用户输入的隐式GEMM卷积计算模式，并通过编译器生成与计算模式匹配的指令序列；当确定计算模式为第一模式时，根据指令序列从全局内存中分次读取特征图中指定分块的块数据，并将各块数据加载到匹配寄存器中；将块数据按照指定规则在目标寄存器中进行拼接获取拼接数据；根据块数据和拼接数据构成指定分块。从全局内存中分次读取指定分块的块数据加载到匹配寄存器中，基于所加载的块数据进行拼接获取拼接数据，基于所加载的块数据和拼接数据构成指定分块，通过分次读取再拼接的方式显著降低寄存器的数据加载量，减轻寄存器的带宽压力，加快矩阵乘法的计算。的计算。的计算。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于隐式GEMM卷积的数据加载方法、装置、设备及介质

[0001]本专利技术涉及人工智能芯片技术，尤其涉及一种基于隐式GEMM卷积的数据加载方法、装置、设备及介质。

技术介绍

[0002]卷积神经网络中的卷积算子属于计算密集型，它的运算量占据整个神经网络计算量的绝大部分。因此卷积计算优化成为了一项非常重要也非常有意义的工作。
[0003]传统的隐式GEMM卷积计算在进行数据加载时，需要额外的空间保存预计算的索引值，以便将张量数据转换为矩阵形式加载至功共享内存中，但是这种方式并没有减少共享内存至寄存器的数据传输量，从而导致内存带宽压力大，降低了整体执行效率。

技术实现思路

[0004]本专利技术提供一种基于隐式GEMM卷积的数据加载方法、装置、设备及介质，以实现高效的数据加载。
[0005]第一方面，本专利技术提供了一种基于隐式GEMM卷积的数据加载方法，包括：接收用户输入的隐式GEMM卷积计算模式，并通过编译器生成与所述计算模式匹配的指令序列，其中，所述计算模式包括第一模式或第二模式；
[0006]当确定所述计算模式为第一模式时，根据所述指令序列从全局内存中分次读取特征图中指定分块的块数据，并将各块数据加载到匹配寄存器中；
[0007]将所述块数据按照指定规则在目标寄存器中进行拼接获取拼接数据；
[0008]根据所述块数据和所述拼接数据构成所述指定分块。
[0009]第二方面，本专利技术提供了一种基于隐式GEMM卷积的数据加载转置，包括：指令序列生成...

【技术保护点】

【技术特征摘要】
1.一种基于隐式GEMM卷积的数据加载方法，其特征在于，包括：接收用户输入的隐式GEMM卷积计算模式，并通过编译器生成与所述计算模式匹配的指令序列，其中，所述计算模式包括第一模式或第二模式；当确定所述计算模式为第一模式时，根据所述指令序列从全局内存中分次读取特征图中指定分块的块数据，并将各块数据加载到匹配寄存器中；将所述块数据按照指定规则在目标寄存器中进行拼接获取拼接数据；根据所述块数据和所述拼接数据构成所述指定分块。2.根据权利要求1所述的方法，其特征在于，所述第一模式所对应的卷积输出通道不是32的倍数，所述根据所述指令序列从全局内存中分次读取特征图中指定分块的块数据，并将各块数据加载到匹配寄存器中，包括：将所述指令序列中的特征加载指令发送给GPU的纹理单元加载模块；通过所述纹理单元加载模块按照所述特征加载指令从所述全局内存中分次读取特征图中指定分块的块数据；将各所述块数据按照加载列表加载到所述匹配寄存器中，其中，所述加载列表中包含各块数据与所加载的寄存器的对应关系。3.根据权利要求1所述的方法，其特征在于，所述将所述块数据按照指定规则在目标寄存器中进行拼接获取拼接数据，包括：获取特征图中所述指定分块进行完全加载所需的全部寄存器；将所述全部寄存器中删除所述匹配寄存器后的剩余寄存器作为所述目标寄存器；从各所述块数据中确定出目标数据，将各所述目标数据按照指定规则在所述目标寄存器中进行拼接获取所述拼接数据，其中，所述指定规则包括按照指定顺序或者按照指定类型。4.根据权利要求3所述的方法，其特征在于，所述从各所述块数据中确定出目标数据，包括：确定各匹配寄存器与所述目标寄存器的共享数据；将所述匹配寄存器中所包含的共享数据作为所述目标数据。5.根据权利要求1所述的方法，其特征在于，所述根据所述块数据和所述拼接数据构成所述指定分块之后，还包括：判断在所述匹配寄存器和所述目标寄存器中是否涵盖了所述指定分块的全部数据，若是，则...

【专利技术属性】
技术研发人员：商秋，阙恒，王斐，戴一飞，
申请(专利权)人：砺算科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人