在矢量运算单元中执行卷积运算的方法、计算设备、计算机可读存储介质和计算机程序产品技术

技术编号:46443017 阅读:6 留言:0更新日期:2025-09-19 20:44
本公开提供了一种在矢量运算单元中执行卷积运算的方法、计算设备、计算机可读存储介质和计算机程序产品。该方法包括:将所述卷积运算的第一矩阵加载至线程本地寄存器;将所述卷积运算的第二矩阵经由所述线程本地寄存器加载至所述矢量运算单元的线程束标量寄存器;通过乘加指令对从所述线程本地寄存器读取的所述第一矩阵的一个子矩阵的两个元素和从所述线程束标量寄存器读取的所述第二矩阵的两个对应元素进行乘加以获得所述乘加指令的结果;以及将所述乘加指令的结果与从所述线程本地寄存器读取的所述子矩阵的第三元素和从所述线程束标量寄存器读取的所述第二矩阵的第三对应元素的乘积相加以获得所述卷积运算的结果矩阵的一个元素。

【技术实现步骤摘要】

本公开概括而言涉及处理器领域,更具体地,涉及一种用于在矢量运算单元中执行卷积运算的方法、计算设备、计算机可读存储介质和计算机程序产品


技术介绍

1、卷积运算是一种常见的数学运算,在人工智能或者神经网络中会被频繁使用。人工智能芯片在进行模型训练和推理时,需要进行大量的卷积运算。通常,在人工智能芯片中,使用称为张量计算核或张量计算单元的运算单元来执行卷积运算。然而,在一些情况下,例如在卷积运算的矩阵大小较小或者卷积运算较少出现的场景下,使用张量计算核来执行卷积运算可能会存在算力浪费。此外,在卷积运算执行过程中,参与卷积运算的两个输入矩阵有可能需要重复加载至寄存器,从而数据加载受到寄存器带宽限制。


技术实现思路

1、针对上述问题,本公开提供了一种使用矢量运算单元来执行卷积运算的方案,其例如可以在卷积运算的矩阵大小较小或者卷积运算较少出现的情况下通过矢量运算单元执行卷积运算来避免张量计算核的算力浪费。进一步地,本公开通过对卷积运算的至少一个输入矩阵的存储位置进行设计以使得能够避免该输入矩阵的重复加载,从而减轻寄存器本文档来自技高网...

【技术保护点】

1.一种在矢量运算单元中执行卷积运算的方法,包括:

2.如权利要求1所述的方法,其中将所述卷积运算的第二矩阵经由所述线程本地寄存器加载至所述矢量运算单元的线程束标量寄存器包括:

3.如权利要求1所述的方法,其中获得所述卷积运算的结果矩阵的一个元素包括:

4.如权利要求1所述的方法,其中将所述卷积运算的第一矩阵加载至线程本地寄存器包括:

5.如权利要求1所述的方法,其中将所述卷积运算的第二矩阵经由所述线程本地寄存器加载至所述矢量运算单元的线程束标量寄存器包括:

6.如权利要求1所述的方法,其中所述第一矩阵为用于神经网络模型的激活值...

【技术特征摘要】

1.一种在矢量运算单元中执行卷积运算的方法,包括:

2.如权利要求1所述的方法,其中将所述卷积运算的第二矩阵经由所述线程本地寄存器加载至所述矢量运算单元的线程束标量寄存器包括:

3.如权利要求1所述的方法,其中获得所述卷积运算的结果矩阵的一个元素包括:

4.如权利要求1所述的方法,其中将所述卷积运算的第一矩阵加载至线程本地寄存器包括:

5.如权利要求1所述的方法,其中将所述卷积运算的第二矩阵经由所述线程本地寄存器加载至所述矢量运算单元的线程束标量寄存器包括:

6.如权利要求1所述的方法,其中所述第一矩阵为用于神经网络模型的激活值矩阵,所述第二矩阵为用于所述神经网络模型的权重矩阵。

7.如权...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1