向量矩阵乘法加速方法、单元、加速单元和片上系统技术方案

技术编号：33245683 阅读：13 留言：0更新日期：2022-04-27 17:56

本申请实施例提供了一种向量矩阵乘法加速方法、单元、加速单元和片上系统，该方法应用于第五代精简指令集处理器，该方法包括：根据第一矩阵的元素的数据长度以及向量寄存器的长度，获得向量寄存器存储第一矩阵的元素的数量N，N为正整数；根据数量N，对第一矩阵进行重排处理，获得可并行处理N个数据的第三矩阵；采用单指令多数据流指令对向量与第三矩阵进行乘法计算。本方案可提高向量矩阵乘法的运算速度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
向量矩阵乘法加速方法、单元、加速单元和片上系统

[0001]本申请实施例涉及芯片
，尤其涉及一种向量矩阵乘法加速方法、单元、加速单元和片上系统。

技术介绍

[0002]随着芯片技术的不断发展，越来越多的领域需要用到向量与矩阵的乘法运算，它起到了至关重要的作用。例如，在一种典型的应用场景中，常用的神经网络中往往存在一个全连接层，全连接层的核心操作就是向量矩阵乘法运算。因此，向量矩阵乘法运算速度的快慢往往决定了一些芯片处理数据的速度。基于第五代精简指令集(RISC
‑
V)的处理器随着芯片技术的发展应运而生，其越来越多的应用在边缘计算设备、IOT设备上，因此对向量矩阵乘法的运算速度有了更高的要求，因此如何提升向量矩阵乘法运算的速度就成了一个需要解决的技术问题。

技术实现思路

[0003]有鉴于此，本申请实施例提供一种向量矩阵乘法加速方法、单元、加速单元和片上系统，以至少部分解决上述问题。
[0004]根据本申请实施例的第一方面，提供了一种向量矩阵乘法加速方法，应用于第五代精简指令集处理器，该方法包括：
[0005]根据第一矩阵的元素的数据长度以及向量寄存器的长度，获得向量寄存器存储第一矩阵的元素的数量N，N为正整数；
[0006]根据数量N，对第一矩阵进行重排处理，获得可并行处理N个数据的第三矩阵；
[0007]采用单指令多数据流指令对向量与第三矩阵进行乘法计算。
[0008]根据本申请实施例的第二方面，提供了一种向量矩阵乘法加速单元，应用于第...

【技术保护点】

【技术特征摘要】
1.一种向量矩阵乘法加速方法，应用于第五代精简指令集处理器，所述方法包括：根据第一矩阵的元素的数据长度以及向量寄存器的长度，获得所述向量寄存器存储所述第一矩阵的元素的数量N，N为正整数；根据所述数量N，对所述第一矩阵进行重排处理，获得可并行处理N个数据的第三矩阵；采用单指令多数据流指令对向量与所述第三矩阵进行乘法计算。2.根据权利要求1所述的方法，其中，所述根据第一矩阵的元素的数据长度以及向量寄存器的长度，获得所述向量寄存器存储所述第一矩阵的元素的数量N，包括：将所述向量寄存器的长度除以所述第一矩阵的元素的数据长度，获得所述向量寄存器存储所述第一矩阵的元素的数量N。3.根据权利要求2所述的方法，其中，所述根据所述数量N，对所述第一矩阵进行重排处理，获得可并行处理N个数据的第三矩阵，包括：对所述第一矩阵进行重排处理，获得可在所述向量寄存器中连续读取的第二矩阵；根据所述数量N，对所述第二矩阵进行重排，获得可并行处理N个数据的第三矩阵。4.根据权利要求3所述的方法，其中，所述对所述第一矩阵进行重排处理，获得可在所述向量寄存器中连续读取的第二矩阵，包括：对所述第一矩阵进行转置，获得所述第二矩阵，所述第一矩阵为H行，W列矩阵，所述第二矩阵为W行，H列矩阵，W和H为正整数。5.根据权利要求4所述的方法，其中，所述根据所述数量N，对所述第二矩阵进行重排，获得可并行处理N个数据的第三矩阵，包括：从所述第二矩阵的第一行至第W行，依次取N行，且每N行按照从第一列至第H列的数据进行排列，所获得的N*H个数据构成第三矩阵的一行数据；直至获得第一行至第W/N行数据，构成第三矩阵，所述第三矩阵为W/N行，N*H列...

【专利技术属性】
技术研发人员：赵翔宇，
申请(专利权)人：平头哥杭州半导体有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人