【技术实现步骤摘要】
本申请涉及硬件架构,尤其涉及一种矩阵转置单元、计算装置、矩阵转置方法及介质。
技术介绍
1、在基于transformer(变换器)算法的大型语言模型中,矩阵转置作为矩阵运算的核心组件,对于多种算法和应用具有至关重要的作用。特别是在处理大型语言模型时,若激活矩阵采用行优先存储方式,则在执行attention(注意力)计算中的sv操作时,必须将矩阵转置为列优先格式,以便进行后续的矩阵乘法计算。
2、传统的矩阵转置操作大多依赖于中央处理器(cpu)进行,然而,由于cpu的并行处理能力有限,当处理大规模矩阵时,其运算速度和效率可能无法达到实时或高性能计算的要求。为了克服这一挑战,矩阵转置硬件单元被设计出来。这种硬件单元针对矩阵转置运算进行了专门的优化,通过高度并行的计算和优化数据流,以显著提高运算速度和能效。
3、在大型语言模型中,使用矩阵转置硬件单元进行转置操作后,再进行通用矩阵乘法(gemm)操作,可以有效地减少对计算和存储资源的需求,从而实现更低的能耗和更高的推理性能。这种优化对于实现高效、实时的自然语言处理任务具
本文档来自技高网...【技术保护点】
1.一种矩阵转置单元,其特征在于,所述矩阵转置单元包括:
2.根据权利要求1所述的矩阵转置单元,其特征在于,所述划分后的待转置矩阵为根据预先设置的转置粒度将整个待转置矩阵划分成的多个待转置的子矩阵。
3.根据权利要求1或2所述的矩阵转置单元,其特征在于,所述延迟单元对所述第一缓冲器读取到的数据依据字节从低到高依次延迟;
4.根据权利要求1或2所述的矩阵转置单元,其特征在于,所述延迟单元与所述移位寄存器均通过含流水线结构的多个D触发器实现。
5.根据权利要求2所述的矩阵转置单元,其特征在于,所述移位寄存器的大小与所述转置粒
...【技术特征摘要】
1.一种矩阵转置单元,其特征在于,所述矩阵转置单元包括:
2.根据权利要求1所述的矩阵转置单元,其特征在于,所述划分后的待转置矩阵为根据预先设置的转置粒度将整个待转置矩阵划分成的多个待转置的子矩阵。
3.根据权利要求1或2所述的矩阵转置单元,其特征在于,所述延迟单元对所述第一缓冲器读取到的数据依据字节从低到高依次延迟;
4.根据权利要求1或2所述的矩阵转置单元,其特征在于,所述延迟单元与所述移位寄存器均通过含流水线结构的多个d触发器实现。
5.根据权利要求2所述的矩阵转置单元,其特征在于,所述移位寄存器的大小与所述转置粒度的大小相同。
6.根据权利要求1或2所述的矩...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:北京无问芯穹科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。