当前位置: 首页 > 专利查询>浙江大学专利>正文

基于阻变存储器和矩阵分解加速算法的存内架构制造技术

技术编号:40035693 阅读:25 留言:0更新日期:2024-01-16 18:56
本发明专利技术公开了一种基于阻变存储器和矩阵分解加速算法的存内架构,用于Transformer神经网络加速。本发明专利技术首先对自注意力计算流程做出优化,将权重矩阵进行分解,减少计算以及写入操作数;然后利用基于阻变存储器的选择与比较逻辑结构的softmax计算阵列,进一步降低整体功耗。本发明专利技术在Re‑Transformer的基础上,提出了优化的矩阵乘法计算,它在缩放的点积注意力中使用矩阵分解来进一步消除数据依赖性并减少计算延迟。与此同时,本发明专利技术利用基于阻变存储器的混合softmax来节省功耗。

【技术实现步骤摘要】

本专利技术涉及人工智能算法以及硬件领域,特别是涉及一种用于transformr加速的,基于阻变存储器和矩阵分解加速算法的存内架构


技术介绍

1、transformer已成为神经语言处理(nlp)应用中一种流行的深度神经网络(dnn)模型,并在神经机器翻译、实体识别等方面表现出了优异的性能。基于transformer的模型,如生成预训练transformer(gpt)、vision transformer(vit)和swin-transformer,已成为人工智能领域最重要的进步之一。这些模型实现了比传统卷积神经网络(cnns)更高的精度,并打破了cnns在各种人工智能任务中的主导地位。自注意力(self-attention)是transformer模型中的一种重要机制,用于对输入序列中的每个元素进行自注意力计算,并得到每个元素的自注意力表示。该机制可以捕捉序列中元素之间的依赖关系,实现长距离依赖建模,实现多头注意力机制,降低计算复杂度,是transformer模型中的核心之一。因此,其计算也是transformer模型的核心数学运算之一。

2本文档来自技高网...

【技术保护点】

1.一种基于阻变存储器和矩阵分解加速算法的存内架构,其特征在于,包括:

2.根据权利要求1所述的基于阻变存储器和矩阵分解加速算法的存内架构,其特征在于,初始Transformer神经网络进行自注意力计算时随机初始化三个网络参数权重矩阵WQ、WK、WV,通过与添加位置信息后的输入矩阵X相乘得到查询矩阵Q、键值矩阵K、值矩阵V。

3.根据权利要求2所述的基于阻变存储器和矩阵分解加速算法的存内架构,其特征在于,Transformer神经网络的自注意力计算公式为softmax(Q·KT/dk0.5)·V,其中注意力分数Out=Q·KT展开为Q·KT=(X·WQ)·(X·W...

【技术特征摘要】

1.一种基于阻变存储器和矩阵分解加速算法的存内架构,其特征在于,包括:

2.根据权利要求1所述的基于阻变存储器和矩阵分解加速算法的存内架构,其特征在于,初始transformer神经网络进行自注意力计算时随机初始化三个网络参数权重矩阵wq、wk、wv,通过与添加位置信息后的输入矩阵x相乘得到查询矩阵q、键值矩阵k、值矩阵v。

3.根据权利要求2所述的基于阻变存储器和矩阵分解加速算法的存内架构,其特征在于,transformer神经网络的自注意力计算公式为softmax(q·kt/dk0.5)·v,其中注意力分数out=q·kt展开为q·kt=(x·wq)·(x·wk)t=x·(wq·wkt)xt;

4.根据权利要求1所述的基于阻变存储器和矩阵分解加速算法的存内架构,其特征在于,在得到正交矩阵p、可逆...

【专利技术属性】
技术研发人员:赵亮徐夏澎
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1