基于超级计算机的多头注意力机制的前向计算方法及系统技术方案

技术编号：37292756 阅读：28 留言：0更新日期：2023-04-21 03:23

本发明专利技术涉及深度学习技术领域，提供了基于超级计算机的多头注意力机制的前向计算方法及系统，包括：从核在主核中读取权重和数据集中的数据，利用向量化并配合循环展开的方式将数据和权重转置相乘，计算得到查询矩阵、键矩阵和值矩阵，并变成多头表示；从核利用向量化并配合循环展开的方式，得到第一结果，并通过转变除法为乘法后，采取向量化配合并循环展开的方式，对第一结果的最低维度执行归一化操作，得到第二结果；从核利用向量化并配合循环展开的方式，得到第三结果，并在将第三结果传输回主核时，对主存带跨步写回，改变数据存储位置，完成转置。极大的加速了前向计算过程，达到了超线性加速比，接近了理论加速比。接近了理论加速比。接近了理论加速比。

全部详细技术资料下载

【技术实现步骤摘要】
基于超级计算机的多头注意力机制的前向计算方法及系统

[0001]本专利技术属于深度学习
，尤其涉及基于超级计算机的多头注意力机制的前向计算方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]自然语言处理，向来是深度学习领域极其重要的研究方向，近些年定制化的AI加速芯片出现和发展极大地提升了计算深度学习框架的能力，自然语言相关的学习框架规模也在不断地扩大，出现了基于变换器的双向编码器表示技术（Bidirectional Encoder Representation from Transformers，BERT）、生成式预训练变换模型2（Generative Pre
‑
trained Transformer 2，GPT
‑
2）、生成型预训练变换模型3（Generative Pre
‑
trained Transformer 3，GPT
‑
3）等超大规模框架，在机器翻译、语言生成等方面取得了不俗的表现。这些模型大多基于Transformer框架，该框架核心是多头注意力（Multi
‑
Head Attention）机制，Multi
‑
Head Attention计算量极大，往往需要庞大的计算资源和极长的计算时间，对其进行深度地优化可以极大缩短训练时间或减少所使用的计算资源。
[0004]基于深度神经网络的算法，相比于各领域传统...

【技术保护点】

【技术特征摘要】
1.基于超级计算机的多头注意力机制的前向计算方法，其特征在于，包括：从核在主核中读取权重和数据集中的数据，并利用向量化并配合循环展开的方式将数据和权重转置相乘，计算得到查询矩阵、键矩阵和值矩阵，并传输回主核，在传输回主核的过程中，将查询矩阵、键矩阵和值矩阵均变成多头表示；从核利用向量化并配合循环展开的方式，将多头表示的查询矩阵的低两维矩阵乘以多头表示的键矩阵低两维的转置，得到第一结果，并通过转变除法为乘法后，采取向量化配合并循环展开的方式，对第一结果的最低维度执行归一化操作，得到第二结果；从核利用向量化并配合循环展开的方式，将第二结果乘以多头表示的值矩阵，得到第三结果，并传输回主核，在将第三结果传输回主核时，对主存带跨步写回，改变数据存储位置，完成转置。2.如权利要求1所述的基于超级计算机的多头注意力机制的前向计算方法，其特征在于，对于数据量最小的数据集中的每个数据，每个从核在主核中读取一个批处理。3.如权利要求1所述的基于超级计算机的多头注意力机制的前向计算方法，其特征在于，对于数据量最大的数据集中的每个数据，在每个批处理下，采用数据分块的方式，得到若干个矩阵块，每个从核读取一个矩阵块。4.如权利要求1所述的基于超级计算机的多头注意力机制的前向计算方法，其特征在于，对于数据量居中的数据集中的每个数据，在每个批处理下，按照序列长度进行等分，得到若干份，每个从核在主核中读取一份。5.如权利要求1所述的基于超级计算机的多头注意力机制的前向计算方法，其特征在于，从核根据局部数据存储剩余空间读取多头表示的键矩阵或多头表示的值矩阵。6.如权利要求1所述的基于超级计算机的多...

【专利技术属性】
技术研发人员：刘卫国，周正浩，段晓辉，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人