一种基于循环缓存的滑动窗口注意力加速方法及装置制造方法及图纸

技术编号：43831077 阅读：30 留言：0更新日期：2024-12-31 18:30

本发明专利技术提供一种基于循环缓存的滑动窗口注意力加速方法及装置，解决了现有技术在滑动窗口注意力机制中内存存储效率较低，进而导致大模型对于序列处理速度慢的问题。基于环形缓存机制对含有滑动窗口注意力的大语言模型进行优化，在提高SWA中K Rcache和V Rcache对内存的利用效率的同时，还提高了K Rcache和V Rcache数据存储的速度，进而提升了整个大语言模型的推理速度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种基于循环缓存的滑动窗口注意力加速方法及装置。

技术介绍

1、随着人工智能技术的发展，特别是深度学习技术的进步，注意力机制（attentionmechanism），因其在处理长依赖关系上的优越性能而逐渐成为自然语言处理、语音识别等
的核心组件。传统的神经网络模型在处理长序列时存在梯度消失或梯度爆炸的问题，同时，随着序列长度的增长，模型计算的复杂度与序列长度的平方成线性关系，这使得大模型在长序列数据上的处理变得非常耗时。

2、近年来，transformer架构通过引入滑动窗口自注意力机制(sliding windowattention，swa)，允许模型并行处理固定窗口大小的数据，从而显著提高了训练效率。

3、swa的计算过程如下：

4、

5、其中，为二维矩阵，n1为文本长度，h为隐藏层长度；dk为矩阵第二维度的长度h，kt为矩阵k的转置。在进行softmax处理之前乘以一个掩码（），sa的mask为下三角的矩阵，使得每个文本位置的token只注意到该位...

【技术保护点】

1.一种基于循环缓存的滑动窗口注意力加速方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于循环缓存的滑动窗口注意力加速方法，其特征在于，步骤S2中，所述环形缓存块表示由N个块组成，用于存放K矩阵和V矩阵缓存的缓存块。

3.根据权利要求1所述的一种基于循环缓存的滑动窗口注意力加速方法，其特征在于，步骤S3中，在LLM输入数据准备阶段，根据输入数据token0,token1,...,tokenk和相应下标，为每个token分配K Rcache和V Rcache的环形缓存位置索引，具体包括如下步骤：

4.根据权利要求3所述的一种基于循环缓...

【技术特征摘要】

1.一种基于循环缓存的滑动窗口注意力加速方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于循环缓存的滑动窗口注意力加速方法，其特征在于，步骤s2中，所述环形缓存块表示由n个块组成，用于存放k矩阵和v矩阵缓存的缓存块。

3.根据权利要求1所述的一种基于循环缓存的滑动窗口注意力加速方法，其特征在于，步骤s3中，在llm输入数据准备阶段，根据输入数据token0,token1,...,tokenk和相应下标，为每个token分配k rcache和v rcache的环形缓存位置索引，具体包括如下步骤：

4.根据权利要求3所述的一种基于循环缓存的滑动窗口注意力加速方法，其特征在于，步骤s302中，索引队列q长度与k rcache和v rcac...

【专利技术属性】
技术研发人员：岳丹阳，
申请(专利权)人：上海岩芯数智人工智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人