当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于混合量化精度键值缓存的自注意力机制计算结构制造技术

技术编号:43528537 阅读:29 留言:0更新日期:2024-12-03 12:14
本发明专利技术公开一种基于混合量化精度键值缓存的自注意力机制计算结构,属于计算、推算或计数的技术领域。该计算结构包括:自注意力机制计算模块、输入数据量化模块、混合量化精度的键值缓存模块、n‑m反量化操作模块以及计算差‑加载差匹配模块,在键值缓存中键矩阵采用n量化精度存储,值矩阵采用m量化精度存储。利用键矩阵和值矩阵之间由于Softmax和n‑m反量化操作模块产生的计算周期差,通过计算差‑加载差匹配模块,不断微调匹配键矩阵和值矩阵之间的计算周期差和加载周期差,在n‑m量化精度方案集合中选择最匹配的混合量化精度方案,实现了自注意力机制计算精度和模型压缩的动态调节,具有功耗低,能效高,延时低的技术优势。

【技术实现步骤摘要】

本专利技术涉及人工智能和集成电路领域,具体而言,公开一种基于混合量化精度键值缓存的自注意力机制计算结构及其实现方法,属于计算、推算或计数的。


技术介绍

1、自注意力机制(self-attention mechanism)作为深度学习中的一种重要技术,已经广泛应用于自然语言处理、计算机视觉等领域。在自注意力机制中,输入序列的每一个元素都会与序列中的所有其他元素进行关联,生成一组注意力权重(attention weights),这些权重用于加权求和,以便捕捉序列中元素之间的关系。这种机制在提高模型性能和捕捉长距离依赖性方面表现出色,但同时也带来了巨大的计算量和存储需求。

2、随着深度学习模型的规模不断扩大,模型的计算复杂度和存储需求也随之增加。特别是在自注意力机制中,由于存在非线性函数且需要计算和存储大量的注意力权重,导致了计算资源和存储资源的消耗大幅增加,且计算效率低,尤其在处理大规模数据时,计算效率低下问题尤为明显。这对资源有限的设备,如移动设备和嵌入式系统,提出了巨大的挑战。为了应对这些挑战,研究人员提出了多种优化方法,包括模型压缩、量化和硬本文档来自技高网...

【技术保护点】

1.一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,包括:

2.根据权利要求1所述一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,所述n-m反量化操作模块将所述精度为n比特的softmax函数值反量化为精度为m比特的softmax函数值的表达式为其中,输入数据为n比特的softmax函数值,量化因子1为输入数据量化模块量化键矩阵的因子,量化因子2为输入数据量化模块量化值矩阵的因子,输出数据为m比特的softmax函数值。

3.根据权利要求2所述一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,所述键矩阵和值矩阵的计算周...

【技术特征摘要】

1.一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,包括:

2.根据权利要求1所述一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,所述n-m反量化操作模块将所述精度为n比特的softmax函数值反量化为精度为m比特的softmax函数值的表达式为其中,输入数据为n比特的softmax函数值,量化因子1为输入数据量化模块量化键矩阵的因子,量化因子2为输入数据量化模块量化值矩阵的因子,输出数据为m比特的softmax函数值。

3.根据权利要求2所述一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,所述键矩阵和值矩阵的计算周期差为softmax函数处理周期和n-m反量化操作周期之和。

4.根据权利要求3所述一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,所述计算差-加载差匹配模块根据所述键矩阵和值矩阵的计算周期差匹配加载周期差,具体为:在计算周期差≥加载周期差这一约束下计算加载周期差,

5.根据权利要求4所述一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,所述softmax函数为其中,x为查询矩阵和键矩阵的转置矩阵乘积结果的一行所有数据,xi为x中的第i个数据,n为x包含的数据总数。

6.根据权利要求5所述一种基于混合量化精度键值缓存的自注意力机制计算结构,其特征在于,所述量化模型性能包括但不限于:模型压缩精度和推理精度。

7.根据权利要求1至6中任意一项所述一种基于混...

【专利技术属性】
技术研发人员:刘波张扬李宁远韦庆文闫鑫明徐星宇蔡浩杨军
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1