一种适用于视觉自注意力模型的量化方法技术

技术编号：40633957 阅读：6 留言：0更新日期：2024-03-13 21:18

本发明专利技术提供一种适用于视觉自注意力模型(ViTs)的量化方法，涉及人工神经网络的压缩与加速，本申请提出了一种移位均匀log2量化器，在log2函数输入上引入初始的移位偏置，然后对输出进行均匀量化；还提出了一种三阶段的平滑优化策略，充分利用平滑而低振幅的损失图进行优化，同时保持对激活逐层量化的高效性。本发明专利技术方法既思想简单，同时节省计算开销，且大大提高在极低压缩比特下的性能表现，只需要应用本发明专利技术设计的量化器，可直接以后训练的方式得到量化模型，同时获得更好性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工神经网络的压缩与加速，尤其是涉及一种适用于视觉自注意力模型(vits)的量化方法。

技术介绍

1、在不断发展的计算机视觉领域中，最近出现的视觉变换器以其多头自注意力机制（mhsa）脱颖而出，成为一种优秀的架构，用于捕捉图像块之间的长距离关系。然而，随着切分图像批数n的增加，mhsa操作会产生o（n2）的时间复杂度，带来难以承受的计算开销。为了实现vits系列模型在实践过程中更好的应用，vits系列模型的模型压缩方法被设计和提出。

2、为了适应视觉识别模型中诸如 layernorm 和自注意机制等独特结构，目前关于vits 的网络量化训练（ptq）的工作通常引入专门的量化器和量化方案，以保持 vits 的原始性能。例如，fq-vit和 ptq4vit分别引入了一个 log2 量化器和一个用于后 softmax 激活的双均匀量化器，repq-vit则采用了通道级量化器，首先应用于有着较大方差分布的layernorm 之后激活值，然后重新参数化为层级量化器。在4比特位情况下，相对于全精度的 deit-s在 imagenet 上，上述repq-vit导致准确率下降了10.82%；而在3比特位情况下，这个下降更为显著，达到了74.48%。最近，基于优化的 ptq 方法在量化卷积神经网络（cnns）方面已经显示出了它们的潜力。然而，在vision transformers方面，它们的尝试仍未得到充分利用，在图4中我们发现，它们在高比特情况下往往导致过拟合，并在超低比特情况下遭遇明显的性能下降，从而限制了它们在 vits 架构中的应用。

3、有鉴于此，本申请提出一种可保持极低比特同时性能较高的视觉自注意力模型的量化方法。

技术实现思路

1、本专利技术要解决的技术问题，在于提供一种适用于视觉自注意力模型(vits)的量化方法，针对当前vits在执行后训练量化时，应用本专利技术设计的量化器，可直接以后训练的方式得到量化模型，保持极低比特同时性能更高。

2、本专利技术提供了一种适用于视觉自注意力模型的量化方法，所述方法包括：

3、在初始阶段，对模型进行精细调整，同时使用全精度权重，对于layernorm后的激活值使用通道级的量化器，对于softmax后的激活值使用移位均匀 log2 量化器，而其他激活则采用逐层的量化器；

4、在第二阶段，利用尺度重参数化技术，将通道级的量化器平滑地过渡到与之对应的层级形式，使得对于layernorm后的激活值由使用通道级的量化器变成采用逐层的量化器；

5、在第三阶段，使用损失函数对模型进行了微调，同时对激活和权重进行量化，其中softmax后的激活值使用移位均匀 log2 量化器，其他激活则采用逐层的量化器。

6、进一步的，所述移位均匀 log2 量化器为：在 log2 函数输入上引入初始的移位偏置，然后对输出进行均匀量化，具体设计如下：

7、在将完整精度的激活值输入提供给log2变换之前，引入了一个移位偏置，然后使用均匀量化器进行处理，其中量化过程公式为：

8、

9、反量化过程公式为：

10、

11、其中，是激活值输入，是量化后的结果，是量化出的整型值，分别代表着均匀量化的量化与反量化计算过程，具体公式如下：

12、

13、

14、其中，b表示bit位，s表示量化规模，z表示零点；

15、进一步的，所述利用尺度重参数化技术，将通道级的量化器平滑地过渡到与之对应的层级形式时采用如下公式计算参数：

16、

17、

18、其中，是原layernorm层的参数，，是尺度重参数后layernorm层的参数，，，是尺度重参数计算参数，是原权重参数，，是尺度重参数后权重参数。

19、进一步的，所述损失函数为：

20、

21、其中，表示全精度视觉自注意力模型第 l个模块的输出，表示量化视觉自注意力模型第 l个模块的输出。

22、本专利技术具有如下技术效果或优点：

23、1、本专利技术提出了一种移位-均匀-log2量化器（sulq），它通过在log2变换之前引入一个偏移量，然后对其输出进行均匀量化，从而实现了输入域的全覆盖和分布的精确近似；

24、2、本专利技术提出了一种三阶段的平滑优化策略（sos），充分利用平滑而低振幅的损失图进行优化，同时保持对激活逐层量化的高效性；

25、3、本专利技术方法简单易于实现，同时节省计算开销，且大大提高性能，采用本专利技术方法性能超过各种主流的后训练量化方法，特别是当比特位越低现象越明显。

本文档来自技高网...

【技术保护点】

1.一种适用于视觉自注意力模型的量化方法，其特征在于：所述方法包括：

2.根据权利要求1所述的一种适用于视觉自注意力模型的量化方法，其特征在于：所述移位均匀 log2 量化器为：在 log2 函数输入上引入初始的移位偏置，然后对输出进行均匀量化，具体设计如下：

3.根据权利要求1所述的一种适用于视觉自注意力模型的量化方法，其特征在于：所述利用尺度重参数化技术，将通道级的量化器平滑地过渡到与之对应的层级形式时采用如下公式计算参数：

4.根据权利要求1所述的一种适用于视觉自注意力模型的量化方法，其特征在于：所述损失函数为：

【技术特征摘要】

1.一种适用于视觉自注意力模型的量化方法，其特征在于：所述方法包括：

...

【专利技术属性】
技术研发人员：纪荣嵘，胡佳伟，钟云山，林明宝，陈锰钊，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人