一种视觉Transformer的动态剪枝方法技术

技术编号:39174550 阅读:7 留言:0更新日期:2023-10-27 08:22
本发明专利技术公开了一种视觉Transformer的动态剪枝方法,涉及深度学习领域,针对现有技术中模型冗余剪枝问题提出本方案,包括以下步骤:在建立模型结构后,对视觉Transformer网络模型进行训练,优化视觉Transformer网络模型中的权重和结构参数,并在训练过程中对模型冗余进行剪枝;本发明专利技术采用令牌剪枝和特征稀疏联合工作的方式同时修剪模型中的冗余令牌和冗余通道,可以更加有效地降低模型的浮点计算量,节省模型所需的计算资源,同时,本发明专利技术的令牌矩阵的计算仅依赖于的当前层的输入特征,在浅层编码器模块中被误丢弃的令牌可以在后续编码器模块中被重新恢复。码器模块中被重新恢复。码器模块中被重新恢复。

【技术实现步骤摘要】
一种视觉Transformer的动态剪枝方法


[0001]本专利技术涉及深度学习领域,尤其涉及一种视觉Transformer的动态剪枝方法。

技术介绍

[0002]深度学习在许多现实应用中被广泛采用,如目标检测、图像识别和语义分割等。Transformer模型自引入计算机视觉领域之后,在多个视觉任务中表现出了优异的性能,但其昂贵的存储成本与浮点计算成本制约了其在资源受限设备上的部署。对于一个视觉模型,需要仔细设计模型体系结构的压缩方案,以在资源受限的目标硬件上实现适配部署是深度神经网络研究和部署的关键。
[0003]动态剪枝对于模型在资源受限平台的部署起着至关重要的作用,其可以根据输入动态剪除模型冗余进而大大降低网络的计算量和存储量。但是如何综合多种剪枝手段从多个角度对模型冗余进行剪枝并保持相对较高的模型精度是应用的难点。
[0004]一种视觉Transformer的动态令牌剪枝技术(DynamicViT Efficient Vision Transformers with Dynamic Token Sparsification),能够渐进式地修剪令牌序列中重要性程度较低的令牌以降低模型的浮点计算量。然而该方案的是剪枝方式较为单一,只对令牌序列进行剪枝,对于模型计算量的降低较为有限。此外,该方案中的令牌决策矩阵依赖于当前的决策矩阵进行更新,令牌一旦被丢弃则无法恢复,这可能导致重要的令牌在浅层编码器模块中被误丢弃。

技术实现思路

[0005]本专利技术目的在于提供一种视觉Transformer的动态剪枝方法,以解决上述现有技术存在的问题。本专利技术采用令牌剪枝和特征稀疏联合工作的方式同时修剪模型中的冗余令牌和冗余通道,可以更加有效地降低模型的浮点计算量,节省模型所需的计算资源。同时,本专利技术的令牌矩阵的计算仅依赖于的当前层的输入特征,在浅层编码器模块中被误丢弃的令牌可以在后续编码器模块中被重新恢复。
[0006]本专利技术至少通过如下技术方案之一实现。
[0007]一种视觉Transformer的动态剪枝方法,包括以下步骤:
[0008]S1、构建图像数据集;
[0009]S2、建立视觉Transformer网络模型,通过在位置嵌入模块之后堆叠十二层编码器块的方式构建视觉Transformer模型,在第三、第六、第九层编码器块后插入令牌剪枝模块用以对令牌序列进行剪枝,并在每一层编码器块中嵌入通道稀疏模块以对特征通道进行稀疏化;
[0010]在位置嵌入模块中,将输入的图像重新处理成二维令牌序列其中(H,W)是原始输入图像的分辨率,K是原始输入图像的通道数,N是令牌序列的长度,M是令牌的嵌入维度,同时构建一个可学习的位置编码向量用以保留输入图像块之
间的空间位置信息,通过将位置嵌入向量与输入嵌入向量相加进行显性的位置编码,最后将得到的令牌序列作为后续编码器块的输入;
[0011]S3、对视觉Transformer网络模型进行训练,优化视觉Transformer网络模型的权重和结构参数,并在训练过程中修剪模型冗余,令牌剪枝的剪枝对象是令牌序列,特征稀疏的剪枝对象是全连接层的通道参数;
[0012]S4、选取相应比率的全局信息得分最高的子令牌序列和重要性权重最大的通道,重新构建轻量化网络。
[0013]进一步地,将图像数据集的图像数据切割为训练集和测试集;其中训练集用于步骤S3中对视觉Transformer网络模型进行训练优化,测试集用于对模型性能进行评估。
[0014]进一步地,步骤S3中,在模型搜索时在分类验证损失函数中添加令牌剪枝约束与特征稀疏约束,对于单张图像,其损失函数为:
[0015]L=l
c

token
l
token

d
l
d
[0016]其中l
c
是交叉熵损失,l
token
是令牌剪枝正则项,λ
token
是令牌剪枝正则项的权重,l
d
是特征稀疏正则项,λ
d
是特征稀疏正则项的权重。
[0017]在模型训练时,取图像数据集中所有图像的平均损失作为训练损失:
[0018][0019]式中T为图像数据集中的图像数目,L
t
表示第t张图像的训练损失。
[0020]进一步地,步骤S3同时对冗余令牌和冗余通道进行剪枝。
[0021]进一步地,对于令牌剪枝,首先定义一个令牌决策矩阵
[0022][0023]其中0表示丢弃令牌,1表示保留令牌,N为令牌个数;在初始化时,令牌决策矩阵的值全部为1,代表初始时保留全部令牌;在训练时,在令牌剪枝模块中根据上一个编码器块的输出实时计算最新的决策矩阵,并丢弃相应的冗余令牌。
[0024]进一步地,每个编码器块包括多头自注意力模块和多层感知机模块。
[0025]进一步地,多层感知机模块包括多层归一化层、全连接层次和非线性激活层。
[0026]进一步地,多头自注意力模块的注意力矩阵的计算方式为:
[0027][0028]其中A是注意力矩阵,M为嵌入维度,Q为查询向量,K为键向量。
[0029]进一步地,在令牌剪枝模块中,首先计算令牌的局部特征z
local

[0030][0031]其中MLP1(.)是多层感知机对应的特征映射函数,x是多层感知机模块的输入,C具体取C/2,表示行数为N,列数为C

的实数矩阵;
[0032]计算令牌的全局特征z
glo

[0033][0034]其中MLP2是与MLP1结构相同的多层感知机对应的特征映射函数,D是令牌决策矩
阵,Agg是令牌信息聚合函数,用于对聚合令牌上下文信息,表示长度为C

的实数向量。
[0035]进一步地,令牌信息聚合函数Agg(
·

·
)采用平均池函数:
[0036][0037]其中D
i
即令牌决策矩阵D中对于第i个令牌的决策值,u为信息聚合对象,u
i
为信息聚合对象对应索引处的值。
[0038]与现有的技术相比,本专利技术的有益效果为:
[0039]本专利技术的一种视觉Transformer的动态剪枝方法,利用如上所述模型压缩方法进行视觉Transformer网络模型的动态剪枝,令牌剪枝与特征稀疏同时联合工作能够对模型进行有效压缩,在丢弃图像中信息含量低的冗余令牌的同时动态跳过冗余通道的计算,并兼具令牌剪枝和通道稀疏两种压缩手段的优点。
附图说明
[0040]图1是本专利技术所述动态剪枝方法流程示意图;
[0041]图2是本专利技术所述模型压缩方法的模型框架的示意图;
[0042]图3是本专利技术所述模型压缩方法通道特征稀疏的示意图。
具体实施方式...

【技术保护点】

【技术特征摘要】
1.一种视觉Transformer的动态剪枝方法,其特征在于,包括以下步骤:S1、构建图像数据集;S2、建立视觉Transformer网络模型,通过在位置嵌入模块之后堆叠十二层编码器块的方式构建视觉Transformer模型,在第三、第六、第九层编码器块后插入令牌剪枝模块用以对令牌序列进行剪枝,并在每一层编码器块中嵌入通道稀疏模块以对特征通道进行稀疏化;在位置嵌入模块中,将输入的图像重新处理成二维令牌序列其中(H,W)是原始输入图像的分辨率,K是原始输入图像的通道数,N是令牌序列的长度,M是令牌的嵌入维度,同时构建一个可学习的位置编码向量用以保留输入图像块之间的空间位置信息,通过将位置嵌入向量与输入嵌入向量相加进行显性的位置编码,最后将得到的令牌序列作为后续编码器块的输入;S3、对视觉Transformer网络模型进行训练,优化视觉Transformer网络模型的权重和结构参数,并在训练过程中修剪模型冗余,令牌剪枝的剪枝对象是令牌序列,特征稀疏的剪枝对象是全连接层的通道参数;S4、选取相应比率的全局信息得分最高的子令牌序列和重要性权重最大的通道,重新构建轻量化网络。2.根据权利要求1所述的视觉Transformer的动态剪枝方法,其特征在于,将图像数据集的图像数据切割为训练集和测试集;其中训练集用于步骤S3中对视觉Transformer网络模型进行训练优化,测试集用于对模型性能进行评估。3.根据权利要求2所述的视觉Transformer的动态剪枝方法,其特征在于,步骤S3中,在模型搜索时在分类验证损失函数中添加令牌剪枝约束与特征稀疏约束,对于单张图像,其损失函数为:L=l
c

token
l
token

d
l
d
其中l
c
是交叉熵损失,l
token
是令牌剪枝正则项,λ
token
是令牌剪枝正则项的权重,l
d
是特征稀疏正则项,λ
d
是特征稀疏正则项的权重;在模型训练时,取图像数据集中所有图像的平均损失作为训练损失:式中T为图像数据集中的图像数目,L<...

【专利技术属性】
技术研发人员:郭锴凌陈灿阳徐向民
申请(专利权)人:人工智能与数字经济广东省实验室广州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1