【技术实现步骤摘要】
一种交替方向乘子的Visual Transformer剪枝方法
[0001]本专利技术涉及Visual Transformer(ViT)在图像分类领域的剪枝,特别是涉及一种基于交替方向乘子的ViT剪枝方法。
技术介绍
[0002]Transformer模型被应用到了计算机视觉的各个领域,并在许多计算机视觉任务中取得的良好的性能,例如,图像识别,图像分类,图像处理等,ViT将标准transformer直接应用于图像,通过将图像拆分为小图像块,将这些小图像块的线性嵌入序列作为transformer的输入,并以监督方式对模型进行图像分类训练,但是ViT对于存储和运行时内存和计算资源的高要求,导致其应用在移动端和物联网系统时造成了困难,因此对ViT模型进行剪枝时有必要的。
[0003]目前针对大规模模型降低计算成本所提出的方法,例如,参数量化、低秩分解,知识蒸馏、参数共享、剪枝等,有些研究人员提出按参数(或特征输出)绝对值大小来评估重要性,并在训练时的损失中加入正则项;或者基于连接敏感性的显著性标准来识别给定任务中网络结构上 ...
【技术保护点】
【技术特征摘要】
1.一种ADMM算法和剪枝算法结合的VIT模型压缩方法,其特征在于提出的算法包括两个阶段,其包括如下:ADMM算法和剪枝算法,目的使用ADMM算法结合剪枝算法改写模型训练的权重优化问题,利用ADMM算法将原非凸优化问题分解为两个子问题,并对子问题分别用随机梯度下降法和解析法进行迭代求解,相似滤波器剪枝算法可以减少VIT模型的参数量和计算量,压缩VIT模型的计算成本和存储成本,对于VIT模型的移动端应用具有重要意义,所以开发出一种VIT模型压缩算法时非常有必要的。2.根据权利要求1所述的一种ADMM算法和剪枝算法结合的VIT模型压缩方法,将原始VIT模型进行预训练,得到预训练模型,在ADMM算法迭代训练期间,包括将预训练模型的权重参数进行剪枝后代入ADMM算法改写的权重优化公式中:U
i
与W
i
维度相同是公式(1)中Z
i
=W
i
平等约束的拉格朗日乘子;正标量ρ是增广参数,表示L2范数;ADMM算法通过重复以下(3)、(4)、(5)步骤表示L2范数;ADMM算法通过重复以下(3)、(4)、(5)步骤表示L2范数;ADMM算法通过重复以下(3)、(4)、(5)步骤k是迭代参数,子问题(2)可以表述为问题(3)可以表示为由于g
i
(
·
)是S
i
集的指示函数,所以该问题的全局最优解可表示为:集的指示函数,所以该问题的全局最优解可表示为:表示在S
i
集上的欧几里得投影,S
i
是一个非凸集,所以计算是一个十分困难的问题,然而由于S
i
={W|card(W)≤l
i
}的特殊结构,(3)的解为保持的元素l
i
的最大重要性,并将其余元素设为0,最后根据(4)更新双变量U
i<...
【专利技术属性】
技术研发人员:王伟,袁立娜,肖春娇,张志莹,张志远,王鑫博,谷金涛,
申请(专利权)人:辽宁工程技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。