System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种统一的标记压缩方法技术_技高网
当前位置: 首页 > 专利查询>厦门大学专利>正文

一种统一的标记压缩方法技术

技术编号:40350969 阅读:8 留言:0更新日期:2024-02-09 14:35
一种统一的标记压缩方法,涉及人工神经网络的压缩与加速。包括以下步骤:1)定义标记压缩方式,同时包含标记剪枝与标记合并;2)使用随机搜索搜索各种计算复杂度约束下的最优标记压缩率;3)模型推理时选出标记压缩率,根据标记压缩率压缩对应数量的标记。同时考虑标记剪枝和标记合并,将标记压缩视为优化问题,搜索最优标记压缩率。可以实现不微调压缩后的模型仍然保持高性能。可应用于在图像分类领域上的ViT模型,提供的统一标记压缩方法提供更好的识别能力,使得压缩后模型无需微调即可保持良好性能。实验表明,通过本发明专利技术可以显著降低模型复杂度,且性能降低可忽略。实现根据给定模型与给定计算量约束自适应决定最优标记压缩率。

【技术实现步骤摘要】

本专利技术涉及人工神经网络的压缩与加速,尤其是涉及一种统一的标记压缩方法


技术介绍

1、视觉自注意力模型(vision transformer,vit)已经成为各种常见视觉任务中最普遍和最有前景的架构之一,如图像分类(graham b,el-nouby a,touvron h,etal.levit:a vision transformer in convnet's clothing for faster inference[c]//proceedings of the ieee/cvf international conference on computer vision.2021:12259-12269.),目标检测(carion n,massa f,synnaeve g,et al.end-to-end objectdetection with transformers[c]//european conference on computervision.springer,cham,2020:213-229.)等。vit的基本思想是将一副图像切割为一系列补丁(patch),并使用线性转换将这些补丁转化为输入标记(token)。vits的优点在于它能通过多头自注意力机制(multi-headself-attention,mhsa)的机制捕捉到图像不同部分之间的长距离关系。但这同样引入了一个缺点,即vit的计算量与输入标记数量的平方成正比,过高的计算成本严重阻碍vit的落地应用。最直观的方法是通过减少推理过程中的标记数量,以达到减少计算量的目的。现如今的标记压缩方案可以分为两种。一类是标记剪枝,其动机是丢弃任务无关的标记以减少标记数,比如语义无关的背景,一个经典工作是evit(liang y,ge c,tong z,et al.not all patches are what you need:expeditingvision transformers via token reorganizations[j].arxiv preprint arxiv:2202.07800,2022.),其利用现成的类注意力来衡量标记的重要性,直接丢弃类注意力较低的值。另外一类是标记合并,其动机是合并相似的标记以减少标记数,一个经典工作是tome(bolya d,fu c y,dai x,et al.token merging:your vit but faster[j].arxivpreprint arxiv:2210.09461,2022.),其利用二分匹配寻找相似的标记对进行合并。尽管这些标记放弃方法降低计算成本,但它们存在两个缺点:1)孤立得考虑标记剪枝与标记合并;2)人工设置每一层的标记压缩率。以上缺点导致其不得不微调压缩后的模型以恢复模型精度。

2、在进行vit模型压缩时,现有的方法专注于单一标记压缩方法且依赖于人工的压缩率设置。本专利技术既关注标记剪枝,也关注标记压缩,并基于此提出一个统一的标记压缩方法,该专利技术可以实现根据给定模型与给定计算量约束自适应决定最优标记压缩率。


技术实现思路

1、本专利技术的目的是基于现有技术存在的上述技术问题,针对vit模型压缩,提供一种统一的标记压缩方法。给定一个预训练模型,只需应用本专利技术提出的压缩范式,可得到一个压缩后的模型,该模型通过减少推理时的标记数量降低模型计算量。本专利技术可以实现在压缩计算复杂度的情况下,模型不微调同样保持良好性能。

2、本专利技术包括以下步骤:

3、1)定义标记压缩方式,同时考虑标记剪枝与标记合并;

4、2)将标记压缩视为优化问题,使用随机搜索搜索各种计算复杂度约束下的最优标记压缩率;

5、3)模型推理时选出标记压缩率,根据标记压缩率压缩对应数量的标记,实现不微调压缩后的模型仍保持高性能。

6、在步骤1)中,所述定义标记压缩方式,先进行标记剪枝再进行标记合并;标记剪枝对注意力值最低的标记进行剪枝,标记合并将注意力较低的标记合并到注意力较高的相似标记中,具体的步骤可为:

7、给定一个预训练模型w*,标记压缩的目标是在具有目标flopst的训练数据集(x,y)上最小化分类损失表述为以下优化问题:

8、

9、

10、

11、其中,和分别表示所有块中的剪枝和合并压缩率;此外,表示相应的flops;使用操作fc和每个transformer块中的压缩率和压缩通过最小化得到和

12、在步骤2)中,所述使用随机搜索搜索各种计算复杂度约束下的最优标记压缩率,随机生成每一层的标记剪枝压缩率和标记合并压缩率,并加以限制,让这些剪枝率是逐层递增;计算出标记压缩率对应的计算复杂度,在验证集上计算出对应精度以进行筛选,具体的步骤可为:

13、采用简单的随机搜索搜索不同flops约束下的最优压缩率,随机生成10000个压缩率组合,生成过程确保压缩率是逐标记压缩操作递增的;从训练集上切割出一部分验证集,在验证集上测试每个压缩率的对应的性能,保留每一种计算量下的最优压缩率组合,构建一个计算量约束-压缩率查找表;如此,在模型实际推理时,即可根据计算量约束得到合适的压缩率。

14、在步骤3)中,所述模型推理时选出标记压缩率,根据计算需求,选出步骤2)中求得的最优标记压缩率进行推理。

15、本专利技术提出一个统一的标记压缩框架,同时考虑标记剪枝和标记合并。本专利技术将标记压缩视为优化问题,搜索最优标记压缩率。本专利技术可以实现不微调压缩后的模型仍然保持高性能。本专利技术可应用于在图像分类领域上的vit模型,本专利技术提供的统一标记压缩方法提供更好的识别能力,使得压缩后模型无需微调即可保持良好性能。实验表明,通过本专利技术可以显著降低模型复杂度,且性能降低可忽略。

本文档来自技高网...

【技术保护点】

1.一种统一的标记压缩方法,其特征在于包括以下步骤:

2.如权利要求1所述一种统一的标记压缩方法,其特征在于在步骤1)中,所述定义标记压缩方式,先进行标记剪枝再进行标记合并;标记剪枝对注意力值最低的标记进行剪枝,标记合并将注意力较低的标记合并到注意力较高的相似标记中。

3.如权利要求1所述一种统一的标记压缩方法,其特征在于在步骤1)中,所述定义标记压缩方式,同时考虑标记剪枝与标记合并,具体步骤为:

4.如权利要求1所述一种统一的标记压缩方法,其特征在于在步骤2)中,所述使用随机搜索搜索各种计算复杂度约束下的最优标记压缩率,随机生成每一层的标记剪枝压缩率和标记合并压缩率,并加以限制,让这些剪枝率是逐层递增;计算出标记压缩率对应的计算复杂度,在验证集上计算出对应精度以进行筛选。

5.如权利要求1所述一种统一的标记压缩方法,其特征在于在步骤2)中,所述计算复杂度约束下的最优标记压缩率,采用简单的随机搜索搜索不同FLOPs约束下的最优压缩率,随机生成10000个压缩率组合,生成过程确保压缩率是逐标记压缩操作递增的;从训练集上切割出一部分验证集,在验证集上测试每个压缩率的对应的性能,保留每一种计算量下的最优压缩率组合,构建一个计算量约束-压缩率查找表;在模型实际推理时,根据计算量约束得到合适的压缩率。

6.如权利要求1所述一种统一的标记压缩方法,其特征在于在步骤3)中,所述模型推理时选出标记压缩率,根据计算需求,选出步骤2)中求得的最优标记压缩率进行推理。

...

【技术特征摘要】

1.一种统一的标记压缩方法,其特征在于包括以下步骤:

2.如权利要求1所述一种统一的标记压缩方法,其特征在于在步骤1)中,所述定义标记压缩方式,先进行标记剪枝再进行标记合并;标记剪枝对注意力值最低的标记进行剪枝,标记合并将注意力较低的标记合并到注意力较高的相似标记中。

3.如权利要求1所述一种统一的标记压缩方法,其特征在于在步骤1)中,所述定义标记压缩方式,同时考虑标记剪枝与标记合并,具体步骤为:

4.如权利要求1所述一种统一的标记压缩方法,其特征在于在步骤2)中,所述使用随机搜索搜索各种计算复杂度约束下的最优标记压缩率,随机生成每一层的标记剪枝压缩率和标记合并压缩率,并加以限制,让这些剪枝率是逐层递增;计算出标记压缩率...

【专利技术属性】
技术研发人员:纪荣嵘陈锰钊晁飞
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1