一种基于令牌封装与增强的视觉Transformer轻量化方法及系统技术方案

技术编号：40489396 阅读：8 留言：0更新日期：2024-02-26 19:20

本发明专利技术提出一种基于令牌封装与增强的视觉Transformer轻量化方法，包括：以视觉Transformer网络构建视觉模型；划分目标图像为多个图像块，将该图像块编码为图像令牌，对该图像令牌依重要性分类为高重要性令牌和低重要性令牌，将该低重要性令牌的信息封装至该代理令牌；以预设的注意力增强矩阵对该高重要性令牌、该分类令牌和封装后的代理令牌进行增强，生成该视觉模型的模型输入；以该视觉模型对该模型输入进行处理操作。本发明专利技术还提出一种基于令牌封装与增强的视觉Transformer轻量化系统，以及一种用于实现基于令牌封装与增强的视觉Transformer轻量化方法的数据处理装置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于视觉transformer轻量化领域，具体涉及一种基于令牌封装与增强的视觉transformer轻量化方法及系统。

技术介绍

1、视觉transformer轻量化研究具有深远的背景意义。自从transformer首次引入计算机视觉领域以来，它在多个视觉领域(如图像识别、目标检测和语义分割)中表现出卓越性能。基于多头注意力的思想，研究人员致力于探索transformer轻量化方法，以降低计算复杂性、提高模型部署效率、减少能源消耗、拓展应用领域、提高可用性。这使得强大的计算机视觉技术更实用，满足各领域对视觉智能的需求。

2、在视觉transformer轻量化研究领域，主要涉及到模型结构优化和模型推理加速两个方面。在模型结构优化方面，通常采用将全局注意力替换为局部注意力或研究高效的注意力机制来减少计算成本。而在模型推理加速方面，由于令牌数量与模型推理时间二次相关，而不同的图像块对最终结果的贡献不同，因此一些研究通过令牌裁剪或令牌合并的方式来减少令牌数量，例如一些方法使用令牌合并方法，但通常需要额外的复杂计算；另一些方法则使用令牌裁剪来鉴别和删除重要性较低的令牌，尽管这些方法会导致信息损失。

技术实现思路

1、针对上述问题，本专利技术基于令牌封装与增强的增强机制，提出一种视觉transformer轻量化方法，包括：以视觉transformer网络构建视觉模型；划分目标图像为多个图像块，将该图像块编码为图像令牌，对该图像令牌依重要性分类为高重要性令牌和低重要性令牌，

2、本专利技术所述的视觉transformer轻量化方法，将目标图像p划分为多个图像块，将该图像块编码为图像令牌ximg＝{x1，x2，...，xn}，分类令牌xcls＝{xcls}，代理令牌xcap＝{xc1，xc2，...，xck}，ximg的令牌个数nimg＝n，xcls的令牌个数ncls＝1，xcap的令牌个数ncap＝k；通过注意力计算获取ximg的重要性得分，根据该重要性得分对ximg进行重要性的递减排序，以前nsup个图像令牌为高重要性令牌xsup，以后ninf个图像令牌为低重要性令牌xinf；nsup＝nimg*(1-α)，ninf＝nimg*α，α为裁剪比例；获取xinf的键kinf和值vinf，得到代理令牌xcap的查询qcap，使用注意力机制将xinf的信息封装至xcap：

3、soffmax()为归一化函数。

4、本专利技术所述的视觉transformer轻量化方法，对ximg进行封装的过程中，获取代理令牌信息含量代表tcap和低重要性令牌信息含量代表tinf，使用kullback-leibler散度监督tcap和tinf的一致性，并在对该视觉模型的模型训练中优化该一致性差异最小，lsd＝kl(tcap，tinf)；其中，

5、qcls表示xcls的查询，kcap为xcap的键，vcap为xcap的值，kinf为xinf的键，vinf为xinf的值。

6、本专利技术所述的视觉transformer轻量化方法，对ximg进行多层封装，并在最后一层封装时，裁剪所有xinf。

7、本专利技术所述的视觉transformer轻量化方法，对ximg封装及裁剪后，获得令牌序列将x中的图像令牌按重要性进行递减排序，形成模型输入以预设的注意力增强矩阵m对x′进行特征增强：q′为x′的查询，k′为x′的键，v′为x′的值。

8、本专利技术还提出一种基于令牌封装与增强的视觉transformer轻量化系统，包括：模型构建模块，用于以视觉transformer网络构建视觉模型；令牌封装模块，用于对目标图像的图像令牌进行封装和裁剪；包括将该目标图像划分目标图像为多个图像块，将该图像块编码为该图像令牌，对该图像令牌依重要性分类为高重要性令牌和低重要性令牌，将该低重要性令牌的信息封装至该代理令牌；对该图像令牌进行多层封装，并在最后一层封装时，裁剪所有低重要性令牌；令牌增强模块，用于以预设的注意力增强矩阵对该高重要性令牌、该分类令牌和封装后的代理令牌进行增强，生成该视觉模型的模型输入；模型处理模块，用于以该视觉模型对该模型输入进行处理操作。

9、本专利技术所述的视觉transformer轻量化系统，该令牌封装模块包括：将目标图像p划分为多个图像块，将该图像块编码为图像令牌ximg＝{x1，x2，...，xn}，分类令牌xcls＝{xcls}，代理令牌xcap＝{xc1，xc2，...，xck}，ximg的令牌个数nimg＝n，xcls的令牌个数ncls＝1，xcap的令牌个数ncap＝k；通过注意力计算获取ximg的重要性得分，根据该重要性得分对ximg进行重要性的递减排序，以前nsup个图像令牌为高重要性令牌xsup，以后ninf个图像令牌为低重要性令牌xinf；nsup＝nimg*(1-α)，ninf＝nimg*α，α为裁剪比例；获取xinf的键kinf和值vinf，及xcap的查询qcap，使用注意力机制将xinf的信息封装至xcap：

10、soffmax()为归一化函数；

11、该令牌封装模块还包括封装监督模块，用于实现xcap对xinf信息的无损封装，包括：获取代理令牌信息含量代表tcap和低重要性令牌信息含量代表tinf，使用kullback-leibler散度监督tcap和tinf的一致性，并在对该视觉模型的模型训练中优化该一致性差异最小，lsd＝kl(tcap，tinf)；其中，

12、qcls表示xcls的查询，kcap为xcap的键，vcap为xcap的值，kinf为xinf的键，vinf为xinf的值。

13、本专利技术所述的视觉transformer轻量化系统，该令牌增强模块包括：对ximg封装及裁剪后，获得令牌序列将x中的图像令牌按重要性进行递减排序，形成模型输入以预设的注意力增强矩阵m对x′进行特征增强：q′为x′的查询，k′为x′的键，v′为x′的值。

14、本专利技术还提出一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，当该计算机可执行指令被执行时，实现如前所述的基于令牌封装与增强的视觉transformer轻量化方法。

15、本专利技术还提出一种数据处理装置，包括如前所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，实现基于令牌封装与增强的视觉transformer轻量化方法。

本文档来自技高网...

【技术保护点】

1.一种基于令牌封装与增强的视觉Transformer轻量化方法，其特征在于，包括：

2.如权利要求1所述的视觉Transformer轻量化方法，其特征在于，将目标图像P划分为多个图像块，将该图像块编码为图像令牌XIMG＝{x1，x2，...，xN}，分类令牌XCLS＝{xcls}，代理令牌XCAP＝{xc1，xc2，...，xck}，XIMG的令牌个数NIMG＝N，XCLS的令牌个数NCLS＝1，XCAP的令牌个数NCAP＝k；

3.如权利要求2所述的视觉Transformer轻量化方法，其特征在于，对XIMG进行封装的过程中，获取代理令牌信息含量代表tCAP和低重要性令牌信息含量代表tINF，使用Kullback-Leibler散度监督tCAP和tINF的一致性，并在对该视觉模型的模型训练中优化该一致性差异最小，LSD＝KL(tCAP，tINF)；其中，

4.如权利要求2所述的视觉Transformer轻量化方法，其特征在于，对XIMG进行多层封装，并在最后一层封装时，裁剪所有XINF。

5.如权利要求4所述的视觉Transfo

6.一种基于令牌封装与增强的视觉Transformer轻量化系统，其特征在于，包括：

7.如权利要求6所述的视觉Transformer轻量化系统，其特征在于，该令牌封装模块包括：将目标图像P划分为多个图像块，将该图像块编码为图像令牌XIMG＝{x1，x2，...，xN}，分类令牌XCLS＝{xcls}，代理令牌XCAP＝{xc1，xc2，...，xck}，XIMG的令牌个数NIMG＝N，XCLS的令牌个数NCLs＝1，XCAP的令牌个数NCAP＝k；

8.如权利要求7所述的视觉Transformer轻量化系统，其特征在于，该令牌增强模块包括：对XIMG封装及裁剪后，获得令牌序列将X中的图像令牌按重要性进行递减排序，形成模型输入以预设的注意力增强矩阵M对X′进行特征增强：

9.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，当该计算机可执行指令被执行时，实现如权利要求1～5任一项所述的基于令牌封装与增强的视觉Transformer轻量化方法。

10.一种数据处理装置，包括如权利要求9所述的计算机可读存储介质，当该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令时，实现基于令牌封装与增强的视觉Transformer轻量化方法。

...

【技术特征摘要】

1.一种基于令牌封装与增强的视觉transformer轻量化方法，其特征在于，包括：

2.如权利要求1所述的视觉transformer轻量化方法，其特征在于，将目标图像p划分为多个图像块，将该图像块编码为图像令牌ximg＝{x1，x2，...，xn}，分类令牌xcls＝{xcls}，代理令牌xcap＝{xc1，xc2，...，xck}，ximg的令牌个数nimg＝n，xcls的令牌个数ncls＝1，xcap的令牌个数ncap＝k；

3.如权利要求2所述的视觉transformer轻量化方法，其特征在于，对ximg进行封装的过程中，获取代理令牌信息含量代表tcap和低重要性令牌信息含量代表tinf，使用kullback-leibler散度监督tcap和tinf的一致性，并在对该视觉模型的模型训练中优化该一致性差异最小，lsd＝kl(tcap，tinf)；其中，

4.如权利要求2所述的视觉transformer轻量化方法，其特征在于，对ximg进行多层封装，并在最后一层封装时，裁剪所有xinf。

5.如权利要求4所述的视觉transformer轻量化方法，其特征在于，对ximg封装及裁剪后，获得令牌序列将x中的图像令牌按重要性进行递减排序，形成模型输入以预设的注意力增强矩阵m对x′进行...

【专利技术属性】
技术研发人员：唐胜，房海鹏，曹娟，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人