视觉自注意力模型的训练方法技术

技术编号：41255465 阅读：3 留言：0更新日期：2024-05-11 09:15

本发明专利技术公开了一种视觉自注意力模型的训练方法，通过在视觉自注意力模型的主干网络中添加通道注意力机制；训练视觉自注意力模型，包括：获取多个训练样本；将当前训练样本中的输入样本输入至视觉自注意力模型中，确定多个特征向量；为多个特征向量拼接分类头向量以及可学习位置向量，得到待输入特征向量；将待输入特征向量输入至视觉编码器，得到待融合特征信息；基于多层感知机对待融合特征信息进行处理，得到预测结果；基于当前训练样本重复执行确定预测结果的次数达到预设次数阈值，将下一训练样本作为当前训练样本，直至视觉自注意力模型的准确率达到预设准确率阈值，提升了视觉自注意力模型对训练样本的学习能力，抑制模型的过拟合现象。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其涉及一种视觉自注意力模型的训练方法。

技术介绍

1、随着自注意力模型在计算机视觉领域的应用，视觉自注意力模型证明了纯注意力网络比卷积神经网络在大数据集上能取得更好的效果。

2、但是，在现有的视觉自注意力模型只使用了空间注意力，而同一个特征的不同通道之间没有进行数据上的交互，这就造成了视觉自注意力模型更多的是关注输入图像中的物体“在哪里”而不是“是什么”这个问题。另外，由于vision transformer等视觉自注意力模型具有强大的联系上下文能力，其在小数据集的训练集上训练时，能达到很好的效果，但是在验证集和测试集上的效果往往与训练集差距很大，出现严重的过拟合现象。基于此，本专利技术提出了添加通道注意力机制的视觉自注意力模型训练方法的技术方案。

技术实现思路

1、本专利技术提供了一种视觉自注意力模型的训练方法，提升了视觉自注意力模型对训练样本的学习能力，可以抑制视觉自注意力模型的过拟合现象。

2、根据本专利技术的一方面，提供了一种视觉自注意力模型的训练方法，该方法包括：

3、在视觉自注意力模型的主干网络中添加通道注意力机制；

4、训练视觉自注意力模型，包括：

5、获取多个训练样本，其中，训练样本中包括输入样本以及与输入样本相对应的实际分类结果；

6、对于各训练样本，将当前训练样本中的输入样本输入至视觉自注意力模型中，确定与输入样本相对应的多个特征向量；

7、为多个特征

8、将待输入特征向量输入至视觉编码器进行信息交互处理，得到待融合特征信息；

9、基于多层感知机对待融合特征信息进行处理，得到预测结果；

10、基于当前训练样本重复执行确定预测结果的次数达到预设次数阈值，将下一训练样本作为当前训练样本，直至视觉自注意力模型的准确率达到预设准确率阈值。

11、根据本专利技术的另一方面，提供了一种视觉自注意力模型的训练装置，该装置包括：

12、训练样本获取模块，用于获取多个训练样本，其中，训练样本中包括输入样本以及与输入样本相对应的实际分类结果；

13、特征向量确定模块，用于对于各训练样本，将当前训练样本中的输入样本输入至视觉自注意力模型中，确定与输入样本相对应的多个特征向量；其中，在视觉自注意力模型的主干网络中添加通道注意力机制。

14、特征向量拼接模块，用于为多个特征向量拼接分类头向量以及多个特征向量所对应的可学习位置向量，得到待输入特征向量；

15、信息交互处理模块，用于将待输入特征向量输入至视觉编码器进行信息交互处理，得到待融合特征信息；

16、预测结果获取模块，用于基于多层感知机对待融合特征信息进行处理，得到预测结果；

17、模型迭代训练模块，用于基于当前训练样本重复执行确定预测结果的次数达到预设次数阈值，将下一训练样本作为当前训练样本，直至视觉自注意力模型的准确率达到预设准确率阈值。

18、根据本专利技术的另一方面，提供了一种电子设备，该电子设备包括：

19、至少一个处理器；以及

20、与至少一个处理器通信连接的存储器；其中，

21、存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器能够执行本专利技术任一实施例的视觉自注意力模型的训练方法。

22、根据本专利技术的另一方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，计算机指令用于使处理器执行时实现本专利技术任一实施例的视觉自注意力模型的训练方法。

23、本专利技术实施例的技术方案，通过在视觉自注意力模型的主干网络中添加通道注意力机制；并训练视觉自注意力模型，包括：获取多个训练样本，其中，训练样本中包括输入样本以及与输入样本相对应的实际分类结果；对于各训练样本，将当前训练样本中的输入样本输入至视觉自注意力模型中，确定与输入样本相对应的多个特征向量；为多个特征向量拼接分类头向量以及多个特征向量所对应的可学习位置向量，得到待输入特征向量；将待输入特征向量输入至视觉编码器进行信息交互处理，得到待融合特征信息；基于多层感知机对待融合特征信息进行处理，得到预测结果；基于当前训练样本重复执行确定预测结果的次数达到预设次数阈值，将下一训练样本作为当前训练样本，直至视觉自注意力模型的准确率达到预设准确率阈值，加大了对通道之间的信息交互，提升了视觉自注意力模型对训练样本的学习能力，从而可以抑制视觉自注意力模型的过拟合现象。

24、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种视觉自注意力模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将当前训练样本中的输入样本输入至所述视觉自注意力模型中，确定与所述输入样本相对应的多个特征向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述为所述多个特征向量拼接分类头向量以及所述多个特征向量所对应的可学习位置向量，得到待输入特征向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述待输入特征向量输入至视觉编码器进行信息交互处理，得到待融合特征信息，包括：

5.根据权利要求1所述的方法，其特征在于，在得到预测结果之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，还包括：

9.根据权利要求1或8所述的方法，其特征在于，所述训练样本中的输入样本为待分类的样本图像，所述待分类数据为待分类样本图像。

10.根据权利要求6所述的

...

【技术特征摘要】

1.一种视觉自注意力模型的训练方法，其特征在于，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述待输入特征向量输入至视觉编码器进行信息交互处理，得到待融合特征信息，包括：

【专利技术属性】
技术研发人员：刘欣刚，宫昊宇，吴少智，苏涵，冯承霖，张立澄，彭伟航，
申请(专利权)人：电子科技大学长三角研究院衢州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人