视觉识别模型训练、视觉识别方法、系统、终端及介质技术方案

技术编号：40629411 阅读：22 留言：0更新日期：2024-03-13 21:15

本发明专利技术公开了一种视觉识别模型训练、视觉识别方法、系统、终端及介质，通过使用可训练的视觉提示词来微调预训练的视觉Transformer模型，使用随机锐度感知最小化方法更新视觉识别模型的模型参数，平衡地提升视觉识别模型在头类和尾类上的泛化能力。将提示词信息与视觉Transformer模型输出的类编码信息进行融合，充分利用提示词信息来提升模型的分类性能。训练好的视觉识别模型对长尾分布数据的识别精度较高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其涉及的是一种视觉识别模型训练、视觉识别方法、系统、终端及介质。

技术介绍

1、现实世界的数据大多服从长尾分布，即少量的常见类别（头类）囊括了数据集的大部分样本，而大量的稀有类别（尾类）只拥有极少的数据。这种数据分布不平衡的问题使得视觉识别模型倾向于优先正确分类头类而在尾类上的表现极差，故而严重限制了视觉识别模型的性能。

2、针对长尾分布的数据，目前主要采用类别重采样、重加权等重平衡方法以及调整分类的决策边界使尾类得到更大的决策边界等方法训练视觉识别模型，提升长尾视觉识别任务上的性能。然而，这些方法在提升视觉识别模型对尾类的分类性能时会牺牲头类的分类精度，导致视觉识别模型对长尾分布数据的识别精度不高。

技术实现思路

1、本专利技术的主要目的在于提供一种视觉识别模型训练方法及训练系统、长尾视觉识别方法、智能终端及存储介质，能够解决目前视觉识别模型对长尾分布数据的识别精度不高的问题。

2、为了实现上述目的，本专利技术第一方面提供一种视觉识别模...

【技术保护点】

1.视觉识别模型训练方法，所述视觉识别模型中设有预训练的视觉Transformer模型、可训练的视觉提示词和线性分类器，所述视觉提示词被配置为采用视觉提示词微调方法插入在所述视觉Transformer模型中，其特征在于，所述训练方法包括：

2.如权利要求1所述的视觉识别模型训练方法，其特征在于，所述生成随机扰动向量，包括：

3.如权利要求1所述的视觉识别模型训练方法，其特征在于，所述将所述扰动后模型中的视觉Transformer模型的视觉提示词与所述类编码信息进行融合，获得融合信息，包括：

4.如权利要求1所述的视觉识别模型训练方法，其特征在于，所述基...

【技术特征摘要】

1.视觉识别模型训练方法，所述视觉识别模型中设有预训练的视觉transformer模型、可训练的视觉提示词和线性分类器，所述视觉提示词被配置为采用视觉提示词微调方法插入在所述视觉transformer模型中，其特征在于，所述训练方法包括：

2.如权利要求1所述的视觉识别模型训练方法，其特征在于，所述生成随机扰动向量，包括：

3.如权利要求1所述的视觉识别模型训练方法，其特征在于，所述将所述扰动后模型中的视觉transformer模型的视觉提示词与所述类编码信息进行融合，获得融合信息，包括：

4.如权利要求1所述的视觉识别模型训练方法，其特征在于，所述基于所述随机扰动向量和所述视觉识别模型，获得扰动后模型，包括：

5.长尾视觉识别方法，其特征在于，包括：

6.视觉识别模型训练系统，所述视觉识别模型中设有预训练的视觉transformer模型、可训练的视觉提示词和线性分类器，所述视觉提示词被配置为采用视觉提示词微调方法插入在所述视觉transforme...

【专利技术属性】
技术研发人员：黄惠，李梦柯，刘烨，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人