针对常见REC模型的弱监督训练方法技术

技术编号：37492047 阅读：27 留言：0更新日期：2023-05-07 09:30

针对常见REC模型的弱监督训练方法，属于图像处理技术领域。用于根据现有弱监督指向性视觉理解模型，生成对应的伪标签，对现有任意的指向性视觉理解模型进行监督和训练。包括以下步骤：给定RGB图像和对应的文本描述，使用现有的弱监督指向性视觉理解模型，生成对应的伪标签，即图像中和文本描述对应的边界框，然后使用伪标签对任意的指向性视觉理解模型进行监督和训练，为减少伪标签的噪声影响，采用随机调整尺寸的数据增强和指数移动平均(EMA)策略，最终得到一个采用全监督方式进行训练的指向性视觉理解模型，取得更好的预测性能。取得更好的预测性能。取得更好的预测性能。

全部详细技术资料下载

【技术实现步骤摘要】
针对常见REC模型的弱监督训练方法

[0001]本专利技术属于图像处理
，涉及弱监督指向性视觉理解，特别是涉及一种针对常见REC模型的弱监督训练方法。

技术介绍

[0002]参考表达理解(REC)旨在基于参考表达在图像中定位目标实例。作为跨模态识别任务，REC不限于一组固定的对象，理论上能够进行任何开放式检测。这些吸引人的特性使其越来越受到工业界和学术界的关注。然而，昂贵的实例级别标注长期限制着它的发展。
[0003]对于弱监督参考表达理解任务，在目前的文献中，所有的方法都是模型特定的，而且由于缺乏实例级别的标注，这些方法往往采用相对简单的多模态交互策略。而在全监督实验设置下，模型往往具有更为复杂的跨模态处理模块和更强的边界框回归能力。但是由于监督方式的差异，这些经验却很难应用到弱监督模型中。

技术实现思路

[0004]本专利技术的目的在于针对现有技术存在的上述问题，提供能够将弱监督模型泛化到任意现有指向性视觉理解模型中，利用其更为先进复杂的多模态交互模块和边界框回归能力进一步提高预测准确率的一种针对常见REC模型的弱监督训练方法。
[0005]为了达成上述目的，本专利技术的解决方案是：
[0006]一种针对常见REC模型的弱监督训练方法，用于根据现有弱监督指向性视觉理解模型，生成对应的伪标签，对现有任意的指向性视觉理解模型进行监督和训练；包括如下步骤：
[0007]步骤1，按照弱监督指向性视觉理解模型的输入要求准备对应的RGB图像和文本描述；
[0008...

【技术保护点】

【技术特征摘要】
1.针对常见REC模型的弱监督训练方法，其特征在于包括如下步骤：步骤1，按照弱监督指向性视觉理解模型的输入要求准备对应的RGB图像和文本描述；步骤2，根据弱监督指向性视觉理解模型的输出得到对应的预测目标边界框，即伪标签；步骤3，将步骤1中的RGB图像和文本描述输入现有任意指向性视觉理解模型中，采用随机调整尺寸数据增强方法，在训练过程中采用指数移动平均策略进行参数更新，使用伪标签监督模型训练；步骤4，得到训练好的任意指向性视觉理解模型，基于此模型进行图像描述的预测。2.如权利要求1所述针对常见...

【专利技术属性】
技术研发人员：纪荣嵘，孙晓帅，周奕毅，金磊，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人