【技术实现步骤摘要】
针对常见REC模型的弱监督训练方法
[0001]本专利技术属于图像处理
,涉及弱监督指向性视觉理解,特别是涉及一种针对常见REC模型的弱监督训练方法。
技术介绍
[0002]参考表达理解(REC)旨在基于参考表达在图像中定位目标实例。作为跨模态识别任务,REC不限于一组固定的对象,理论上能够进行任何开放式检测。这些吸引人的特性使其越来越受到工业界和学术界的关注。然而,昂贵的实例级别标注长期限制着它的发展。
[0003]对于弱监督参考表达理解任务,在目前的文献中,所有的方法都是模型特定的,而且由于缺乏实例级别的标注,这些方法往往采用相对简单的多模态交互策略。而在全监督实验设置下,模型往往具有更为复杂的跨模态处理模块和更强的边界框回归能力。但是由于监督方式的差异,这些经验却很难应用到弱监督模型中。
技术实现思路
[0004]本专利技术的目的在于针对现有技术存在的上述问题,提供能够将弱监督模型泛化到任意现有指向性视觉理解模型中,利用其更为先进复杂的多模态交互模块和边界框回归能力进一步提高预测准确率的一 ...
【技术保护点】
【技术特征摘要】
1.针对常见REC模型的弱监督训练方法,其特征在于包括如下步骤:步骤1,按照弱监督指向性视觉理解模型的输入要求准备对应的RGB图像和文本描述;步骤2,根据弱监督指向性视觉理解模型的输出得到对应的预测目标边界框,即伪标签;步骤3,将步骤1中的RGB图像和文本描述输入现有任意指向性视觉理解模型中,采用随机调整尺寸数据增强方法,在训练过程中采用指数移动平均策略进行参数更新,使用伪标签监督模型训练;步骤4,得到训练好的任意指向性视觉理解模型,基于此模型进行图像描述的预测。2.如权利要求1所述针对常见...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。