当前位置: 首页 > 专利查询>厦门大学专利>正文

针对常见REC模型的弱监督训练方法技术

技术编号:37492047 阅读:27 留言:0更新日期:2023-05-07 09:30
针对常见REC模型的弱监督训练方法,属于图像处理技术领域。用于根据现有弱监督指向性视觉理解模型,生成对应的伪标签,对现有任意的指向性视觉理解模型进行监督和训练。包括以下步骤:给定RGB图像和对应的文本描述,使用现有的弱监督指向性视觉理解模型,生成对应的伪标签,即图像中和文本描述对应的边界框,然后使用伪标签对任意的指向性视觉理解模型进行监督和训练,为减少伪标签的噪声影响,采用随机调整尺寸的数据增强和指数移动平均(EMA)策略,最终得到一个采用全监督方式进行训练的指向性视觉理解模型,取得更好的预测性能。取得更好的预测性能。取得更好的预测性能。

【技术实现步骤摘要】
针对常见REC模型的弱监督训练方法


[0001]本专利技术属于图像处理
,涉及弱监督指向性视觉理解,特别是涉及一种针对常见REC模型的弱监督训练方法。

技术介绍

[0002]参考表达理解(REC)旨在基于参考表达在图像中定位目标实例。作为跨模态识别任务,REC不限于一组固定的对象,理论上能够进行任何开放式检测。这些吸引人的特性使其越来越受到工业界和学术界的关注。然而,昂贵的实例级别标注长期限制着它的发展。
[0003]对于弱监督参考表达理解任务,在目前的文献中,所有的方法都是模型特定的,而且由于缺乏实例级别的标注,这些方法往往采用相对简单的多模态交互策略。而在全监督实验设置下,模型往往具有更为复杂的跨模态处理模块和更强的边界框回归能力。但是由于监督方式的差异,这些经验却很难应用到弱监督模型中。

技术实现思路

[0004]本专利技术的目的在于针对现有技术存在的上述问题,提供能够将弱监督模型泛化到任意现有指向性视觉理解模型中,利用其更为先进复杂的多模态交互模块和边界框回归能力进一步提高预测准确率的一种针对常见REC模型的弱监督训练方法。
[0005]为了达成上述目的,本专利技术的解决方案是:
[0006]一种针对常见REC模型的弱监督训练方法,用于根据现有弱监督指向性视觉理解模型,生成对应的伪标签,对现有任意的指向性视觉理解模型进行监督和训练;包括如下步骤:
[0007]步骤1,按照弱监督指向性视觉理解模型的输入要求准备对应的RGB图像和文本描述;
[0008]步骤2,根据弱监督指向性视觉理解模型的输出得到对应的预测目标边界框,即伪标签;
[0009]步骤3,将上述步骤中的图像和文本描述输入到现有任意指向性视觉理解模型中,采用随机调整尺寸数据增强方法,在训练过程中采用指数移动平均(EMA)策略进行参数更新,并使用伪标签监督模型训练;
[0010]步骤4,得到训练好的任意指向性视觉理解模型,基于此模型进行图像描述的预测。
[0011]步骤3中,在任意指向性视觉理解模型的训练过程中,针对输入的图像采用随机调整尺寸数据增强方法,并在训练过程中采用指数移动平均(EMA)策略进行参数更新;公式如下:
[0012][0013]其中,α是EMA速率,t是训练步数。
[0014]上述训练过程中,使用的EMA速率为0.9997。
[0015]采用上述方案后,本专利技术能够将弱监督模型泛化到任意现有指向性视觉理解模型中,利用其更为先进复杂的多模态交互模块和边界框回归能力进一步提高预测准确率。本专利技术的创新点主要体现在:
[0016](1)本专利技术提出一种针对常见REC模型的弱监督训练方法,即通过伪标签的方式训练任意REC模型;
[0017](2)本专利技术采用数据增强和指数移动平均策略有效地缓解伪标签噪声带来的确认偏差问题,采用数据增强和指数移动平均后,伪标签的质量得到提升,从而提高模型的检测性能。
附图说明
[0018]图1是本专利技术训练方法流程示意图。
具体实施方式
[0019]以下将结合附图,对本专利技术的技术方案及有益效果进行详细说明。
[0020]如图1,本专利技术提供一种针对常见REC模型的弱监督训练方法,包括如下过程:
[0021]一、伪标签生成过程:
[0022]1.按照弱监督指向性视觉理解模型的输入要求准备对应的RGB图像和文本描述;
[0023]2.根据弱监督指向性视觉理解模型的输出得到对应的预测目标边界框,即伪标签;
[0024]二、模型训练过程:
[0025]1.将上述步骤中的图像和文本描述输入到现有任意指向性视觉理解模型
[1

3]中,并采用随机调整尺寸数据增强方法,在训练过程中采用指数移动平均(EMA)策略进行参数更新,并使用伪标签监督模型训练;
[0026]2.最终得到训练好的任意指向性视觉理解模型,基于此模型进行图像描述的预测。上述步骤3中,在任意指向性视觉理解模型的训练过程中,针对输入的图像采用随机调整尺寸数据增强
[4]方法,并在训练过程中采用指数移动平均(EMA)
[5]策略进行参数更新。公式如下:
[0027][0028]其中,α是EMA速率,t是训练步数。
[0029]三、模型部署过程:
[0030]在经过模型训练后,对于训练好的模型,将图片和描述语言输入,即可得到目标边界框作为预测输出。
[0031]参考文献:
[0032][1]Zhou,Y.;Ji,R.;Luo,G.;Sun,X.;Su,J.;Ding,X.;Lin,C.

W.;and Tian,Q.2021.Areal

time global inference network for one

stage referring expression comprehension.IEEE Transactions on Neural Networks and Learning Systems.
[0033][2]Luo,G.;Zhou,Y.;Sun,J.;Huang,S.;Sun,X.;Ye,Q.;Wu,Y.;and Ji,R.2022.What Goes beyond Multi

modal Fusion in One

stage Referring Expression Comprehension:An Empirical Study.arXiv preprint arXiv:2204.07913.
[0034][3]Deng,J.;Yang,Z.;Chen,T.;Zhou,W.;and Li,H.2021.Transvg:End

to

end visual grounding with transformers.In Proceedings of the IEEE/CVF International Conference on Computer Vision,1769

1779.
[0035][4]Krizhevsky,A.;Sutskever,I.;and Hinton,G.E.2012.Imagenet classification with deep convolutional neural networks.Advances in neural information processing systems,25.
[0036][5]Tarvainen,A.;and Valpola,H.2017.Mean teachers are better role models:Weight

averaged consistency targets improve semi

supervi本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.针对常见REC模型的弱监督训练方法,其特征在于包括如下步骤:步骤1,按照弱监督指向性视觉理解模型的输入要求准备对应的RGB图像和文本描述;步骤2,根据弱监督指向性视觉理解模型的输出得到对应的预测目标边界框,即伪标签;步骤3,将步骤1中的RGB图像和文本描述输入现有任意指向性视觉理解模型中,采用随机调整尺寸数据增强方法,在训练过程中采用指数移动平均策略进行参数更新,使用伪标签监督模型训练;步骤4,得到训练好的任意指向性视觉理解模型,基于此模型进行图像描述的预测。2.如权利要求1所述针对常见...

【专利技术属性】
技术研发人员:纪荣嵘孙晓帅周奕毅金磊
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1