基于文本掩码监督图文特征融合的视觉定位方法技术

技术编号:43509700 阅读:32 留言:0更新日期:2024-11-29 17:11
基于文本掩码监督图文特征融合的视觉定位方法,属于计算机视觉技术和图像处理技术领域,本发明专利技术使用ViT和BERT作为视觉编码器和文本编码器。首先,对输入文本进行两次掩码处理得到两个掩码的文本,掩码得到的扩充文本能够协同全文本一起利用视觉语言对齐模块生成更精细的掩码监督热图。其次,设计文本增强模块,使用带有短语注意力的Bi‑GRU对文本中不同单词进行加权和抑制,使模型更关注与定位目标相关的文本信息,同时降低与定位目标不相关的背景信息的影响。最后,跨模态解码器接收增强的文本特征和掩码监督热图一起在原始图像上做迭代回归预测,有效解决现有视觉定位方法由于无法准确捕捉目标对象细节特征而出现定位歧义的问题。

【技术实现步骤摘要】

本专利技术属于计算机视觉技术和图像处理,具体地,涉及一种基于文本掩码监督图文特征融合的视觉定位方法


技术介绍

1、视觉定位(visual grounding,vg)旨在使用自然语言和图像作为输入来输出图像中自然语言描述的对象,通常结合了目标检测技术和自然语言处理技术。早期视觉定位的研究主要有两阶段方法和单阶段方法,它们的主要区别在于是否生成了区域提议网络,而其它部分的处理方式基本相同。利用卷积神经网络(cnn)提取图像特征,长短期记忆神经网络(lstm)提取文本特征,然后致力于设计更好的特征融合模块进行特征对齐,最后回归定位框的长宽和中心点坐标以及对应的置信度,利用置信度选择最合适的定位框。近年来,随着transformer及其一系列变体模型的出现,受其强大编码能力和以令牌序列作为输入的输入形式对多种模态数据的兼容性的启发,出现了基于transformer的视觉定位新方法。

2、transformer最早是在自然语言处理(natural language processing,nlp)领域提出,专门用来解决自然语言翻译问题的模型。借助其内部注本文档来自技高网...

【技术保护点】

1.基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,步骤3中,按照设定好的掩码规则对输入文本进行两次掩码操作的过程如下:利用NLTK库提取输入文本的词汇属性,依据输入文本中各个词汇的属性对其进行两次连续的掩码,每次掩码仅在前一次掩码的基础上掩蔽一个单词。

3.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,步骤3中文本编码器使用BERT提取文本特征的过程如下:

4.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位...

【技术特征摘要】

1.基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,步骤3中,按照设定好的掩码规则对输入文本进行两次掩码操作的过程如下:利用nltk库提取输入文本的词汇属性,依据输入文本中各个词汇的属性对其进行两次连续的掩码,每次掩码仅在前一次掩码的基础上掩蔽一个单词。

3.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,步骤3中文本编码器使用bert提取文本特征的过程如下:

4.根据权利要求1所述的基于文本掩码监督图文特征...

【专利技术属性】
技术研发人员:才华冉越付强韩雨桐叶柏群李军龑
申请(专利权)人:长春理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1