【技术实现步骤摘要】
本专利技术属于计算机视觉技术和图像处理,具体地,涉及一种基于文本掩码监督图文特征融合的视觉定位方法。
技术介绍
1、视觉定位(visual grounding,vg)旨在使用自然语言和图像作为输入来输出图像中自然语言描述的对象,通常结合了目标检测技术和自然语言处理技术。早期视觉定位的研究主要有两阶段方法和单阶段方法,它们的主要区别在于是否生成了区域提议网络,而其它部分的处理方式基本相同。利用卷积神经网络(cnn)提取图像特征,长短期记忆神经网络(lstm)提取文本特征,然后致力于设计更好的特征融合模块进行特征对齐,最后回归定位框的长宽和中心点坐标以及对应的置信度,利用置信度选择最合适的定位框。近年来,随着transformer及其一系列变体模型的出现,受其强大编码能力和以令牌序列作为输入的输入形式对多种模态数据的兼容性的启发,出现了基于transformer的视觉定位新方法。
2、transformer最早是在自然语言处理(natural language processing,nlp)领域提出,专门用来解决自然语言翻译问题
...【技术保护点】
1.基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,步骤3中,按照设定好的掩码规则对输入文本进行两次掩码操作的过程如下:利用NLTK库提取输入文本的词汇属性,依据输入文本中各个词汇的属性对其进行两次连续的掩码,每次掩码仅在前一次掩码的基础上掩蔽一个单词。
3.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,步骤3中文本编码器使用BERT提取文本特征的过程如下:
4.根据权利要求1所述的基于文本掩码监督图
...【技术特征摘要】
1.基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,步骤3中,按照设定好的掩码规则对输入文本进行两次掩码操作的过程如下:利用nltk库提取输入文本的词汇属性,依据输入文本中各个词汇的属性对其进行两次连续的掩码,每次掩码仅在前一次掩码的基础上掩蔽一个单词。
3.根据权利要求1所述的基于文本掩码监督图文特征融合的视觉定位方法,其特征在于,步骤3中文本编码器使用bert提取文本特征的过程如下:
4.根据权利要求1所述的基于文本掩码监督图文特征...
【专利技术属性】
技术研发人员:才华,冉越,付强,韩雨桐,叶柏群,李军龑,
申请(专利权)人:长春理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。