基于分级跨模态上下文注意机制的视觉定位方法及装置制造方法及图纸

技术编号：37640313 阅读：23 留言：0更新日期：2023-05-25 10:07

本发明专利技术公开了一种基于分级跨模态上下文注意机制的视觉定位方法及装置，该方法包括：对于给定的图像数据和文本描述语句输入到训练好的分级跨模态上下文注意视觉定位模型，输出视觉定位结果，该视觉定位模型的跨模态上下文注意机制模块用于对图像嵌入数据和分层文本嵌入数据进行交叉交互融合，分别获取经过图像嵌入数据引导的文本上下文信息和经过分层文本嵌入数据引导的图像上下文信息；该视觉定位模型的多模态特征融合模块用于将图像上下文信息和文本上下文信息进行联合推理获取多模态信息，本发明专利技术实现通过自我注意机制捕获模态内和模态间的关系，而且能够捕获公共空间中文本信息的分层语义，有效提高了视觉定位任务的定位精度。的定位精度。的定位精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于分级跨模态上下文注意机制的视觉定位方法及装置

[0001]本专利技术涉及跨模态视觉定位技术，具体涉及一种基于分级跨模态上下文注意机制的视觉定位方法及装置。

技术介绍

[0002]视觉定位(VG)是一项多模态任务，旨在基于文本查询找到最相关的图像区域。视觉定位广泛应用于许多现实世界的应用，包括跨模态检索、公共安全管理和人机交互。现有的视觉定位算法大致可分为两类：两阶段方法和一阶段方法。两个阶段的方法首先从图像生成一组候选对象建议，通过利用预先训练的视觉检测器，然后将结果与给定的语言描述匹配，并选择最相关的一个。这些方法耗时，并且受到预先训练的视觉检测器性能的高度限制。单阶段方法专注于在统一的端到端训练框架中基于文本查询直接定位最相关的图像区域，而无需生成任何对象建议，受Transformer在各种计算机视觉任务中的成功启发，一些研究人员试图将Transformer应用到视觉定位任务中，利用Transformer来建模图像和文本嵌入的上下文，基于Transformer的方法也属于一阶段方法，尽管这些方法已经取得了显著的改进，...

【技术保护点】

【技术特征摘要】
1.一种基于分级跨模态上下文注意机制的视觉定位方法，其特征在于，包括：对于给定的图像数据和文本描述语句输入到训练好的分级跨模态上下文注意视觉定位模型，输出与文本描述语句对应的视觉定位结果，所述分级跨模态上下文注意视觉定位模型包括：数据预处理模块、跨模态上下文注意机制模块、多模态特征融合模块、视觉定位预测模块，所述数据预处理模块，用于分别提取图像和文本的单模态语义特征，获取图像嵌入数据和分层文本嵌入数据；所述跨模态上下文注意机制模块，用于对图像嵌入数据和分层文本嵌入数据进行交叉交互融合，分别获取经过图像嵌入数据引导的文本上下文信息和经过分层文本嵌入数据引导的图像上下文信息；所述多模态特征融合模块，用于将图像上下文信息和文本上下文信息进行联合推理获取多模态信息；所述视觉定位预测模块，用于回归预测视觉定位任务的最终结果。2.根据权利要求1所述的基于分级跨模态上下文注意机制的视觉定位方法，其特征在于，所述数据预处理模块，包括图像编码模块和文本编码模块，所述图像编码模块基于ResNet50作为骨干网络实现，并且对ResNet50骨干网络输出的二维图像特征通过展平操作转化为一维特征序列；所述文本编码模块，采用预训练的BERT模型获取给定文本描述语句的分层文本嵌入数据，其中，BERT模型基于12层transformer layer中的a个编码器层的输出获取a个层次的分层文本嵌入数据，2≤a≤12。3.根据权利要求2所述的基于分级跨模态上下文注意机制的视觉定位方法，其特征在于，所述文本编码模块基于BERT模型的第四、第八和第十二编码器层的输出获取3个层次的分层文本嵌入数据。4.根据权利要求2或3任一所述的基于分级跨模态上下文注意机制的视觉定位方法，其特征在于，所述跨模态上下文注意机制模块，包括：视觉引导文本上下文注意模块和文本引导视觉上下文注意模块，所述视觉引导文本上下文注意模块，基于图像嵌入数据提取图像引导信息，并将所述图像引导信息引入到文本嵌入数据的文本上下文分析过程，获取文本上下文信息；所述文本引导视觉上下文注意模块，对每个层次的分层文本嵌入数据执行一次如下过程：基于文本嵌入数据提取文本引导信息，并将所述文本引导信息引入到图像嵌入数据的图像上下文信息分析过程，获取a个图像上下文信息。5.根据权利要求4所述的基于分级跨模态上下文注意机制的视觉定位方法，其特征在于，所述视觉引导文本上下文注意模块，包括第一Transformer编码器和第二Transformer编码器，所述第二Transformer编码器用于以图像嵌入数据为输入获取图像引导信息，所述第一Transformer编码器用于以文本嵌入数据和所述图像引导信息为输入获取文本上下文信息；所述文本引导视觉上下文注意模块，包括第三Transformer编码器和第四Transformer编码器，所述第三Transformer编码器用于以文本嵌入数据为输入获取文本引导信息，所述第四Transformer编码器用于以图像嵌入数据和所述文本引导信息为输入获取图像上下文
信息。6.根据权利要求5所述的基于分级跨模态上下文注意机制的视觉定位方法，其特征在于，所述视觉引导文本上下文注意模块中，图像引导信息对第一Transformer编码器获取文本上下文信息的引导作用基于以下方式实现：第一Transformer编码器自注意力层的Query矩阵Q
ti
基于带有位置编码的原始文本嵌入确定，Key、Value矩阵矩阵K
ti
、V
ti
基于第二Transformer编码器输出的图像引导信息H
v
确定；所述文本引导视觉上下文注意模块中，文本引导信息对第四Transformer编码器获取视觉上下文信息的引导作用基于以下方式实现：第四Transformer编码器自注意力层的Query矩阵Q
...

【专利技术属性】
技术研发人员：吕刚，徐昕，年福东，操理民，江绪好，
申请(专利权)人：合肥学院池州学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人