一种基于BERT和YOLO的多模态视觉推理方法技术

技术编号：40925892 阅读：3 留言：0更新日期：2024-04-18 14:49

本发明专利技术公开了一种基于BERT和YOLO的多模态视觉推理方法，具体涉及智能视觉问答技术领域，包括提取文字词嵌入向量、目标框特征向量及目标框特征向量对应的位置坐标；多模态关系融合模块将文字问题的文字词嵌入向量q、图像的N个目标框特征向量及图像的位置坐标b<subgt;i</subgt;作为输入，输出经过多模态融合的特征向量，以获得多模态特征向量；通过多模态关系推理网络对多模态特征向量进行迭代推理，本发明专利技术方法提出了一种多模态关系融合模块，该模块由一个分解双线性融合算子以及成对交互算子组成；该方法的灵活性强，可以应用于多种场景。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智能视觉问答，更具体地说，本专利技术涉及一种基于bert和yolo的多模态视觉推理方法。

技术介绍

1、近年来，深度学习开始解决复杂的视觉推理问题，例如关系检测、对象识别、多模态检索、抽象推理、视觉因果关系等，而最流行的视觉推理任务无疑是视觉问答。视觉问答系统的输入是一张图像以及与该图像相关的自然语言问题，输出则是一个自然语言答案。

2、近年来自然语言处理领域和计算机视觉领域在基于深度学习的方向上迅速发展。在自然语言处理领域，bert预训练模型突破了单向语言模型的限制，利用掩码语言模型进行预训练并使用双向的transformer组件来构建整个模型，从而生成可以融合上下文信息的深层双向语言表示特征。而在计算机视觉的目标检测领域，yolo模型将目标区域预测以及目标类别预测整合于单个神经网络当中，从而实现了准确率较高的快速目标检测和识别。利用这两种预训练好的模型，可以有效地提取问题的文字特征和目标区域图像特征，从而为进一步的特征融合提供输入。

3、当前对视觉场景进行推理的视觉推理模型一般先找到与问题相关的图像区域，然后在该区域进行问题推理。这种方案虽然简单，但是缺陷在于只能限制在一个固定区域进行推理，而无法执行更加复杂的推理任务。

技术实现思路

1、为了克服现有技术的上述缺陷，本专利技术的实施例提供一种基于bert和yolo的多模态视觉推理方法，本专利技术利用问题的文字特征和整个图像上多个区域的特征，通过多模态信息融合技术和多区域信息交互技术，实现对

2、为实现上述目的，本专利技术提供如下技术方案：一种基于bert和yolo的多模态视觉推理方法，包括：

3、提取文字词嵌入向量、目标框特征向量及目标框特征向量对应的位置坐标；

4、多模态关系融合模块将文字问题的文字词嵌入向量q、图像的n个目标框特征向量及图像的位置坐标bi作为输入，输出经过多模态融合的特征向量，以获得多模态特征向量；

5、通过多模态关系推理网络对多模态特征向量进行迭代推理。

6、进一步地，提取文字词嵌入向量、目标框特征向量及目标框特征向量对应的位置坐标的步骤，包括：

7、给定图像v∈i以及对应图像的文字问题q∈q；

8、将图像v输入到训练好的yolo模型，以获得图像中被检测到的所有目标区域的目标框特征向量，以{vi}i∈[1,n]表示，其中，表示图像中检测到的第i个目标区域，以及每个目标区域所对应的位置坐标{bi＝[xi,yi,wi,hi]}i∈[1,n]，式中，[xi,yi]表示目标区域左上角的坐标，hi和wi表示目标区域的高度和宽度；

9、对于文字问题输入，通过bert预训练模型得到每个字的文字词嵌入向量，对每个字的文字词嵌入向量取均值，以获得整个句子的文字词嵌入向量q∈rqv。

10、进一步地，多模态关系融合模块是由双线性融合算子和成对交互算子组成的残差函数；将多模态关系融合模块标记为mmf模块，首先，由一个双线性融合算子融合文字词嵌入向量和目标框特征向量，以获得局部多模态特征向量；然后通过一个成对交互算子，根据各个目标区域的相对空间位置信息和语义上下文信息来更新各个目标区域的多模态特征向量，最后与输入的每个目标框特征向量相加，形成残差连接，得到最终各个目标区域的多模态特征向量。

11、进一步地，双线性融合算子融合的方法，包括：

12、首先将各个目标区域的目标框特征向量扩展到高维空间，以获得高维特征，然后逐元素乘法集成，继而执行池化和归一化，将高维特征压缩为目标区域特征，具体方法如下：

13、设所有映射矩阵为对每个映射矩阵wo进行因子分解，分别得到两组分解矩阵和式中，k表示因子化矩阵的潜在维数，再将u和v改为为则双线性融合算子的公式表示如下：

14、

15、式中，⊙表示hadmard积，函数表示使用大小为k的一维非重叠窗口对执行sumpooling；在元素方向倍增层之后添加dropout层，并且对输出的结果si进行power归一化以及l2正则化，以防止过拟合。

16、进一步地，成对交互算子的方法，包括：

17、各个目标区域特征均结合相对空间位置信息和语义上下文信息，即：将各个目标区域特征构造为一个向量集合，对各个向量集合通过成对关系进行建模，以获得上下文向量；其中，基于各个目标区域特征与相邻区域的关系，以获取相对空间位置信息和语义上下文信息。

18、进一步地，对各个目标区域特征计算上下文向量上下文向量由所有成对的关系向量rij通过聚合函数计算而成，计算上下文向量的公式为：

19、

20、式中，rij是包含i和j两个目标区域的语义上下文信息的关系向量，同时也包含i和j两个目标区域的相对空间位置信息；

21、进一步地，聚合函数中使用最大值算子来减少噪声，对每一个维度过滤掉不相关的交互，使所有目标区域相互作用，其中，关系向量rij计算公式为：

22、

23、其中，rij的每一个维度rij(d)计算公式为

24、式中，θb和θm为可学习参数。

25、进一步地，残差函数的计算方法，包括：

26、基于双线性融合算子和成对交互算子，对文字词嵌入向量和目标框特征向量进行特征融合，并让各个目标区域特征的特征融合进行交互，以学习语义上下文信息和相对空间位置信息，得到新的特征向量集合将各个目标区域的多模态特征向量进行更新，更新公式为：

27、

28、将其简单记为：

29、

30、式中，mmf为多模态关系融合。

31、进一步地，多模态关系推理网络的迭代推理方法，包括：

32、多模态关系推理网络通过利用多模态关系融合模块的融合语义上下文信息和相对空间位置信息的能力，将目标框特征向量迭代地融入到上下文感知的文字词嵌入向量中，模拟简单形式的迭代推理；

33、对于每个步骤t＝1...t-1，其中t为步骤总数，多模态关系推理网络按处理和更新状态向量的公式如下：

34、

35、式中，si表示第i个目标区域的区域特征向量，bi表示第i个目标区域的位置坐标，q表示文字词嵌入向量，被初始化为{vi}i∈[1,n]。

36、进一步地，多模态关系推理网络表征与文本问题的各个目标区域，融合图像的目标框特征向量，通过多模态关系融合模块多次迭代更新完成，以获得各个目标区域融合文字信息和上下文信息的区域特征向量对所有的区域特征向量进行一个全局最大值池化，得到特征向量s，再利用双线性融合算子对特征向量s和文字嵌向量q进行融合，得到用于分类的向量通过一个线性分类器，输出问题的答案

37、本专利技术的技术效果和优点：

38、1.现有的多模态推理方案一般先找到与问题相关的图像区域，然后在该区域进行问题推理；本文档来自技高网...

【技术保护点】

1.一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，包括：

2.根据权利要求1所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，提取文字词嵌入向量、目标框特征向量及目标框特征向量对应的位置坐标的步骤，包括：

3.根据权利要求2所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，多模态关系融合模块是由双线性融合算子和成对交互算子组成的残差函数；将多模态关系融合模块标记为MMF模块，首先，由一个双线性融合算子融合文字词嵌入向量和目标框特征向量，以获得局部多模态特征向量；然后通过一个成对交互算子，根据各个目标区域的相对空间位置信息和语义上下文信息来更新各个目标区域的多模态特征向量，最后与输入的每个目标框特征向量相加，形成残差连接，得到最终各个目标区域的多模态特征向量。

4.根据权利要求3所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，双线性融合算子融合的方法，包括：

5.根据权利要求4所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，成对交互算子的方法，包括：p>

6.根据权利要求5所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，对各个目标区域特征计算上下文向量上下文向量由所有成对的关系向量rij通过聚合函数计算而成，计算上下文向量的公式为：

7.根据权利要求6所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，聚合函数中使用最大值算子来减少噪声，对每一个维度过滤掉不相关的交互，使所有目标区域相互作用，其中，关系向量rij计算公式为：

8.根据权利要求7所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，残差函数的计算方法，包括：

9.根据权利要求8所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，多模态关系推理网络的迭代推理方法，包括：

10.根据权利要求9所述的一种基于BERT和YOLO的多模态视觉推理方法，其特征在于，多模态关系推理网络表征与文本问题的各个目标区域，融合图像的目标框特征向量，通过多模态关系融合模块多次迭代更新完成，以获得各个目标区域融合文字信息和上下文信息的区域特征向量对所有的区域特征向量进行一个全局最大值池化，得到特征向量s，再利用双线性融合算子对特征向量s和文字嵌向量q进行融合，得到用于分类的向量通过一个线性分类器，输出问题的答案

...

【技术特征摘要】

1.一种基于bert和yolo的多模态视觉推理方法，其特征在于，包括：

2.根据权利要求1所述的一种基于bert和yolo的多模态视觉推理方法，其特征在于，提取文字词嵌入向量、目标框特征向量及目标框特征向量对应的位置坐标的步骤，包括：

3.根据权利要求2所述的一种基于bert和yolo的多模态视觉推理方法，其特征在于，多模态关系融合模块是由双线性融合算子和成对交互算子组成的残差函数；将多模态关系融合模块标记为mmf模块，首先，由一个双线性融合算子融合文字词嵌入向量和目标框特征向量，以获得局部多模态特征向量；然后通过一个成对交互算子，根据各个目标区域的相对空间位置信息和语义上下文信息来更新各个目标区域的多模态特征向量，最后与输入的每个目标框特征向量相加，形成残差连接，得到最终各个目标区域的多模态特征向量。

4.根据权利要求3所述的一种基于bert和yolo的多模态视觉推理方法，其特征在于，双线性融合算子融合的方法，包括：

5.根据权利要求4所述的一种基于bert和yolo的多模态视觉推理方法，其特征在于，成对交互算子的方法，包括：

6.根据权利要求5所述的一种基于bert和yolo的多模态...

【专利技术属性】
技术研发人员：赵斌，范顺国，姚凯，曹梦佳，
申请(专利权)人：天翼云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人