一种基于多模态提示学习的持续图像问答方法及产品技术

技术编号：40228266 阅读：7 留言：0更新日期：2024-02-02 22:31

本申请公开一种基于多模态提示学习的持续图像问答方法及产品，涉及神经网络技术领域，包括：获取输入信息；基于输入信息，获取多个模态的输入表征；基于输入表征，确定与输入表征对应的多个模态的提示向量；基于输入表征与多个模态的提示向量，确定多个模态的解耦提示向量；将多个模态的解耦提示向量以及输入信息输入问答模型，得到输出结果。本申请通过将输入信息的表征按照多模态进行解耦，并基于问答分类损失、模态间交互损失和任务间交互损失进行持续学习优化得到问答模型，使问答模型对多模态的输入表征进行处理以捕捉不同模态之间的复杂关系，从而有效提升问答模型对持续图像问答任务的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及神经网络，具体而言，涉及一种基于多模态提示学习的持续图像问答方法及产品。

技术介绍

1、近来图像问答任务是多模态领域研究的热点之一，旨在根据图像回答给定的问题。在现实世界中，我们通常期望一个理想的视觉问答模型拥有在持续的环境中为新的问题和图像提供正确的答案的能力，该能力所涉及的研究问题通常被称为持续图像问答问题。

2、然而，当前的工作仅从视觉或语言角度来对持续图像问答问题进行形式化和定义，并直接而简单地将单模态持续学习中的方法应用于这个多模态任务。一方面，这类方法可能会导致对方法衡量的局限性；另一方面，直接而简单的方法延伸则忽视了多模态之间的相互作用，从而使得模型对于持续图像问答任务的性能较差。因此，如何提升模型对持续图像问答任务的性能，成为本领域亟待解决的问题。

技术实现思路

1、本申请实施例在于提供一种基于多模态提示学习的持续图像问答方法及产品，旨在解决如何提升模型对持续图像问答任务的性能的问题。

2、本申请实施例第一方面提供一种基于多模态提示学习的持续图像问答方法，所述方法包括：

3、获取输入信息；

4、基于所述输入信息，获取多个模态的输入表征，所述多个模态至少包括视觉模态、文本模态以及融合模态；

5、基于所述输入表征，确定与所述输入表征对应的多个模态的提示向量，所述提示向量至少包括多个专用提示向量、多个专有键和通用提示向量，所述专用提示向量与所述专有键一一对应；

6、基于所述输入表征与所

7、将所述多个模态的解耦提示向量输入问答模型，得到输出结果，所述问答模型为基于模态间交互损失和任务间交互损失进行优化得到的。

8、在一种可选的实施方式中，所述问答模型的训练过程如下：

9、获取训练数据集；

10、在每一次训练任务中，获取所述多个模态的解耦提示向量预测值；

11、基于所述多个模态的解耦提示向量预测值，确定所述模态间交互损失；

12、基于所述模态间交互损失，对初始问答模型中的可训练交互矩阵进行优化，得到每一次训练任务对应的优化交互矩阵；

13、基于所述训练数据集，对所述初始问答模型进行训练，得到所述问答模型。

14、在一种可选的实施方式中，基于所述多个模态的解耦提示向量预测值，确定所述模态间交互损失，包括：

15、基于所述文本模态的解耦提示向量预测值和所述视觉模态的解耦提示向量预测值，计算融合模态的解耦提示向量标签值，所述融合模态的解耦提示向量标签值按照如下公式计算：

16、

17、其中，为所述融合模态的解耦提示向量标签值；为视觉模态的可训练交互矩阵；为所述视觉模态的解耦提示向量预测值；为文本模态的可训练交互矩阵；为所述文本模态的解耦提示向量预测值；为融合模态的可训练交互矩阵；⊙为哈达玛积，为矩阵乘法；

18、计算所述融合模态的解耦提示向量预测值对所述融合模态的解耦提示向量标签值的损失，作为所述模态间交互损失，所述模态间交互损失按照如下公式计算：

19、

20、其中，为所述模态间交互损失；γ为相似度函数；为所述融合模态的解耦提示向量标签值；为所述融合模态的解耦提示向量预测值；k为模型网络层级编号。

21、在一种可选的实施方式中，在得到每一次训练任务对应的优化交互矩阵之后，所述方法还包括：

22、获取前一次训练任务对应的优化交互矩阵；

23、基于所述每一次训练任务对应的优化交互矩阵与所述前一次训练任务对应的优化交互矩阵，确定所述任务间交互损失，

24、基于所述任务间交互损失，对所述初始问答模型的超参数进行优化；

25、所述任务间交互损失按照如下公式计算：

26、

27、其中，为所述任务间交互损失；为训练任务t对应的目标模态m的优化交互矩阵；<w(m)>t-1为训练任务t-1对应的所述目标模态m的优化交互矩阵；k为模型网络层级编号；‖·‖f为弗罗贝尼乌斯范数。

28、在一种可选的实施方式中，所述输入表征至少包括文本表征、视觉表征以及融合表征，基于所述输入表征，确定与所述输入表征对应的多个模态的提示向量，包括：

29、基于所述文本表征、所述视觉表征以及所述融合表征，在提示向量语义空间内分别确定文本模态的初始提示向量、视觉模态的初始提示向量以及融合模态的初始提示向量；

30、基于互补设计原则，将每个模态的初始提示向量分割为所述通用提示向量和所述多个专用提示向量；

31、基于所述多个专用提示向量，生成与每个专用提示向量一一对应的所述多个专有键；

32、将每个模态的所述多个专用提示向量、所述多个专有键以及所述通用提示向量组合为每个模态的提示向量。

33、在一种可选的实施方式中，基于所述输入表征与所述多个模态的提示向量，确定多个模态的解耦提示向量，包括：

34、计算所述输入表征与目标模态的多个专有键之间的余弦距离，作为目标模态的匹配信息，所述目标模态为所述多个模态中的任意一个模态；

35、基于所述目标模态的匹配信息，确定所述目标专有键，所述目标专有键为所述匹配信息中与所述输入表征的余弦距离最小的专有键；

36、在目标模态的提示向量中，将与所述目标专有键对应的专用提示向量作为所述目标专用提示向量；

37、将所述目标专用提示向量、所述目标专有键以及所述通用提示向量组合为所述目标模态的解耦提示向量。

38、在一种可选的实施方式中，所述输入信息包括文本信息和视觉信息，所述问答模型包括文本编码器、视觉编码器、融合编码器和分类器，将所述多个模态的解耦提示向量以及所述输入信息输入问答模型，得到输出结果，包括：

39、将所述文本信息与所述文本模态的解耦提示向量输入所述文本编码器，生成文本输出表征；

40、将所述视觉信息与所述视觉模态的解耦提示向量输入所述视觉编码器，生成视觉输出表征；

41、将所述文本输出表征与所述视觉输出表征组合为融合输出表征；

42、将所述融合输出表征以及所述融合模态的解耦提示向量输入所述融合编码器，生成输出表征；

43、将所述输出表征输入所述分类器，得到所述输出结果。

44、本申请实施例第二方面提供一种基于多模态提示学习的持续图像问答装置，所述装置包括：

45、信息获取模块，用于获取输入信息；

46、多模态表征模块，用于基于所述输入信息，获取多个模态的输入表征，所述多个模态至少包括视觉模态、文本模态以及融合模态；

47、提示向量模块，用于基于所述输入表征，确定与所述输入表征对应的多个模态的提示向量，所述提示向量至少本文档来自技高网...

【技术保护点】

1.一种基于多模态提示学习的持续图像问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态提示学习的持续图像问答方法，其特征在于，所述问答模型的训练过程如下：

3.根据权利要求2所述的基于多模态提示学习的持续图像问答方法，其特征在于，基于所述多个模态的解耦提示向量预测值，确定所述模态间交互损失，包括：

4.根据权利要求2所述的基于多模态提示学习的持续图像问答方法，其特征在于，在得到每一次训练任务对应的优化交互矩阵之后，所述方法还包括：

5.根据权利要求1所述的基于多模态提示学习的持续图像问答方法，其特征在于，所述输入表征至少包括文本表征、视觉表征以及融合表征，基于所述输入表征，确定与所述输入表征对应的多个模态的提示向量，包括：

6.根据权利要求1所述的基于多模态提示学习的持续图像问答方法，其特征在于，基于所述输入表征与所述多个模态的提示向量，确定多个模态的解耦提示向量，包括：

7.根据权利要求1所述的基于多模态提示学习的持续图像问答方法，其特征在于，所述输入信息包括文本信息和视觉信息，所述问

8.一种基于多模态提示学习的持续图像问答装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现权利要求1-7中任一所述的基于多模态提示学习的持续图像问答方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-7中任一所述的基于多模态提示学习的持续图像问答方法中的步骤。

...

【技术特征摘要】

1.一种基于多模态提示学习的持续图像问答方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态提示学习的持续图像问答方法，其特征在于，所述问答模型的训练过程如下：

4.根据权利要求2所述的基于多模态提示学习的持续图像问答方法，其特征在于，在得到每一次训练任务对应的优化交互矩阵之后，所述方法还包括：

6.根据权利要求1所述的基于多模态提示学习的持续图像问答方法，其特征在于，基于所述输入表...

【专利技术属性】
技术研发人员：王鑫，朱文武，钱姿，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人