基于残差增强适配器与多视角提示学习的图像情感识别方法技术

技术编号：40202581 阅读：8 留言：0更新日期：2024-02-02 22:15

本发明专利技术公开了基于残差增强适配器的多视角提示学习的图像情感识别方法。以往的方法大多集中在非定向提示策略上，忽视了与情绪标签相关的情绪信息。在本文中，我们提出了一种新的方法，基于CLIP基础架构的多视角提示学习，用于图像情感识别。我们的方法不仅包括使用可学习上下文的非定向提示，还利用基于情感标签的情感导向提示。因此，我们的设计促进了视觉‑情感特征之间的强耦合，确保了相互协同作用，并阻止了单独采用非定向表征的学习过程。此外，我们还引入了残差增强适配器，该适配器采用残差风格的特征混合来实现从预训练到图像情感识别的有效迁移学习。大量实验评估表明，我们的方法优于以前的最先进的方法，同时保持较低的计算和内存成本。

全部详细技术资料下载

【技术实现步骤摘要】

一、本专利技术属于多模态情感分析的方法，涉及计算机视觉和自然语言处理的。

技术介绍

0、二、
技术介绍

1、图像情感识别的目的是识别图像的情感极性和情感强度。早期的情绪识别方法主要依赖于固定的视觉模式。其中you等人采用深度学习网络，设计了基于卷积神经网络(convolutional neural networks，cnn)的progressive cnn(pcnn)。类似地，she等开发了弱监督耦合网络，该网络同时考虑了局部上下文和全局语义信息。rao等设计了一个层次化的cnn，融合多层次特征用于情感识别任务。遗憾的是，单纯基于视觉模式的方法可能由于图像信息密度低而无法识别某些情感话语。为此，corchs等采用多模态数据进行图像情感识别，并采用贝叶斯平均策略进行模型集成。yang等人提出了场景-对象关联视觉推理网络，学习场景对象之间的相互关系。最近的研究采用参数高效调谐方法引入额外的调谐参数，并探索预训练的v-l模型的泛化，以更好地理解情感语义空间。然而，这些方法严重依赖于文本提示符的构建或产生视觉模态信息冗余。

2、句子形式的文本提示用于指导视觉语言模型的语言分支提高其对任务的理解。这个过程被称为“提示学习”。提示学习首先应用于自然语言处理，随后应用于视觉语言模型。由于clip模型对下游任务具有良好的泛化能力，最近提出的clip(contrastive language-image pre-training)自适应方法是通过学习端到端训练中的提示模板来适应预训练好的clip。首先，上下文优化(conte

技术实现思路

0、三、
技术实现思路

1、本专利技术的目的是为了解决在基于无导向性的提示学习情感识别方法中，很少考虑图像中包含的情感信息的问题。并且，本专利技术旨在使用最小的参数量来完成对视觉语言预训练模型的高效迁移，以完成图片情感识别任务。

2、本专利技术为解决上述技术问题采取的技术方案是：

3、s1.构建多视角提示学习框架，根据输入图像与情感标签生成文本与视觉分支的提示输入。

4、此框架包含两个不同类型的提示方法：

5、p1.情感导向性提示学习方法，对输入图像以及情感标签进行处理，以得到包含情感偏移的图像特征，进而构建文本输入。

6、p2.无导向性提示学习方法，包含两类：文本分支无导向性提示学习(textualnon-oriented prompt，tnp)以及视觉分支无导向性提示学习(visual non-orientedprompt，vnp)。前者学习文本语义上下文，给文本编码器提供更加丰富的语义空间，适应预训练文本输入形式；后者作用于视觉编码器，学习不同数据集中的分布信息，防止模型出现灾难性遗忘。

7、s2.构建残差增强适配器模块，分别构建视觉提示器和文本提示器，使用残差连接生成混合特征，提升模型迁移能力。

8、s3.结合以上模块构建基于多视角提示学习与残差增强适配器的图像情感识别模型。

9、多视角提示学习框架的情感导向提示与非定向提示设计逐步模拟分支特征关系，以允许丰富的上下文学习，从而更好地建模情感信息，进一步降低预训练模型灾难性遗忘的风险。我们在下面描述详细的操作：

10、对于一幅输入图像其中，h与w是图片的高度与宽度，我们首先对其进行网格嵌入表征，得到基于网格的分块向量。

11、

12、为了增强提示的迁移能力，我们在不同的分支中学习独立的非定向提示信息，以充分微调编码器。在视觉为了增强提示的迁移使用随机初始化的无导向性提示学习图片情感数据集的分布信息：

13、

14、其中，dv为图片编码器的表征维度。

15、将类别嵌入向量cls，图片分块向量e0与视觉无导向性提示vp拼接，我们可得到图片编码器的输入：

16、

17、对于情感导向的提示学习，我们首先将输入图片进行卷积与线性投影处理，得到图片的卷积特征ξ：

18、

19、ξ＝w2(relu(w1β+b1))+b2 (5)

20、其中，de＝m×n，dp是线性投影层的嵌入维度。

21、随后，我们将归一化后的图片特征重新组织形状，与情感标签嵌入做内积操作，得到最终的情感导向提示

22、

23、

24、在文本分支，我们首先使用文本初始化无导向性提示再通过结合情感导向提示δp来学习情感语义信息。定义为文本提示，则有：

25、

26、最后，通过结合情感标签te，我们可以得到最终的文本编码器的输入it：

27、

28、将情感标签te放置在文本提示的不同位置，可以得到不同的输入变体。如公式(9)为情感标签在尾部的情况，其放置在头部和中间的表示如下：

29、

30、

31、此外，我们还可以针对每个情感类设计特定类别的提示，如下：

32、

33、

34、因此，将文本输入it与视觉输入iv输送进文本和图片编码器，可以得到文本特征ft与图片特征fv：

35、

36、

37、其中，分别为图片编码器和文本编码器。

38、在残差增强适配器模块中，除了在双编码器的底部执行多视角提示方法外，所示，我们还为视觉和文本分支引入了残差增强适配器，通过残差增强特征混合来利用预训练clip中包含的先验知识。

39、我们使用多层感知器(mlp)ψv和进行特征投影，并利用残差连接融合具有控制系数α的分支感知特征。自适应文本特征和定义为：

40、

41、

42、特别地，在视觉适配器中，我们引入了一个额外的分类头，以增强图像编码器在情感图像方面的分类能力。

43、ypred＝wh(ψv(ft))+bh (18)

44、其中，

45、与现有的技术相比，本专利技术的有益效果是：

46、1.本专利技术主要融合了提示学习在图像情感识别中的应用，并提出了一种新的多视角提示学习方法(multi-perspective prompt learning in clip，mpp-clip)。。

...

【技术保护点】

1.基于残差增强适配器与多视角提示学习的图像情感识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于残差增强适配器与多视角提示学习的图像情感识别方法，其特征在于，所述S1的具体过程为：

3.根据权利要求1所述的基于残差增强适配器与多视角提示学习的图像情感识别方法，其特征在于，所述S2的具体过程为：

4.根据权利要求1所述的基于残差增强适配器与多视角提示学习的图像情感识别方法，其特征在于，所述S3的具体过程为：

【技术特征摘要】

1.基于残差增强适配器与多视角提示学习的图像情感识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于残差增强适配器与多视角提示学习的图像情感识别方法，其特征在于，所述s1的具体过程为：

3....

【专利技术属性】
技术研发人员：徐勤富，吴春雷，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人