用于零样本情感识别的通用多模态学习方法技术

技术编号：40254749 阅读：9 留言：0更新日期：2024-02-02 22:47

本发明专利技术涉及一种用于零样本情感识别的通用多模态学习方法，具体步骤如下：(1)构建情感图空间，将情感知识整合到情感嵌入；(2)对抗性模态解耦，设计模态解耦的对抗表征学习模块，输出用于不同模态的特征映射；(3)跨模态对齐，将不同模态的特征映射融合成一个联合表征，并与情感图空间中与情感嵌入一致。本方法利用简单但有效的S<supgt;2</supgt;GC与先验情感知识来计算比预训练语言模型更好的情感嵌入，从而进一步提高情感标签的特征表达能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多模态情感识别领域，具体为一种用于零样本情感识别的通用多模态学习方法。

技术介绍

1、1.多模态情感识别

2、使用多模态数据进行学习比使用单一模态进行学习更便于信息融合，能生成更鲁棒的模型。最近有工作设计一个对抗性多模态细化模块，研究不同模态之间的共性，增强每种模态的多样性。本专利技术利用一个分层的跨模态编码器来结合单个和共享的模态表示。它们使用语义引导解码器来确定标签和模态之间的内在依赖性。然而，随着情感认知理论的迅速发展，不同的心理学理论定义了不同的情感分类，这表明情感类别逐渐变得更加丰富多样。于是，各种自然语言涌现出来描述我们的情感，逐渐丰富了情感范畴的空间。我们在零样本环境下研究情感识别，以应对不同的情感描述。与之前的专利技术不同，本专利技术设计了一个多模态学习框架，可以适应更复杂的情感识别(emotion recognizion，er)任务，即单标签zsl和多标签zsl。

3、2.多模态零样本学习(multimodal zero-shot learning,mzsl)

4、零样本学习(zsl)涉及利用语义先验信息，如属性向量，静态或上下文相关的词嵌入，以及知识图表示，以构建一个模型，能够识别属于在训练过程中不存在的类的实体。多模态零样本学习(mzsl)结合了多模态学习和零样本学习的优点，以产生具有更优泛化能力的模型。mzsl通常由两种不同的方法组成：基于嵌入的mzsl和生成式mzsl。

5、3.图神经网络(graph neural network，gnn)</p>

6、图神经网络(gnn)在各个研究领域都受到了广泛的关注，其目的是将深度学习体系结构应用于图结构数据。gcn(graph convolutional network)可以根据具体的场景，进一步利用多标签或零样本分类任务中标签之间的相关性。对于视频动作识别场景，有多种方法利用多跳gcns对视觉对象与标签之间的关系进行建模。对于跨模态检索场景，一些方法利用多跳gcns，一组标签及其对应的先验标签表示(如词嵌入向量)为输入，通过探索标签相关性来生成相互依赖的分类器。在面部表情识别的场景中，一些方法探究了类别情感表征与维度情感表征之间的相关性。这种方法的实验是在较粗粒度情感空间内进行的，而粗粒度情感空间不适用于较细的情感粒度。然而，这些方法仍然存在过度平滑的问题，并且存在较高的计算和存储成本。由于包括gcn在内的许多现代模型，两层效果最好，所以目前很多gcn模型的设置都比较浅。当模型层数大于二层，2层gcn模型仅聚合2跳邻域内的节点，导致模型无法从这些区域中提取有用信息。过度平滑的模型，即在模型中添加更多层或非线性激活函数，通常会导致性能下降。为了解决这种困境，最近的方法提出了简单谱图卷积(simple spectral graph convolution,s2gc)来聚合邻域大小，限制神经网络深度。受此启发，我们使用s2gc来整合情感标签的多种关系。与以往的工作不同，本研究填补了细粒度情感标签的科技空白，并通过零样本视频情感识别任务验证了这一点。

7、在现有技术中存在的问题在于，随着情感认知理论的迅速发展，不同的心理学理论定义了不同的情感分类，这表明情感类别逐渐变得更加丰富多样。于是，各种自然语言涌现出来描述我们的情感，逐渐丰富了情感范畴的空间。但是，以往的实验是在较粗粒度情感空间内进行的，而粗粒度情感空间不适用于较细的情感粒度。然而，这些方法仍然存在过度平滑的问题，并且存在较高的计算和存储成本。

8、由于包括gcn在内的许多现代模型，两层效果最好，所以目前很多gcn模型的设置都比较浅。当模型层数大于二层，2层gcn模型仅聚合2跳邻域内的节点，导致模型无法从这些区域中提取有用信息。过度平滑的模型，即在模型中添加更多层或非线性激活函数，通常会导致性能下降。并且，情感粒度和标签间的相互依赖给予mer任务的两个紧急问题：细粒度和多标签设置。

技术实现思路

1、为解决上述技术问题，本专利技术提供一种用于零样本情感识别的通用多模态学习方法。

2、一种用于零样本情感识别的通用多模态学习方法，其特征在于：具体步骤如下：

3、(1)构建情感图空间，将情感知识整合到情感嵌入；

4、(2)对抗性模态解耦，设计模态解耦的对抗表征学习模块，输出用于不同模态的特征映射；

5、(3)跨模态对齐，将不同模态的特征映射融合成一个联合表征，并与情感图空间中与情感嵌入一致。

6、而且，所述步骤(1)构建情感图空间，

7、1)情感图构建：

8、把情感标签作为图的节点，

9、s2gc挖掘细粒度的情感标签，从图中的t跳邻域捕获信息，t层s2gc旨在学习嵌入表x∈rn×d的高阶顶点表示z∈rn×d

10、

11、a是邻接矩阵，表示具有添加的自循环的邻接矩阵，顶点表示z收敛于归一化拉普拉斯正则化的最优解，如下所示：

12、

13、公式(3)的前一部分限制了邻接顶点之间输出矩阵的距离表示，而后者是约束每个顶点的输入嵌入和输出表示之间的距离。最终输出的情感嵌入计算如下:

14、

15、α∈[0,1]是一个可学习参数，用来平衡节点的自信息(self-information)与连续邻域之间的关系

16、

17、其中d是a的对角矩阵；

18、2)建立邻接矩阵

19、根据公式(4)，节点的特征是其自身特征与相邻节点特征的加权和，用a＝{a1，a2,a3,a4}建立了四个图，

20、

21、sij表示标签i的分布和j的分布之间的瓦瑟斯坦距离；sij是计算词嵌入的余弦相似度。对于多标签设置，考虑共现频率作为先验知识，使用阈值τ的二进制过程：

22、

23、其中pij表示条件概率矩阵，具体为：

24、

25、其中m∈rc×c是标签对的共现频率，n∈nc是所有标签在训练集中的出现频率，因此，应用以下重新加权公式：

26、

27、其中a5是多标签设置的附加相关矩阵，β控制赋给顶点本身及其相邻节点的权重，通过设置合适的β，适当地集成来自不同节点的传播信息。

28、而且，所述节点的特征使用word2vector，在以下两个原则的约束下，情绪嵌入顶点表示为：

29、a)类似的情感，包括愤怒、烦恼、烦躁、愤怒，应该是近邻。

30、b)输出的情感嵌入应该有区别，并且与其原始语义嵌入保持一致性。

31、而且，所述步骤(2)对抗性模态解耦，将多个模态分解为两个互不相关的部分：利于模态交互的特征和关注模态自身的特征，是利于模态交互的编码器，它将输入显式映射到模态不可知的特征子空间；而是关注模态自身特征的编码器，它计算模态特定的特征，

32、共有的和私有的表示表述如下：

33、ea＝本文档来自技高网...

【技术保护点】

1.一种用于零样本情感识别的通用多模态学习方法，其特征在于：具体步骤如下：

2.根据权利要求1所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述步骤(1)构建情感图空间，

3.根据权利要求2所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述节点的特征使用Word2Vector，在以下两个原则的约束下，情绪嵌入顶点表示为：

4.根据权利要求1所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述步骤(2)对抗性模态解耦，将多个模态分解为两个互不相关的部分：利他表征和自我中心表征，是利他编码器，它将输入显式映射到模态不可知的特征子空间；而是以自我为中心的编码器，它计算模态特定的特征，

5.根据权利要求1所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述步骤(3)跨模态对齐，在将不同模态的特征映射到自我中心和利他表征之后，将它们融合成一个联合表征，并从情感图空间中与情感嵌入一致，具体步骤包括：

6.根据权利要求5所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述多模态共注意融合，具体为：

7.根据权利要求6所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述共同关注CA层促进共注意力块之间的数据交互的步骤：

8.根据权利要求5所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述情绪指导零样本解码器，设置有两个输入：多模态嵌入张量M和一组N个可学习查询Q，每类一个，具有群译码的ML-译码器的全流程用公式(18)描述，其中Gq是输入组查询：

...

【技术特征摘要】

1.一种用于零样本情感识别的通用多模态学习方法，其特征在于：具体步骤如下：

2.根据权利要求1所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述步骤(1)构建情感图空间，

3.根据权利要求2所述的用于零样本情感识别的通用多模态学习方法，其特征在于：所述节点的特征使用word2vector，在以下两个原则的约束下，情绪嵌入顶点表示为：

5.根据权利要求1所述的用于零样本情感...

【专利技术属性】
技术研发人员：亓帆，张怀文，张紫鑫，
申请(专利权)人：天津理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人