基于个性和共性对比分阶段引导的多模态情感分析方法技术

技术编号：40874123 阅读：4 留言：0更新日期：2024-04-08 16:42

本发明专利技术公开了基于个性和共性对比分阶段引导的多模态情感分析方法，包括：提取视频样本的语言特征、声学特征和视觉特征；对所述语言特征、声学特征和视觉特征进行预处理后，进行两个阶段的高层次语义特征提取，获取第一阶段提取数据和第二阶段提取数据；利用个性对比损失函数，对所述第一阶段提取数据进行提取，获取特定于每个模态特性的表征数据；利用共性对比损失函数，对所述第二阶段提取数据进行提取，获取模态间共享特性的表征数据；基于所述特定于每个模态特性的表征数据和所述模态间共享特性的表征数据，推理视频样本的情感值。本发明专利技术能综合利用数据的多方面描述来推理视频片段中人物的情感极性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理、语音信号处理和计算机视觉，尤其涉及基于个性和共性对比分阶段引导的多模态情感分析方法。

技术介绍

1、情感分析在自然语言处理中是一项具有挑战性的任务，它需要根据文本提供的信息判断人物的情感。人类的情感往往具有多样性，有时候文本并不能全面地描述一个人的情绪，通常这时候机器也很难做出正确的理解。随着社交网络平台的发展，人们表达观点的模态越来越丰富，特别是短视频的出现，使得人们可以通过文本、言语和动作来描述他们的观点。这导致多模态数据呈爆炸式增长，多模态数据流行起来，情感分析的对象拓展成多模态数据，不再局限于文本。相比仅针对于文本的单模态情感分析，多模态（比如文本、视觉、音频等）情感分析在判断人物情感上更加全面，泛化性更好，但如何处理和联系多模态信息变成情感分析的主要问题。

2、当研究仅涉及单一模态时，相关领域的工作层出不穷，其中创造的单模态模型更是数不胜数，这些模型在那些处理过程仅要求单个模态的应用上都发挥出不错的效果，而且不需要过多的配置即可使用。但当模态的数量增加时，能够利用的模型屈指可数，其主要原因是多模态模型的推理需要考虑多个模态之间的融合体系结构，想要设计出合理的交互机制，就必须仔细考虑影响模态融合的诸多方面。此外，有人还从仿生学出发，试图通过观察和模仿人类或动物的行为来构建多模态的融合机制。面对如此复杂的融合机制，想要设计一个效果卓群的多模态模型具有非常大的挑战性，每个出色的模型都需要研究者的精心手工制作，导致耗费大量时间。而且，这些模型通常是针对特定的多模态任务在固定的几个模态上进

技术实现思路

1、本专利技术的目的在于提出基于个性和共性对比分阶段引导的多模态情感分析方法，以综合利用数据的多方面描述来推理视频片段中人物的情感极性。

2、为实现上述目的，本专利技术提供了基于个性和共性对比分阶段引导的多模态情感分析方法，包括：

3、提取视频样本的语言特征、声学特征和视觉特征；

4、对所述语言特征、声学特征和视觉特征进行预处理后，进行两个阶段的高层次语义特征提取，获取第一阶段提取数据和第二阶段提取数据；

5、利用个性对比损失函数，对所述第一阶段提取数据进行提取，获取特定于每个模态特性的表征数据；

6、利用共性对比损失函数，对所述第二阶段提取数据进行提取，获取模态间共享特性的表征数据；

7、基于所述特定于每个模态特性的表征数据和所述模态间共享特性的表征数据，推理视频样本的情感值。

8、可选地，对所述语言特征、声学特征和视觉特征进行预处理包括：

9、以文本为基准，在时间维度上对所述语言特征、声学特征和视觉特征进行对齐处理，并去除其中与情感无关的停止词部分；

10、利用随机零向量替换的方式为所述语言特征、声学特征和视觉特征生成额外的对比视图。

11、可选地，进行两个阶段的高层次语义特征提取包括：

12、利用三个transformer编码器分别从预处理后的所述语言特征、声学特征和视觉特征中提取相应的所述高层次语义特征；其中，将三个transformer编码器分成两个阶段，每个阶段包括若干个transformer编码层；

13、两个阶段的计算方法为：

14、

15、其中，和分别为第一阶段和第二阶段的transformer编码器，，是语言模态，是视觉模态，是声学模态，是模态的第个样本输入。

16、可选地，所述个性对比损失函数为：

17、

18、其中，表示通过函数从模态的第个样本在网络第一个阶段输出的特征提取的向量，表示多层感知机，表示值大于零的温度系数，表示除去的索引集合，表示标签与第个样本相同但索引属于集合的索引集合。

19、可选地，所述共性对比损失函数为：

20、

21、其中，表示通过函数从模态的第个样本在网络第二个阶段输出的特征提取的向量，表示三个模态中除去模态的集合。

22、可选地，推理视频样本的情感值包括：

23、通过最大池化将所述特定于每个模态特性的表征数据和所述模态间共享特性的表征数据转化为向量表示，将所述向量表示经过两个全连接层与rulu激活函数以及dropout层处理后，获得所述视频样本的情感值；

24、基于所述情感值，利用均方根误差计算情感分析损失。

25、可选地，所述情感分析损失的计算方法为：

26、

27、其中，表示最大池化，表示情感值，表示第个样本的真实情感标签值，表示通过最大池化聚合第个样本由网络第一个阶段输出的语言模态特征、视觉模态特征、声学模态特征后得到的表征，表示语言模态第个样本通过网络第一个阶段输出的特征，表示视觉模态第个样本通过网络第一个阶段输出的特征，表示声学模态第个样本通过网络第一个阶段输出的特征，表示语言模态第个样本通过网络第二个阶段输出的特征，表示视觉模态第个样本通过网络第二个阶段输出的特征，表示声学模态第个样本通过网络第二个阶段输出的特征，表示通过最大池化聚合第个样本由网络第二个阶段输出的语言模态特征、视觉模态特征、声学模态特征后得到的表征，表示第个样本的索引，表示一个批次里样本的个数。

28、本专利技术具有以下有益效果：

29、本专利技术利用个性对比损失函数，对第一阶段提取数据进行提取，所提取的特定于每个模态特性的表征数据有利于理解情感的上下文，避免歧义；利用共性对比损失函数，对第二阶段提取数据进行提取，所提取的模态间共享特性的表征数据有利于加强情感的基调，提高模型对人物情感的推理能力。

本文档来自技高网...

【技术保护点】

1.基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，包括：

2.根据权利要求1所述的基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，对所述语言特征、声学特征和视觉特征进行预处理包括：

3.根据权利要求1所述的基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，进行两个阶段的高层次语义特征提取包括：

4.根据权利要求1所述的基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，所述个性对比损失函数为：

5.根据权利要求1所述的基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，所述共性对比损失函数为：

6.根据权利要求1所述的基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，推理视频样本的情感值包括：

7.根据权利要求6所述的基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，所述情感分析损失的计算方法为：

【技术特征摘要】

1.基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，包括：

2.根据权利要求1所述的基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，对所述语言特征、声学特征和视觉特征进行预处理包括：

3.根据权利要求1所述的基于个性和共性对比分阶段引导的多模态情感分析方法，其特征在于，进行两个阶段的高层次语义特征提取包括：

4.根据权利要求1所述的基于个性和共性对比分阶段引导的多模...

【专利技术属性】
技术研发人员：杨振国，刘达煌，郭志玮，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人