一种多模态情感分析方法、装置及相关设备制造方法及图纸

技术编号：40539759 阅读：5 留言：0更新日期：2024-03-05 18:55

本申请公开了一种多模态情感分析方法、装置及相关设备，该方法包括：从待执行情感分析的视频中提取文本序列集合、图像集合以及音频集合；将文本序列集合、图像集合以及音频集合输入至训练后的情感分析模型中，得到情感分析结果；其中，情感分析模型被配置为，具备将不同模态的数据映射到同一空间、通过多模态注意力机制提取各模态的数据的特征、以及将特征投射到全连接网络中从而得到情感分析结果的能力，特征包括模态间的交互信息、互补信息以及一致信息。本申请的情感分析模型能够学习到多模态的交互特征，并融合了多模态的独立信息与重复信息，具有较高的鲁棒性，所得到的情感分析结果也具有较高的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及情感分析，更具体地说，是涉及一种多模态情感分析方法、装置及相关设备。

技术介绍

1、情感分析是自然语言处理领域的一个重要分支，它通过分析文本、音频、图像等信息来识别和解释情感状态。情感分析在很多应用场景中都有着广泛的应用，如情感分析可以用于在社交媒体上检测用户的情绪和态度，从而更好地回应用户的需求；在智能客服中，情感分析可以帮助理解用户的问题和需求，提高服务的质量；在智能家居中，情感分析可以帮助系统更好地理解用户的意图，从而提高系统的智能化水平。随着多模态信息的日益普及，人们越来越倾向于使用多种信息源来表达情感。例如，社交媒体中用户既可以通过文本表达情感，也可以通过上传照片、视频等多种方式来表达情感。这就使得多模态情感分析成为一个重要的研究方向。多模态情感分析旨在从多种信息源中融合并解析情感信息，从而提高情感识别的准确性和鲁棒性。

2、现阶段的多模态情感分析数据集的设置，通常是从视频中进行提取，将视频中关于感情部分的关键帧以及音频、文本进行提取对齐，再由情感分析领域的专家进行打分；因此多模态情感分析模型需要从文本模态、图像模态以及音频模态进行特征提取并对齐，然后通过设置分类器，将三个模态融合并进行评分空间的映射，而映射的类别分为二分类和多分类，传统的模型效果都不尽人意。

3、然而，传统的多模态情感分析中，在特征提取方面，大多数模型只针对各个模态进行特征提取，没有利用模态间的交互信息来进行模态信息提取，例如，使用卷积神经网络(convolutional neural network，cnn)来提取

技术实现思路

1、有鉴于此，本申请提供了一种多模态情感分析方法、装置及相关设备，以对视频执行情感分析。

2、为实现上述目的，本申请第一方面提供了一种多模态情感分析方法，包括：

3、从待执行情感分析的视频中提取文本序列集合、图像集合以及音频集合；

4、将所述文本序列集合、所述图像集合以及所述音频集合输入至训练后的情感分析模型中，得到所述视频的情感分析结果；

5、其中，所述情感分析模型被配置为，具备将不同模态的数据映射到同一空间、通过多模态注意力机制提取各模态的数据的特征、以及将所述特征投射到全连接网络中从而得到情感分析结果的能力，所述特征包括模态间的交互信息、互补信息以及一致信息。

6、优选地，将所述文本序列集合、所述图像集合以及所述音频集合输入至训练后的情感分析模型中，得到所述视频的情感分析结果的过程，包括：

7、利用所述情感分析模型分别对所述文本序列集合、所述图像集合以及所述音频集合进行编码，得到各模态下的多个序列，每一序列的长度一致；

8、利用所述情感分析模型分别对各模态下的多个序列进行注意力计算，得的各模态的向量表示；

9、将各模态的向量表示相互连接为张量，并将所述张量投射到全连接网络中，得到所述视频的情感分析结果。

10、优选地，利用所述情感分析模型对所述文本序列集合进行编码的过程，包括：

11、通过改变维度将所述文本序列集合变换为预设的长度的第一序列；

12、将各第一序列输入至微调后的对比语言-图像预训练clip模型中，得到处理后的第一序列；

13、将处理后的第一序列输入至两层的长短期记忆lstm网络，得到文本态下的序列。

14、优选地，利用所述情感分析模型对所述图像集合进行编码的过程，包括：

15、通过改变维度将所述图像集合变换为预设的长度的第二序列；

16、将各第二序列输入至微调后的对比语言-图像预训练clip模型中，得到处理后的第二序列；

17、将处理后的第二序列输入至两层的长短期记忆lstm网络，得到图像态下的序列。

18、优选地，利用所述情感分析模型对所述音频集合进行编码的过程，包括：

19、通过语音处理算法covarep对所述音频集合进行编码，得到处理后的第三序列；

20、将处理后的第三序列输入至全连接网络中，得到音频模态下的序列。

21、优选地，利用所述情感分析模型分别对各模态下的多个序列进行注意力计算，得的各模态的向量表示的过程，包括：

22、针对每一模态下的多个序列，利用预设的其他模态下的多个序列进行注意力强化计算，得到每一模态下的向量表示。

23、优选地，针对每一模态下的多个序列，利用预设的其他模态下的多个序列进行注意力强化计算，得到每一模态下的向量表示的过程，包括：

24、针对图像模态下的多个序列，分别利用文本模态以及音频模态下的多个序列对图像模态下的多个序列进行注意力强化计算，分别得到强化后的第一向量以及第二向量；

25、将所述第一向量以及所述第二向量拼接后输入至一层transformer网络，得到图像模态下的向量表示；

26、针对文本模态下的多个序列，利用图像模态下的多个序列对文本模态下的多个序列进行注意力强化计算，得到文本模态下的向量表示；

27、针对音频模态下的多个序列，利用文本模态下的多个序列对音频模态下的多个序列进行注意力强化计算，得到音频模态下的向量表示。

28、本申请第二方面提供了一种多模态情感分析装置，包括：

29、视频编码单元，用于从待执行情感分析的视频中提取文本序列集合、图像集合以及音频集合；

30、情感分析单元，用于将所述文本序列集合、所述图像集合以及所述音频集合输入至训练后的情感分析模型中，得到所述视频的情感分析结果；

31、其中，所述情感分析模型被配置为，具备将不同模态的数据映射到同一空间、通过多模态注意力机制提取各模态的数据的特征、以及将所述特征投射到全连接网络中从而得到情感分析结果的能力，所述特征包括模态间的交互信息、互补信息以及一致信息。

32、本申请第三方面提供了一种多模态情感分析设备，包括：存储器和处理器；

33、所述存储器，用于存储程序；

34、所述处理器，用于执行所述程序，实现上述的多模态情感分析方法的各个步骤。

35、本申请第四方面提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的多模态情感分析方法的各个步骤。

36、经由上述的技术方案可知，本申请预先配置好情感分析模型，使得所述情感分析模型具备将不同模态的数据映射到同一空间、通过多模态注意力机制提取各模态的数据的特征、以及将所述特征本文档来自技高网...

【技术保护点】

1.一种多模态情感分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述文本序列集合、所述图像集合以及所述音频集合输入至训练后的情感分析模型中，得到所述视频的情感分析结果的过程，包括：

3.根据权利要求2所述的方法，其特征在于，利用所述情感分析模型对所述文本序列集合进行编码的过程，包括：

4.根据权利要求2所述的方法，其特征在于，利用所述情感分析模型对所述图像集合进行编码的过程，包括：

5.根据权利要求2所述的方法，其特征在于，利用所述情感分析模型对所述音频集合进行编码的过程，包括：

6.根据权利要求2所述的方法，其特征在于，利用所述情感分析模型分别对各模态下的多个序列进行注意力计算，得的各模态的向量表示的过程，包括：

7.根据权利要求6所述的方法，其特征在于，针对每一模态下的多个序列，利用预设的其他模态下的多个序列进行注意力强化计算，得到每一模态下的向量表示的过程，包括：

8.一种多模态情感分析装置，其特征在于，包括：

9.一种多模态情感分析设备，其特征在于，包括：存储器和处理器；

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～7中任一项所述的多模态情感分析方法的各个步骤。

...

【技术特征摘要】

1.一种多模态情感分析方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，利用所述情感分析模型对所述文本序列集合进行编码的过程，包括：

4.根据权利要求2所述的方法，其特征在于，利用所述情感分析模型对所述图像集合进行编码的过程，包括：

5.根据权利要求2所述的方法，其特征在于，利用所述情感分析模型对所述音频集合进行编码的过程，包括：

6.根据权利要求...

【专利技术属性】
技术研发人员：曾碧卿，姚勇涛，李泽涵，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人