System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于混合融合与注意力机制的多模态情感识别方法、系统、存储介质及终端技术方案_技高网

一种基于混合融合与注意力机制的多模态情感识别方法、系统、存储介质及终端技术方案

技术编号:40061552 阅读:8 留言:0更新日期:2024-01-16 22:46
本发明专利技术公开了一种基于混合融合与注意力机制的多模态情感识别方法、系统、存储介质及终端,属于情感分析领域,包括:获取待识别情感数据的不同模态,所述不同模态包括图像模态、文字模态以及音频模态;分别提取不同模态的浅层特征,其中,在对图像模态进行浅层特征提取时,分离提取图像深层特征,并添加深层信息融合路径;融合不同模态的浅层特征;通过深层信息融合路径,将图像深层特征与浅层特征融合结果进行级联合并;将级联合并后的统一特征输入至LSTM分类器进行情感的分类。本发明专利技术能够有效的提取多模态的特征并进行深度融合以减少信息的损失,同时平衡多个模态间的差异性,提高情感识别的准确率。

【技术实现步骤摘要】

本专利技术涉及情感分析领域,尤其涉及一种基于混合融合与注意力机制的多模态情感识别方法、系统、存储介质及终端


技术介绍

1、模态通常指事情经历和发生的方式,当研究的问题包含多种模态信息时我们称之为多模态问题,多模态即是从多个模态表达或感知事物,主要研究的模态包括“3v”:文本、语言、视觉。多模态机器学习是从多种模态的数据中学习并提升自身的算法,通常将多模态数据视为多种数据类型的组合,将多模态数据进行特征提取并发掘分析。多模态学习可用于多种任务,其中情绪识别是重要的组成部分。

2、情绪识别是指判别人们对产品、信息、事件和服务等客观世界做出认知反应的情感倾向,其具有极其广泛的可应用性和扩展性,可以在多种领域中作为基本的目标数据分析组件,也可以用作用户生成内容的社会媒体数据的发掘和研究。随着信息技术的不断进步和社交媒体的迅速发展,越来越多的网络用户倾向于使用文本和图片等多模态载体来表达自身的情感,这也使得多模态情感分析受到了学术界和企业界的广泛关注。互联网用户的日益增多以及大数据挖掘技术的不断发展,使得互联网中的信息和数据变得庞大而丰富。使用多模态的方式进行情感识别可以获取更丰富和准确的特征,以便提高情绪识别的准确性。

3、然而由于情绪识别任务所关注的对象在不同的领域具有较大的表达差异性,情绪的极性难以量化,因此常见的多模态情绪识别存在许多缺陷:(1)输入的多模态特征存在异质性,多种模态的特征数据需要进行互补融合,使用联合特征表示将通过隐藏层映射为同一联合特征,会造成依赖大量数据训练并难以收敛;使用协同特征表示,通过同一个约束协同不同模态,则存在应用场景受限,只适用于模态间的转换。(2)多模态学习存在模态对齐问题,多种模态之间的关系可能不是一一对应,存在时间与空间上的错位问题,因此只使用卷积网络融合难以获取连续时间下的序列信息。(3)情绪标记的客观性难以度量,使用深度学习的方式实现的情感识别,通常是利用监督学习,需要人为标注数据不同的人对于表情和声音有不同的解读方法,导致情感识别模型的通用性较差。


技术实现思路

1、本专利技术的目的在于克服现有多模态情绪识别技术存在的缺陷,通过分析当前多模态情感识别算法中采取的针对不同模态识别难题的方法,包括特征提取、混合融合以及注意力机制等方法进行研究,拟提出一种能通过特征解耦获取分层特征,通过注意力机制进行混合融合的网络模型,并提供了一种基于混合融合与注意力机制的多模态情感识别方法、系统、存储介质及终端。

2、本专利技术的目的是通过以下技术方案来实现的:

3、第一方面,提供一种基于混合融合与注意力机制的多模态情感识别方法,包括以下步骤:

4、s1、获取待识别情感数据的不同模态,所述不同模态包括图像模态、文字模态以及音频模态;

5、s2、分别提取不同模态的浅层特征,其中,在对图像模态进行浅层特征提取时,分离提取图像深层特征,并添加深层信息融合路径;

6、s3、融合不同模态的浅层特征;

7、s4、通过步骤s2中的深层信息融合路径,将图像深层特征与s3得到的浅层特征融合结果进行级联合并;

8、s5、将步骤s4级联合并后的统一特征输入至lstm分类器进行情感的分类。

9、在一些可能实施例提供的一种基于混合融合与注意力机制的多模态情感识别方法中,分别提取不同模态的浅层特征,包括:

10、对图像模态使用cnn和swintransformer的结构进行图像浅层特征提取;

11、对文字模态采用词向量模型bert的网络结构,提取线性向量;

12、对音频模态使用梅尔频率倒谱系数,将音频转换为系数。

13、在一些可能实施例提供的一种基于混合融合与注意力机制的多模态情感识别方法中,分离提取图像深层特征,包括:

14、通过残差结构和自注意力机制进行图像深层特征和图像浅层特征的分离。

15、在一些可能实施例提供的一种基于混合融合与注意力机制的多模态情感识别方法中,所述对图像模态使用cnn和swintransformer的结构进行图像浅层特征提取,包括:

16、设置图像的输入分辨率为1280*1280,主干提取网络采用swintransformer提取不同深度的特征图。

17、在一些可能实施例提供的一种基于混合融合与注意力机制的多模态情感识别方法中,所述添加深层信息融合路径,包括:

18、在16倍下采样的特征图后添加多头注意力融合,并在4倍下采样特征图处添加深层信息融合路径。

19、在一些可能实施例提供的一种基于混合融合与注意力机制的多模态情感识别方法中,采用下采样+多头注意力机制的方式融合不同模态的浅层特征。

20、在一些可能实施例提供的一种基于混合融合与注意力机制的多模态情感识别方法中,所述lstm分类器使用交叉熵损失函数。

21、第二方面,提供一种基于混合融合与注意力机制的多模态情感识别系统,包括:

22、情感数据获取模块,配置为获取待识别情感数据的不同模态,所述不同模态包括图像模态、文字模态以及音频模态;

23、浅层特征提取模块,配置为分别提取不同模态的浅层特征,其中,在对图像模态进行浅层特征提取时,分离提取图像深层特征,并添加深层信息融合路径;

24、多模态浅层信息融合模块,配置为融合不同模态的浅层特征;

25、多模态的级联特征融合模块,配置为通过深层信息融合路径,将图像深层特征与浅层特征融合结果进行级联合并;

26、情感分类识别没模块,配置为将级联合并后的统一特征输入至lstm分类器进行情感的分类。

27、第三方面,提供一种计算机存储介质,其上存储有计算机指令,所述计算机指令运行时执行任意一项所述一种基于混合融合与注意力机制的多模态情感识别方法中相关步骤。

28、第四方面,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行任意一项所述一种基于混合融合与注意力机制的多模态情感识别方法中相关步骤。

29、需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。

30、与现有技术相比,本专利技术有益效果是:

31、(1)本专利技术提出了一种基于混合融合策略的多模态特征融合结构以及基于注意力机制的特征联合表征方法,能够有效的提取多模态的特征并进行深度融合以减少信息的损失,同时平衡多个模态间的差异性,提高情感识别的准确率。

32、(2)本专利技术提出了一种分层特征提取策略,模态的浅层特征能表现该模态的独有信息,而深层特征可以体现多模态的共性信息,通过上述的两种融合策略,实现多维度的信息融合,更具有可解释性和准确性。

33、(3)本专利技术提出了一种基于多分类交叉熵损失的情感识别分类网络,采用lstm结构可以更好的保留时序信息,解决不同模态间本文档来自技高网...

【技术保护点】

1.一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,分别提取不同模态的浅层特征,包括:

3.根据权利要求1所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,分离提取图像深层特征,包括:

4.根据权利要求2所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,所述对图像模态使用CNN和Swintransformer的结构进行图像浅层特征提取,包括:

5.根据权利要求1所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,所述添加深层信息融合路径,包括:

6.根据权利要求1所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,采用下采样+多头注意力机制的方式融合不同模态的浅层特征。

7.根据权利要求1所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,所述LSTM分类器使用交叉熵损失函数。

8.一种基于混合融合与注意力机制的多模态情感识别系统,其特征在于,包括:

9.一种计算机存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-7中任意一项所述一种基于混合融合与注意力机制的多模态情感识别方法中相关步骤。

10.一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,其特征在于,处理器运行计算机指令时执行权利要求1-7中任意一项所述一种基于混合融合与注意力机制的多模态情感识别方法中相关步骤。

...

【技术特征摘要】

1.一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,分别提取不同模态的浅层特征,包括:

3.根据权利要求1所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,分离提取图像深层特征,包括:

4.根据权利要求2所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,所述对图像模态使用cnn和swintransformer的结构进行图像浅层特征提取,包括:

5.根据权利要求1所述的一种基于混合融合与注意力机制的多模态情感识别方法,其特征在于,所述添加深层信息融合路径,包括:

6.根据权利要求1所述的一种基于混合融合与注意...

【专利技术属性】
技术研发人员:匡平李瑞恒
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1