【技术实现步骤摘要】
一种用于模态缺失场景的多模态情感识别方法及系统
[0001]本专利技术涉及情感识别
,尤其涉及一种用于模态缺失场景的多模态情感识别方法及系统。
技术介绍
[0002]随着社交媒体、网络直播和在线短视频等应用的蓬勃发展,人们产生和传播信息的速度越来越快,在这些应用中,用户产生的大量视觉、音频和文本数据都携带着有关情感和情绪的信息,然而,传统的情感识别方法常常只基于其中的一种或几种数据源,忽视了多种数据源融合的重要性,针对这一问题,多模态情感识别技术应运而生,其中,多模态情感识别是一种通过获取视觉、音频和文本的多模态信号,综合多种信号实现情感识别的方法,由于相比于单一模态,多模态表征可以捕捉信息更全面、更精准的感知与理解,因此,多模态情感识别越来越成为一个研究热点,研究人员逐步探索视觉、音频、文本等多模态手段的融合,探讨如何在不同应用场景下更好地应用多模态情感识别技术,在视频监控、互联网广告、智能客服等领域的应用中,多模态情感识别技术展示了广阔的发展前景,但是,传统的多模态情感识别方法的提出与设计,是基于多模态数据源都是完 ...
【技术保护点】
【技术特征摘要】
1.一种用于模态缺失场景的多模态情感识别方法,其特征在于,包括以下步骤:对原始视频样本进行特征提取,得到初级特征,并对所述初级特征进行缺失情况编码,得到缺失情况特征;根据所述初级特征提取出各模态高级特征,并将各模态高级特征进行拼接融合,得到多模态联合特征;利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征;其中,所述多模态重构特征包括重构视觉特征、重构音频特征和重构文本特征;将所述重构视觉特征、所述重构音频特征通过线性层映射到所述重构文本特征空间,并利用多模态门控融合机制进行两两模态间的特征融合,得到文本视觉融合特征和文本音频融合特征;根据所述文本视觉融合特征和所述文本音频融合特征进行情感类别分类,得到情感类别预测结果。2.如权利要求1所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述初级特征包括初级视觉特征、初级音频特征和初级文本特征,所述各模态高级特征包括高级视觉特征、高级音频特征和高级文本特征,所述根据所述初级特征提取出各模态高级特征的步骤包括:将所述初级视觉特征通过长短期记忆网络进行编码,得到视觉编码输出序列,对所述视觉编码输出序列进行最大池化,得到高级视觉特征;将所述初级音频特征通过长短期记忆网络进行编码,得到音频编码输出序列,对所述音频编码输出序列进行最大池化,得到高级音频特征;将所述初级文本特征通过文本分类网络进行编码,得到高级文本特征。3.如权利要求1所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述缺失情况特征的表达式为:f
i
=MLP([I
v
,I
a
,I
t
])式中,f
i
表示缺失情况特征;MLP表示多层感知机;I
v
表示视觉模态的存在性;I
a
表示音频模态的存在性;I
t
表示文本模态的存在性。4.如权利要求1所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述利用自注意力机制对所述各模态高级特征、所述多模态联合特征和所述缺失情况特征进行缺失模态特征重构,得到多模态重构特征的步骤包括:将所述各模态高级特征、所述多模态联合特征和所述缺失模态特征进行拼接,得到输入特征序列;将所述输入特征序列经线性层映射为查询矩阵特征、键矩阵特征和值矩阵特征;根据所述查询矩阵特征和所述键矩阵特征,计算得到自注意力矩阵;将所述自注意力矩阵和所述值矩阵特征进行点积运算,得到多模态重构特征。5.如权利要求4所述的一种用于模态缺失场景的多模态情感识别方法,其特征在于,所述自注意力矩阵的计算公式为:
式中,A
′
表示自注意力矩阵;softmax表示归一化操作;T表示转置符号;K表示键矩阵特征;Q表示查询矩阵特征;dim表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。