基于时空特征融合的多模态情感识别方法技术

技术编号:31925947 阅读:26 留言:0更新日期:2022-01-15 13:11
本发明专利技术提出了一种基于时空特征融合的多模态情感识别方法,包括以下步骤:建立一个包含语音、表情和姿态的多模态情感数据库;构建基于不对称非局部神经网络和空时LSTM的结合网络;将表情图像、语谱图和姿态图像输入到ResNet101模型中,获得深度特征图;将深度特征图构建深度特征序列作为空间LSTM的输入,学习特征序列的空间结构相关性;将空间LSTM的输出作为时间LSTM的输入,学习每一帧图像上时间相关性;将表情、语音和姿态特征进行融合,并将融合后的特征输入DBN网络进行进一步的融合训练,最后输入softmax层得到多分类结果。本发明专利技术基于时空LSTM和不对称非局部神经网络提取语音、表情和姿态情感特征并进行多模态特征融合分类。分类。分类。

【技术实现步骤摘要】
基于时空特征融合的多模态情感识别方法


[0001]本专利技术涉及一种情感识别方法,具体的说是一种基于时空特征融合的语音、表情和姿态多模态情感识别方法,属于情感计算和模式识别


技术介绍

[0002]随着计算机技术与人工智能技术的快速发展,生活中形形色色智能机器的诞生为人们的生活提供了更加便利的服务。然而,现在的智能机器只能执行简单任务,并不能很完美的进行人机交互。在这个背景下,情感识别技术在人和计算机之间的智能感知和识别方面扮演了非常重要的作用。过去的利用单个模态信息来进行情感识别不能捕捉足够的信息来进行精确的情感识别。近年来,多模态的融合可以给情绪识别提供更加丰富多样且相关的情感信息,从而提高情感识别率,增加可靠性。然而目前许多研究都是在语音或者表情的单模态上进行的情感识别,或者是语音

文本、表情

姿态和语音
ꢀ‑
表情等双模态上的情感识别研究,多模态的情感识别很少有人研究,例如表情语音及姿态三模态或者是加入脑电等其他生理信号的多模态情感识别。多种模态的融合,既保留了各模态特征的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于时空特征融合的多模态情感识别方法,其特征在于,包括以下步骤:S1、建立一个包含语音、表情和姿态的多模态情感数据库,并使各模态的有效样本数保持一致;S2、构建基于不对称非局部神经网络和空时LSTM的结合网络,该结合网络包括不对称非局部模块、有效通道注意力模块、空间LSTM模块和时间LSTM模块,不对称非局部模块与有效通道注意力模块通过ResNet101网络连接;S3、将步骤S1处理后的表情图像、语谱图和姿态图像输入到步骤S2结合网络的ResNet101模型中,获得深度特征图;将深度特征图构建深度特征序列作为空间LSTM的输入,从而学习特征序列的空间结构相关性;将空间LSTM的输出作为时间LSTM的输入,以此来学习每一帧图像上的时间相关性,获得表情特征、语音特征和姿态特征;S4、将表情特征、语音特征和姿态特征通过不对称非局部模块进行特征融合,并将融合后的特征输入DBN网络进行进一步的融合训练,最后输入softmax层得到多分类结果。2.根据权利要求1所述基于时空特征融合的多模态情感识别方法,其特征在于,所述步骤S1中,将数据库中的视频关键部分截取相同的长度并进行分帧,获得表情图像和姿态图像,每一帧的图片作为一个结构的输入;对数据库中的音频部分采用傅里叶变换,提取二维结构的语谱图作为一个结构的输入。3.根据权利要求2所述基于时空特征融合的多模态情感识别方法,其特征在于,所述步骤S2中,跨接不对称非局部模块和有效通道注意力模块的ResNet101网络包含5个卷积模块,每个模块包括若干卷积层、池化层、BN层以及ReLU层;5个卷积模块采用CONV1、CONV2_x、CONV3_x、CONV4_x、CONV5_x表示,其中,CONV1的参数分别如下所示:conv1:f=7
×
7,c=64,s=2,p=3maxpool:f=3
×
3,s=2其卷积层的输出尺寸大小计算公式如下所示:式中,output_size表示卷积层输出尺寸,input_size表示卷积层输入尺寸,f表示卷积核或池化的大小,c为输入信道数,s表示卷积核或池化的步长,p为填充值;CONV2_x卷积模块的参数分别如下所示:CONV3_x卷积模块参数分别如下所示:在卷积模块CONV3_x和CONV4_x的结构上跨接一个有效通道注意力模块;CONV4_x、CONV5_x卷积模块中的卷积层参数如下所示:
在CONV4_x和CONV5_x的卷积模块上跨接一个不对称非局部模块用于捕获长程依赖性,融合高低阶的特征。4.根据权利要求3所述基于时空特征融合的多模态情感识别方法,其特征在于,所述步骤S2中,所述有效通道注意力模块主要包括三个部分,第一个部分是将CONV3_x的输出通过全局平均池化产生1*1*C大小的特征图;第二个部分是计算得到自适应的卷积核大小;第三个部分是通过一维卷积1D

Conv来获得相邻通道之间的依赖关系,得到每个通道的权重,加权到CONV4_x的输出,完成局部跨信道交互;一维卷积核大小的计算公式为:式中,|Δ|表示离Δ最近的奇数,在考虑卷积核大小和参数多少的问题上设置γ=2,b=1,C表示通道数;所述不对称非局部模块主要包含AFNB模块和APNB模块,将CONV4_x和CONV5_x的输出用AFNB模块进行融合,融合后的特征进入APNB模块再进行融合。5.根据权利要求4所述基于时空特征融合的多模态情感识别方法,其特征在于,所述步骤S3中,通过CONV4_x得到的特征称之为低级特征,通过CONV5_x得到的特征称为高级特征,将这两个特征输入AFNB模块进行融合;AFNB模块将CONV5_x得到的高级特征作为Query,将CONV4_x得到的低级特征作为Key和Value,首先对Query、Key和Value分别使用1
×
...

【专利技术属性】
技术研发人员:闫静杰顾晓娜李娜李同霞
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1