一种基于语音和视频的多模态深度学习情感分类方法技术

技术编号:41535228 阅读:51 留言:0更新日期:2024-06-03 23:13
本发明专利技术公开了一种基于语音和视频的多模态深度学习情感分类方法,包括如下步骤:步骤1、采集语音、视频双模态的情感数据集;步骤2、分别对语音数据和视频数据进行预处理;步骤3、将预处理后的语谱图和视频图像作为输入分别通过语音特征提取网络和视频情感特征提取网络提取语音情感特征向量和视频情感特征向量;步骤4、将提取的语音情感特征向量faudio和视频情感特征向量fvideo,通过拼接得到融合后的情感特征向量fe,将融合后的特征fe作为输入,通过一个全连接神经网络对情感进行分类得到情感标签。该方法即对语音和视频两种不同模态的数据分别进行情感特征提取,然后将得到的特征做拼接处理,最后利用融合特征进行情感识别的方法,有效提升了识别的精度。

【技术实现步骤摘要】

本专利技术涉及情感识别,具体指一种基于语音和视频的多模态深度学习情感分类方法


技术介绍

1、随着人工智能技术的不断发展,人们希望计算机能拥有和人一样的情感,为人类更加便捷地服务,情感识别就是其中一项关键技术。经过多年的研究探索,现如今情感识别进入了崭新的局面。为了解决语音情感识别中,信息利用不足,识别准确率难以提升的问题,越来越多的研究人员通过融合不同模态的数据特征,使其共同作用于情感识别。

2、mehrabian法则中提到对于一个人的印象,双方交流的内容占7%,手势动作、语气等占38%,比例最高的55%由表情和肢体行为决定。作为人类传达信息的一种非语言性信号,人脸表情能够传达出人类的性格特点和心理情况,这些信息一般很难用其他信息表达方式进行替代。而且在实际生活中,人们往往是综合语音、人脸表情等多个信息来对一个人所处的情感状态进行识别判断的,这样的判断结果才更加准确。因此,基于面部表情和语音的多模态情感识别具有深远的研究和实用价值。不过,目前的多模态识别算法往往泛化能力较差且具有较高的计算复杂度。


<b>技术实现思路...

【技术保护点】

1.一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述LBPH特征和FHOG特征的相关性计算方法为:

3.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述权重系数γ和β的取值为0.6和0.4。

4.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述语音情感特征向量提取的方法为:利用语音特征提取网络的残差结构提取时域和频域上的特征向量,并通过多尺度特征融合方法进行融合得到语...

【技术特征摘要】

1.一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述lbph特征和fhog特征的相关性计算方法为:

3.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述权重系数γ和β的取值为0.6和0.4。

4.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述语音情感特征向量提取的方法为:利用语音特征提取网络的残差结构提取时域和频域上的特征向量,并通过多尺度特征融合方法进行融合得到语音情感特征向量。

5.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述视频情感特征向量的提取方法为:利用面部特征提取网络逐帧提取到面部情绪特征f1,f2,...,fn后,采用时间注意力机制进行加权得到α1f1,α2f2,...,αnfn,加权后的特征再利用门...

【专利技术属性】
技术研发人员:应娜赵坚蒋银河邹雨鉴
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1