【技术实现步骤摘要】
本专利技术涉及情感识别,具体指一种基于语音和视频的多模态深度学习情感分类方法。
技术介绍
1、随着人工智能技术的不断发展,人们希望计算机能拥有和人一样的情感,为人类更加便捷地服务,情感识别就是其中一项关键技术。经过多年的研究探索,现如今情感识别进入了崭新的局面。为了解决语音情感识别中,信息利用不足,识别准确率难以提升的问题,越来越多的研究人员通过融合不同模态的数据特征,使其共同作用于情感识别。
2、mehrabian法则中提到对于一个人的印象,双方交流的内容占7%,手势动作、语气等占38%,比例最高的55%由表情和肢体行为决定。作为人类传达信息的一种非语言性信号,人脸表情能够传达出人类的性格特点和心理情况,这些信息一般很难用其他信息表达方式进行替代。而且在实际生活中,人们往往是综合语音、人脸表情等多个信息来对一个人所处的情感状态进行识别判断的,这样的判断结果才更加准确。因此,基于面部表情和语音的多模态情感识别具有深远的研究和实用价值。不过,目前的多模态识别算法往往泛化能力较差且具有较高的计算复杂度。
<
...【技术保护点】
1.一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述LBPH特征和FHOG特征的相关性计算方法为:
3.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述权重系数γ和β的取值为0.6和0.4。
4.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述语音情感特征向量提取的方法为:利用语音特征提取网络的残差结构提取时域和频域上的特征向量,并通过多尺度特征融
...【技术特征摘要】
1.一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述lbph特征和fhog特征的相关性计算方法为:
3.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述权重系数γ和β的取值为0.6和0.4。
4.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述语音情感特征向量提取的方法为:利用语音特征提取网络的残差结构提取时域和频域上的特征向量,并通过多尺度特征融合方法进行融合得到语音情感特征向量。
5.根据权利要求1所述的一种基于语音和视频的多模态深度学习情感分类方法,其特征在于,所述视频情感特征向量的提取方法为:利用面部特征提取网络逐帧提取到面部情绪特征f1,f2,...,fn后,采用时间注意力机制进行加权得到α1f1,α2f2,...,αnfn,加权后的特征再利用门...
【专利技术属性】
技术研发人员:应娜,赵坚,蒋银河,邹雨鉴,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。