当前位置: 首页 > 专利查询>台州学院专利>正文

一种基于多模深度学习的双模态情感识别方法技术

技术编号:24411647 阅读:21 留言:0更新日期:2020-06-06 09:29
本发明专利技术涉及语音和图像处理、模式识别领域,公开了一种基于多模深度学习的双模态情感识别方法,包括步骤:A)分别获得音频和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;B)构建音频深度卷积神经网络和视频深度卷积神经网络,获得高层次音频特征和获得高层次视频特征;C)建立由全连接层构成的融合网络,构建高层次音视频统一特征;D)将融合网络最后一层全连接层输出的音视频统一特征聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果。本发明专利技术采用了全连接层构成的融合网络,实现对音视频情感信息的融合,构建高层次的音视频统一特征表示,有效地提高音视频情感识别性能。

A dual-mode emotion recognition method based on multi-mode deep learning

【技术实现步骤摘要】
一种基于多模深度学习的双模态情感识别方法
本专利技术涉及语音和图像处理、模式识别领域,特别是涉及一种基于多模深度学习的双模态情感识别方法。
技术介绍
语音信号和人脸表情是人类之间情感交流的两种主要方式。融合音视频中的情感语音信息和人脸表情信息进行情感识别,通常称为“音视频情感识别”。音视频情感识别研究的最终目标是让计算机通过情感语音和人脸表情同时对用户的情感信息进行获取、识别和响应,以便帮助用户在和谐、自然地交互模式下高效地完成既定的任务。因此,该研究在人工智能、自然人机交互等领域具有重要的应用价值。在音视频情感特征的提取方面,现有技术采用手工设计的典型的音视频情感特征参数,即语音情感识别领域和人脸表情识别领域中常用的主流特征参数,具体包括:与情感语音相关的韵律特征、音质特征、谱特征,以及与人脸表情相关的形变特征、运动特征等(比如文献:Y.WangandL.Guan.Recognizinghumanemotionalstatefromaudiovisualsignals.IEEETransactiononMultimedia,10(5):936–946,2008.)。尽管这些手工设计的典型的音视频情感特征参数已经成为音视频情感识别研究中的主流特征参数,但是手工设计的情感特征依赖于设计者的经验和专业知识,可靠性不够,很难利用大数据的优势。此外,手工设计的特征都属于低层次的情感特征,因为它们对于情感语义的表示力非常有限,尤其与人脑理解的高层次的情感语义之间存在较大差异,即存在“情感鸿沟”问题。在音视频情感信息的融合策略方面,现有的融合方法,如特征层融合和决策层融合,都是采用某种规则或模型对最后获得的手工设计的音视频情感特征数据进行一次简单的融合操作,如串联,因此它们都属于浅层融合方法。这些浅层融合方法无法对具有高度非线性的音视频情感特征数据之间的内在关系进行深度建模,因而也无法构建出高层次的跨媒体的音视频情感特征数据的统一表征。
技术实现思路
本专利技术是为了解决手工设计特征对于情感语义的表示力有限以及现有融合方法无法构建高层次的音视频统一特征表示的问题,提供一种基于多模深度学习的双模态情感识别方法,本专利技术采用两个深度卷积神经网络(CNN)模型分别对音频、视频信号进行高层次的特征学习,然后采用全连接层构成的融合网络实现音视频情感信息的融合,构建高层次的音视频统一特征表示,用于音视频情感的分类。为了实现上述目的,本专利技术采用以下技术方案:一种基于多模深度学习的双模态情感识别方法,包括步骤:A)采集音视频信号,获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;B)构建音频深度卷积神经网络和视频深度卷积神经网络,利用音频数据样本训练音频深度卷积神经网络,获得高层次音频特征;利用视频数据样本训练深度卷积神经网络,获得高层次视频特征;C)构建高层次的音视频统一特征,建立由全连接层构成的融合网络,融合网络最后一层全连接层与分类器相连;D)将最后一层全连接层的输出聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果,验证融合网络的识别率。通过采用两个深度卷积神经网络模型分别对音频、视频信号进行高层次的特征学习,然后采用全连接层构成的融合网络实现音视频情感信息的融合,构建高层次的音视频统一特征表示,用于音视频情感的分类。进一步地,步骤A)中,获得音频数据样本包括步骤:A1)采集一维的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小,获得N1×N2的二维静态频谱片段特征;A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道,获得特征为N1×N2×3的音频RGB图像三通道输入矩阵;A5)对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理,获得预设特征大小的音频RGB图像三通道输入矩阵;A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为{α1,α2,...,αK}。对于一维的情感语音信号,先采用N1个Mel滤波器和N2帧的文本窗大小,计算出二维的静态频谱片段N1×N2,然后对其在时间轴上进行一阶和二阶求导,以便抓住该频谱片段的时间动态特性。最后,将语音信号的静态的频谱片段特征、以及它的一阶求导系数和二阶求导系数作为RGB图像的三个通道,从而得到一个类似于RGB图像的三维Mel频谱片段,特征为N1×N2×3,然后缩放成预设特征大小的音频RGB图像三通道输入矩阵,将其作为音频深度卷积神经网络的音频输入,获得K个音频数据样本。进一步地,步骤A)中,获得视频数据样本包括步骤:A11)选取与语音Mel频谱片段对应的视频片段最中心的一帧图像作为关键帧图像;A22)对每一幅关键帧图像进行实时性人脸检测与定位;A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到n个像素大小的距离;A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N3×N4×3大小区域图像;A55)对N3×N4×3大小区域图像进行缩放处理,获得预设特征大小的视频RGB图像三通道输入矩阵;A66)依次重复步骤A11)至A55),获得K个视频数据样本,记为{v1,v2,...,vK}。在产生的语音Mel频谱片段所对应的视频片段中,选取该视频片段最中心的一帧图像作为关键帧图像,用于视频的表情识别。进一步地,步骤A5)中,采用双线性内插法对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理;步骤A55)中,采用双线性内插法对N3×N4×3大小区域图像进行缩放处理。通过采用双线性内插法对图像进行缩放处理,使缩放处理后的图像能够满足深度卷积神经网络模型的图像输入特征要求。进一步地,步骤B)中,对音频深度卷积神经网络和视频深度卷积神经网络进行初始化,卷积神经网络均包含5个卷积层、3个池化层和3个全连接层,所有池化层均采用平均池化,最后一层全连接层与分类器相连。对每个音视频片段,均采用两个深度卷积神经网络,在目标情感数据集上进行微调,分别学习出高层次的音频、视频情感特征表示。这两个深度卷积神经网络模型都采用深度卷积神经网络,对其进行初始化,两个卷积神经网络均包含5个卷积层、3个池化层和3个全连接层,3个全连接层分别为fc6,fc7和fc8。其中,fc7层表示卷积神经网络所学习到的高层次的属性特征;而fc8层与分类器相连,利用分类器输出情感识别分类结果。进一步地,步骤B)中,还包括计算总样本损失函数,更新网络权重值;通过计算得到损失函数,其中,表示第j个情感识别类别的真实值,Sj表示深度卷积神经网络的分类器输出的第j个情感识别本文档来自技高网
...

【技术保护点】
1.一种基于多模深度学习的双模态情感识别方法,其特征在于,包括步骤:/nA)采集音视频信号,获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;/nB)构建音频深度卷积神经网络和视频深度卷积神经网络,利用音频数据样本训练音频深度卷积神经网络,获得高层次音频特征;利用视频数据样本训练深度卷积神经网络,获得高层次视频特征;/nC)构建高层次的音视频统一特征,建立由全连接层构成的融合网络,融合网络最后一层全连接层与分类器相连;/nD)将最后一层全连接层的输出聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果,验证融合网络的识别率。/n

【技术特征摘要】
1.一种基于多模深度学习的双模态情感识别方法,其特征在于,包括步骤:
A)采集音视频信号,获取语音Mel频谱片段和与语音Mel频谱片段对应的视频片段,获得音频RGB图像三通道输入矩阵和视频RGB图像三通道输入矩阵,获得音频数据样本和视频数据样本;
B)构建音频深度卷积神经网络和视频深度卷积神经网络,利用音频数据样本训练音频深度卷积神经网络,获得高层次音频特征;利用视频数据样本训练深度卷积神经网络,获得高层次视频特征;
C)构建高层次的音视频统一特征,建立由全连接层构成的融合网络,融合网络最后一层全连接层与分类器相连;
D)将最后一层全连接层的输出聚合成全局特征,将全局特征输入到分类器中,获得音视频情感识别分类结果,验证融合网络的识别率。


2.根据权利要求1所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤A)中,获得音频数据样本包括步骤:
A1)采集一维的情感语音信号,采用N1个Mel滤波器和N2帧的文本窗大小,获得N1×N2的二维静态频谱片段特征;
A2)对二维静态频谱片段特征在时间轴上进行一阶求导,获得一阶求导系数;
A3)对二维静态频谱片段特征在时间轴上进行二阶求导,获得二阶求导系数;
A4)将语音信号的二维静态频谱片段特征、一阶求导系数和二阶求导系数分别作为RGB图像的三通道,获得特征为N1×N2×3的音频RGB图像三通道输入矩阵;
A5)对特征为N1×N2×3的音频RGB图像三通道输入矩阵进行缩放处理,获得预设特征大小的音频RGB图像三通道输入矩阵;
A6)依次重复步骤A1)至A5),获得K个音频数据样本,记为{α1,α2,...,αK}。


3.根据权利要求2所述的一种基于多模深度学习的双模态情感识别方法,其特征在于,步骤A)中,获得视频数据样本包括步骤:
A11)选取与语音Mel频谱片段对应的视频片段最中心的一帧图像作为关键帧图像;
A22)对每一幅关键帧图像进行实时性人脸检测与定位;
A33)计算出人脸双眼瞳孔中心之间的距离,将双眼瞳孔中心之间的距离统一缩放到n个像素大小的距离;
A44)把图像裁切成包含嘴巴、鼻子、额头等关键表情部位的N3×N4×3大小区域图像;
A55)对N3×N4×3大小区域图像进行缩放处理,获得预设特征大小的视频RGB图像三通道输入矩阵;
A66)依次重复步骤A11)至A55),获得K个视频数据样本,记为{v1,v2,...,vK}。


4.根据权利要求3所述的一种基...

【专利技术属性】
技术研发人员:赵小明张石清
申请(专利权)人:台州学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1