当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于特征-时间注意力机制的多模态情感识别方法技术

技术编号:28421945 阅读:124 留言:0更新日期:2021-05-11 18:29
本发明专利技术公开了一种基于特征‑时间注意力机制的多模态情感识别方法,包括以下步骤,构建神经网络模型,获取含有情感信息的音视频样本和视频初级特征矩阵;获取音频初级特征矩阵;根据视频初级特征矩阵和音频初级特征矩阵得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块;将经过处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;获取注意力权重,根据注意力权重得到高级特征向量;得到训练后可以对音视频样本进行情感分类的神经网络模型;采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。通过本发明专利技术可以实现提升对于对音视频中人脸情感识别的准确率。

【技术实现步骤摘要】
一种基于特征-时间注意力机制的多模态情感识别方法
本专利技术涉及模式识别的
,尤其涉及一种基于特征-时间注意力机制的多模态情感识别方法。
技术介绍
情感作为人类生活体验的一个重要基础,影响着人类的认知、感知和日常生活。1971年,心理学家Ekman和Friesen通过跨文化研究将人的情感分为6种基本的情感类别,依次为高兴(Happy)、悲伤(Sad)、吃惊(Surprise)、愤怒(Angry)、恐惧(Fear)和厌恶(Disgust),这6类情感类别具有通用性,并且可以在此基础上合成更多细粒度的次级情感类别。1997年,Picard教授首先提出了“情感计算”的概念,情感计算涉及心理学、认知学、模式识别、语音信号处理、生理学、社会学、计算机视觉和人工智能等方面,它利用计算机获取人类的脸部表情、语音等信息来识别人类表现出的情感状态,从而使机器能够更好地理解人类的情感和行为,以此带来更流畅和高效的交互体验。“多模态”的概念最早由Duc等人提出,旨在利用表情和语音模态信息来识别人的身份和行为。多模态融合的方法一般有特征融合和决策融合。特征融合能够最大程度得保留各个模态的信息,但也存在着多个模态信息同步问题和因特征维度太大而出现的过拟合问题。决策融合是在各个模态模型得出情感识别结果后,对最后的结果以某种规则进行最后判决,灵活性高,实时性强,但由于最后只能获得各个模态上的判定结果,信息量较少,相对精度较低。随着近年来深度学习技术的不断发展,越来越多的研究者将其应用于多模态情感识别,Chen等人在2016年EmotiW情感识别挑战赛中,在语音模态上使用声学统计特征等多种语音特征,在人脸表情模态上使用CNN特征等多种人脸表情特征,针对每种特征训练支持向量机、随机森林和逻辑回归分类器,并采用决策融合的方法来实现最后的情感识别,取得了远高于基线的成绩。Noroozi等人提出了一种新型的基于语音和视频的决策融合方法的多模态情感识别系统,从语音中提取基于MFCC的特征,并从视频中计算面部标记的几何关系,在eNTERFACE’05数据库上取得了较好的识别效果。Chao等人在2015年EmotiW情感识别挑战赛中融合了使用长短时记忆神经网络聚合的语音和人脸表情特征,并对得到的特征采用SVM分类器来实现最后的分类,实现特征融合方法的情感识别方法,在测试集上取得了很高的识别率。由于用于训练神经网络的多模态数据较少,且多模态融合特征维度较高,深度网络极易出现过拟合且十分依赖人的先验知识,为此需要引入一种使网络自动关注局部有效信息地机制,即注意力机制。注意力机制在自然语言处理领域被提出并广泛应用,近年来也被迁移到模式识别任务中使用,表现出良好的提升效果。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种基于特征-时间注意力机制的多模态情感识别方法,该专利技术能够提升对于音视频中人物情感识别的准确率。技术方案:为了实现上述专利技术目的,本专利技术提供了一种基于特征-时间注意力机制的多模态情感识别方法,包括以下步骤,步骤1:构建情感识别网络模型,获取含有情感信息的音视频样本,对样本中的视频模态数据提取人脸灰度图像并使用深度残差网络编码为固定维度的特征向量得到视频初级特征矩阵;步骤2:对样本中的音频模态数据提取梅尔频率倒谱系数,得到音频初级特征矩阵;步骤3:将视频初级特征矩阵和音频初级特征矩阵分别进行下采样和帧级特征融合,得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块,学习特征中更为重要的维度并提高其权重;步骤4:将经过特征自注意力机制模块处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;步骤5:使用时间注意力模块计算最后一个隐藏层的状态向量与所有时刻的输出向量之间的注意力,得到注意力权重,根据注意力权重对每一时刻的输出向量进行加权求和,得到高级特征向量;步骤6:将高级特征向量输入全连接分类层,输出每一情感类别的预测概率,与实际概率分布之间计算交叉熵损失,并通过反向传播训练整个网络不断更新权重,得到训练后可以对音视频样本进行情感分类的神经网络模型;步骤7:采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。进一步的,在本专利技术中:所述步骤1还包括,步骤1-1:对视频模态数据以25fps的帧率提取图像序列并进行灰度化处理;步骤1-2:对所有提取出的灰度图像帧进行人脸检测以及人脸68点关键点定位处理;步骤1-3:根据定位处理得到的关键点,以31号关键点鼻尖为中心,以s为边长,裁剪出人脸正方形区域,并归一化为64×64的尺寸、[0,1]的像素值范围,边长s的取值为:其中,xright和xleft分别表示表示人脸最左侧1号关键点与最右侧17号关键点的横坐标,xcenter和ycenter分别表示中心点的横纵坐标,width和height分别表示图像帧宽与帧高,min表示取最小值;步骤1-4:将归一化后的人脸图像序列输入所述深度残差网络,并将每一幅人脸图像编码为128维的特征向量,得到视频初级特征矩阵V;其中,所述的深度残差网络包括17个卷积层与1个全连接层,除第一个卷积层外每2个卷积层以shortcut结构组成一个残差模块,卷积层的卷积核数量随网络深度增加而不断增加。网络权重通过随机初始化得到并在训练过程中通过反向传播不断更新。进一步的,在本专利技术中:所述步骤2还包括,步骤2-1:对所述的音频模态数据以16kHz的采样率进行采样并将1024个采样点集合成一个观测单位,为1帧,帧长为64ms,且相邻两帧之间包括一段重叠区域,重叠区域的长度为帧移,帧移=音频采样率/视频帧率+1=641;步骤2-2:对每一帧信号加汉明窗,得到加窗后的帧信号为:s′(n)=s(n)×w(n,a)其中,s′(n)表示加窗后的帧信号,s(n)表示加窗前的帧信号,n=0,1,...,N-1,N为帧长,w(n,a)为汉明窗函数,具体为:其中,a为预设常量;步骤2-3:对分帧加窗后的各帧信号进行离散傅里叶变换得到各帧的频谱,并对频谱取模平方得到功率谱,频谱计算和功率谱计算式为:其中,S(k)表示频谱,P(k)表示功率谱,k=0,1,...,N-1,N为帧长;步骤2-4:定义梅尔尺度三角形滤波器组,得到的滤波器频率响应Hm(k)为:其中,f(m)为中心频率,m=0,1,...,M,M为滤波器个数;步骤2-5:每一帧的功率谱P(k)与所述滤波器组中的滤波器进行频率相乘累加并取对数,得到该帧数据在该滤波器对应频段的功率值h(m),即:步骤2-6:功率值h(m)进行离散余弦变换得到梅尔倒谱系数向量C(l),该操作具体为:其中,l=0,1,...,L,L为梅尔倒谱系数的阶数,即音频初级特征维度,向量C(l)以0.5倍下采样得到音频初级特征矩阵A本文档来自技高网
...

【技术保护点】
1.一种基于特征-时间注意力机制的多模态情感识别方法,其特征在于:包括以下步骤,/n步骤1:构建情感识别网络模型,获取含有情感信息的音视频样本,对样本中的视频模态数据提取人脸灰度图像并使用深度残差网络编码为固定维度的特征向量得到视频初级特征矩阵;/n步骤2:对样本中的音频模态数据提取梅尔频率倒谱系数,得到音频初级特征矩阵;/n步骤3:将视频初级特征矩阵和音频初级特征矩阵分别进行下采样和帧级特征融合,得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块,学习特征中更为重要的维度并提高其权重;/n步骤4:将经过特征自注意力机制模块处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;/n步骤5:使用时间注意力模块计算最后一个隐藏层的状态向量与所有时刻的输出向量之间的注意力,得到注意力权重,根据注意力权重对每一时刻的输出向量进行加权求和,得到高级特征向量;/n步骤6:将高级特征向量输入全连接分类层,输出每一情感类别的预测概率,与实际概率分布之间计算交叉熵损失,并通过反向传播训练整个网络不断更新权重,得到训练后可以对音视频样本进行情感分类的神经网络模型;/n步骤7:采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。/n...

【技术特征摘要】
1.一种基于特征-时间注意力机制的多模态情感识别方法,其特征在于:包括以下步骤,
步骤1:构建情感识别网络模型,获取含有情感信息的音视频样本,对样本中的视频模态数据提取人脸灰度图像并使用深度残差网络编码为固定维度的特征向量得到视频初级特征矩阵;
步骤2:对样本中的音频模态数据提取梅尔频率倒谱系数,得到音频初级特征矩阵;
步骤3:将视频初级特征矩阵和音频初级特征矩阵分别进行下采样和帧级特征融合,得到融合特征矩阵,将融合特征矩阵输入特征自注意力机制模块,学习特征中更为重要的维度并提高其权重;
步骤4:将经过特征自注意力机制模块处理的融合特征矩阵输入双向门控循环单元网络,得到所有时刻的输出向量以及最后一个隐藏层的状态向量;
步骤5:使用时间注意力模块计算最后一个隐藏层的状态向量与所有时刻的输出向量之间的注意力,得到注意力权重,根据注意力权重对每一时刻的输出向量进行加权求和,得到高级特征向量;
步骤6:将高级特征向量输入全连接分类层,输出每一情感类别的预测概率,与实际概率分布之间计算交叉熵损失,并通过反向传播训练整个网络不断更新权重,得到训练后可以对音视频样本进行情感分类的神经网络模型;
步骤7:采集待检测的音视频并将其输入训练后的神经网络模型,得到情感分类结果。


2.如权利要求1所述的基于特征-时间注意力机制的多模态情感识别方法,其特征在于:所述步骤1还包括,
步骤1-1:对视频模态数据以25fps的帧率提取图像序列并进行灰度化处理;
步骤1-2:对所有提取出的灰度图像帧进行人脸检测以及人脸68点关键点定位处理;
步骤1-3:根据定位处理得到的关键点,以31号关键点鼻尖为中心,以s为边长,裁剪出人脸正方形区域,并归一化为64×64的尺寸、[0,1]的像素值范围,边长s的取值为:



其中,xright和xleft分别表示表示人脸最左侧1号关键点与最右侧17号关键点的横坐标,xcenter和ycenter分别表示中心点的横纵坐标,width和height分别表示图像帧宽与帧高,min表示取最小值;
步骤1-4:将归一化后的人脸图像序列输入深度残差网络,并将每一幅人脸图像编码为128维的特征向量,得到视频初级特征矩阵V;其中,所述的深度残差网络包括17个卷积层与1个全连接层,除第一个卷积层外每2个卷积层以shortcut结构组成一个残差模块,卷积层的卷积核数量随网络深度增加而不断增加。网络权重通过随机初始化得到并在训练过程中通过反向传播不断更新。


3.如权利要求2所述的基于特征-时间注意力机制的多模态情感识别方法,其特征在于:所述步骤2还包括,
步骤2-1:对所述的音频模态数据以16kHz的采样率进行采样并将1024个采样点集合成一个观测单位,为1帧,帧长为64ms,且相邻两帧之间包括一段重叠区域,重叠区域的长度为帧移,帧移=音频采样率/视频帧率+1=641;
步骤2-2:对每一帧信号加汉明窗,得到加窗后的帧信号为:
s′(n)=s(n)×w(n,a)
其中,s′(n)表示加窗后的帧信号,s(n)表示加窗前的帧信号,n=0,1,...,N-1,N为帧长,w(n,a)为汉明窗函数,具体为:



其中,a为预设常量;
步骤2-3:对分帧加窗后的各帧信号进行离散傅里叶变换得到各帧的频谱,并对频谱取模平方得到功率谱,频谱计算和功率谱计算式为:






其中,S(k)表示频谱,P(k)表示功率谱,k=0,1,...,N-1,N为帧长;
步骤2-4:定义梅尔尺度三角形滤波器组,得到的滤波器频率响应Hm(k)为:



其中,f(m)为中心频率,m=0,1,...,M,M为滤波器个数;
步骤2-5:每一帧的功率谱P(k)与所述滤波器组中的滤波器进行频率相乘累加并取对数,得到该帧数据在该滤波器对应频段的功率值h(m),即:

【专利技术属性】
技术研发人员:李克梁瑞宇赵力郭如雪
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1