一种基于表情和语音双模态的儿童情感识别算法制造技术

技术编号:32132041 阅读:16 留言:0更新日期:2022-01-29 19:33
本发明专利技术涉及情感识别,具体涉及一种基于表情和语音双模态的儿童情感识别算法,利用语音特征和表情特征的情感标签信息构建语义特征空间,通过多尺度特征提取方法提取音频、视频的局部特征、全局特征,并将音频、视频的局部特征、全局特征投影至语义特征空间,语义特征空间从中选择出对情感分类具有贡献的重要特征,进行情感判断识别;本发明专利技术提供的技术方案能够有效克服现有技术所存在的不能对情感进行准确判断识别的缺陷。确判断识别的缺陷。确判断识别的缺陷。

【技术实现步骤摘要】
一种基于表情和语音双模态的儿童情感识别算法


[0001]本专利技术涉及情感识别,具体涉及一种基于表情和语音双模态的儿童情感识别算法。

技术介绍

[0002]儿童的情绪有着各种各样的表达方式,如语音、表情、姿态、动作等,我们可以从中提取有效信息,进行正确分析。而语音和表情信息最为其中最为明显和最容易分析的特征,得到了广泛的研究和应用。心理学家Mehrabian给出了一个公式:情感表露=7%的言辞+38%的声音+55%的面部表情,可见人的语音和表情信息涵盖93%的情感信息,是交流信息中的核心。在情绪表达的过程中,通过面部表情变化能够有效且直观地表达出内心情感,是情感识别最为重要的特征信息之一,语音特征同样也能表达出丰富的情感。
[0003]传统的单模态识别可能存在单一情感特征不能很好地表征情感状态的问题,例如,在表达悲伤的情感时,面部表情可能没有较大变化,但此时可以从低沉、低缓的语音特征中分辨出悲伤失落的情绪。多模态识别使得不同模态间的信息能够互补,为情感识别提供更多信息,提高情感识别的准确率。
[0004]但目前,单模态情感识别研究较为成熟,针对多模态的情感识别方法还有待发展和完善。因此,多模态情感识别具有十分重要的实际应用意义,而作为最为显性的语音特征、表情特征,基于二者的双模态情感识别具有重要的研究意义和应用价值。在传统双模态情感识别中,采用加权方法忽略了各特征对于情感识别的贡献度,不利于对情感进行准确地判断识别。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术所存在的上述缺点,本专利技术提供了一种基于表情和语音双模态的儿童情感识别算法,能够有效克服现有技术所存在的不能对情感进行准确判断识别的缺陷。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0009]一种基于表情和语音双模态的儿童情感识别算法,利用语音特征和表情特征的情感标签信息构建语义特征空间,通过多尺度特征提取方法提取音频、视频的局部特征、全局特征,并将音频、视频的局部特征、全局特征投影至语义特征空间,语义特征空间从中选择出对情感分类具有贡献的重要特征,进行情感判断识别。
[0010]优选地,所述通过多尺度特征提取方法提取音频的局部特征,包括:
[0011]以预设采样周期对音频进行采样,得到各音频帧,并对各音频帧进行傅里叶变化,得到语谱图;
[0012]对输出门卷积神经网络进行模型训练,利用训练好的输出门卷积神经网络对语谱图进行特征提取,得到音频的局部特征。
[0013]优选地,所述输出门卷积神经网络包括多个卷积层,每一个卷积层后连接一个对应的池化层,所述池化层用于在时域和/或频域进行降采样,各池化层在时域上的总降采样率小于在频域上的总降采样率。
[0014]优选地,所述语谱图的横坐标为音频帧对应的时间,所述语谱图的纵坐标为音频帧对应的频谱值。
[0015]优选地,所述通过多尺度特征提取方法提取视频的局部特征,包括:
[0016]利用卷积层对图像进行提取得到特征图,通过RPN网络对特征图进行进行目标检测与精确定位,得到候选区,并通过FastR

CNN网络中的ROI Pooling层对候选区进行最大池化,输出一组包括多个维度相同的视频局部特征。
[0017]优选地,所述通过RPN网络对特征图进行进行目标检测与精确定位,得到候选区,包括:
[0018]通过RPN网络对特征图进行卷积计算,得到尺度变换后的特征图;
[0019]利用softmax函数对尺度变换后的特征图中的锚框进行分类,得到含有目标物体的前景候选区;
[0020]计算尺度变换后的特征图中锚框的边框回归偏移量,得到精确候选区;
[0021]基于前景候选区、精确候选区得到预候选区,并基于NMS剔除尺寸较小以及超出边界的预候选区,得到候选区。
[0022]优选地,所述通过Fast R

CNN网络中的ROI Pooling层对候选区进行最大池化,包括:
[0023]将精确候选区映射到特征图的对应位置,在特征图上得到映射后的精确候选区;
[0024]将映射后的精确候选区划分为多个大小相同的子窗口,并对每个子窗口进行最大池化,得到一组包括多个维度相同的视频局部特征。
[0025]优选地,所述通过多尺度特征提取方法提取音频、视频的全局特征,包括:
[0026]将多组音频局部特征、视频局部特征分别进行DAC特征融合,使得类内的相关性最大化、类间的相关性最小,分别得到音频、视频的全局特征。
[0027]优选地,所述语义特征空间通过双稀疏线性判别分析,在利用语音特征和表情特征的情感标签信息基础上构建而成,所述双稀疏线性判别分析在将音频、视频的局部特征、全局特征投影至语义特征空间的过程中,根据语音、表情的特征对情感分类的贡献,从音频、视频的局部特征、全局特征中选择重要特征。
[0028]优选地,所述语义特征空间从中选择出对情感分类具有贡献的重要特征,进行情感判断识别,包括:
[0029]利用联合稀疏减秩回归模型根据局部特征、全局特征对于情感识别的贡献大小,学习出衡量其贡献度的权值,并且通过联合稀疏减秩回归模型对加权后的局部特征、全局特征进行二次学习,选择出具有区分不同情感状态能力的特征。
[0030](三)有益效果
[0031]与现有技术相比,本专利技术所提供的一种基于表情和语音双模态的儿童情感识别算法,通过双稀疏线性判别分析,在利用语音特征和表情特征的情感标签信息基础上构建语义特征空间,通过多尺度特征提取方法提取音频、视频的局部特征、全局特征,并投影至语义特征空间,利用联合稀疏减秩回归模型根据局部特征、全局特征对于情感识别的贡献大
小,学习出衡量其贡献度的权值,并且通过联合稀疏减秩回归模型对加权后的局部特征、全局特征进行二次学习,选择出具有区分不同情感状态能力的特征,从而能够根据特征对于情感识别的贡献度确定对应权值,并且能够基于具有区分不同情感状态能力的特征对情感进行准确判断识别。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]图1为本专利技术的流程示意图。
具体实施方式
[0034]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]一种基于表情和语音双模态的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于表情和语音双模态的儿童情感识别算法,其特征在于:利用语音特征和表情特征的情感标签信息构建语义特征空间,通过多尺度特征提取方法提取音频、视频的局部特征、全局特征,并将音频、视频的局部特征、全局特征投影至语义特征空间,语义特征空间从中选择出对情感分类具有贡献的重要特征,进行情感判断识别。2.根据权利要求1所述的基于表情和语音双模态的儿童情感识别算法,其特征在于:所述通过多尺度特征提取方法提取音频的局部特征,包括:以预设采样周期对音频进行采样,得到各音频帧,并对各音频帧进行傅里叶变化,得到语谱图;对输出门卷积神经网络进行模型训练,利用训练好的输出门卷积神经网络对语谱图进行特征提取,得到音频的局部特征。3.根据权利要求2所述的基于表情和语音双模态的儿童情感识别算法,其特征在于:所述输出门卷积神经网络包括多个卷积层,每一个卷积层后连接一个对应的池化层,所述池化层用于在时域和/或频域进行降采样,各池化层在时域上的总降采样率小于在频域上的总降采样率。4.根据权利要求2所述的基于表情和语音双模态的儿童情感识别算法,其特征在于:所述语谱图的横坐标为音频帧对应的时间,所述语谱图的纵坐标为音频帧对应的频谱值。5.根据权利要求1所述的基于表情和语音双模态的儿童情感识别算法,其特征在于:所述通过多尺度特征提取方法提取视频的局部特征,包括:利用卷积层对图像进行提取得到特征图,通过RPN网络对特征图进行进行目标检测与精确定位,得到候选区,并通过FastR

CNN网络中的ROIPooling层对候选区进行最大池化,输出一组包括多个维度相同的视频局部特征。6.根据权利要求5所述的基于表情和语音双模态的儿童情感识别算法,其特征在于:所述通过RPN网络对特征图进行进行目标检测与精确定位,得到候选区,包括:通过RPN网络对特征图进行卷积计算,得到尺度变换后的特征图;利用softma...

【专利技术属性】
技术研发人员:张云龙
申请(专利权)人:安徽兰臣信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1