一种基于表情和语音双模态的儿童情感识别算法制造技术

技术编号：32132041 阅读：16 留言：0更新日期：2022-01-29 19:33

本发明专利技术涉及情感识别，具体涉及一种基于表情和语音双模态的儿童情感识别算法，利用语音特征和表情特征的情感标签信息构建语义特征空间，通过多尺度特征提取方法提取音频、视频的局部特征、全局特征，并将音频、视频的局部特征、全局特征投影至语义特征空间，语义特征空间从中选择出对情感分类具有贡献的重要特征，进行情感判断识别；本发明专利技术提供的技术方案能够有效克服现有技术所存在的不能对情感进行准确判断识别的缺陷。确判断识别的缺陷。确判断识别的缺陷。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于表情和语音双模态的儿童情感识别算法

[0001]本专利技术涉及情感识别，具体涉及一种基于表情和语音双模态的儿童情感识别算法。

技术介绍

[0002]儿童的情绪有着各种各样的表达方式，如语音、表情、姿态、动作等，我们可以从中提取有效信息，进行正确分析。而语音和表情信息最为其中最为明显和最容易分析的特征，得到了广泛的研究和应用。心理学家Mehrabian给出了一个公式：情感表露＝7％的言辞+38％的声音+55％的面部表情，可见人的语音和表情信息涵盖93％的情感信息，是交流信息中的核心。在情绪表达的过程中，通过面部表情变化能够有效且直观地表达出内心情感，是情感识别最为重要的特征信息之一，语音特征同样也能表达出丰富的情感。
[0003]传统的单模态识别可能存在单一情感特征不能很好地表征情感状态的问题，例如，在表达悲伤的情感时，面部表情可能没有较大变化，但此时可以从低沉、低缓的语音特征中分辨出悲伤失落的情绪。多模态识别使得不同模态间的信息能够互补，为情感识别提供更多信息，提高情感识别的准确率。
[0004]但目前，单模态情感识别研究较为成熟，针对多模态的情感识别方法还有待发展和完善。因此，多模态情感识别具有十分重要的实际应用意义，而作为最为显性的语音特征、表情特征，基于二者的双模态情感识别具有重要的研究意义和应用价值。在传统双模态情感识别中，采用加权方法忽略了各特征对于情感识别的贡献度，不利于对情感进行准确地判断识别。

技术实现思路

[0005](一)解决的技术问题
[0006]...

【技术保护点】

【技术特征摘要】
1.一种基于表情和语音双模态的儿童情感识别算法，其特征在于：利用语音特征和表情特征的情感标签信息构建语义特征空间，通过多尺度特征提取方法提取音频、视频的局部特征、全局特征，并将音频、视频的局部特征、全局特征投影至语义特征空间，语义特征空间从中选择出对情感分类具有贡献的重要特征，进行情感判断识别。2.根据权利要求1所述的基于表情和语音双模态的儿童情感识别算法，其特征在于：所述通过多尺度特征提取方法提取音频的局部特征，包括：以预设采样周期对音频进行采样，得到各音频帧，并对各音频帧进行傅里叶变化，得到语谱图；对输出门卷积神经网络进行模型训练，利用训练好的输出门卷积神经网络对语谱图进行特征提取，得到音频的局部特征。3.根据权利要求2所述的基于表情和语音双模态的儿童情感识别算法，其特征在于：所述输出门卷积神经网络包括多个卷积层，每一个卷积层后连接一个对应的池化层，所述池化层用于在时域和/或频域进行降采样，各池化层在时域上的总降采样率小于在频域上的总降采样率。4.根据权利要求2所述的基于表情和语音双模态的儿童情感识别算法，其特征在于：所述语谱图的横坐标为音频帧对应的时间，所述语谱图的纵坐标为音频帧对应的频谱值。5.根据权利要求1所述的基于表情和语音双模态的儿童情感识别算法，其特征在于：所述通过多尺度特征提取方法提取视频的局部特征，包括：利用卷积层对图像进行提取得到特征图，通过RPN网络对特征图进行进行目标检测与精确定位，得到候选区，并通过FastR
‑
CNN网络中的ROIPooling层对候选区进行最大池化，输出一组包括多个维度相同的视频局部特征。6.根据权利要求5所述的基于表情和语音双模态的儿童情感识别算法，其特征在于：所述通过RPN网络对特征图进行进行目标检测与精确定位，得到候选区，包括：通过RPN网络对特征图进行卷积计算，得到尺度变换后的特征图；利用softma...

【专利技术属性】
技术研发人员：张云龙，
申请(专利权)人：安徽兰臣信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人