语音情绪识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：21632277 阅读：26 留言：0更新日期：2019-07-17 12:12

本申请公开了一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质，其中，方法包括：获取用户的语音数据；根据语音数据确定用户的用户属性信息；根据用户属性信息和语音数据，确定用户的情绪类别，由此，该方法不依赖语音识别技术，无需将语音转化为本文，只需通过语音数据确定用户的属性信息，并基于该属性信息实现用户的语音情绪识别，相对于传统方式仅通过通用模型实现用户的情绪识别而言，本申请基于用户属性实现用户的语音情绪识别，可以有效提升情绪识别效果，提高识别准确率。

Speech Emotion Recognition Method, Device, Computer Equipment and Storage Media

全部详细技术资料下载

【技术实现步骤摘要】
语音情绪识别方法、装置、计算机设备和存储介质
本申请涉及数据处理
，尤其涉及一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质。
技术介绍
语音交互是人工智能时代重要的交互模式，随着物联网的发展以及智能硬件的推广，人们开始使用语音进行交流，通过语音控制各种智能产品，根据用户的语音，进而识别出用户情绪，从而对用户作出不同的情感反馈，使交互系统更加人性化，提高交互质量。相关技术中，语音情绪识别的方式主要有以下三种方式，第一种方式是，利用语音识别技术将语音转化成文本，再通过文本情感分析技术来识别语音中的情绪；第二种方式是，抽取语音信号中的声学特征，然后通过统计函数(如均值，标准差等)将声学特征组合成固定维度的统计特征，再通过传统的机器学习模型进行训练，从而判断语音信号的情感；第三种方式是，对原始语音信号，或者将语音转化成语谱图特征，再通过深度神经网络模型进行训练，从而判断语音信号的情绪。但是，目前存在的技术问题是：上述第一种方式，一方面依赖于语音识别的准确率，在对话交互场景下，很多口语化的表达，经常会识别错误，尤其是相对嘈杂一点的环境，另一方面很多情绪的表达单纯通过文本是分析不出来的，例如“我想去购物啦”，语音表达上可以表现出“愤怒”、“厌烦”甚至“伤心”等情绪，但通过文本并不能看出来，情绪识别率低；第二种方式，依赖于对各种语音特征的抽取和选择，但目前相关技术并不能提取出较好的情感语音特征，导致语音的情绪识别准确率不高；第三种方式，深度神经网络模型需要大量语音标注数据，需要消耗巨大的标注成本，并且现实中的语音数据有偏且样本数量少，难以支持复杂模型的...

【技术保护点】
1.一种语音情绪识别方法，其特征在于，包括：获取用户的语音数据；根据所述语音数据确定所述用户的用户属性信息；根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别。

【技术特征摘要】
1.一种语音情绪识别方法，其特征在于，包括：获取用户的语音数据；根据所述语音数据确定所述用户的用户属性信息；根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别。2.根据权利要求1所述的方法，其特征在于，所述用户属性信息包括性别和年龄段信息。3.根据权利要求2所述的方法，其特征在于，所述根据所述语音数据确定所述用户的用户属性信息，包括：提取所述语音数据中的频率相关特征和梅尔频率倒谱系数特征；将所述频率相关特征和梅尔频率倒谱系数特征输入预先建立的声纹感知模型进行性别分类和年龄段预估，得到所述用户的性别和年龄段信息。4.根据权利要求3所述的方法，其特征在于，通过以下步骤预先建立所述声纹感知模型：获取样本语音数据；对所述样本语音数据进行性别和年龄段标注，得到所述样本语音数据的标注数据；提取所述样本语音数据的频率相关特征和梅尔频率倒谱系数特征；根据所述样本语音数据的频率相关特征、梅尔频率倒谱系数特征和所述标注数据，对第一分类模型进行训练，得到所述声纹感知模型。5.根据权利要求2至4中任一项所述的方法，其特征在于，所述根据所述用户属性信息和所述语音数据，确定所述用户的情绪类别，包括：根据所述用户的性别获取对应的语音情绪识别模型；提取所述语音数据的声学特征和语谱图特征；根据所述用户的年龄段信息、所述声学特征、语谱图特征和与所述用户的性别对应的语音情绪识别模型，确定所述用户的情绪类别。6.根据权利要求5所述的方法，其特征在于，所述语音情绪识别模型包括第一输入层、第二输入层和输出层，其中，所述第一输入层用于对所述用户的年龄段信息和所述声学特征进行特征提取以得到第一组合特征；所述第二输入层用于对所述语谱图特征进行特征提取以得到第二组合特征；所述输出层用于对所述第一组合特征和第二组合特征进行拼接以得到拼接特征，并基于第二分类模型对所述拼接特征进行情绪识别以输出各个情绪标签的概率分布。7.根据权利要求6所述的方法，其特征在于，所述根据所述用户的年龄段信息、所述声学特征、语谱图特征和与所述用户的性别对应的语音情绪识别模型，确定所述用户的情绪类别，包括：将所述用户的年龄段信息、所述声学特征和所述语谱图特征输入至所述语音情绪识别模型中进行情绪识别，得到各个情绪标签的概率；根据所述各个情绪标签的概率进行阈值判断；根据阈值判断结果，从所述各个情绪标签中确定所述用户的情绪类别。8.根据权利要求7所述的方法，其特征在于，所述根据阈值判断结果，从所述各个情绪标签中确定所述用户的情绪类别，包括：如果大于所述阈值的概率的个数为一个，则将大于所述阈值的概率所对应的情绪标签作为所述用户的情绪类别；如果大于所述阈值的概率的个数为多个，则判断多个大于所述阈值的概率之间的差值是否小于或等于预设阈值；若是，则确定所述多个大于所述阈值的概率所对应的多个情绪标签，并根据预设策略从所述多个情绪标签中选取目标情绪标签，并将所述目标情绪标签确定为所述用户的情绪类别；若否，则从所述多个大于所述阈值的概率中找出最大概率，并将所述最大概率所对应的情绪标签确定为所述用户的情绪类别。9.根据权利要求8所述的方法，其特征在于，在根据预设策略从所述多个情绪标签中选取目标情绪标签之后，所述方法还包括：增大所述目标情绪标签的概率；根据所述目标情绪标签的增大后的概率，对所述各个情绪标签的概率重新进行归一化。10.一种语音情绪识别装置，其特征在于，包括：语音获取模块，用于获取用户的语音数据；属性信息确定模块，用于根据所述语音数据确定所述用户的用户属性信息；情绪类别确定模块，用于根据所述用户属性信息...

【专利技术属性】
技术研发人员：陈炳金，林英展，梁一川，黄世维，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人