一种语音情感识别方法、装置、设备和计算机存储介质制造方法及图纸

技术编号：25712126 阅读：18 留言：0更新日期：2020-09-23 02:58

本发明专利技术公开了一种语音情感识别方法、装置、设备及计算机存储介质，方法包括：获取用户的音素标签；其中音素标签为判断用户的情感数据集的发音字典；提取每个音素标签的one‑hot向量，并将每个one‑hot向量按照时域拼接成二维矩阵，以生成音素特征音素特征；获取用户的语音特征；将语谱图特征以及音素特征分别输入至神经网络模型中，以获得情感预测输出特征，并根据情感预测输出特征以识别出用户的语音情感。本发明专利技术能够结合语谱图特征和音素特征对语音情感进行识别，通过音素信息的辅助提高了分类准确性，且减少了人工干扰。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音情感识别方法、装置、设备和计算机存储介质
本专利技术涉及语音研究领域，尤其涉及一种语音情感识别方法、装置、设备和计算机存储介质。
技术介绍
语音情感识别是语音研究领域里的一个重要分支，是根据人的说话语音来判定其所属情感的技术，设计到信号处理、特征提取、模式识别等多项语音研究中的核心问题。近年来，s随着信息技术的飞速发展，语音情感识别在多个场景有着重要应用，具体体现如下：1、话务系统，大型商业机构每天都需要处理成千上万的客户通话，其中，保证电话客户的满意度是防止客户流失的一项重要举措，因此对于通话中客户不满情绪，需要得到及时发现和预警。2、教育事业，研究表明，学习者的学习效果和其情感状态有着很大关联，在学习过程中略微负面的情绪有助于批判性思维的产生。3、广告投放，以往广告投放者只能大范围投放广告，以求对潜在客户的最大化覆盖，然而这种投放方式成本较高，且针对性差。广告阅读者的情感倾向是其对广告评价的最直接反馈。基于语音情感识别系统，可以获取阅读者的情感状态，帮助广告投放者得到阅读者评价的反馈信息，改变投放策略，降低成本。但是，由于情感的复杂性，目前有两种定义方法，一种是离散情感定义，一种是连续情感定义。离散情感定义是一种直观又简单的方法，评估者通过自己的主观感受，将语音标记为某一类定义好的情感类别，例如“高兴”，“难过”，“生气”等。连续情感定义不是使用情感类别，而是使用在某些心理学维度上的评分来衡量感情，常用的模型是强度-效价模型，强度反应出发声的某些特征，通常强度越高的声音，其高频部分包含的能量越高，...

【技术保护点】
1.一种语音情感识别方法，其特征在于，包括：/n获取用户的音素标签；其中，所述音素标签为判断用户的情感数据集的发音字典；/n获取用户的语音特征；/n提取每个所述音素标签的one-hot向量，并将每个one-hot向量按照时域拼接成二维矩阵，以生成音素特征音素特征；/n将所述语音特征以及音素特征分别输入至神经网络模型中，以获得情感预测输出特征，并根据所述情感预测输出特征以识别出用户的语音情感。/n

【技术特征摘要】
1.一种语音情感识别方法，其特征在于，包括：
获取用户的音素标签；其中，所述音素标签为判断用户的情感数据集的发音字典；
获取用户的语音特征；
提取每个所述音素标签的one-hot向量，并将每个one-hot向量按照时域拼接成二维矩阵，以生成音素特征音素特征；
将所述语音特征以及音素特征分别输入至神经网络模型中，以获得情感预测输出特征，并根据所述情感预测输出特征以识别出用户的语音情感。

2.根据权利要求1所述的语音情感识别方法，其特征在于，所述情感数据集至少包括以下之一：高兴、悲伤、难过以及快乐；所述语音特征为语谱图特征；所述音素标签使用39个音素定义。

3.根据权利要求2所述的语音情感识别方法，其特征在于，将所述语音特征以及音素特征分别输入至神经网络模型中，以获得情感预测输出特征，并根据所述情感预测输出特征以识别出用户的语音情感，具体为：
对所述语谱图特征进行归一化处理，以提取语谱图像纹理特征；
将语谱图像纹理特征切分为长短相同的段级特征，并将长度不足的部分做填零处理，形成训练批次后的语谱图特征；
将形成训练批次后的语谱图特征以及音素特征分别输入至神经网络模型中进行拼接，以获得情感预测输出特征，并根据所述情感预测输出特征以识别出用户的语音情感。

4.一种语音情感识别装置，其特征在于，包括：
音素标签获取单元，用于获取用户的音素标签；其中，所述音素标签为判断用户的情感数据集的发音字典；
语音特征获取单元，用于获取用户的语音特征；
one-hot向...

【专利技术属性】
技术研发人员：陈剑超，肖龙源，李稀敏，刘晓葳，叶志坚，
申请(专利权)人：厦门快商通科技股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人