一种语音情感识别方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:25712126 阅读:18 留言:0更新日期:2020-09-23 02:58
本发明专利技术公开了一种语音情感识别方法、装置、设备及计算机存储介质,方法包括:获取用户的音素标签;其中音素标签为判断用户的情感数据集的发音字典;提取每个音素标签的one‑hot向量,并将每个one‑hot向量按照时域拼接成二维矩阵,以生成音素特征音素特征;获取用户的语音特征;将语谱图特征以及音素特征分别输入至神经网络模型中,以获得情感预测输出特征,并根据情感预测输出特征以识别出用户的语音情感。本发明专利技术能够结合语谱图特征和音素特征对语音情感进行识别,通过音素信息的辅助提高了分类准确性,且减少了人工干扰。

【技术实现步骤摘要】
一种语音情感识别方法、装置、设备和计算机存储介质
本专利技术涉及语音研究领域,尤其涉及一种语音情感识别方法、装置、设备和计算机存储介质。
技术介绍
语音情感识别是语音研究领域里的一个重要分支,是根据人的说话语音来判定其所属情感的技术,设计到信号处理、特征提取、模式识别等多项语音研究中的核心问题。近年来,s随着信息技术的飞速发展,语音情感识别在多个场景有着重要应用,具体体现如下:1、话务系统,大型商业机构每天都需要处理成千上万的客户通话,其中,保证电话客户的满意度是防止客户流失的一项重要举措,因此对于通话中客户不满情绪,需要得到及时发现和预警。2、教育事业,研究表明,学习者的学习效果和其情感状态有着很大关联,在学习过程中略微负面的情绪有助于批判性思维的产生。3、广告投放,以往广告投放者只能大范围投放广告,以求对潜在客户的最大化覆盖,然而这种投放方式成本较高,且针对性差。广告阅读者的情感倾向是其对广告评价的最直接反馈。基于语音情感识别系统,可以获取阅读者的情感状态,帮助广告投放者得到阅读者评价的反馈信息,改变投放策略,降低成本。但是,由于情感的复杂性,目前有两种定义方法,一种是离散情感定义,一种是连续情感定义。离散情感定义是一种直观又简单的方法,评估者通过自己的主观感受,将语音标记为某一类定义好的情感类别,例如“高兴”,“难过”,“生气”等。连续情感定义不是使用情感类别,而是使用在某些心理学维度上的评分来衡量感情,常用的模型是强度-效价模型,强度反应出发声的某些特征,通常强度越高的声音,其高频部分包含的能量越高,且具有更高的音调。然而仅仅使用强度无法区分某些情感,因此需要通过效价唯独来区分开来。现有技术中,一个完整的语音情感识别框架主要包括语音特征提取、情感区分性信息获取、分类器训练三个步骤,最终可以得到情感标签预测。参考图1:语音情感系统的第一步是从原始波形中提取可用于模型训练的语音特征,在语音情感识别中所使用的特征种类很多,这些特征可归类为声道特征,韵律特征,统计特征等。接下来从提取到的语音特征中进一步获取可区分各个情感类别的信息。传统方法一般通过精巧设计的特征组合来增加对情感的区分性,随着深度学习技术的发展,越来越多的通过神经网络的高层输出来完成。最后获取情感区分性信息之后,就可以训练分类器,来获的测试数据上的情感预测,科归类为产生式分类器和区分性分类器,在神经网络中用来分类的是全链接层。但是上述传统方法面临的一大问题是其对特征高度敏感,因此绝大部分研究在训练分类器之前都需要经过复杂的特征选择过程,因此情感区分性信息提取的过程在一定程度上是由特征选择算法来完成,引入了较多的人工干扰。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种语音情感识别方法、装置、设备和存储介质,能够结合语谱图特征和音素特征对语音情感进行识别,通过音素信息的辅助提高了分类准确性,且减少了人工干扰。本专利技术实施例提供了一种语音情感识别方法,包括:获取用户的音素标签;其中,所述音素标签为判断用户的情感数据集的发音字典;获取用户的语音特征;提取每个所述音素标签的one-hot向量,并将每个one-hot向量按照时域拼接成二维矩阵,以生成音素特征音素特征;将所述语音特征以及音素特征分别输入至神经网络模型中,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感。优选地,所述情感数据集至少包括以下之一:高兴、悲伤、难过以及快乐;所述语音特征为语谱图特征;所述音素标签使用39个音素定义。优选地,将所述语音特征以及音素特征分别输入至神经网络模型中,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感,具体为:对所述语谱图特征进行归一化处理,以提取语谱图像纹理特征;将语谱图像纹理特征切分为长短相同的段级特征,并将长度不足的部分做填零处理,形成训练批次后的语谱图特征;将形成训练批次后的语谱图特征以及音素特征分别输入至神经网络模型中进行拼接,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感。第二方面,本专利技术实施例提供了一种语音情感识别装置,包括:音素标签获取单元,用于获取用户的音素标签;其中,所述音素标签为判断用户的情感数据集的发音字典;语音特征获取单元,用于获取用户的语音特征;one-hot向量提取单元,用于提取每个所述音素标签的one-hot向量,并将每个one-hot向量按照时域拼接成二维矩阵,以生成音素特征音素特征;语音情感识别单元,用于将所述语音特征以及音素特征分别输入至神经网络模型中,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感。优选地,所述情感数据集至少包括以下之一:高兴、悲伤、难过以及快乐;所述语音特征为语谱图特征;所述音素标签使用39个音素定义。优选地,语音情感识别单元,包括:归一化模块,用于对所述语谱图特征进行归一化处理,以提取语谱图像纹理特征;切分模块,用于将语谱图像纹理特征切分为长短相同的段级特征,并将长度不足的部分做填零处理,形成训练批次后的语谱图特征;语音情感识别模块,用于将形成训练批次后的语谱图特征以及音素特征分别输入至神经网络模型中进行拼接,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感。本专利技术实施例还提供了一种语音情感识别设备,包括处理器、存储器以及存储在所述存储器内的计算机程序,所述计算机程序能够被所述处理器执行以实现上述实施例所述的语音情感识别方法。本专利技术实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的防数据丢失的水卡数据写入方法。上述一个实施例中,通过获取用户的音素标签以及用户的语音特征,然后提取音素标签的音素特征,然后将所述语音特征以及音素特征分别输入至神经网络模型中,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感,本专利技术能够结合语谱图特征和音素特征对语音情感进行识别,通过音素信息的辅助提高了分类准确性,且减少了人工干扰。附图说明为了更清楚地说明本专利技术的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术第一实施例提供的一种语音情感识别方法的流程示意图。图2是本专利技术实施例提供的结合音素信息的CNN语音情感识别网络的结构示意图。图3是本专利技术实施例提供的语谱图像纹理特征的结构示意图。图4是本专利技术第二实施例提供的语音情感识别装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述本文档来自技高网
...

【技术保护点】
1.一种语音情感识别方法,其特征在于,包括:/n获取用户的音素标签;其中,所述音素标签为判断用户的情感数据集的发音字典;/n获取用户的语音特征;/n提取每个所述音素标签的one-hot向量,并将每个one-hot向量按照时域拼接成二维矩阵,以生成音素特征音素特征;/n将所述语音特征以及音素特征分别输入至神经网络模型中,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感。/n

【技术特征摘要】
1.一种语音情感识别方法,其特征在于,包括:
获取用户的音素标签;其中,所述音素标签为判断用户的情感数据集的发音字典;
获取用户的语音特征;
提取每个所述音素标签的one-hot向量,并将每个one-hot向量按照时域拼接成二维矩阵,以生成音素特征音素特征;
将所述语音特征以及音素特征分别输入至神经网络模型中,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感。


2.根据权利要求1所述的语音情感识别方法,其特征在于,所述情感数据集至少包括以下之一:高兴、悲伤、难过以及快乐;所述语音特征为语谱图特征;所述音素标签使用39个音素定义。


3.根据权利要求2所述的语音情感识别方法,其特征在于,将所述语音特征以及音素特征分别输入至神经网络模型中,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感,具体为:
对所述语谱图特征进行归一化处理,以提取语谱图像纹理特征;
将语谱图像纹理特征切分为长短相同的段级特征,并将长度不足的部分做填零处理,形成训练批次后的语谱图特征;
将形成训练批次后的语谱图特征以及音素特征分别输入至神经网络模型中进行拼接,以获得情感预测输出特征,并根据所述情感预测输出特征以识别出用户的语音情感。


4.一种语音情感识别装置,其特征在于,包括:
音素标签获取单元,用于获取用户的音素标签;其中,所述音素标签为判断用户的情感数据集的发音字典;
语音特征获取单元,用于获取用户的语音特征;
one-hot向...

【专利技术属性】
技术研发人员:陈剑超肖龙源李稀敏刘晓葳叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1