【技术实现步骤摘要】
一种语音情绪识别方法、装置及电子设备
[0001]本公开涉及深度学习
,进一步涉及语音
,尤其涉及一种语音情绪识别方法、装置及电子设备。
技术介绍
[0002]语音是人类交流中情感的重要载体,语音识别时关注说话者说了什么,而情绪识别是关注说话者是如何说的,人们在不同情绪状态下的语音表达方式会有不同,例如高兴时说话的语调会比较欢快,而烦躁伤心时语气会比较沉闷。
[0003]目前,可以通过注意力模型来对语音中的情绪进行识别。但是传统的注意力模型是使用预设的粒度来对语音中有关情绪的信息进行处理的。通过预设的粒度难以得到语音中更多的情绪信息。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本公开提供了一种语音情绪识别方法、装置及电子设备。以至少解决相关技术中识别语音中情绪的准确率较低的技术问题。
[0006]根据本公开的一方面,提供了一种语音情绪识别方法,包括:获取目标对象的原始语音特征;获取原始语音特征的原始区域,其中,原始区域用于表征原始语 ...
【技术保护点】
【技术特征摘要】
1.一种语音情绪识别方法,包括:获取目标对象的原始语音特征;获取所述原始语音特征的原始区域,其中,所述原始区域用于表征所述原始语音特征在原始粒度中的情绪信息;对所述原始区域中包括的至少两个单元进行合并处理,基于处理结果得到目标区域,并基于所述原始区域和所述目标区域对所述原始语音特征进行处理,得到目标语音特征,其中,所述目标区域用于表征所述原始语音特征在目标粒度中的所述情绪信息,所述目标粒度大于所述原始粒度;对所述目标语音特征进行识别,得到与所述目标语音特征匹配的语音情绪结果。2.根据权利要求1所述的方法,其中,所述目标区域包括如下至少之一:第一区域、第二区域,所述目标粒度包括如下至少之一:第一粒度、第二粒度,对所述原始区域中包括的至少两个单元进行合并处理,基于处理结果得到目标区域,包括:将所述原始区域中的第一单元和第一相邻单元进行合并,得到合并后的所述第一区域,其中,所述第一区域用于描述所述原始语音特征在所述第一粒度中的情绪信息,所述第一粒度大于所述原始粒度,所述第一相邻单元为与所述第一单元相邻的一个单元;将所述原始区域中的第二单元和第二相邻单元进行合并,得到合并后的所述第二区域,其中,所述第二区域用于描述所述原始语音特征在所述第二粒度中的情绪信息,所述第二粒度大于所述第一粒度,所述第二相邻单元为与所述第二单元相邻的两个单元。3.根据权利要求1所述的方法,其中,基于所述原始区域和所述目标区域对所述原始语音特征进行处理,得到目标语音特征,包括:获取所述原始区域中每个单元的第一键值;对所述每个单元的所述第一键值进行处理,得到所述原始区域的第一目标键值;获取所述目标区域中所述每个单元的第二键值;对所述每个单元的所述第二键值进行处理,得到所述目标区域的第二目标键值;基于所述第一目标键值和所述第二目标键值对所述原始语音特征进行处理,得到所述目标语音特征。4.根据权利要求1所述的方法,其中,获取所述原始语音特征的原始区域,包括:利用第一神经网络获取所述原始语音特征的所述原始区域;对所述目标语音特征进行识别,得到与所述目标语音特征匹配的语音情绪结果,包括:利用第二神经网络对所述目标语音特征进行识别,得到与所述目标语音特征匹配的所述语音情绪结果。5.根据权利要求4所述的方法,还包括:获取样本语音数据;根据预设时长对所述样本语音数据进行划分,得到样本语音片段;提取所述样本语音片段中的样本语音特征;基于所述样本语音特征对第一预设神经网络和第二预设神经网络进行训练,得到所述第一神经网络和所述第二神经网络。6.根据权利要求5所述的方法,其中,基于所述样本语音特征对第一预设神经网络和第
二预设神经网...
【专利技术属性】
技术研发人员:陈蓉,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。