一种语音情绪识别的方法及装置制造方法及图纸

技术编号:33992705 阅读:105 留言:0更新日期:2022-07-02 10:07
本申请公开了一种基于人工智能技术实现的语音情绪识别方法,本申请包括获取待识别语音所对应的语音特征信号;根据语音特征信号获取待识别文本;基于语音特征信号,通过语音分类模型获取语音分类结果;基于待识别文本,通过文本分类模型获取文本分类结果,其中,文本分类结果表示待识别语音的情绪类型;根据语音分类结果以及文本分类结果,确定待识别语音所对应的情绪识别结果。本申请还提供了一种语音情绪识别应用方法、相关装置、设备以及存储介质。本申请不但能够减少仅依靠语音数据进行情绪分类的标注数据,而且采能够在训练数据稀缺的情况下,仍然可以提升情绪识别的准确度。仍然可以提升情绪识别的准确度。仍然可以提升情绪识别的准确度。

【技术实现步骤摘要】
一种语音情绪识别的方法及装置


[0001]本申请涉及人工智能领域,尤其涉及一种语音情绪识别的方法及装置。

技术介绍

[0002]在移动互联网时代,用户可以通过语音进行远程沟通。而在远程沟通的过程中,通过识别并恰当响应语音内容和情绪来增强自然语言处理(Nature Language processing,NLP)算法,已成为人工智能(Artificial Intelligence,AI)系统的重要发展方向。
[0003]语音情绪识别是语音识别领域内的一个分值,目的在于找回从语音到文本转换过程中丢失的情绪信息。目前,可通过语音构造特征,例如,构造韵律学特征或者基于频谱的相关特征等,然后利用标注好的训练数据来训练一个分类器,这里的标注数据需要人工听一段语音,然后给出该语音对应的情绪类型。
[0004]然而,根据语音特征信号对说话人的情绪划分,需要大量的语音和标注数据对分类器进行训练,在数据标注的过程中,由于没有量化标准来区分是否“开心”,或者是否“难过”,因此,标注数据的准确度不高,导致分类器输出的情绪识别结果准确度较低。
专本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情绪识别的方法,其特征在于,包括:获取待识别语音所对应的语音特征信号;根据所述语音特征信号获取待识别文本;基于所述语音特征信号,通过语音分类模型获取语音分类结果,其中,所述语音分类结果表示所述待识别语音的起伏程度,所述语音分类结果为激动类型或低沉类型,且所述低沉类型的起伏程度低于所述激动类型的起伏程度;基于所述待识别文本,通过文本分类模型获取文本分类结果,其中,所述文本分类结果表示所述待识别语音的情绪类型;根据所述语音分类结果以及所述文本分类结果,确定所述待识别语音所对应的情绪识别结果。2.根据权利要求1所述的方法,其特征在于,所述待识别语音包括N帧语音数据,所述语音特征信号包括N个信号特征,每个信号特征对应于一帧语音数据,所述N为大于或等于1的整数;所述基于所述语音特征信号,通过语音分类模型获取语音分类结果,包括:基于所述语音特征信号,通过所述语音分类模型所包括的卷积神经网络获取目标特征向量,其中,所述卷积神经网络包括卷积层、池化层以及隐层;基于所述目标特征向量,通过所述语音分类模型所包括的时序神经网络获取目标分值;根据所述目标分值确定所述语音分类结果。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取历史语音所对应的历史语音特征信号,其中,所述历史语音为出现在所述待识别语音之前相邻的一个语音,所述历史语音包括M帧语音数据,所述历史语音特征信号包括M个信号特征,每个信号特征对应于一帧语音数据,所述M为大于或等于1的整数;基于所述历史语音特征信号,通过所述语音分类模型所包括的卷积神经网络获取中间特征向量,其中,所述卷积神经网络包括卷积层、池化层以及隐层;基于所述中间特征向量,通过所述语音分类模型所包括的时序神经网络获取历史分值;所述根据所述目标分值确定所述语音分类结果,包括:根据所述历史分值以及所述目标分值确定所述语音分类结果。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取P个表情符号,其中,所述P个表情符号为出现在所述待识别语音之前相邻的表情符号,或,所述P个表情符号为出现在所述待识别语音之后相邻的表情符号,所述P为大于或等于1的整数;根据所述P个表情符号的数量生成增益分值;所述根据所述目标分值确定所述语音分类结果,包括:根据所述增益分值以及所述目标分值确定所述语音分类结果。5.根据权利要求1所述的方法,其特征在于,所述基于所述待识别文本,通过文本分类模型获取文本分类结果,包括:基于所述待识别文本,通过所述文本分类模型获取文本分布概率,其中,所述文本分布
概率包括K个第一概率值,且每个第一概率值对应于一个文本类型,所述K为大于1的整数;根据所述文本分布概率确定目标概率值;将所述目标概率值所对应的文本类型确定为所述文本分类结果。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取历史语音所对应的历史语音特征信号,其中,所述历史语音为出现在所述待识别语音之前相邻的一个语音,所述历史语音包括M帧语音数据,所述历史语音特征信号包括M个信号特征,每个信号特征对应于一帧语音数据,所述M为大于或等于1的整数;根据所述历史语音特征信号获取历史待识别文本;基于所述历史待识别文本,通过所述文本分类模型获取历史文本分布概率,其中,所述历史文本分布概率包括K个第二概率值,且每个第二概率值对应于一个文本类型;所述根据所述文本分布概率确定目标概率值,包括:根据所述文本分布概率以及所述历史文本分布概率,生成更新后的文本分布概率;根据所述更新后的文本分布概率确定所述目标概率值。7.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取P个表情符号,其中,所述P个表情符号为出现在所述待识别语音之前相邻的表情符号,或,所述P个表情符号为出现在所述待识别语音之后相邻的表情符号,所述P为大于或等于1的整数;根据所述P个表情符号的类型生成增益文本分布概率;所述根据所述文本分布概率确定目标概率值,包括:根据所述文本分布概率以及所述增益文本分布概率,生成更新后的文本分布概率;根据所述更新后的文本分布概率确定所述目标概率值。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述根据所述语音分类结果以及所述文本分类结果,确定所述待识别语音所对应的情绪识别结果,包括:若所述语音分类结果为激动类型,且所述文本分类结果为高兴文本类型,则确定所述待识别语音所对应的情绪识别结果为高兴情绪类型;若所述语音分类结果为低沉类型,且所述文本分类结果为高兴文本类型,则确定所述待识别语音所对应的情绪识别结果为无情绪类型;若所述语音分类结果为激动类型,且所述文本分类结果为生气文本类型,则确定所述待识别语音所对应的情绪识别结果为生气情绪类型;若所述语音分类结果为低沉类型,且所述文本分类结果为生气文本类型,则确定所述待识别语音所对应的情绪识别结果为无情绪类型;若所述语音分类结果为激动类型,且所述文本分类结果为难过文本类型,则确定所述待识别语音所对应的情绪识别结果为无情绪类型;若所述语音分类结果为低沉类型,且所述文本分类结果为难过文本类型,则确定所述待识别语音所对应的情绪识别结果为难过情绪类型;若所述语音分类结果为激动类型,且所述文本分类结果为中性文本类型,则确定所述待识别语音所对应的情绪识别结果为无情绪类型;若所述语音分类结果为低沉类型,且所述文本分类结果为中性文本类型,则确定所述待识别语音所对应的情绪识别结果为无情绪类型。
9.一种语音情绪识别应用方法,其特征在于,包括:获取即时语音通信消息;响应于对所述即时语音通信消息的消息内容转换操作,显示与所述即时语音通信消息对应的包含表情符号的文字消息,其中,所述表情符号通过对所述语音通信消息进行情绪识别而确定的。10.根据权利要求9所述的语音情绪识别应用方法,其特征在于,所述响应于对所述即时语音通信消...

【专利技术属性】
技术研发人员:向李兴刘海波张翔卢鲤
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1