一种建立语音情感识别模型的方法及语音情感识别方法技术

技术编号:23559971 阅读:22 留言:0更新日期:2020-03-25 05:07
本发明专利技术公开了一种建立语音情感识别模型的方法,所述方法包括:使用opensmile提取出1584维的情感声学特征;利用情感声学特征作为自然情绪状态的语音训练生成一个UBM通用背景模型;针对每一类自然情绪状态,在UBM通用背景模型的基础上生成每一类自然情绪状态对应的GMM模型;将生成的每一类自然情绪状态对应的GMM模型作为语音情感识别模型。

A method of building speech emotion recognition model and speech emotion recognition method

【技术实现步骤摘要】
一种建立语音情感识别模型的方法及语音情感识别方法
本专利技术涉及语音信号处理领域,尤其涉及一种建立语音情感识别模型的方法及语音情感识别方法。
技术介绍
随着人工智能技术的发展,计算机变得越来越智能,小爱同学、苹果siri以及更多的智能对话系统走进人们的生活,人们通过智能对话系统与各种各样的机器进行交流互动,但是几乎所有的智能对话系统都无法能够对人的情感进行识别,作出足够智能的反馈。语音中的情绪信息是反应人类情绪的一个十分重要的行为信号,同时识别语音中所包含的情绪信息是实现自然人机交互的重要一环。而目前的人脸识别技术,可以通过对人类的表情进行判断分析,却无法适用于智能外呼场景,在目前的智能外呼领域中情绪识别还是一个比较空白的领域。
技术实现思路
本专利技术要解决的技术问题,在于提供一种建立语音情感识别模型的方法及语音情感识别方法,以实现智能外呼领域识别语音所携带的情绪,提高语义的理解精度。第一方面,本专利技术提供一种建立语音情感识别模型的方法,所述方法包括:使用opensmile提取出1584维的情感声学特征;利用所述情感声学特征作为自然情绪状态的语音训练生成一个UBM通用背景模型;针对每一类自然情绪状态,在所述UBM通用背景模型的基础上生成每一类自然情绪状态对应的GMM模型;将所述生成的每一类自然情绪状态对应的GMM模型作为语音情感识别模型。在上述方案中,所述自然情绪状态包括高兴、悲伤、愤怒和中性。第二方面,本专利技术提供一种基于第一方面任一项所述的一种建立语音情感识别模型的方法的语音情感识别方法,包括:获取语音文件,对语音文件进行VAD预处理,根据静音部分将语音文件切分为至少一份音频,同时将至少一份音频转换成声学特征;将所述声学特征输入语音情感识别模型,获得GMM超向量;所述GMM超向量作为所述至少一份音频的embedding输入XGBoost模型中获得所述至少一份音频的标签;所述至少一份音频的标签采用Bagging算法进行投票,获得所述至少一份音频的标签的投票结果;将占据多数的投票结果作为最终的输出结果,对语音文件进行情绪打标。在上述方案中,所述方法还包括:在时间频域上,切除语音文件的静音部分,获得切分后的至少一份音频。本专利技术的有益效果是:基于上述技术方案,本专利技术实施例提供一种建立语音情感识别模型的方法及语音情感识别方法,只需通过少量语料即可训练出一个基于GMM-UBM的语音情感识别模型,做到用户语音情感的正确识别;同时该模型能够做到实时识别,在线上使用,可做到毫秒响应;其次该模型维护成本低,只需收集badcase重新训练模型即可实现对各种语音情绪的识别。附图说明图1为本专利技术提供的一种建立语音情感识别模型的方法的流程示意图;图2为本专利技术提供的一种语音情感识别方法的流程示意图。具体实施方式下面通过具体实施例,并结合附图,对本专利技术的技术方案作进一步的具体描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例将对本专利技术提供的一种建立语音情感识别模型的方法及语音情感识别方法进行具体说明。参考图1,如附图1所示为本专利技术提供的一种建立语音情感识别模型的方法的流程示意图,包括:S101,使用opensmile提取出1584维的情感声学特征;Opensmile(开源媒体大型特征空间提取工具包)是一个模块化的、灵活的特征提取器,基于Opensmile提取的情感特征集合包括1582维情感声学特征,包括34个低级描述符(LLD)和34个相应的差分作为68个LLD轮廓值,在此基础上应用21个函数得到1428个情感声学特征,另外,对4个基于音高的LLD及其4个delta系数应用了19个函数得到152个情感声学特征,最后附加音高(伪音节)的数量和总数输入的持续时间(2个特征)。具体地,所提取的低级描述符(LLD)包括:基频特征,包括均值,方差,差分及平滑轮廓曲线等;均方根信号能量特征及其平滑的轮廓线;梅尔倒谱系数MFCC;线性预测系数(LPC);差分帧间抖动(jitter)。可以理解,基于上述Opensmile(开源媒体大型特征空间提取工具包)提取出1584维的情感声学特征作为训练数据以涵盖各种环境的语音对UBM通用背景模型进行训练。S102,利用所述情感声学特征作为自然情绪状态的语音训练生成一个UBM通用背景模型;可以理解,在缺少情绪语料的情况下,数据无法有效刻画说话人情绪特征空间的概率分布,因此引入UBM通用背景模型以自适应出每个情绪对应的情绪识别模型,UBM通用背景模型的训练数据为基于Opensmile(开源媒体大型特征空间提取工具包)提取出的1584维的情感声学特征。在一个示例中,采用EM算法对UBM通用背景模型进行训练,UBM通用背景模型为混合阶数为M的高斯混合模型,UBM通用背景模型使用模型参数λ={ωi,μi,∑i},i=1,2…m来表示。S103,针对每一类自然情绪状态,在所述UBM通用背景模型的基础上生成每一类自然情绪状态对应的GMM模型;可以理解,上述的每一类自然情绪状态包括高兴、悲伤、愤怒和中性,或是还包括恐惧或惊奇中的任意一种或两种。在一个示例中,根据已经给定的UBM通用背景模型和上述四种自然情绪状态的训练矢量,对UBM通用背景模型进行参数微调确定GMM模型,包括计算出训练矢量在UBM通用背景模型中的概率分布;利用训练矢量的概率分布和混合加权值,平均值向量,方差进行充分统计;最后将新的充分统计量用以更新UBM通用背景模型的充分统计量获得GMM模型。S104,将所述生成的每一类自然情绪状态对应的GMM模型作为语音情感识别模型。参考图2,如附图2所示为本专利技术提供的一种基于建立语音情感识别模型的方法的语音情感识别方法的流程示意图,包括:S201,获取语音文件,对语音文件进行VAD预处理获得至少一份音频并转换成声学特征;针对步骤S201,根据静音部分将语音文件切分为至少一份音频,同时将至少一份音频转换成声学特征。在一个示例中,在时间频域上,切除语音文件的静音部分,获得切分后的至少一份音频。将语音文件的时域作为X轴,语音文件的声压作为Y轴建立一个二维的坐标系,由于语音信号是持续波动的信号,一段语音信号在二维坐标系的表现形式为存在至少一份音频以及大于等于0个的静音段,将语音文件中大于等于0个的静音段进行切除,获得至少一份音频,并将至少一份音频转换成声学特征。S202,将所述声学特征输入语音情感识别模型,获得GMM超向量;S203,所述GMM超向量作为所述至少一份音频的embedding输入XGBoost模型中获得所述至少一份音频的标签;具体的,所述极限梯度增强(eXtremeG本文档来自技高网...

【技术保护点】
1.一种建立语音情感识别模型的方法,其特征是,所述方法包括:/n使用opensmile提取出1584维的情感声学特征;/n利用所述情感声学特征作为自然情绪状态的语音训练生成一个UBM通用背景模型;/n针对每一类自然情绪状态,在所述UBM通用背景模型的基础上生成每一类自然情绪状态对应的GMM模型;/n将所述自适应生成的每一类自然情绪状态对应的GMM模型作为语音情感识别模型。/n

【技术特征摘要】
1.一种建立语音情感识别模型的方法,其特征是,所述方法包括:
使用opensmile提取出1584维的情感声学特征;
利用所述情感声学特征作为自然情绪状态的语音训练生成一个UBM通用背景模型;
针对每一类自然情绪状态,在所述UBM通用背景模型的基础上生成每一类自然情绪状态对应的GMM模型;
将所述自适应生成的每一类自然情绪状态对应的GMM模型作为语音情感识别模型。


2.根据权利要求1所述的一种基于GMM-UBM建立语音情感识别模型的方法,其特征是,所述自然情绪状态包括高兴、悲伤、愤怒和中性。


3.一种基于上述权利要求1-2任一项所述一种建立语音情感识别模型的方法的语音情感识别方法,...

【专利技术属性】
技术研发人员:王磊
申请(专利权)人:浙江百应科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1