【技术实现步骤摘要】
一种基于集成学习的混合模型语音情感识别方法及系统
本专利技术涉及语音情感识别
,具体而言,涉及一种基于集成学习的混合模型语音情感识别方法及系统。
技术介绍
语音识别技术是人机交互中重要的方式和手段之一,语音情感识别可以帮助机器更好的理解人的感情变化从而提升用户体验,给出更完美的解决方案,使机器更加智能。语音情感识别技术可以应用在很多场景中。如:工作中电话客服服务态度监测;生活中司机驾驶疲劳情感监控;教学上可进行教师在线课程情感监控;在医疗中可检测患者情感变化从而进行辅助诊断和治疗。现有的基于深度学习的神经网络方法可以达到很好的识别效果,但是其网络结构复杂,时间复杂度低,这将导致算法时延高、落地难度大等一系列问题。基于统计学的机器学习方法在算法复杂度上有一定优势,但识别精度较低。本方案基于多集成学习模型及岭回归混合模型,与目前的通用方法相比,可以提升语音情感识别的精度,特别是对于不同情感类型的混淆区分。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于多集成学习模型及岭回归混合模 ...
【技术保护点】
1.一种基于集成学习的混合模型语音情感识别方法,其特征在于,该方法包括以下步骤:/n步骤1:构建情感识别语音数据集;/n步骤2:对语音信号进行预处理;/n步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;/n步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;/n步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;/n步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。/n
【技术特征摘要】 【专利技术属性】
1.一种基于集成学习的混合模型语音情感识别方法,其特征在于,该方法包括以下步骤:
步骤1:构建情感识别语音数据集;
步骤2:对语音信号进行预处理;
步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;
步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;
步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。
2.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤2中,预处理包括以下步骤:
步骤S201:对语音信号进行端点检测,去除音频的首尾静音片段;
步骤S202:对语音信号进行预加重;
步骤S203:对步骤S202得到的信号进行分帧处理;
步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。
3.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤4中,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
4.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤5中,构建混合模型具体包括:
步骤S501:将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值,形成一组预测概率值;
步骤S502:将得到的一组预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
5.根据权利要求2所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤S201中,使用VAD算法语音信号进行端点检测。
技术研发人员:伍林,尹朝阳,李昊奇,
申请(专利权)人:杭州哲信信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。