一种基于集成学习的混合模型语音情感识别方法及系统技术方案

技术编号:23559969 阅读:32 留言:0更新日期:2020-03-25 05:06
本发明专利技术公开了一种基于集成学习的混合模型语音情感识别方法及系统,具体包括:构建情感识别语音数据集;对语音信号进行预处理;从预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;利用提取的语音信号特征分别采用多种算法进行建模,获得多种模型;利用生成的模型对语音信号进行预测,将预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;根据混合模型的输出结果判断语音信号的情感类别。本发明专利技术的有益效果为:通过利用多个集成模型构建混合模型,其鲁棒性更强,算法识别精度更高;同时,将多个集成模型的预测结果利用岭回归模型重新训练,可以更好的削弱不同情感间的相互影响,提高语音情感识别的效果。

A hybrid model speech emotion recognition method and system based on Integrated Learning

【技术实现步骤摘要】
一种基于集成学习的混合模型语音情感识别方法及系统
本专利技术涉及语音情感识别
,具体而言,涉及一种基于集成学习的混合模型语音情感识别方法及系统。
技术介绍
语音识别技术是人机交互中重要的方式和手段之一,语音情感识别可以帮助机器更好的理解人的感情变化从而提升用户体验,给出更完美的解决方案,使机器更加智能。语音情感识别技术可以应用在很多场景中。如:工作中电话客服服务态度监测;生活中司机驾驶疲劳情感监控;教学上可进行教师在线课程情感监控;在医疗中可检测患者情感变化从而进行辅助诊断和治疗。现有的基于深度学习的神经网络方法可以达到很好的识别效果,但是其网络结构复杂,时间复杂度低,这将导致算法时延高、落地难度大等一系列问题。基于统计学的机器学习方法在算法复杂度上有一定优势,但识别精度较低。本方案基于多集成学习模型及岭回归混合模型,与目前的通用方法相比,可以提升语音情感识别的精度,特别是对于不同情感类型的混淆区分。
技术实现思路
为解决上述问题,本专利技术的目的在于提供一种基于多集成学习模型及岭回归混合模型的,对于不同情感类型识别精度高的语音情感识别方法和系统。为了实现上述目的,本专利技术提供了一种基于集成学习的混合模型语音情感识别方法,该方法包括以下步骤:步骤1:构建情感识别语音数据集;步骤2:对语音信号进行预处理;步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。作为本专利技术进一步的改进,步骤2中,预处理包括以下步骤:步骤S201:对标准化后的数字信号进行端点检测,去除音频的首尾静音片段;步骤S202:对语音信号进行预加重;步骤S203:对步骤S202得到的信号进行分帧处理;步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。作为本专利技术进一步的改进,步骤4中,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。作为本专利技术进一步的改进,步骤5中,构建混合模型具体包括:步骤S501:将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值,形成一组预测概率值;步骤S502:将步骤S501得到的一组预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。作为本专利技术进一步的改进,步骤S201中,使用VAD算法语音信号进行端点检测。作为本专利技术进一步的改进,步骤S204中,使用汉明窗对信号进行加窗处理,汉明窗函数w(n)如下:其中,N是窗的宽度。本专利技术中,构建情感识别语音数据集包括以下分类方式:方式一:愤怒和随和;方式二:中性、生气、悲伤和高兴;方式三:中性、生气、害怕、高兴、悲伤、厌恶和无聊。本专利技术还提供了一种基于集成学习的混合模型语音情感识别系统,该系统包括:预处理模块,用于对语音信号进行预处理;信号处理模块,从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征;集成学习模型构造模块,对信号处理模块处理后的语音信号进行建模,生成多种预测模型;混合模型构造模块,利用集成学习模型构造模块生成的多种模型对语音信号进行预测,将预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;情感识别模块,待测语音信号经过预处理模块、信号处理模块、集成学习模型构造模块和混合模型构造模块处理后,根据混合模型的输出结果判断语音信号的情感类别。作为本专利技术进一步的改进,预处理模块包括:端点检测模块,对采样标准化模块标准化后的数字信号进行端点检测,去除音频的首尾静音片段;信号预加重模块,对语音信号进行预加重;分帧处理模块,对信号预加重模块处理后的信号进行分帧处理;加窗处理模块,对分帧处理模块处理后的每一帧信号进行加窗处理。作为本专利技术进一步的改进,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。作为本专利技术进一步的改进,混合模型构造模块包括:模型训练模块,将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值;岭回归模型训练模块,将多种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。本系统中,语音情感识别分类形式包括:形式一:愤怒和随和;形式二:中性、生气、悲伤和高兴;形式三:中性、生气、害怕、高兴、悲伤、厌恶和无聊。本专利技术的有益效果为:通过利用多个集成模型构建混合模型,其鲁棒性更强,算法识别精度更高;同时,将多个集成模型的预测结果利用岭回归模型重新训练,可以更好的削弱不同情感间相互影响,提高语音情感识别的效果。附图说明图1为本专利技术实施例所述的一种基于集成学习的混合模型语音情感识别方法的流程图;图2为本专利技术实施例所述的一种基于集成学习的混合模型语音情感识别方法的情感识别分类方式图;图3为本专利技术实施例所述的一种基于集成学习的混合模型语音情感识别方法的混合模型结构示意图;图4为本专利技术实施例所述的一种基于集成学习的混合模型语音情感识别系统的系统流程图。具体实施方式下面通过具体的实施例并结合附图对本专利技术做进一步的详细描述。实施例1如图1-3所示,本专利技术实施例所述的一种基于集成学习的混合模型语音情感识别方法,该方法包括以下步骤:步骤1:构建情感识别语音数据集;对情感识别语音数据集进行划分,语音情感识别分类形式包括二分类,四分类和七分类,如图3所示:二分类:愤怒和随和;四分类:中性、生气、悲伤和高兴;七分类:中性、生气、害怕、高兴、悲伤、厌恶和无聊。其中四分类和七分类均使用的公开数据集,二分类是基于四分类数据集而来,将四分类数据集中的中性和高兴归纳为随和,生气和悲伤归纳为愤怒,从而得到二分类数据集。步骤2:对语音信号进行预处理;预处理包括以下步骤:步骤S201:使用VAD算法对语音信号进行端点检测,去除音频的首尾本文档来自技高网...

【技术保护点】
1.一种基于集成学习的混合模型语音情感识别方法,其特征在于,该方法包括以下步骤:/n步骤1:构建情感识别语音数据集;/n步骤2:对语音信号进行预处理;/n步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;/n步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;/n步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;/n步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。/n

【技术特征摘要】
1.一种基于集成学习的混合模型语音情感识别方法,其特征在于,该方法包括以下步骤:
步骤1:构建情感识别语音数据集;
步骤2:对语音信号进行预处理;
步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;
步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;
步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。


2.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤2中,预处理包括以下步骤:
步骤S201:对语音信号进行端点检测,去除音频的首尾静音片段;
步骤S202:对语音信号进行预加重;
步骤S203:对步骤S202得到的信号进行分帧处理;
步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。


3.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤4中,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。


4.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤5中,构建混合模型具体包括:
步骤S501:将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值,形成一组预测概率值;
步骤S502:将得到的一组预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。


5.根据权利要求2所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤S201中,使用VAD算法语音信号进行端点检测。

【专利技术属性】
技术研发人员:伍林尹朝阳李昊奇
申请(专利权)人:杭州哲信信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1