一种基于叠加模型融合宽度学习系统的语音情感识别方法技术方案

技术编号：40704253 阅读：9 留言：0更新日期：2024-03-22 11:03

本发明专利技术提出一种基于叠加模型融合宽度学习系统的语音情感识别方法，该方法通过构建包含支持向量机、卷积神经网络、长短期记忆的多模型集成框架并采用宽度学习系统二次融合，实现对语音情感的识别，与依靠单一模型的识别方法相比具有很大的技术进步，经语音情感数据集选择、语音数据预处理、声学特征工程、基模型训练、多模型集成、宽度学习二次融合，最终构建出端到端的语音情感识别系统，该系统可以实现对语音情感的自动分析和判断，具有较好的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习、情感计算、人机交互领域，具体涉及一种基于叠加模型融合宽度学习系统的语音情感识别方法。

技术介绍

1、早期语音情感识别主要依靠人工设计的语音声学特征，随后研究者尝试采用高斯混合模型(gmm)、支持向量机(svm)等机器学习方法对语音特征进行模型化分类，取得了一定进展。

2、近年来，深度学习技术在各个领域展现强大优势，语音情感识别也引入了卷积神经网络(cnn)、长短期记忆(lstm)等深度模型。然而，深度学习也存在一些缺点，其中计算速度和资源消耗是主要瓶颈(a.shrestha and a.mahmood,"review of deep learningalgorithms and architectures,"in ieee access,vol.7,pp.53040-53065,2019,doi:10.1109/access.2019.2912200.)。为解决这一问题，陈俊龙院士提出了宽度学习系统(bls)(c.l.p.chen and z.liu,"broad learning system:an effective and efficientincremental learning system without the need for deep architecture,"in ieeetransactions on neural networks and learning systems,vol.29,no.1,pp.10-24,jan.2018,doi:10.1109/tnnls.

3、然而，单一模型识别语音情感的能力仍然相对有限，因此集成学习应运而生。集成学习是一种集成多个机器学习模型，通过某种策略综合各模型的结果，以得到最终输出的技术手段。与单一模型相比，集成学习通常可以提高稳定性和泛化能力。

技术实现思路

1、针对现有技术中单一模型在识别语音情感方面存在的稳定性不强和泛化能力不足等问题，本专利技术提出了一种基于叠加模型融合宽度学习系统的语音情感识别方法及系统，以提高语音情感识别的效果。

2、本专利技术至少通过如下技术方案之一实现。

3、一种基于叠加模型融合宽度学习系统的语音情感识别方法，包括以下步骤：

4、采集包含真实语音样本的数据集作为训练和测试用数据；

5、对采集的语音数据进行预处理，提取音频参数作为基础语音特征；

6、在基础语音特征的基础上，对每个语音样本计算包含梅尔频率倒谱系数、能量、基音频率、光谱质心的高维语音声学特征，构建compare_2016特征集以表征语音样本；

7、构建并基于compare_2016特征集训练语音情感识别多模型；语音情感识别多模型包括第一层多模型集成框架和第二层元模型，元模型以第一层多模型集成框架的输出作为输入，进行二次融合学习，得到语音情感识别结果。

8、进一步地，对语音数据的预处理过程包括音频格式标准化、采样率统一、去除噪音、语音分段。

9、进一步地，对每个语音样本的梅尔频率倒谱系数计算过程包括预加重、分帧、应用汉明窗、傅里叶变换、梅尔滤波器组、对数压缩。

10、进一步地，第一层多模型集成框架包含三个基模型，分别为支持向量机、卷积神经网络、长短期记忆。

11、进一步地，针对每个基模型，采用5折交叉验证进行训练，并分别得到5组不同验证集的输出结果以及相同测试集的5次输出结果；将每个基模型在5组不同验证集上的输出结果进行纵向堆叠，形成元模型的训练数据集特征列；将测试集的5份输出结果取平均后形成元模型的测试数据集特征列；最后，将三个基模型得到的训练数据集特征列和测试数据集特征列横向合并，分别构成元模型的训练数据集和测试数据集。

12、进一步地，第二层元模型采用宽度学习系统。

13、进一步地，所述宽度学习系统的构建过程包括引入特征节点和增强节点、合并节点、计算输出层权重、增量学习、结构简化、模型评估。

14、进一步地，第一层多模型集成框架的训练和测试数据均为compare_2016特征集。

15、进一步地，元模型的训练和测试数据基于三个基模型对语音情感的分类概率向量。

16、实现所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法的系统，包括语音数据输入模块、语音特征提取模块、基模型训练模块、元模型训练模块和情感分类输出模块；

17、语音数据输入模块，用于接收原始语音数据作为输入；

18、语音特征提取模块，用于对输入的语音数据进行预处理和特征提取，构建compare_2016特征集；

19、基模型训练模块，用于针对提取的语音特征，分别训练支持向量机、卷积神经网络和长短期记忆网络；

20、元模型训练模块，用于利用基模型的输出构建元模型的数据集，并使用宽度学习系统进行元模型的训练；

21、情感分类输出模块，用于输出最终的语音情感分类结果。

22、本专利技术在语音情感识别领域取得了显著的有益效果，主要体现在以下几个方面：

23、1.compare_2016语音特征集构建：本专利技术充分利用了compare_2016特征集，通过对语音数据的精心处理和声学特征工程，构建了具有丰富信息的特征表示。这有助于提高模型对语音情感的敏感性和表达能力，为后续模型训练提供了有力支持。

24、2.互补性模型设计：本专利技术的设计考虑到svm、cnn、lstm三种基模型在语音情感识别中的互补特性。svm具备强大的泛化能力，cnn能够有效捕捉局部信息，而lstm则擅长学习时序模式。这种巧妙的组合使得各模型相互补充，形成了更为全面和综合的语音情感建模。

25、3.宽度学习系统的二次融合：本专利技术采用宽度学习系统(bls)作为二次融合模型，通过特征节点和增强节点的引入，巧妙地学习异构模型的互补信息。这使得多个模型的判断结果得以再融合，进一步提升了系统对语音情感的准确性和鲁棒性。

26、4.叠加模型融合：本专利技术采用了叠加模型融合的策略，针对每个基模型，采用5折交叉验证进行训练，并分别得到5组不同验证集的输出结果以及相同测试集的5次输出结果；将每个基模型在5组不同验证集上的输出结果进行纵向堆叠，形成元模型的训练数据集特征列；将测试集的5份输出结果取平均后形成元模型的测试数据集特征列；最后，将三个基模型得到的训练数据集特征列和测试数据集特征列横向合并，分别构成元模型的训练数据集和测试数据集。通过这种叠加模型融合方式，本专利技术充分利用了各个基模型的优势，通过元模型学习它们之间的权衡关系，提高对语音情感的建模效果，同时有效抑制了过拟合现象，增强了模型的识别效果和泛化性，使得系统更为鲁棒地适应不同的语音情感数据。...

【技术保护点】

1.一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于，包括以下步骤：采集包含真实语音样本的数据集作为训练和测试用数据；

2.根据权利要求1所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：对语音数据的预处理过程包括音频格式标准化、采样率统一、去除噪音、语音分段。

3.根据权利要求1所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：对每个语音样本的梅尔频率倒谱系数计算过程包括预加重、分帧、应用汉明窗、傅里叶变换、梅尔滤波器组、对数压缩。

4.根据权利要求1所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：第一层多模型集成框架包含三个基模型，分别为支持向量机、卷积神经网络、长短期记忆。

5.根据权利要求4所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：针对每个基模型，采用5折交叉验证进行训练，并分别得到5组不同验证集的输出结果以及相同测试集的5次输出结果；将每个基模型在5组不同验证集上的输出结果进行纵向堆叠，形成元模型的训练数据集特征列；将测

6.根据权利要求1所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：第二层元模型采用宽度学习系统。

7.根据权利要求6所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：所述宽度学习系统的构建过程包括引入特征节点和增强节点、合并节点、计算输出层权重、增量学习、结构简化、模型评估。

8.根据权利要求1所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：第一层多模型集成框架的训练和测试数据均为ComParE_2016特征集。

9.根据权利要求1～8任一项所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：元模型的训练和测试数据基于三个基模型对语音情感的分类概率向量。

10.实现权利要求1所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法的系统，其特征在于：包括语音数据输入模块、语音特征提取模块、基模型训练模块、元模型训练模块和情感分类输出模块；

...

【技术特征摘要】

1.一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于，包括以下步骤：采集包含真实语音样本的数据集作为训练和测试用数据；

5.根据权利要求4所述的一种基于叠加模型融合宽度学习系统的语音情感识别方法，其特征在于：针对每个基模型，采用5折交叉验证进行训练，并分别得到5组不同验证集的输出结果以及相同测试集的5次输出结果；将每个基模型在5组不同验证集上的输出结果进行纵向堆叠，形成元模型的训练数据集特征列；将测试集的5份输出结果取平均后形成元...

【专利技术属性】
技术研发人员：陈俊龙，张恭利，张通，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人