一种基于混合熵下采样和集成分类器的语音情感识别系统技术方案

技术编号:38356567 阅读:12 留言:0更新日期:2023-08-05 17:28
本发明专利技术公开了一种基于混合熵下采样和集成分类器的语音情感识别系统,该系统包括如下步骤:预处理阶段将训练数据的语音信号划分为片段后提取语谱图,用其训练基分类器并从中获得每个语音片段的深度特征和置信度;训练阶段,计算所有语音片段的混合熵并将其与置信度的加权和作为排名值;随后,排名值大于设定阈值的语音片段的语谱图用于重新训练一个基分类器,并再次计算全部语音片段的排名值和训练基分类器,此操作循环给定轮次,每轮次训练的基分类器组成集成分类器;最终,测试语音分段并提取语谱图后输入集成分类器计算该条语音的情感识别结果。本发明专利技术显著减少了情感不明确、分布结构不稳定语音片段的影响,有效地提高了语音情感识别的准确率。高了语音情感识别的准确率。高了语音情感识别的准确率。

【技术实现步骤摘要】
一种基于混合熵下采样和集成分类器的语音情感识别系统


[0001]本专利技术涉及语音情感识别
,具体地说,本专利技术涉及一种基于混合熵下采样和集成分类器的语音情感识别系统。

技术介绍

[0002]语音是人与人之间最直接、最自然的交流方式,是人机交互的主要形式。然而,真实的生活中的言语情感往往是复杂的、微妙的,处于不断变化的状态。因此,检测和识别语音中的情感已经成为一项具有挑战性的任务。近年来,语音情感识别取得了很多研究进展,在虚拟客服、智能助理、医疗辅助诊断等诸多领域有着广泛的应用。语音情感识别系统通常包括特征提取和分类器的训练两个部分,传统的方法是对原始语音波形进行分段后再进行人工特征提取,语音情感识别中常用的分类器包括高斯混合分类器、支持向量机等。近年来,随着深度学习的发展,出现了许多基于深度学习分类器的方法,如递归神经网络分类器和卷积神经网络分类器。
[0003]以往研究发现,每种情感的置信度随语音中语音各片段所处位置的不同而不同。例如,一条语音的真实情感标签是快乐,但是训练的分类器结果显示,中立情感的置信度在语音的前半部分最高,而快乐的置信度在后半部分最高。显然,前半部分的快乐情绪强度较弱,不利于分类器训练。情感不明确的语音片段会将噪声引入分类器训练过程,并降低语音情感识别系统的性能。因此,在语音片段级别的语音情感识别中仍存在挑战。虽然已有一些针对此问题的方法,如注意机制和多示例学习,但这些方法通过深度学习分类器自主学习如何对语音中的不同部分进行加权,这在理论上很难分析和解释。
专利技术内
[0004]本项专利技术提出了一种基于混合熵下采样和集成分类器的语音情感识别系统,在每个轮次的训练时从所有训练数据的语音片段中选择具有明确情感的语音片段进行下一轮次的训练,即对所有训练数据的语音片段进行下采样,每个轮次都会产生一个基分类器,这些基分类器组成一个集成分类器。在每一轮次的训练过程中,计算语音片段的混合熵和置信度并以此计算排名值来选择情感类别明确的样本。集成分类器利用多次迭代训练的基分类器进行整条语音的情感预测,有效提高了语音情感识别的准确率。
[0005]本项目中基于混合熵下采样和集成分类器的语音情感识别系统包括如下步骤:1)把数据集划分为训练数据和测试数据两部分,将训练数据的语音信号划分为片段后提取语谱图,用其训练基分类器并从中获得每个语音片段的深度特征和置信度;2)计算所有语音片段的混合熵并将其与置信度的加权和作为排名值;3)排名值大于设定阈值的语音片段的语谱图用于重新训练一个基分类器,并再次计算全部语音片段的排名值和训练基分类器,此操作循环给定轮次,每轮次训练的基分类器组成集成分类器;4)测试语音分段并提取语谱图后输入集成分类器计算该条语音的情感识别结果。
[0006]本专利技术所采用的技术方案可以进一步细化,每个语音片段的标签为数据集中其所在整条语音的真实标签,步骤2)中语音片段的混合熵由情感确定度熵和结构分布熵组成,其中情感确定度熵用于衡量语音片段表达情感的显著程度,情感确定度熵的公式为:其中,i为训练数据上语音片段的编号,C为数据集中情感类别数,k为所设定的近邻数,为第i个语音片段的基础确定度熵;结构分布熵用于衡量语音片段在深度特征空间中的分布结构稳定性,结构分布熵的公式为:其中,i为训练数据上语音片段的编号,k为所设定的近邻数,d
i,q
表示在训练数据中第i个语音片段与第q个语音片段深度特征间的欧氏距离,ln表示计算以e为底的对数。
[0007]基模型的训练过程中由混合熵和置信度的加权和计算的排名值作为每个轮次中对语音片段进行下采样的依据,每个语音片段的混合熵由情感确定度熵和结构分布熵计算,混合熵的公式为:其中,i为训练数据上语音片段的编号,表示情感确定度熵,表示结构分布熵,nor是Min

Max归一化函数,MIE
i
表示第i个语音片段的混合熵;各个语音片段的排名值定义为混合熵和步骤1)获得的置信度的加权和,排名值的公式为:Rnak
i
=(1

λ)nor(conf
i
)+λnor(

MIE
i
),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,i为训练数据上语音片段的编号,conf
i
表示第i个语音片段的置信度,MiE
i
表示第i个语音片段的混合熵,λ是权重系数,nor是Min

Max归一化函数,Rank
i
表示第i个语音片段的排名值。
[0008]每个轮次中的基模型通过梯度下降法最小化语音片段标签和语音片段情感分类结果的交叉熵损失来更新参数,最终由各轮次产生的基分类器组成的集成分类器根据整条测试语音当中每个语音片段的输出计算系统预测的情感类别。
[0009]本专利技术有益的效果是:本专利技术提出一种基于混合熵下采样和集成分类器的语音情感识别系统,通过在多个轮次的基分类器训练中选择参与训练的语音片段,将每轮迭代的分类器组合成一个集成分类器,有效地提高了语音情感识别的准确率,与现有分类器和基分类器相比,其能够明显地减少情感类别不明确的语音片段的影响。本专利技术中提出了混合熵的概念,一个语音片段的混合熵包括情感确定度熵和结构分布熵,利用混合熵和置信度计算出的排名值作为标准,可以有效选择情感类别明确、分布结构稳定的样本进行集成分类器的训练。
附图说明
[0010]图1是本专利技术一种基于混合熵下采样和集成分类器的语音情感识别系统结构图。
具体实施方式
[0011]下面结合附图对本专利技术的具体实施方式进行详细描述:
[0012]步骤1:预处理阶段,将训练数据中的所有情感语音原始语音信号逐一划分为时长2s的语音片段,总计共划分N个语音片段,两语音片段之间无重叠部分,不足2s的语音片段在读取信号值上补零处理,后通过对每个语音片段的信号值按照要求进行分帧、加窗操作提取语谱图作为新的训练数据提取语谱图作为新的训练数据其中f为分帧数,w为帧语音特征长度,各个语音片段的对应的训练标签各个语音片段的对应的训练标签为其所在整条语音在训练数据中的真实情感标签;
[0013]步骤2:在每一个迭代轮次l中,训练一个新的基分类器m
l
,输入为语音片段的语谱图在第l轮次所组成的训练数据其对应Y中的标签为其中n为每轮中参与基分类器训练的语音片段数目;当l=1时,X1中的语音片段数目n=N,即所有语音片段的语谱图都参与了基分类器的训练;每个语音片段在基分类器m
l
最后的输出为其中C为数据集中情感类别数目,其表示该语音片段在基分类器上预测为各个情感类别的概率,那么基分类器m
l
的预测标签训练过程中第i个语音片段上的损失函数为真实情感标签y
i
和基分类器输出的交叉熵损失

y

i
·
log(y
i
)...

【技术保护点】

【技术特征摘要】
1.一种基于混合熵下采样和集成分类器的语音情感识别系统,其特征在于,包括如下步骤:1)把数据集划分为训练数据和测试数据两部分,将训练数据的语音信号划分为片段后提取语谱图,用其训练基分类器并从中获得每个语音片段的深度特征和置信度;2)计算所有语音片段的混合熵并将其与置信度的加权和作为排名值;3)排名值大于设定阈值的语音片段的语谱图用于重新训练一个基分类器,并再次计算全部语音片段的排名值和训练基分类器,此操作循环给定轮次,每轮次训练的基分类器组成集成分类器;4)测试语音分段并提取语谱图后输入集成分类器计算该条语音的情感识别结果。2.根据权利要求1所述的一种基于混合熵下采样和集成分类器的语音情感识别系统,其特征在于,步骤2)中的混合熵由情感确定度熵和结构分布熵组成,其中情感确定度熵用于衡量语音片段表达情感的显著程度;情感确定度熵的公式为:其中,i为训练数据上语音片段的编号,C为数据集中情感类别数,k为所设定的近邻数,为第i个语音片段的基础确定度熵,ln表示计算以e为底的对数,其公式如下:具体而言,情感确定度熵的公式中,表示在训练数据的深度特征上与第i个语音片段计算欧式距离最近的k个语音片段中,片段数目最多的情感类别标签对应的片段数,其公式如下:其中,表示在训练数据中与第i个语音片段计算深度特征间欧式距离最近的k个语音片段中的情感类别标签为j的片段数目。3.根据权利要求2所述的混合熵,其特征在于,混合熵中的结构分布熵用于衡量语音片段在深度特征空间中的分布结构稳定性;结构分布熵的公式为:其中,i为训练数据上语音片段的编号,k为所设定的近邻数,d
i,q
表示在训练数据中第i个语音片段与第q个语音片段深度特征间的欧氏距离,ln表示计算以e为底的对数。4.根据权利要求1所述的一种基于混合熵下采样和集成分类器的语音情感识别系统,其特征在于,步骤2)中每个语音片段的混合熵由权利要求2中的情感确定度熵和权利要求3中的结构分布熵计算;混合熵的公式为:
其中,i为训练数据上语音片段的编号,表示情感确定度熵,表示结构分布熵,nor...

【专利技术属性】
技术研发人员:李冬冬王喆宣正吉王建伟
申请(专利权)人:华东理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1