一种基于双线性池化融合动静态特征的语音情感识别方法技术

技术编号:39067255 阅读:8 留言:0更新日期:2023-10-12 19:59
本发明专利技术公开了一种基于双线性池化融合动静态特征的语音情感识别方法。该方法首先对收集的语音数据提取24维静态特征,再基于静态特征计算得到动态特征。然后分别使用LSTM网络提取动、静态特征的时序特征表示,经过双线性融合后利用注意力机制融合为话语级特征,再经过功率归一化后输入全连接层,识别情感种类。本方法通过双线性池化融合语音数据的静态特征与动态特征,使二者可以互补学习,从而生成更丰富的特征表示,同时利用注意力机制取代传统双线性池化方法中的池化操作,识别结果更具优势。势。势。

【技术实现步骤摘要】
一种基于双线性池化融合动静态特征的语音情感识别方法


[0001]本专利技术属于信号处理
,涉及语音情感识别,具体涉及一种基于双线性池化融合动静态特征的语音情感识别方法。

技术介绍

[0002]语音作为人类最自然、最有效的沟通方式,不仅可以包含语义信息,还包含大量的情感信息,可以反映说话人的内在精神或情绪状态。随着计算机技术的快速发展,人机交互的场景越来越丰富,语音情感识别在人机交互中也越发重要。例如,在机器人交流方面,如果机器人可以通过语音理解人类的情感状态,就可以选择合适的语气与说话者交流;在智能驾驶方面,如果车载智能驾驶系统可以通过语音实时检测驾驶员的精神与情绪状态,就可以避免大量由“路怒”引发的交通事故。
[0003]语音情感识别方法包括两个阶段——特征提取和特征分类。近年来,研究人员为了获取适用于语音情感识别的特征做了大量的研究,也取得了丰富的成果。现有技术中常用的特征有韵律特征、音质特征和基于谱的相关特征。然而由于语音情感主观性较强,寻找适合的特征仍然是一大挑战。许多研究者仅选择静态特征进行情感判别,忽略了情感表达过程中的变化,也就是动态特征。也有一些研究者选择将静态特征与动态特征直接拼接或者组合成多通道特征进行情感判别,但是忽略了特征间的相互干扰,都会导致情感识别效果不佳的问题。

技术实现思路

[0004]针对现有技术的不足,本专利技术提出了一种基于双线性池化融合动静态特征的语音情感识别方法,通过双线性池化融合动静态特征,使特征间互补学习,以生成更全面统一的特征表示,有效提高语音情感识别效果。
[0005]一种基于双线性池化融合动静态特征的语音情感识别方法,具体包括以下步骤:
[0006]步骤一、收集语音数据样本,根据语音情绪设置样本标签,对不同类别的数据进行均衡化处理,作为训练集。
[0007]步骤二、对训练集中的语音数据进行预处理,得到训练样本。
[0008]步骤三、提取训练样本的静态特征,包括IS09特征集与8个log Mel frequency band。再针对静态特征计算一阶差分,作为训练样本的动态特征。
[0009]步骤四、对静态特征与动态特征分别进行预处理,使样本特征的帧数一致,再进行归一化处理。
[0010]步骤五、构建并行的单层LSTM网络,分别将步骤四处理后的静态特征与动态特征输入LSTM网络中提取时序特征,然后通过双线性池化的方法将时序特征融合为更高维度的特征,并利用注意力机制进一步融合为话语级特征,接着经过功率归一化后输入全连接层,通过Softmax函数进行情感判别。
[0011]步骤六、对步骤五中的网络结构进行优化,然后输入处理后的语音数据静态特征
与动态特征,识别对应的情感。
[0012]与现有技术相比,本专利技术具有以下有益效果:
[0013]将静态特征与动态特征通过双线性池化的方法融合处理,生成更丰富的特征表示,使得静态特征与动态特征可以互补学习,同时使用注意力机制取代传统双线性池化方法中的池化操作,对各帧语音分配权重后加权求和融合为话语级特征,相比sum pooling或max pooling更具优势。无论是相较于现有技术中的单静态特征、单动态特征或拼接特征、多通道特征,本方法对语音样本情感的识别准确率都有明显提升。
附图说明
[0014]图1为实施例中构建的动静态特征融合网络结构示意图;
[0015]图2为实施例中得到的语音情感识别混淆矩阵。
具体实施方式
[0016]以下结合附图对本专利技术作进一步的解释说明;
[0017]一种基于双线性池化融合动静态特征的语音情感识别方法,具体包括以下步骤:
[0018]步骤一、使用来源于公开数据集IEMOCAP的语音数据进行情感识别实验。选取愤怒、伤心、快乐、中性4类不同情感的语音数据,保证不同种类样本的数量均衡,构建训练集。
[0019]步骤二、以16KHz的频率对训练集中的语音数据进行采样,再进行预加重、分帧、加窗操作,其中帧长为25ms,帧移为10ms,得到训练样本。
[0020]步骤三、使用Opensmile工具包提取训练样本的特征,包括过零率、能量平方根、F0(基音)、HNR(信噪比)、MFCC

12与8个log Mel frequency band,得到24维数据作为样本的静态特征,然后依次计算这24维特征的一阶差分作为动态特征:
[0021][0022]其中c
t
表示第t帧样本的动态特征,N表示差分帧区间,n=1,2,

N,x
t
表示第t帧样本的静态特征。
[0023]步骤四、对静态特征与动态特征分别进行截取与填充操作,保证数据最大序列长度为500帧,处理后的样本特征大小为T
×
D,其中T为帧数,D为特征维度。再通过Z

Score标准化对样本特征进行归一化处理。
[0024]步骤五、如图1所示,构建并行的单层LSTM网络,隐藏层大小设为80,分别输入步骤四处理后的静态特征与动态特征,得到网络的输出表示则第t帧静态时序特征与动态时序特征分别为其中M1、M2分别为LSTM网络输出的静态时序特征与动态时序特征的维度。按照下列公式将第t帧静态特征与动态特征进行融合:
[0025][0026]则融合后的特征表示为h=[h1,h2,
···
h
T
]T

[0027]传统的双线性池化方法(Bilinear Pooling)在双线性融合后需要对融合特征进行池化处理,一般采用sum pooling或max pooling,再本申请中选用注意力机制,根据各帧
语音对情感分类的贡献不同为融合特征分配权重,注意力机制的尺寸设置为16:
[0028]s
t
=V
T
tanh(Wh
t
+b)
[0029][0030][0031]其中,V和W为h
t
的权重矩阵,b表示偏置,s
t
表示h
t
的情感得分,α
t
表示为第t帧特征分配的权重,u表示融合后的话语级特征。
[0032]将话语级特征u经过功率归一化后输入全连接层,最后通过Softmax函数进行情感判别,功率归一化公式为:
[0033][0034]其中,sign( )表示符号函数,z表示功率归一化结果。
[0035]选用交叉熵作为损失函数,使用Adam优化器优化上述网络结构,学习率设置为0.00005,采用十折交叉验证,将加权精度WA和未加权精度UA作为评价指标,分别比较本方法提取的LLDs静态特征与IS09特征、8个log Mel

spectrogram特征的实验结果,如表1所示:
[0036][0037][0038]表1
[0039]对计算动态特征时的差分帧区本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双线性池化融合动静态特征的语音情感识别方法,其特征在于,具体包括以下步骤:步骤一、收集语音数据样本,根据语音情绪设置样本标签,对不同类别的数据进行均衡化处理,构建训练集;步骤二、对训练集中的语音数据进行预处理,得到训练样本;步骤三、提取训练样本的静态特征,包括IS09特征与8个log Mel frequency band;再针对静态特征计算一阶差分,作为训练样本的动态特征;步骤四、对静态特征与动态特征分别进行预处理,使样本特征的帧数一致,再进行归一化处理;步骤五、构建并行的单层LSTM网络,分别将步骤四处理后的静态特征与动态特征输入LSTM网络中提取时序特征,然后通过双线性池化的方法将时序特征融合为更高维度的特征,并利用注意力机制进一步融合为话语级特征,接着经过功率归一化后输入全连接层,通过Softmax函数进行情感判别;步骤六、对步骤五中的网络结构进行优化,然后输入处理后的语音数据静态特征与动态特征,识别对应的情感。2.如权利要求1所述一种基于双线性池化融合动静态特征的语音情感识别方法,其特征在于:以16KHz的频率对训练集中的语音数据进行采样,再进行预加重、分帧、加窗操作,其中帧长为25ms,帧移为10ms,得到训练样本。3.如权利要求1所述一种基于双线性池化融合动静态特征的语音情感识别方法,其特征在于:所述静态特征包括过零率、能量平方根、F0(基音)、HNR(信噪比)、MFCC

12与8个log Mel frequency band。4.如权利要求1所述一种基于双线性池化融合动静态特征的语音情感识别方法,其特征在于:所述动态特征的计算方法为:其中c
t
表示第t帧样本的动态特征,N表示差分帧区间,n=1,2,

N,x
...

【专利技术属性】
技术研发人员:周后盘郭晋华黄经州
申请(专利权)人:杭州电子科技大学平湖数字技术创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1