一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法技术

技术编号:29875768 阅读:13 留言:0更新日期:2021-08-31 23:51
本发明专利技术涉及一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,属于语音信号处理与模式识别领域,包括:S1:利用听觉系统对语音信号进行处理,提取出表征语音情感信息的基于时间调制信号的语谱图;S2:利用3DCNN模型从语谱图中提取情感语音的光谱‑时间特征;S3:通过ARNN提取光谱‑时间特征的长期依赖关系,利用时间注意模型来捕捉与情感相关的重要信息;S4:更新自身的参数使得损失最小,使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用RMSProp算法对模型参数进行优化;S5:使用验证集对训练后的模型验证,调整超参数,最后利用Softmax层进行语音情感分类。

【技术实现步骤摘要】
一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法
本专利技术属于语音信号处理与模式识别领域,涉及一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法。
技术介绍
人工智能领域的不断发展使得人类与计算机的关系日益密切,情感计算更是其中一个重要研究领域,在人机交互中情感交互具有非常重要的意义。而语言是人类信息交流的直接媒介,所以,语音情感识别(SER)相较于其他情感识别技术来说,在实用性和应用广泛程度上最具有代表性。情感识别过程中的一个关键环节是从语音信号中提取出可以表征人类情感的特征集,迄今为止,仍然没有一个很系统的特征集。之前很多研究都是直接从语音中提取低层次描述符(LLDs),再利用传统的机器学习方法对情感进行分类。但是,由于存在上下文和表达情感的不同方式等因素,从LLDs选取特征集进行SER的效果不是特别理想。随着科技的发展,图像处理变得易于实现,因此SER研究的新热点是将语音信号转化为语谱图作为SER的识别对象。这种方法避免了手工特征提取的繁琐过程,减少建模和训练工作量。它还能反映语音信号的能量特性和节奏变化的纹理特征,已有许多研究者开始基于谱图开展语音情感识别技术的研究,并取得了良好的效果。Tarunika等使用深度神经网络(DNN)从幅度谱中提取高级情感特征表示,并且与传统声学特征相比表现出更好的性能。Han等提出一种DNN-ELM深度网络模型用于SER,使用能量最高的片段来训练DNN模型,以提取有效的情绪信息。近几年,CNN和RNN在SER领域应用广泛,深卷积模型可以保持语音信号的谱时平移不变性,RNN在处理时序信息方面表现优异,因此常用于提取情感语音的高级特征。Neumann等将无监督自动编码器学习表示集成到CRNN情感分类器中,提高了识别精度。但是,CNN从语谱图中学习特征的这种方法,仅仅是对单帧图的CNN特征进行融合,因此往往忽略了相邻的连续语音帧间的联系,因此,一些研究提出了三维卷积模型用于SER,可以更好地捕捉特征表示的短期时空关系。Peng等人将谱图信息直接作为三维-CRNN的输入,卷积层用于提取高层次表示,递归层则提取用于情感识别的长期依赖关系。针对沉默帧和情感无关帧对SER的干扰,Chen等提出了一种基于注意力的3D卷积递归神经网络(ACRNN)模型用于学习SER的判别特征,注意力机制的引入有效降低了沉默帧等冗余信息的影响。但是传统调制谱特征存在的纹理特征信息不完善,导致语音情感识别的准确率下降。且在网络结构复杂时,需要训练的参数也逐渐增多,导致计算量非常大。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种可获得较高识别率、有效解决原始特征信息表征能力不强以及时空关联性弱的问题的一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法。为达到上述目的,本专利技术提供如下技术方案:一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,包括以下步骤:S1:利用听觉系统对语音信号进行处理,提取出表征语音情感信息的基于时间调制信号的语谱图;S2:利用3DCNN模型从语谱图中提取情感语音的光谱-时间特征;S3:将3DCNN的输出作为ARNN模型的输入,通过ARNN提取光谱-时间特征的长期依赖关系,利用时间注意模型来捕捉每个话语中与情感相关的重要信息;S4:在模型训练过程中各自更新自身的参数使得损失最小,不断迭代优化,使模型达到最优,使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用RMSProp算法对模型参数进行优化;S5:使用验证集对训练后的模型验证,调整模型的超参数,得到最终网络模型,最后利用Softmax层进行语音情感分类。进一步,所述步骤S1具体步骤如下:S11:采用听觉滤波器组将语音信号y(t)分解为声音频率分量,作为耳蜗声音频率分析仪对语音信号进行处理,其中第n个声音频率通道的输出为:sg(n,t)=gc(n,t)*y(t),1≤n≤N其中,gc(n,t)是第n个信道的脉冲响应,t是时域中的样本数,N是听觉滤波器组中的通道数,*表示卷积操作;所述听觉滤波器的中心频率与其带宽成正比,其特点为等效矩形带宽(ERBN),公式如下:其中,fn是第n个滤波器的中心频率,Qear是大频率下的渐近滤波器质量,Bmin是低频率下的最小带宽;所述听觉滤波器的脉冲响应是伽玛分布和正弦函数的乘积,公式如下:其中,Ata1-1exp(-2πwfERBN(fn)t)是由伽玛分布表示的振幅项,A、a1和wf分别是滤波器的振幅、滤波器顺序和带宽,c1ln(t)项是单调调频项,是原始相位,ERBN(fn)是在中心频率为fn时听觉滤波器的带宽;S12:利用希尔伯特变换提取语音信号的时间包络线,计算第n个通道信号的瞬时振幅se(n,t),se(n,t)是从sg(n,t)计算得出,公式如下:式中,是一个复杂分析信号。S13:利用调制滤波器组获得频谱-时间调制信号,使用第n个通道中的第m个调制滤波器获得的频谱-时间调制信号sm(n,m,t),其计算公式如下:sm(n,m,t)=mf(m,t)*se(n,t),1≤n≤M其中,mf(m,t)是调制滤波器组的脉冲响应,M是调制滤波器组中的通道数。这种类型的信号为每个子信道生成一个频域特定的时域信号,并且许多子信道包括3D光谱-时间表示。由于光谱-时间表示的高时间分辨率,因此必须减少时域的样本数量。时间分辨率的降低可以简单地通过800Hz速率的下采样频谱-时间表示来实现,此操作将序列长度减少了20倍。进一步,步骤S2中所述3DCNN模型包括三个卷积层、三个池化层及一个Reshape层,每个卷积层后加入批规范(BatchNormalization,BN)层和ReLU激活函数层;所述BN层对深度神经网络中间层激活进行归一化,引入两个可学习参数γ和β:一个批次中,BN是对每个特征而言的,有m个训练样本,j个维度,即j个神经元节点,对第j维进行规范化:其中,是第i层第j维的线性计算结果,ε是为了防止方差为0的常数;ReLU的计算公式如下:进一步,步骤S3中所述的ARNN模型为双向LSTM模型,所述LSTM单元包括遗忘门、输入门和输出门;使用遗忘门来确定在前一时刻的单元状态中丢弃的信息,并直接参与更新单元状态,单元状态的更新算法与前一刻的隐藏层输出和当前时刻的输入有关,并将前一个时刻的单元状态作为更新当前状态的参数;遗忘门算法:ft=σ(Wf×[ht-1,xt]+bf)单元状态更新算法:it=σ(Wi×[ht-1,xt]+bi)其中Ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出,xt是当前时刻的输入,是要被添加到记忆单元的候选值,Wf、Wi和WC分别是由训练得到的遗忘门、输入门和候选单元的权重,bf、bi和bC是Wf、本文档来自技高网
...

【技术保护点】
1.一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,其特征在于:包括以下步骤:/nS1:利用听觉系统对语音信号进行处理,提取出表征语音情感信息的基于时间调制信号的语谱图;/nS2:利用3DCNN模型从语谱图中提取情感语音的光谱-时间特征;/nS3:将3DCNN的输出作为ARNN模型的输入,通过ARNN提取光谱-时间特征的长期依赖关系,利用时间注意模型来捕捉每个话语中与情感相关的重要信息;/nS4:在模型训练过程中各自更新自身的参数使得损失最小,不断迭代优化,使模型达到最优,使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用RMSProp算法对模型参数进行优化;/nS5:使用验证集对训练后的模型验证,调整模型的超参数,得到最终网络模型,最后利用Softmax层进行语音情感分类。/n

【技术特征摘要】
1.一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,其特征在于:包括以下步骤:
S1:利用听觉系统对语音信号进行处理,提取出表征语音情感信息的基于时间调制信号的语谱图;
S2:利用3DCNN模型从语谱图中提取情感语音的光谱-时间特征;
S3:将3DCNN的输出作为ARNN模型的输入,通过ARNN提取光谱-时间特征的长期依赖关系,利用时间注意模型来捕捉每个话语中与情感相关的重要信息;
S4:在模型训练过程中各自更新自身的参数使得损失最小,不断迭代优化,使模型达到最优,使用验证集对训练后的模型进行10倍交叉验证,交叉熵作为损失函数,用RMSProp算法对模型参数进行优化;
S5:使用验证集对训练后的模型验证,调整模型的超参数,得到最终网络模型,最后利用Softmax层进行语音情感分类。


2.根据权利要求1所述的听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,其特征在于:所述步骤S1具体步骤如下:
S11:采用听觉滤波器组将语音信号y(t)分解为声音频率分量,作为耳蜗声音频率分析仪对语音信号进行处理,其中第n个声音频率通道的输出为:
sg(n,t)=gc(n,t)*y(t),1≤n≤N
其中,gc(n,t)是第n个信道的脉冲响应,t是时域中的样本数,N是听觉滤波器组中的通道数,*表示卷积操作;所述听觉滤波器的中心频率与其带宽成正比,其特点为等效矩形带宽(ERBN),公式如下:



其中,fn是第n个滤波器的中心频率,Qear是大频率下的渐近滤波器质量,Bmin是低频率下的最小带宽;所述听觉滤波器的脉冲响应是伽玛分布和正弦函数的乘积,公式如下:



其中,Ata1-1exp(-2πwfERBN(fn)t)是由伽玛分布表示的振幅项,A、a1和wf分别是滤波器的振幅、滤波器顺序和带宽,c1ln(t)项是单调调频项,是原始相位,ERBN(fn)是在中心频率为fn时听觉滤波器的带宽;
S12:利用希尔伯特变换提取语音信号的时间包络线,计算第n个通道信号的瞬时振幅se(n,t),se(n,t)是从sg(n,t)计算得出,公式如下:



式中,是一个复杂分析信号。
S13:利用调制滤波器组获得频谱-时间调制信号,使用第n个通道中的第m个调制滤波器获得的频谱-时间调制信号sm(n,m,t),其计算公式如下:
sm(n,m,t)=mf(m,t)*se(n,t),1≤n≤M
其中,mf(m,t)是调制滤波器组的脉冲响应,M是调制滤波器组中的通道数。


3.根据权利要求1所述的听觉前端与基于注意力的3DCRNN结合的语音情感识别方法,其特征在于:步骤S2中所述3...

【专利技术属性】
技术研发人员:黄超张毅郑凯
申请(专利权)人:重庆邮智机器人研究院有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1