一种基于物理波和循环网络的语音情感识别方法技术

技术编号:29761584 阅读:33 留言:0更新日期:2021-08-20 21:15
本发明专利技术公开了一种基于物理波和循环网络的语音情感识别方法,包括:获取待识别的语音段;对语音段进行扩展处理,得到延拓声波场;从声波的传输机制入手,根据波动物理动力学与情感表达的映射关系确定对音频信号进行特征提取的物理波模型,基于物理波模型对延拓声波场进行特征提取;利用训练好的循环网络模型对提取出的特征进行语音情感识别,得到语音段的语音情感;循环网络模型采用3层双向长短期记忆模型;还包括注意力层;将注意力层的输出注入全连接层和Softmax,输出预测情感分类结果。本发明专利技术从环境声音感知的角度,设计了基于物理波和长短期记忆模型融合的语音情感识别深度学习模型,从而提出有效的语音情感识别方法。

【技术实现步骤摘要】
一种基于物理波和循环网络的语音情感识别方法
本专利技术涉及信息
,特别是涉及一种基于物理波和循环网络的语音情感识别方法。
技术介绍
语音情感识别(SpeechEmotionRecognition,SER)旨在通过语音信号识别说话者的正确情绪状态,语音情感识别是计算机理解人类情感的关键之处,是实现人机交互的前提,它是人机交互中一个重要的组成部分。也是语音处理领域中一个具有挑战性和广泛应用前景的研究课题,语音情感识别主要涉及到多媒体、信号处理、深度学习等领域。它对测试样本的特征进行提取,对高层特征进行建模,从而实现高精度的情感识别。现有的语音情感识别方法主要是从语音样本中提取音频的特征,按照经验数据,设计深度学习相关模型,并计算语音情感识别的精度。如,申请号为CN201210551585的专利技术专利公开了一种基于压缩感知的鲁棒性语音情感识别方法,包含如下步骤:产生含噪声的情感语音样本,建立声学特征提取模块,构建稀疏表示分类器模型,输出语音情感识别结果。又如,申请号为CN111429947A的专利技术专利公开了一种基于多级残差卷积神经网络的语音情感识别方法,通过跨越多级的残差块对卷积神经网络(CNN)进行特征弥补,解决了对CNN随着卷积层加深而出现的特征丢失的问题。但是,这种提取特征的方法与情感表达类型、噪声、音长、说话者等因素均有关联,单纯的特征提取无法实现高精度的情感识别。此外,按照经验设计的模型与算法的泛化能力有待提升。
技术实现思路
有鉴于此,本专利技术提出一种基于物理波和循环网络的语音情感识别方法,从环境声音感知的角度,设计基于物理波和长短期记忆(LongShort-TermMemory,LSTM)模型融合的语音情感识别深度学习模型,从而提出有效的语音情感识别方法,同时提升模型的泛化能力。为此,本专利技术采用以下技术方案:本专利技术提供了一种基于物理波和循环网络的语音情感识别方法,所述方法包括:获取待识别的语音段;对所述语音段进行扩展处理,得到延拓声波场;从声波的传输机制入手,根据波动物理动力学与情感表达的映射关系确定对音频信号进行特征提取的物理波模型,基于所述物理波模型对所述延拓声波场进行特征提取;利用训练好的循环网络模型对提取出的特征进行语音情感识别,得到所述语音段的语音情感;所述循环网络模型采用3层双向长短期记忆模型,每层长短期记忆模型的隐藏节点具有256个单元;在长短期记忆模型的第3层后,还包括注意力层;将注意力层的输出注入全连接层和Softmax,输出预测情感分类结果。进一步地,对所述语音段进行扩展处理,包括:利用固定步长深度递推声波延拓方法对所述语音段进行扩展处理。进一步地,所述固定步长深度递推声波延拓方法包括:确定延拓标准,所述延拓标准下生成的语音信号能够表达完整的情感;识别所述语音段中固定步长下的最佳连续语音帧区间,所述最佳连续语音帧区间为所述语音段的所有区间中深度累计最大的区间;采用固定步长平移和校正的方法将所述最佳连续语音帧区间拓展至所述语音段的全部区间,得到延拓声波场。进一步地,所述延拓标准为:将所述语音段视为声波,假设当前声波点的坐标为(x,y),深度方向坐标为z,圆频率为w,则在深度z处的声波场表示为W(x,y,z,w),在深度域声波延拓的方程为:其中,S是亥姆霍兹算子的单平方根算子,表示为:其中,v(x,y,z)是在空气介质下语音传播的波速。进一步地,所述物理波模型包括:当波在空间中传播时,其携带的信息处理的内存和容量由波提供;根据标量场分布的动力学,时间和空间的波函数ut=u(x,y,z,t)由波动方程控制,其中x,y,z表示空间点的坐标,t表示时间;使用时间步长为Δt的中心有限差分进行时间离散,如下式所示:其中,是拉普拉斯算子,c=c(x,y,z)是波速的空间分布,ft=f(x,y,z,t),其中f是源项,ft是源项的时间分布;令ht表示当前时刻的输出,得到其中,b表示阻尼系数,zo(t)表示输出门;设置ct用于表示当前时刻的单元状态,得到上式将输入序列转化为具有时序关系的输出序列,之前的每一步操作都被编码成循环神经网络的隐藏状态,在每一步中都得到了更新,其更新形式与长短期记忆模型的形式一致:ct=zf⊙ct-1+zi⊙z,其中,zf和zi分别表示长短期记忆模型中的忘记门和输入门,于是有:z=f(t);得到:其中,σ为sigmoid函数,xt表示原始声学信号的输入;基于上式求出wf,wi,w的值,wf,wi,w分别代表忘记门、输入门和输出的权重;通过ut的依赖关系,波动方程能够训练波速c的分布,其中,c=clin+ut2·cnl;clin是波传输材料区域中具有的线性响应关系,cnl是波传输材料区域中具有的非线性响应关系。进一步地,基于所述物理波模型对所述延拓声波场进行特征提取,包括:在输出区域定义观测点,每个观测点被分配为每类情感表达的一种;在利用所述物理波模型对输入全部数据进行模拟后,每个观测点输出一个长度为n的非负向量,其中,n是情感分类的数量;n为正整数;将每个观测点的数据级联在一起,得到当前语音的声学特征。进一步地,所述循环网络模型采用Relu作为激活函数,Adam作为优化器,使用交叉熵损失函数作为损失函数。本专利技术的优点和积极效果:1.以原始音频信号作为输入,采用有效数据,避免由部分特征提取导致的数据损失。2.设计基于物理波的模型,该模型模拟神经网络技术,可以训练物理波动系统学习时间数据中的复杂特征。3.设计LSTM网络模型,提升原始语音情感识别的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中语音情感识别方法的流程图;图2为本专利技术实施例中特征提取方法的流程图;图3为本专利技术实施例中循环网络模型的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术本文档来自技高网
...

【技术保护点】
1.一种基于物理波和循环网络的语音情感识别方法,其特征在于,所述方法包括:/n获取待识别的语音段;/n对所述语音段进行扩展处理,得到延拓声波场;/n从声波的传输机制入手,根据波动物理动力学与情感表达的映射关系确定对音频信号进行特征提取的物理波模型,基于所述物理波模型对所述延拓声波场进行特征提取;/n利用训练好的循环网络模型对提取出的特征进行语音情感识别,得到所述语音段的语音情感;所述循环网络模型采用3层双向长短期记忆模型,每层长短期记忆模型的隐藏节点具有256个单元;在长短期记忆模型的第3层后,还包括注意力层;将注意力层的输出注入全连接层和Softmax,输出预测情感分类结果。/n

【技术特征摘要】
1.一种基于物理波和循环网络的语音情感识别方法,其特征在于,所述方法包括:
获取待识别的语音段;
对所述语音段进行扩展处理,得到延拓声波场;
从声波的传输机制入手,根据波动物理动力学与情感表达的映射关系确定对音频信号进行特征提取的物理波模型,基于所述物理波模型对所述延拓声波场进行特征提取;
利用训练好的循环网络模型对提取出的特征进行语音情感识别,得到所述语音段的语音情感;所述循环网络模型采用3层双向长短期记忆模型,每层长短期记忆模型的隐藏节点具有256个单元;在长短期记忆模型的第3层后,还包括注意力层;将注意力层的输出注入全连接层和Softmax,输出预测情感分类结果。


2.根据权利要求1所述的基于物理波和循环网络的语音情感识别方法,其特征在于,对所述语音段进行扩展处理,包括:
利用固定步长深度递推声波延拓方法对所述语音段进行扩展处理。


3.根据权利要求2所述的基于物理波和循环网络的语音情感识别方法,其特征在于,所述固定步长深度递推声波延拓方法包括:
确定延拓标准,所述延拓标准下生成的语音信号能够表达完整的情感;
识别所述语音段中固定步长下的最佳连续语音帧区间,所述最佳连续语音帧区间为所述语音段的所有区间中深度累计最大的区间;
采用固定步长平移和校正的方法将所述最佳连续语音帧区间拓展至所述语音段的全部区间,得到延拓声波场。


4.根据权利要求1所述的基于物理波和循环网络的语音情感识别方法,其特征在于,所述延拓标准为:
将所述语音段视为声波,假设当前声波点的坐标为(x,y),深度方向坐标为z,圆频率为w,则在深度z处的声波场表示为W(x,y,z,w),在深度域声波延拓的方程为:其中,S是亥姆霍兹算子的单平方根算子,表示为:其中,v(x,y,z)是在空气介质下语音传播的波速。


5.根据权利要求1所述的基于物理波和循环网络的语音情感识别方法,其特征在于,所述物理波模型包括:
当波在空间中传播...

【专利技术属性】
技术研发人员:王春立郑纯军
申请(专利权)人:大连海事大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1