当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于领域对抗的语音情感识别方法及装置制造方法及图纸

技术编号:23769087 阅读:58 留言:0更新日期:2020-04-11 21:42
本发明专利技术公开了一种基于领域对抗的语音情感识别方法及装置,方法包括:(1)获取语音情感数据库,划分为源域数据库和目标域数据库;(2)对于每一语音信号,提取IS10特征作为全局特征;(3)将语音信号按照时间分成前后重叠50%的若干短片段,提取每个短片段的IS10特征;(4)将所有短片段的IS10特征输入双向长短时间记忆模型,再输入进注意力机制模型,输出作为局部特征;(5)将全局特征和局部特征串联作为联合特征;(6)建立神经网络,包括领域判别器和情感分类器;(7)对神经网络进行训练,网络总损失为情感分类器损失减去领域判别器损失;(8)获取待识别语音信号的联合特征,输入训练好的神经网络,得到预测的情感类别。本发明专利技术识别结果更准确。

A method and device of speech emotion recognition based on domain confrontation

【技术实现步骤摘要】
一种基于领域对抗的语音情感识别方法及装置
本专利技术涉及语音情感识别技术,尤其涉及一种基于领域对抗的语音情感识别方法及装置。
技术介绍
语音情感识别是情感计算领域中的一个热门研究问题,应用前景广阔。由于语音信号具有独特的序列属性,所以语音情感识别可以被看作是动态或者静态的分类问题。现有的方法大多从两个角度处理语音信号:帧尺度、整句话尺度,很少有方法考虑把上述两种尺度结合起来。语音情感识别的难点在于提取合适的语音情感特征并缩小源域数据库(训练数据库)数据以及目标域数据库(测试数据库)数据的特征分布差异。
技术实现思路
专利技术目的:本专利技术针对现有技术存在的问题,提供一种基于领域对抗的语音情感识别方法和装置,本专利技术采用局部和全局特征的联合特征进行分类,可以缩小源域数据库数据以及目标域数据库数据的特征分布差异,使得识别结果更准确。技术方案:本专利技术所述的基于领域对抗的语音情感识别方法包括:(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;(2)对于源域数据库和目标域数据库中的每个语音信号,提取其IS10特征作为对应语音信号的全局特征;(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;(5)对于源域数据库和目标域数据库中的每个语音信号,将其全局特征和局部特征串联起来,作为对应语音信号的联合特征;(6)建立神经网络,所述神经网络包括领域判别器和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本,输入领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;(8)获取待识别语音信号的联合特征,输入训练好的神经网络,得到预测的情感类别。进一步的,步骤(1)中,划分源域数据库和目标域数据库的方法为:将语音情感数据库中属于任意一个人的语音信号和对应情感类别标签作为目标域数据库,剩余其他所有人的语音信号和对应情感类别标签作为源域数据库。进一步的,步骤(4)中所述注意力机制模型为:f(Hl)=WTHl式中,f()表示线性计分函数,W表示可学习参数,Hl表示双向长短时间记忆模型的的输出,αi表示注意力权重,表示Hl第i、j个元素,Hlatt表示注意力机制模型的输出。进一步的,步骤(7)中所述网络总损失为:式中,E(θf,θy,θd)表示网络总损失,θf,θy,θd表示待训练参数,λ为正则化乘数,M是源域数据库的语音信号个数,N是目标域数据的语音信号个数,其中:形如Ld(*,#)表示领域判别器*与#的交叉熵损失函数,形如Ly(*,#)表示情感分类器*与#的交叉熵损失函数,dm表示源域数据库中第m个语音信号的领域类别标签,ym表示源域数据库中第m个语音信号的情感类别标签,Flg,m表示源域数据库中第m个语音信号的联合特征,m=1,…,M,dn表示目标域数据库中第n个语音信号的领域类别标签,Flg,n表示目标域数据库中第n个语音信号的联合特征,n=1,…,N;Gf()表示特征提取器,Gd()表示领域分类器输出的预测领域类别,Gy()表示情感分类器输出的预测情感类别;网络训练目的是找到待训练参数θf,θy,θd的鞍点,使得:本专利技术所述的基于领域对抗的语音情感识别装置包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序时实现上述方法有益效果:本专利技术与现有技术相比,其显著优点是:本专利技术提供了一种联合局部和全局特征的语音情感识别领域对抗方法,该方法结合了多种时间尺度的语音情感特征,领域判别器和情感分类器互相对抗学习,通过反向传播算法更新网络参数最终学习到一种既对不同情感具有区分性又对源域和目标域不具有区分性的情感特征,使得识别准确率更高。领域判别器可以在网络学习过程中动态地调整特征参数,使源域和目标域数据库的特征分布更靠近,当领域判别器不能区分数据是来自于源域数据库还是目标域数据库时,在源域数据库上训练的分类器可以更好地分类目标域数据库。附图说明图1是本专利技术的一个实施例的流程示意图;图2是本专利技术的神经网络训练过程示意图。具体实施方式本实施例提供了一种基于领域对抗的语音情感识别方法,如图1和图2所示,包括:(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库。其中,划分源域数据库和目标域数据库的方法为留一个人法(Leave-One-Subject-OutCrossValidation):将语音情感数据库中属于任意一个人的语音信号和对应情感类别标签作为目标域数据库,剩余其他所有人的语音信号和对应情感类别标签作为源域数据库。(2)对于源域数据库和目标域数据库中的每个语音信号,提取其IS10特征作为对应语音信号的全局特征。其中,IS10特征为“Interspeech2010paralinguisticchallenge.ChristianMüller,“Theinterspeech2010paralinguisticchallenge,”ProcInterspeech,2010.”中的特征,其定义见该文献,不再赘述,该特征提取时采用openSMILEtoolkit(一个公开的工具包)进行提取。采用表示提取的IS10特征,d表示IS10特征的维度1582。(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征。若一个语音信号划分为前后重叠50%的c个短片段,则该语音信号的IS10特征表示为:xc表示第c个片段的IS10特征。(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征。其中,若双向长短时间记忆模型采用L()表示,其中隐藏节点的个数为h,具体前向和后向隐藏节点数为1582,则双向长短时间记忆模型的输出为:其中,所述注意力机制模型为:f(Hl)=WTHl式中,f()表示线性计分函数,W表示可学习参数,Hl表示双向长短时间记忆模型的的输出,αi表示注意力权重,表示Hl第i、j个元素,Hl本文档来自技高网...

【技术保护点】
1.一种基于领域对抗的语音情感识别方法,其特征在于该方法包括:/n(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;/n(2)对于源域数据库和目标域数据库中的每个语音信号,提取其IS10特征作为对应语音信号的全局特征;/n(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;/n(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;/n(5)对于源域数据库和目标域数据库中的每个语音信号,将其全局特征和局部特征串联起来,作为对应语音信号的联合特征;/n(6)建立神经网络,所述神经网络包括领域判别器和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;/n(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本,输入领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;/n(8)获取待识别语音信号的联合特征,输入训练好的神经网络,得到预测的情感类别。/n...

【技术特征摘要】
1.一种基于领域对抗的语音情感识别方法,其特征在于该方法包括:
(1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库,并划分为源域数据库和目标域数据库;
(2)对于源域数据库和目标域数据库中的每个语音信号,提取其IS10特征作为对应语音信号的全局特征;
(3)对于源域数据库和目标域数据库的每个语音信号,将其按照时间顺序分成前后重叠50%的若干短片段,并提取每个短片段的IS10特征;
(4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型,随后再输入进注意力机制模型,输出作为对应语音信号的局部特征;
(5)对于源域数据库和目标域数据库中的每个语音信号,将其全局特征和局部特征串联起来,作为对应语音信号的联合特征;
(6)建立神经网络,所述神经网络包括领域判别器和情感分类器,所述领域判别器包括两层全连接层,输出为预测的语音信号所属领域类别,所述情感分类器包括两层全连接层,输出为预测的语音信号的情感类别;
(7)对所述神经网络进行训练,训练时,将源域数据库和目标域数据库中每一语音信号的联合特征作为一个样本,输入领域判别器,将源域数据库中每一语音信号的联合特征作为一个样本,输入情感分类器,网络总损失为情感分类器损失减去领域判别器损失,通过反向传播算法更新网络参数,完成网络训练;
(8)获取待识别语音信号的联合特征,输入训练好的神经网络,得到预测的情感类别。


2.根据权利要求1所述的基于领域对抗的语音情感识别方法,其特征在于:步骤(1)中,划分源域数据库和目标域数据库的方法为:将语音情感数据库中属于任意一个人的语音信号和对应情感类别标签作为目标域数据库,剩余其他所有人的语音信号和对应情感类别标签作为源域数据库。


3.根据权利...

【专利技术属性】
技术研发人员:郑文明郑婉璐宗源路成
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1