基于领域自适应子空间的无监督跨库语音情感识别方法技术

技术编号:27446595 阅读:24 留言:0更新日期:2021-02-25 04:13
一种基于领域自适应子空间的无监督跨库语音情感识别方法,包括获取语音序列、构成源域及目标域、对低维描述子进行统计函数处理、得到语音序列的全局特征向量、建立基于领域自适应的子空间模型、自学习得到投影矩阵及其对应的语音情感类别标签;能够进行不同特征分布数据库之间的学习,有良好的鲁棒性,使识别准确更高,且方法简单,容易实现。容易实现。容易实现。

【技术实现步骤摘要】
基于领域自适应子空间的无监督跨库语音情感识别方法


[0001]本专利技术属于语音情感识别领域,特别是涉及一种基于领域自适应子空间的无监督跨库语音情感识别方法。

技术介绍

[0002]语音情感识别(Speech Emotion Recognition,SER)在情感计算、模式识别和人机交互(Human Machine Interface,HMI)等领域已成为非常热门的研究方向。语音情感识别的主要任务是使计算机具有识别人类情感状态的能力。涉及的人类情感包括惊讶、生气、高兴、恐惧、悲伤、厌恶等。
[0003]人类的语音作为信息传递最直接最高效的方式,在人类情感表达和信息传递中起着至关重要的作用。在人机交互中,机器从交流对象的语音信号提取样本的情感特征,根据识别结果做出相应的反馈,从而提升人机交互系统的性能。语音情感识别在心理疾病诊疗、教育辅助、客服质量监控等方面都有着广泛的应用前景,能够及时检测出负面情绪,提前进行情绪疏导,也能够为相关人员提供最初的诊断依据。
[0004]目前语音情感识别的研究已取得了一定的成果,但主要针对源域(训练集)和目标域(测试集)样本源于同一个语料库,识别时通常假设样本具有相同的特征分布。在实际情况下,由于采集环境和设备等的不同,都会导致样本特征分布不同。此时传统的语音情感识别方法训练的分类器识别结果不精确。

技术实现思路

[0005]本专利技术的目的在于提供一种基于领域自适应子空间的无监督跨库语音情感识别方法,解决现有技术中只能对单一的数据库进行训练预测,导致语音情感识别率不精确的技术问题,具有模型简化、识别率高等优点,可得到广泛推广和应用。
[0006]本专利技术的技术方案:一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于它包括以下步骤:
[0007]步骤一:获取两个公开的语音数据库,每个数据库中存储有语音序列和对应的语音情感类别标签,分别记作跨库语音情感识别的源域和目标域;
[0008]步骤二:对源域和目标域中的每个语音序列的低维描述子(Low Level Descriptors,LLDs)进行统计函数处理,将统计得到的情感特征作为对应语音序列的全局特征向量;具体包括:
[0009](2-1)从步骤一中建立的存储有语音序列的语音数据库,对每段语音序列提取16个声学的低维描述子,包括:过零率(Zero-Crossing-Rate,ZCR)、能量平方根(Root Mean Square Frame Energy,RMS Energy)、基音频率(F0)、信噪比(Harmonics-to-Noise ratio,HNR)及Mel频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC),分别记作MFCC 1-MFCC 12;
[0010](2-2)对步骤(2-1)提取的每段语音序列的16个声学的低维描述子进行12个统计
函数的处理,统计函数包括:标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置,两个线性回归系数及其均方误差;
[0011](2-3)将步骤(2-2)统计得到的情感特征作为对应语音序列的全局特征向量。
[0012]步骤三:构建基于领域自适应的子空间模型,利用步骤一中的源域和目标域数据库语音序列全局特征对该模型进行学习,在学习过程中源域数据库标签给定,目标域数据库标签完全未知,学习到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵;
[0013]所述步骤三中的领域自适应子空间模型具体是指:
[0014][0015]并有,
[0016][0017][0018][0019][0020]其中,表示寻找使括号中表达式最小的矩阵U,L
s
为源域特征矩阵X
s
对应的标签矩阵,U
T
表示U的转置,X
s
表示源域样本特征矩阵,X
t
表示目标域样本特征矩阵,且和代表两个不同特征分布的语音序列数据库,d表示特征向量的维度,N
s
和N
t
分别表示源域和目标域语音情感样本序列数目,表示源域中所有特征向量的均值,表示目标域中所有特征向量的均值,Σ
s
和Σ
t
分别表示源域和目标域特征向量的协方差,λ1和λ2是平衡参数,用来控制目标函数公式(1)中三部分之间的平衡;
[0021]所述源域特征矩阵X
s
对应的标签矩阵L
s
在无监督的跨库语音情感识别中,源域语音情感序列的标签是已知的,将该标签信息定义成向量的形式,即其中c是语音情感状态编号;
[0022]定义标签矩阵L
s
中第i列的第j个元素l
i,j
为:
[0023][0024]所述步骤三中对领域自适应的子空间模型进行学习的具体方法是指:
[0025](3-1)将式(1)所描述的领域自适应子空间模型转换成如式(2)的优化结构:
[0026][0027]其中,ΔΣ
st
=Σ
s-Σ
t

[0028](3-2)利用增广拉格朗日乘子法对式(2)进行求解,通过引入两个辅助变量Q和K,则式(2)可转化为:
[0029][0030]s.t.U=K和U=Q
[0031]其拉格朗日函数如式(4)所示:
[0032][0033]其中,tr[
·
]表示矩阵
·
的迹,T1和T2为拉格朗日乘子,μ>0为正则化参数;
[0034](3-3)对式(4)得到的拉格朗日函数进行求解,即可得到最优投影矩阵U
*

[0035]所述步骤(3-3)中最优投影矩阵U
*
的获取,其具体包括以下步骤:
[0036](3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T1和T2不变,迭代更新辅助变量K:
[0037]则式(3)转化为式(5):
[0038][0039]式(5)的解析解为:
[0040][0041]其中,I是单位矩阵;
[0042](3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T1、T2和正则化参数μ不变,更新辅助变量Q,则有:
[0043][0044][0045](3-3-3)保持辅助变量Q、K、拉格朗日乘子T1、T2和正则化参数μ不变,更新投影矩阵U,则式(2)转化为式(9)有:
[0046][0047]式(9)的最佳投影矩阵U
*
如式(10)所示:
[0048][0049]其中,q
i
,t
1i
,t
2i
和k
i
分别是辅助变量Q,拉格朗日乘子T1,T2和辅助变量K的第i行。
[0050](3-3-4)分别按照式(11)和式(12)更新拉格本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于它包括以下步骤:步骤一:获取两个公开的语音数据库,每个数据库中存储有语音序列和对应的语音情感类别标签,分别记作跨库语音情感识别的源域和目标域;步骤二:对源域和目标域中的每个语音序列的低维描述子进行统计函数处理,将统计得到的情感特征作为对应语音序列的全局特征向量;步骤三:构建基于领域自适应的子空间模型,利用步骤一中的源域和目标域数据库语音序列全局特征对该模型进行学习,在学习过程中源域数据库标签给定,目标域数据库标签完全未知,学习到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵;步骤四:对于目标域中待识别的语音情感,按照步骤二得到的语音序列的全局特征向量,采用步骤三中学习到的投影矩阵,得到其对应的语音情感类别标签。2.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤二具体由以下步骤构成:(2-1)从步骤一中建立的存储有语音序列的语音数据库,对每段语音序列提取声学的低维描述子,包括:过零率、能量平方根、基音频率、信噪比及Mel频率倒谱系数,分别记作MFCC 1-MFCC 12;(2-2)对步骤(2-1)提取的每段语音序列的声学的低维描述子进行统计函数的处理,统计函数包括:标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置,两个线性回归系数及其均方误差;(2-3)将步骤(2-2)统计得到的情感特征作为对应语音序列的全局特征向量。3.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤三中的领域自适应子空间模型具体是指:并有,并有,并有,并有,其中,表示寻找使括号中表达式最小的矩阵U,L
s
为源域特征矩阵X
s
对应的标签矩阵,U
T
表示U的转置,X
s
表示源域样本特征矩阵,X
t
表示目标域样本特征矩阵,且和代表两个不同特征分布的语音序列数据库,d表示特征向量的维
度,N
s
和N
t
分别表示源域和目标域语音情感样本序列数目,表示源域中所有特征向量的均值,表示目标域中所有特征向量的均值,Σ
s
和Σ
t
分别表示源域和目标域特征向量的协方差,λ1和λ2是平衡参数,用来控制目标函数公式(1)中三部分之间的平衡。4.根据权利要求3所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述源域特征矩阵X
s
对应的标签矩阵L
s
在无监督的跨库语音情感识别中,源域语音情感序列的标签是已知的,将该标签信息定义成向量的形式,即其中c是语音情感状态编号;定义标签矩阵L
s
中第i列的第j个元素l
i,j
为:5.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法,其特征在于所述步骤三中对领域自适应的子空间模型进行学习的具体方法是指:(3-1)将式(1)所描述的领域自适应子空间模型转换成如式(2)...

【专利技术属性】
技术研发人员:刘娜张宝峰朱均超刘欣宜彭永胜
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1