一种基于联合特征表示的语音情感识别模型及识别方法技术

技术编号:19595625 阅读:38 留言:0更新日期:2018-11-28 05:39
本发明专利技术公布了一种基于联合特征表示的语音情感识别模型及识别方法,涉及语音情感识别技术。对卷积循环神经网络模型进行了改进,利用神经网络中的隐含层学习频谱深度特征和手工特征的联合特征表示,并在端到端的网络模型中实现联合特征提取和情感分类的一体化。联合特征利用了频谱深度特征和手工特征之间的互补性,充分利用了语音中携带的情感信息,对语音情感进行了更完善的建模。此外,端到端的网络模型减少了中间输出层带来的参数冗余。基于联合特征表示的语音情感识别方法相比原有基于单纯卷积循环神经网络的语音情感识别方法提高了语音情感的识别准确率。

【技术实现步骤摘要】
一种基于联合特征表示的语音情感识别模型及识别方法
本专利技术涉及语音情感识别技术,尤其涉及一种基于联合特征表示的卷积循环神经网络的语音情感识别模型(HSF-CRNN)构建及语音情感识别方法。
技术介绍
情感识别有助于为人机交互提供人性化体验,使得计算机能够感知用户的情感状态并进行分析、随之产生相应的响应,是未来计算机必备的一项重要能力。其中语音作为人类沟通交流的基本方式,语音情感识别显得尤为重要。语音情感识别是对给定的语音片段进行情感种类标定的过程,具体来说,它的任务是从采集到的语音信号中提取能够表达情感的声学特征,再把这些特征映射为某类情感。人们对语音情感的感知通常蕴藏于某一相对较长时间段内情感的波动表达,而不是从瞬时的语音中判断,因此基于传统方法的语音情感识别把采用的手工特征分为了两大类:低层描述子(LowLevelDescriptor,LLD)和高层统计特征(High-levelStatisticFeature,HSF)。低层描述子从时长以毫秒为单位的语音帧中提取,表征的是短时音频的特性。高层统计特征由该句话中所有低层描述子的统计值组成,刻画了低层描述子在整句话中的动态变化情况。随着深度学习的发展,基于神经网络的方法在语音情感识别中也取得了很好的效果,实践中大多采用卷积神经网络。基于卷积神经网络的情感识别方法自动地从频谱中提取能够反映情感信息的深层语义特征。到目前为止,基于神经网络的语音情感识别方法仅仅从单一的特征(如频谱或手工特征)中学习情感深度特征。然而语音中包括了复杂的信息,可以提取出各种不同的特征,现有方法没有充分利用不同特征之间的互补性,使得对语音情感的建模能力不佳,导致情感识别性能也相对不高。
技术实现思路
为了克服上述现有技术的不足,本专利技术提供一种基于联合特征表示的语音情感识别模型(HSF-CRNN)构建及语音情感识别方法,对卷积循环神经网络(ConvolutionalRecurrentNeuralNetwork,CRNN)模型进行改进,同时利用手工特征和神经网络学习到的深度特征,充分利用原始语音中携带的情感信息,对语音情感进行更加全面的建模,由此有效地实现语音情感识别。本专利技术方法建立了一个端到端的神经网络模型,也避免了存在中间输出层导致的中间层过拟合问题。本专利技术的原理是:一方面使用深度特征,利用卷积循环神经网络中的卷积神经网络部分学习频谱的局部情感特征,利用卷积循环神经网络中的循环神经网络部分对卷积神经网络学到的局部情感特征进行进一步抽象,并通过池化层学到原始语音的全局情感特征;另一方面使用人工特征,采取现有的传统的方法从原始语音中提取低层描述子,并对它们计算高层统计特征。通过神经网络学习深度特征和人工特征的联合特征表达,构建基于联合特征表示的语音情感识别模型,并直接在模型后端的输出层中输出预判的情感类别,由此实现语音情感识别。本专利技术提供的技术方案如下:一种基于联合特征表示的语音情感识别方法,通过构建基于联合特征表示的语音情感识别模型,在模型后端的输出层中输出预判的情感类别,实现语音情感识别;所述联合特征表示是指通过神经网络学习深度特征和人工特征的联合特征表达;所述深度特征是指使用频谱特征,利用卷积循环神经网络中的卷积神经网络部分学习频谱的局部情感特征,利用卷积循环神经网络中的循环神经网络部分对卷积神经网络学到的局部情感特征进行进一步抽象,并通过池化层学习得到原始语音的全局情感特征;所述人工特征是指从原始语音中提取低层描述子,并对低层描述子进行计算,得到的高层统计特征;通过神经网络学习联合特征表达具体是指:将深度特征和人工特征通过各自的隐含层提取高层特征,再串联两者的高层特征输入同一个隐含层,得到的输出即为两者的联合特征表达。构建基于联合特征表示的语音情感识别模型包括如下过程:A)构建卷积循环神经网络,对频谱提取深度情感特征,实现方法为:A1)对输入的完整语音计算log-mel频谱,用固定时长的滑窗在频谱上沿着时间轴进行滑动,把频谱在时间轴上切分为对应时长相等、具有重叠部分的频谱段。因此对于一句语音输入,得到了[s(1),s(2),…,s(T)],其中s(t)是一个频谱段,T是频谱段总段数;A2)将每段频谱段输入同一个卷积神经网络中,该卷积神经网络对一个频谱段s(t)进行多次的卷积-池化操作,可为每个频谱段得到一个特征图c(t)。因此,对于原始语音输入,在这一步得到[c(1),c(2),…,c(T)];A3)将原始输入语音所有频谱段产生的特征图都伸展成为一维向量,把这些特征向量按所属频谱段的时间顺序输入一个循环神经网络,循环神经网络为每一个时间节点t的特征向量都提取出包含上下文时序信息的更高层语义的特征向量r(t),形成一个新的特征向量序列[r(1),r(2),…,r(T)];A4)分别用最大值池化层、均值池化层、最小值池化层对特征向量序列进行处理,得到特征向量序列的最大值向量Pmax、均值向量Pave、最小值向量Pmin,把这三个向量串联为一个一维向量p,该一维向量表征了原始输入语音中情感的动态变化。三个池化层中的操作如以下公式所示:令r(t)i表示r(t)的第i个元素,表示Pmax中的第i个元素,表示Pmin中的第i个元素,n表示向量r(t)中的元素总数,则:其中Pave=∑1≤t≤Tr(t)/T(式2)其中B)对原始输入语音提取低层描述子,并计算高层统计特征HSF,HSF形成一维向量。C)对步骤A中得到的一维向量p和步骤B中得到的HSF进行联合特征表示,包括如下步骤:C1)令p和HSF分别输入语音情感识别模型中不同的隐含层,各自经过若干层隐含层后(层数可为0),各自得到更为抽象的特征表示;C2)串联p和HSF的隐含层输出使之成为一个新的一维特征向量;C3)令串联后的特征向量输入下一个隐含层,该隐含层把p和HSF映射到同一个特征空间,学习了它们的联合特征表示。D)联合特征经过若干个隐含层后(个数可能为0、1或多个),输入到输出层进行情感类别的预测。基于联合特征表示的语音情感识别神经网络结构如图3所示,包括了卷积层、池化层、循环神经网络层、全连接层和输出层。采用上述网络进行语音情感识别,完整过程包括模型训练阶段和测试阶段,如图1所示。模型训练阶段使用的训练数据为已知情感类别标签的<音频数据,标签>数据对。在模型测试阶段,使用在模型训练阶段训练好的模型对给定的音频数据预测情感类别,可预测的类别为训练数据中出现过的所有情感类别。模型测试阶段只需要<音频数据>,但一般使用<音频数据,标签>数据对来验证模型性能。模型训练阶段执行以下操作:11)对一条音频数据提取log-mel频谱,并把频谱在时间轴上分割为时长相等的频谱段;12)将频谱段输入构建的语音情感识别模型的卷积循环神经网络部分,得到深度频谱特征;13)对这条音频数据计算高层统计特征;14)将高层统计特征输入对应的全连接层,得到神经网络对手工特征的抽象表示;15)令12)和14)中得到的特征向量分别输入若干个(可为0个,1个或多个)隐含层;16)串联15)中得到两种特征向量的隐含层输出,并输入下一个全连接层,得到深度频谱特征和手工特征的联合特本文档来自技高网
...

【技术保护点】
1.一种基于联合特征表示的语音情感识别模型,所述联合特征表示是指通过神经网络学习深度特征和人工特征的联合特征表达;所述深度特征具体是:使用频谱特征,利用卷积循环神经网络中的卷积神经网络部分学习频谱的局部情感特征,利用卷积循环神经网络中的循环神经网络部分对卷积神经网络学到的局部情感特征进行进一步抽象,并通过池化层学习到原始语音的全局情感特征,得到深度特征;所述人工特征具体是从原始语音中提取低层描述子,并对低层描述子进行计算,得到的高层统计特征;通过神经网络学习联合特征表达具体是:将深度特征和人工特征分别通过各自的隐含层提取高层特征,再串联深度特征和人工特征的高层特征输入同一个隐含层,得到的输出即为深度特征和人工特征的联合特征表达;通过所述语音情感识别模型后端的输出层输出预判的情感类别,由此实现语音情感识别。

【技术特征摘要】
1.一种基于联合特征表示的语音情感识别模型,所述联合特征表示是指通过神经网络学习深度特征和人工特征的联合特征表达;所述深度特征具体是:使用频谱特征,利用卷积循环神经网络中的卷积神经网络部分学习频谱的局部情感特征,利用卷积循环神经网络中的循环神经网络部分对卷积神经网络学到的局部情感特征进行进一步抽象,并通过池化层学习到原始语音的全局情感特征,得到深度特征;所述人工特征具体是从原始语音中提取低层描述子,并对低层描述子进行计算,得到的高层统计特征;通过神经网络学习联合特征表达具体是:将深度特征和人工特征分别通过各自的隐含层提取高层特征,再串联深度特征和人工特征的高层特征输入同一个隐含层,得到的输出即为深度特征和人工特征的联合特征表达;通过所述语音情感识别模型后端的输出层输出预判的情感类别,由此实现语音情感识别。2.一种基于联合特征表示的语音情感识别模型的构建方法,所述联合特征表示是通过卷积循环神经网络学习的深度特征和人工特征的联合特征表达;所述构建方法包括如下步骤:A)构建卷积循环神经网络,对频谱提取深度情感特征,实现方法为:A1)对输入的一句语音,计算log-mel频谱,用固定时长的滑窗在频谱上沿着时间轴进行滑动,把频谱在时间轴上切分为对应时长相等、具有重叠部分的频谱段,得到[s(1),s(2),…,s(t),…,s(T)],其中s(t)是一个频谱段,T是频谱段总段数;A2)将每段频谱段输入同一个卷积神经网络中,该卷积神经网络对一个频谱段s(t)进行多次卷积-池化操作,每个频谱段得到一个特征图c(t),输入语音对应的特征图表示为[c(1),c(2),…,c(t),…,c(T)];A3)将输入语音所有频谱段产生的特征图均伸展成为一维向量,将特征向量按所属频谱段的时间顺序输入一个循环神经网络,循环神经网络为每一个时间节点t的特征向量均提取出包含上下文时序信息的更高层语义的特征向量r(t),形成一个新的特征向量序列[r(1),r(2),…,r(t),…,r(T)];A4)分别用最大值池化层、均值池化层、最小值池化层对特征向量序列进行处理,得到特征向量序列的最大值向量Pmax、均值向量Pave、最小值向量Pmin,把三个向量串联为一个一维向量p,该一维向量表征原始输入语音中情感的动态变化;B)对输入语音提取低层描述子,并计算高层统计特征HSF,HSF形成一维向量;C)对步骤A中得到的一维向量p和步骤B中得到的HSF进行联合特征表示,包括如下步骤:C1)将p和HSF分别输入不同的隐含层,经过隐含层后,分别得到更为抽象的特征表示;隐含层的层数可为0、1或多层;C2)串联p和HSF的隐含层输出,生成一个新的一维特征向量;C3)将串联后得到的新的一维特征向量输入下一个隐含层,该隐含层把p和HSF映射到同一个特征空间,学习p和HSF的联合特征表示;D)联合特征经过隐含层后,输入到输出层进行情感类别的预测;隐含层的层数可为0、1或多层。3.如权利要求2所述基于联合特征表示的语音情感识别模型的构建方法,其特征是,在卷积循环神经网络部分同时采用三种池化方式,由此提高循环层输出特征的全局统计特性;三种池化方式为最大值池化、均值池化、最小值池化;步骤A4)中,最大值池化层、均值池化层、最小值池化层的操作具体表示为式1~式3:Pave=∑1≤t≤Tr(t)/T(式2)其中,r(t)i表示r(t)的第i个元素;n表示向量r(t)中的元素总数。4.一种基于联合特征表示的语音情感识别方法,通过构建基于联合特征表示的卷积循环神经网络构建一个语音情感识别模型,首先对语音情感识别模型进行训练,成为一个可靠模型;再使用训练好的语音情感识别模型对给定的音频数据预测情感类别,可能预测的情感类别为训练数据中出现的所有情感类别;模型训练阶段执行以下操作101)~111):101)对一条音频数据提取log-mel频谱,并把频谱在时间轴上分割为时长相等的频谱段;102)将频谱段输入构建的语音情感识别模型的卷积循环神经网络部分,得到深度频谱特征;103)对音频数据计算高层统计特征;104)将高层统计特征输入对应的全连接层,得到神经网络对手工特征的抽象表示;105)将102)和104)中得到的特征向量分别输入隐含层;106)串联105)中得到两种特征向量的隐含层输出,并输入下一个全连接层,得到深度频谱特征和手工特征的联合特征表示;107)联合特征经过隐含层;108)输出层输出该条音频数据的预测情感类别;109)在训练模型过程的一次迭代中包括对一批音频数据从步骤101)到108)的并行处理;110)根据该批数据的真实标签和预测标签,通过交叉熵...

【专利技术属性】
技术研发人员:邹月娴罗丹青
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1