基于时空多重融合网络的变长语音情感识别方法技术

技术编号:35261702 阅读:37 留言:0更新日期:2022-10-19 10:21
本发明专利技术涉及一种基于时空多重融合网络的变长语音情感识别方法,属于人工智能领域。该发明专利技术包括以下步骤:利用短时傅里叶变换和Mel滤波器组将语音映射为对数Mel滤波能量谱,并保持能量谱的原始长度;利用双向门控循环单元(Bidirectional gated recurrent unit,BiGRU)和注意力机制捕获能量谱的时域情感变化;利用卷积神经网络(Convolutional neuralnetwork,CNN)和全局平均池化定位能量谱的空域情感触发;利用直接连接和集成策略引入多重融合方法,用于能量谱时域与空域的情感交互;利用多分类交叉熵损失函数作为模型训练的指导,实现模型优化。本发明专利技术保持语音能量谱的长度不变,可对能量谱的时域与空域实现特征提取互不影响,并通过多重融合获得更完整的时空域情感信息,从而提升语音的情感识别精度。从而提升语音的情感识别精度。从而提升语音的情感识别精度。

【技术实现步骤摘要】
基于时空多重融合网络的变长语音情感识别方法


[0001]本专利技术属于人工智能领域,涉及基于时空多重融合网络的变长语音情感识别方法。

技术介绍

[0002]语音是人类自然交流中最方便、最直接的一种媒介,也是人类实现信息传递的一种有效方式。随着计算机技术和人工智能的不断革新,如何利用语音进行人机交互逐渐成为这个机器时代的一个炙热话题。在目前的商业市场上,已有一系列智能产品携带了语音助手功能,从而通过语音让计算机更好地服务人类。比如苹果的Siri、华为的小E、百度的小度、阿里的天猫精灵、小米的小爱同学、亚马逊的Alexa等。这些语音助手都是语音识别研究的成功表现,已经发展到了相当成熟的程度,甚至能够达到人类的语音识别能力。
[0003]然而,目前拥有语音识别能力的语音助手并不能明白语音中包含的情感信息。事实上,在人类互动过程中,情感是不可分割的组成部分,对人类的社会行为和意图决策起着至关重要的作用。因而,机器需要具有识别、解释和反应人类情感的能力。此外,将情感识别加入语音的相关研究中,能够使人机交流更加的人性化和智能化。于是,语音情感识别逐渐成为各国语音研究者的一个新方向。
[0004]语音情感识别的目的是通过语音信号来识别说话者的情感状态。目前,在许多实际应用中,语音情感识别有望于发挥不可替代的作用。比如,在呼叫中心服务中,可根据语音跟踪客户的情感,并根据检测结果调整所提供的服务以适应客户的情感状态。在医学领域,基于语音的诊断系统已在开发中,并寄望应用于抑郁症的辅助检测。除此之外,多媒体检索系统和智能汽车系统都旨在使用高效的语音情感识别系统来提高它们的性能。基于以上列举的应用前景,语音情感识别具有重要的研究意义和实际价值。
[0005]语音情感识别的研究迄今已有三十余年的历史,在国内外众多学者的共同努力下,现已取得了丰富的研究成果。早期的语音情感识别方法主要集中于从原始录音中手工提取像韵律、音质、Mel频率倒谱系数等声学特征,并通过机器学习算法实现情感分类,这为语音情感识别提供了一个好的起点。然而,这种传统方法需要人全程参与,无法自动进行,效率普遍不高,且无法深层次描述语音中的情感信息。
[0006]在如今的机器新时代,采用深度神经网络从语音中自动提取鲁棒的情感特征已成为语音情感识别的最新发展趋势。基于语音频谱本身特有的时频特性,通过经典的卷积神经网络和循环神经网络(Recurrent Neural Network,RNN)从频谱中提取深度特征逐渐受到研究者们的关注。在图像领域,CNN已被证明能够从空域中提取出显著特征,同时,RNN对时序特性的建模能力已在自然语言处理领域得到了很好的表现。受益于这些研究,目前SER通常采用CNN与RNN级联的模型进行特征提取。然而,CNN的下采样会使后续RNN学到的时间信息不连续,这可能会导致部分长依赖情感线索被忽略。于是,对语音频谱的时空域设计一种更合理的特征提取网络是一项符合实际需求的考虑。

技术实现思路

[0007]有鉴于此,本专利技术的目的在于提供一种基于时空多重融合网络的变长语音情感识别方法。
[0008]为达到上述目的,本专利技术提供如下技术方案:
[0009]基于时空多重融合网络的语音情感识别方法,包括以下步骤:
[0010]步骤一:利用短时傅里叶变换和Mel滤波器组将一维语音记录映射为二维的对数Mel滤波能量谱,能量谱包含时域与空域两个维度,并保持能量谱的原始长度。
[0011]步骤二:利用BiGRU捕获能量谱时域的上下文关系,注意力机制凸显能量谱时域的显著情感时刻,实现对能量谱时域情感变化的捕捉。
[0012]步骤三:利用CNN定位能量谱空域的情感区域,全局平均池化整合空域的全局情感信息,实现对能量谱空域情感触发的定位。
[0013]步骤四:利用时域分类器与空域分类器分别输出时域与空域的概率分布,直接连接获得时空域融合特征,并设计融合域分类器输出时空融合域的概率分布,将上述三个域的概率分布采用集成策略整合,实现时域与空域的多重融合,达到时空情感信息的交互。
[0014]步骤五:利用多分类交叉熵损失函数作为模型训练的指导,通过最小化损失函数输出的损失值作为训练目标,实现模型参数的更新与优化。
[0015]进一步,所述步骤一具体过程包括:
[0016]首先,将记录的一维语音信号用汉明窗口分为短帧,利用短时傅里叶变换将每一个短帧从一维时域映射为二维频域,并按时间维度拼接,得到语音的线性频谱表示。但是,直接通过短时傅里叶变换得到的线性频谱并不具备人耳听觉特性,且存在着维度过高和信息冗余的问题。
[0017]然后,为了能够使输入特征更准确地包含与情感相关的信息,将频谱的线性频率尺度f映射为非线性的Mel尺度M(f),计算如下:
[0018][0019]此映射过程采用数量为d的Mel滤波器组实现,将每个滤波器范围内的能量相加后取对数,获得更符合人耳听觉特性的对数Mel滤波能量谱,定义为其中x
i
表示频谱的第i帧,S表示语音频谱的长度。
[0020]最后,为保持能量谱的原始长度并满足神经网络的批次输入要求,将同一批次中长短不一的能量谱零填充为相同长度,定义其中任意能量谱为其中T为能量谱零填充后的时域长度,x
S+1
,

,x
T
为零填充帧。
[0021]对数Mel滤波能量谱包含时域和空域,时域描述了情感变化的过程,空域描述了情感触发的区域。接下来,将为时域与空域分别设计情感提取网络,分别刻画能量谱时域与空域的独特情感信息。
[0022]进一步,所述步骤二具体过程包括:
[0023]首先,为了避免零填充帧对BiGRU的计算产生影响,输入X
in
通过序列压缩函数将零填充部分压缩。具体地,将输入X
in
按时间轴依次取出每一帧,忽略零填充帧后拼接成一维向
量X
p
,这个过程可采用基于python编译的PyTorch工具实现,它封装的pack_padded_sequence函数可对零填充帧实现自动压缩,过程可表示如下:
[0024]X
p
=pack_padded_sequence(X
in
)
[0025]然后,将此一维向量X
p
经过隐藏神经元数量为d
T
的BiGRU从能量谱时域的正向和反向捕获上下文关系,获得一维局部时域特征B
v
。为了便于后续的特征提取,需将B
v
通过序列扩展函数扩展为二维局部时域特征B,上述计算过程可表示为:
[0026]B=pad_packed_sequence(BiGRU(X
p
))
[0027]其中,pad_packed_sequence函数在PyTorch工具中与pack_padded_sequence函数对应,可以实现零填充的扩展,即将压缩的数据恢复为原本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于时空多重融合网络的变长语音情感识别方法,其特征在于:该方法包括以下步骤:步骤一:利用短时傅里叶变换和Mel滤波器组将一维语音记录映射为二维的对数Mel滤波能量谱,能量谱包含时域与空域两个维度,并保持能量谱的原始长度;步骤二:利用BiGRU捕获能量谱时域的上下文关系,注意力机制凸显能量谱时域的显著情感时刻,实现对能量谱时域情感变化的捕捉;步骤三:利用CNN定位能量谱空域的情感区域,全局平均池化整合空域的全局情感信息,实现对能量谱空域情感触发的定位;步骤四:利用时域分类器与空域分类器分别输出时域与空域的概率分布,直接连接获得时空域融合特征,并设计融合域分类器输出时空融合域的概率分布,将上述三个域的概率分布采用集成策略整合,实现时域与空域的多重融合,达到时空情感信息的交互;步骤五:利用多分类交叉熵损失函数作为模型训练的指导,通过最小化损失函数输出的损失值作为训练目标,实现模型参数的更新与优化。2.根据权利要求1所述的基于时空多重融合网络的变长语音情感识别方法,其特征在于:所述步骤一具体过程包括:首先,将记录的一维语音信号用汉明窗口分为短帧,利用短时傅里叶变换将每一个短帧从一维时域映射为二维频域,并按时间维度拼接,得到语音的线性频谱表示;但是,直接通过短时傅里叶变换得到的线性频谱并不具备人耳听觉特性,且存在着维度过高和信息冗余的问题;然后,将频谱的线性频率尺度f映射为非线性的Mel尺度M(f),计算如下:此映射过程采用数量为d的Mel滤波器组实现,将每个滤波器范围内的能量相加后取对数,获得更符合人耳听觉特性的对数Mel滤波能量谱,定义为其中x
i
表示频谱的第i帧,S表示语音频谱的长度;最后,为保持能量谱的原始长度并满足神经网络的批次输入要求,将同一批次中长短不一的能量谱零填充为相同长度,定义其中任意能量谱为其中T为能量谱零填充后的时域长度,x
S+1
,

,x
T
为零填充帧;对数Mel滤波能量谱包含时域和空域,时域描述了情感变化的过程,空域描述了情感触发的区域;接下来,将为时域与空域分别设计情感提取网络,分别刻画能量谱时域与空域的独特情感信息。3.根据权利要求2所述的基于时空多重融合网络的变长语音情感识别方法,其特征在于:所述步骤二具体过程包括:首先,为了避免零填充帧对BiGRU的计算产生影响,输入X
in
通过序列压缩函数将零填充部分压缩;具体地,将输入X
in
按时间轴依次取出每一帧,忽略零填充帧后拼接成一维向量X
p
,采用基于python编译的PyTorch工具实现,它封装的pack_padded_sequence函数对零填充帧实现自动压缩,过程表示如下:X
p
=pack_padded_sequence(X
in
)
然后,将此一维向量X
p
经过隐藏神经元数量为d
T
的BiGRU从能量谱时域的正向和反向捕获上下文关系,获得一维局部时域特征B
v
;为了便于后续的特征提取,需将B
v
通过序列扩展函数扩展为二维局部时域特征B,上述计算过程表示为:B=pad_packed_sequence(BiGRU(X
p
))其中,pad_packed_sequence函数在PyTorch工具中与pack_padded_sequence函数对应,实现零填充的扩展,即将压缩的数据恢复为原始维数;通过以上对零填充的压缩与扩展,避免冗余的零填充信息对BiGRU的特征提取造成影响,节约计算资源;最后,将二维局部时域特征B送入带有掩码的注意力机制,对每个时间帧赋予权重并忽略零填充帧的权重,计算每一帧对情感识别的贡献程度,得到向量c=[c1,c2,

,c
i
,

,c
M
],计算过程如下:利用前馈运算计算第i帧的情感得分h
i
:h
i
=V tanh(Wb
i
+b)其中,tanh(
·
)表示双曲正切激活函数,b
i
为BiGRU的第i帧输出,V和W均为前馈运算中的可训练权重,b为可训练偏置;将情感得分h
i
映射到0~1范围内,得时域特征B每一帧的贡献度:其中,exp(
·
)是指数函数,α
S+1
,


T
是零填充时间段对应的权重;由于二维局部时域特征B中仍包含了零填充段,为了忽略这部分无效信息,在注意力机制自动选择显著情感帧的时候,需将零填充帧进行遮掩;采用掩码矩阵将零填充帧对应的贡献度置为0,得到新贡献度表示c

=[c
′1,c
′2,

,c

i
,

,c

M
],表达式如下:c

=c

Mask(X
in
)其中,Ma...

【专利技术属性】
技术研发人员:甘臣权王可欣祝清意
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1