基于时空多重融合网络的变长语音情感识别方法技术

技术编号：35261702 阅读：37 留言：0更新日期：2022-10-19 10:21

本发明专利技术涉及一种基于时空多重融合网络的变长语音情感识别方法，属于人工智能领域。该发明专利技术包括以下步骤：利用短时傅里叶变换和Mel滤波器组将语音映射为对数Mel滤波能量谱，并保持能量谱的原始长度；利用双向门控循环单元(Bidirectional gated recurrent unit,BiGRU)和注意力机制捕获能量谱的时域情感变化；利用卷积神经网络(Convolutional neuralnetwork,CNN)和全局平均池化定位能量谱的空域情感触发；利用直接连接和集成策略引入多重融合方法，用于能量谱时域与空域的情感交互；利用多分类交叉熵损失函数作为模型训练的指导，实现模型优化。本发明专利技术保持语音能量谱的长度不变，可对能量谱的时域与空域实现特征提取互不影响，并通过多重融合获得更完整的时空域情感信息，从而提升语音的情感识别精度。从而提升语音的情感识别精度。从而提升语音的情感识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于时空多重融合网络的变长语音情感识别方法

[0001]本专利技术属于人工智能领域，涉及基于时空多重融合网络的变长语音情感识别方法。

技术介绍

[0002]语音是人类自然交流中最方便、最直接的一种媒介，也是人类实现信息传递的一种有效方式。随着计算机技术和人工智能的不断革新，如何利用语音进行人机交互逐渐成为这个机器时代的一个炙热话题。在目前的商业市场上，已有一系列智能产品携带了语音助手功能，从而通过语音让计算机更好地服务人类。比如苹果的Siri、华为的小E、百度的小度、阿里的天猫精灵、小米的小爱同学、亚马逊的Alexa等。这些语音助手都是语音识别研究的成功表现，已经发展到了相当成熟的程度，甚至能够达到人类的语音识别能力。
[0003]然而，目前拥有语音识别能力的语音助手并不能明白语音中包含的情感信息。事实上，在人类互动过程中，情感是不可分割的组成部分，对人类的社会行为和意图决策起着至关重要的作用。因而，机器需要具有识别、解释和反应人类情感的能力。此外，将情感识别加入语音的相关研究中，能够使人机交流更加的人性化和智能化。于是，语音情感识别逐渐成为各国语音研究者的一个新方向。
[0004]语音情感识别的目的是通过语音信号来识别说话者的情感状态。目前，在许多实际应用中，语音情感识别有望于发挥不可替代的作用。比如，在呼叫中心服务中，可根据语音跟踪客户的情感，并根据检测结果调整所提供的服务以适应客户的情感状态。在医学领域，基于语音的诊断系统已在开发中，并寄望应用于抑郁症的辅助检测。除此之外，多媒体检索系统和智能汽...

【技术保护点】

【技术特征摘要】
1.基于时空多重融合网络的变长语音情感识别方法，其特征在于：该方法包括以下步骤：步骤一：利用短时傅里叶变换和Mel滤波器组将一维语音记录映射为二维的对数Mel滤波能量谱，能量谱包含时域与空域两个维度，并保持能量谱的原始长度；步骤二：利用BiGRU捕获能量谱时域的上下文关系，注意力机制凸显能量谱时域的显著情感时刻，实现对能量谱时域情感变化的捕捉；步骤三：利用CNN定位能量谱空域的情感区域，全局平均池化整合空域的全局情感信息，实现对能量谱空域情感触发的定位；步骤四：利用时域分类器与空域分类器分别输出时域与空域的概率分布，直接连接获得时空域融合特征，并设计融合域分类器输出时空融合域的概率分布，将上述三个域的概率分布采用集成策略整合，实现时域与空域的多重融合，达到时空情感信息的交互；步骤五：利用多分类交叉熵损失函数作为模型训练的指导，通过最小化损失函数输出的损失值作为训练目标，实现模型参数的更新与优化。2.根据权利要求1所述的基于时空多重融合网络的变长语音情感识别方法，其特征在于：所述步骤一具体过程包括：首先，将记录的一维语音信号用汉明窗口分为短帧，利用短时傅里叶变换将每一个短帧从一维时域映射为二维频域，并按时间维度拼接，得到语音的线性频谱表示；但是，直接通过短时傅里叶变换得到的线性频谱并不具备人耳听觉特性，且存在着维度过高和信息冗余的问题；然后，将频谱的线性频率尺度f映射为非线性的Mel尺度M(f)，计算如下：此映射过程采用数量为d的Mel滤波器组实现，将每个滤波器范围内的能量相加后取对数，获得更符合人耳听觉特性的对数Mel滤波能量谱，定义为其中x
i
表示频谱的第i帧，S表示语音频谱的长度；最后，为保持能量谱的原始长度并满足神经网络的批次输入要求，将同一批次中长短不一的能量谱零填充为相同长度，定义其中任意能量谱为其中T为能量谱零填充后的时域长度，x
S+1
,
…
,x
T
为零填充帧；对数Mel滤波能量谱包含时域和空域，时域描述了情感变化的过程，空域描述了情感触发的区域；接下来，将为时域与空域分别设计情感提取网络，分别刻画能量谱时域与空域的独特情感信息。3.根据权利要求2所述的基于时空多重融合网络的变长语音情感识别方法，其特征在于：所述步骤二具体过程包括：首先，为了避免零填充帧对BiGRU的计算产生影响，输入X
in
通过序列压缩函数将零填充部分压缩；具体地，将输入X
in
按时间轴依次取出每一帧，忽略零填充帧后拼接成一维向量X
p
，采用基于python编译的PyTorch工具实现，它封装的pack_padded_sequence函数对零填充帧实现自动压缩，过程表示如下：X
p
＝pack_padded_sequence(X
in
)
然后，将此一维向量X
p
经过隐藏神经元数量为d
T
的BiGRU从能量谱时域的正向和反向捕获上下文关系，获得一维局部时域特征B
v
；为了便于后续的特征提取，需将B
v
通过序列扩展函数扩展为二维局部时域特征B，上述计算过程表示为：B＝pad_packed_sequence(BiGRU(X
p
))其中，pad_packed_sequence函数在PyTorch工具中与pack_padded_sequence函数对应，实现零填充的扩展，即将压缩的数据恢复为原始维数；通过以上对零填充的压缩与扩展，避免冗余的零填充信息对BiGRU的特征提取造成影响，节约计算资源；最后，将二维局部时域特征B送入带有掩码的注意力机制，对每个时间帧赋予权重并忽略零填充帧的权重，计算每一帧对情感识别的贡献程度，得到向量c＝[c1,c2,
…
,c
i
,
…
,c
M
]，计算过程如下：利用前馈运算计算第i帧的情感得分h
i
：h
i
＝V tanh(Wb
i
+b)其中，tanh(
·
)表示双曲正切激活函数，b
i
为BiGRU的第i帧输出，V和W均为前馈运算中的可训练权重，b为可训练偏置；将情感得分h
i
映射到0～1范围内，得时域特征B每一帧的贡献度：其中，exp(
·
)是指数函数，α
S+1
,
…
,α
T
是零填充时间段对应的权重；由于二维局部时域特征B中仍包含了零填充段，为了忽略这部分无效信息，在注意力机制自动选择显著情感帧的时候，需将零填充帧进行遮掩；采用掩码矩阵将零填充帧对应的贡献度置为0，得到新贡献度表示c
′
＝[c
′1,c
′2,
…
,c
′
i
,
…
,c
′
M
]，表达式如下：c
′
＝c
⊙
Mask(X
in
)其中，Ma...

【专利技术属性】
技术研发人员：甘臣权，王可欣，祝清意，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人