基于PDAN的跨库语音情感识别方法及装置制造方法及图纸

技术编号：36073450 阅读：17 留言：0更新日期：2022-12-24 10:44

本发明专利技术公开了一种基于渐进式分布适配神经网络(Progressive Distribution Adapted Neural Networks,PDAN)的跨库语音情感识别方法及装置，方法包括：(1)获取两个语音情感数据库，分别作为训练数据库和测试数据库；(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本，分别作为源域样本和目标域样本，并提样本的语谱图特征；(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型，此模型以卷积神经网络为主干网络，通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练，从而消除不同领域间的分布差异；(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型；(5)提取待识别语音语谱图特征，输入训练好的模型，识别出情感类别。本发明专利技术识别准确率更高。发明专利技术识别准确率更高。发明专利技术识别准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】
基于PDAN的跨库语音情感识别方法及装置

[0001]本专利技术涉及语音情感识别技术，尤其涉及一种基于渐进式分布适配神经网络的跨库语音情感识别方法及装置

技术介绍

[0002]语音是人类日常生活中的一种主要交流方式，其中包含着丰富的情感信息。想象一下，如果计算机能够从人类的语音信号中理解情绪状态，那么人机交互无疑会更加自然。因此，从语音信号中自动识别情绪状态的研究，例如，语音情感识别(SER)在情感计算、人机交互和语音信号处理领域引起了广泛关注。在过去的几十年中，已经提出了许多性能良好的SER方法，并在广泛使用的公开可用的语音情感数据库上取得了可喜的性能。然而，值得注意的是，他们中的大多数没有考虑训练和测试语音信号可能由不同相同的麦克风或在不同的环境下记录的现实场景。在这种情况下，训练和测试语音样本之间可能存在特征分布不匹配，因此这些原本表现良好的SER方法的性能可能会急剧下降，这就带来了SER中一项有意义且更具挑战性的任务，即跨库SER。与传统的 SER不同，跨库SER中的标记训练和未标记测试样本来自不同的语音数据库库。遵循跨库SER中的命名约定，将在本文件中将训练和测试样本/数据库/特征集称为源集和目标集。

技术实现思路

[0003]专利技术目的：本专利技术针对现有技术存在的问题，提供一种识别准确度更高的基于渐进式分布适配神经网络的跨库语音情感识别方法。
[0004]技术方案：本专利技术所述的基于渐进式分布适配神经网络的跨库语音情感识别方法包括：
[000...

【技术保护点】

【技术特征摘要】
1.一种基于渐进式分布适配神经网络的跨库语音情感识别方法，其特征在于包括：(1)获取两个语音情感数据库，分别作为训练数据库和测试数据库；(2)提取训练数据库和测试数据库中具有相同情感标签的语音样本，分别作为源域样本和目标域样本，并提取源域样本和目标域样本的语谱图特征；(3)建立基于渐进式分布适配神经网络的跨库语音情感识别模型，此模型以卷积神经网络为主干网络，通过在原始分类损失函数中加入渐进分布适配正则化项来指导网络训练，从而消除不同领域间的分布差异；(4)使用源域和目标域的语谱图特征、以及源域的情感标签训练上述模型；(5)对于待识别语音，提取语谱图特征，输入训练好的模型，得到待识别语音的情感类别。2.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法，其特征在于：步骤(2)具体包括：(2
‑
1)提取训练数据库和测试数据库中具有相同情感标签的语音样本，分别作为源域样本和目标域样本；(2
‑
2)对源域样本和目标域样本依次进行分帧、加窗预处理；(2
‑
3)对预处理后的样本进行短时离散傅里叶变换，得到语谱图特征。3.根据权利要求1所述的基于渐进式分布适配神经网络的跨库语音情感识别方法，其特征在于：所述基于渐进式分布适配神经网络的跨库语音情感识别模型具体包括：卷积神经网络，包括依次连接的若干层卷积层、第一全连接层、第二全连接层和第三全连接层；损失计算模块，分别包括用于计算情感辨别损失的第一损失计算单元、用于计算源域特征和目标域特征之间的边缘分布差异损失的第二损失计算单元、用于计算细粒度的情感标签信息引导的条件分布适配损失的第三损失计算单元、用于计算粗糙的情绪类感知条件分布适应正则化项的第四损失计算单元以及用于计算四项损失之和的总损失计算单元。4.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法，其特征在于：所述第一损失计算单元连接第三全连接层，具体用于基于下式计算情感辨别损失：式中，是情感辨别损失，是连接源域样本语谱图特征及其相应情感标签的交叉熵损失，N
s
表示源域样本数目，g1、g2和g3分别表示第一全连接层、第二全连接层、第三全连接层的参数，表示第i个源域样本的语谱图特征，f表示卷积神经网络的参数，表示第i个源域样本的情感标签。5.根据权利要求3所述的基于渐进式分布适配神经网络的跨库语音情感识别方法，其特征在于：所述第二损失计算单元连接所述第一全连接层，用于基于下式计算边缘分布差异损失：
式中，是边缘分布损失，N
s
表示源域样本数目，N
t
表示目标域样本数目，g1表示第一全连接层参数，表示第i个源域样本的语谱图特征...

【专利技术属性】
技术研发人员：宗源，连海伦，郑文明，常洪丽，张佳成，路成，唐传高，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人