一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法技术

技术编号：29875768 阅读：13 留言：0更新日期：2021-08-31 23:51

本发明专利技术涉及一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法，属于语音信号处理与模式识别领域，包括：S1：利用听觉系统对语音信号进行处理，提取出表征语音情感信息的基于时间调制信号的语谱图；S2：利用3DCNN模型从语谱图中提取情感语音的光谱‑时间特征；S3：通过ARNN提取光谱‑时间特征的长期依赖关系，利用时间注意模型来捕捉与情感相关的重要信息；S4：更新自身的参数使得损失最小，使用验证集对训练后的模型进行10倍交叉验证，交叉熵作为损失函数，用RMSProp算法对模型参数进行优化；S5：使用验证集对训练后的模型验证，调整超参数，最后利用Softmax层进行语音情感分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法
本专利技术属于语音信号处理与模式识别领域，涉及一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法。
技术介绍
人工智能领域的不断发展使得人类与计算机的关系日益密切，情感计算更是其中一个重要研究领域，在人机交互中情感交互具有非常重要的意义。而语言是人类信息交流的直接媒介，所以，语音情感识别(SER)相较于其他情感识别技术来说，在实用性和应用广泛程度上最具有代表性。情感识别过程中的一个关键环节是从语音信号中提取出可以表征人类情感的特征集，迄今为止，仍然没有一个很系统的特征集。之前很多研究都是直接从语音中提取低层次描述符(LLDs)，再利用传统的机器学习方法对情感进行分类。但是，由于存在上下文和表达情感的不同方式等因素，从LLDs选取特征集进行SER的效果不是特别理想。随着科技的发展，图像处理变得易于实现，因此SER研究的新热点是将语音信号转化为语谱图作为SER的识别对象。这种方法避免了手工特征提取的繁琐过程，减少建模和训练工作量。它还能反映语音信号的能量特性和节奏变化的纹理特征，已有许多研究者开始基于谱图开展语音情感识别技术的研究，并取得了良好的效果。Tarunika等使用深度神经网络(DNN)从幅度谱中提取高级情感特征表示，并且与传统声学特征相比表现出更好的性能。Han等提出一种DNN-ELM深度网络模型用于SER，使用能量最高的片段来训练DNN模型，以提取有效的情绪信息。近几年，CNN和RNN在SER领域应用广泛，深卷积模...

【技术保护点】
1.一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法，其特征在于：包括以下步骤：/nS1：利用听觉系统对语音信号进行处理，提取出表征语音情感信息的基于时间调制信号的语谱图；/nS2：利用3DCNN模型从语谱图中提取情感语音的光谱-时间特征；/nS3：将3DCNN的输出作为ARNN模型的输入，通过ARNN提取光谱-时间特征的长期依赖关系，利用时间注意模型来捕捉每个话语中与情感相关的重要信息；/nS4：在模型训练过程中各自更新自身的参数使得损失最小，不断迭代优化，使模型达到最优，使用验证集对训练后的模型进行10倍交叉验证，交叉熵作为损失函数，用RMSProp算法对模型参数进行优化；/nS5：使用验证集对训练后的模型验证，调整模型的超参数，得到最终网络模型，最后利用Softmax层进行语音情感分类。/n

【技术特征摘要】
1.一种听觉前端与基于注意力的3DCRNN结合的语音情感识别方法，其特征在于：包括以下步骤：
S1：利用听觉系统对语音信号进行处理，提取出表征语音情感信息的基于时间调制信号的语谱图；
S2：利用3DCNN模型从语谱图中提取情感语音的光谱-时间特征；
S3：将3DCNN的输出作为ARNN模型的输入，通过ARNN提取光谱-时间特征的长期依赖关系，利用时间注意模型来捕捉每个话语中与情感相关的重要信息；
S4：在模型训练过程中各自更新自身的参数使得损失最小，不断迭代优化，使模型达到最优，使用验证集对训练后的模型进行10倍交叉验证，交叉熵作为损失函数，用RMSProp算法对模型参数进行优化；
S5：使用验证集对训练后的模型验证，调整模型的超参数，得到最终网络模型，最后利用Softmax层进行语音情感分类。

2.根据权利要求1所述的听觉前端与基于注意力的3DCRNN结合的语音情感识别方法，其特征在于：所述步骤S1具体步骤如下：
S11：采用听觉滤波器组将语音信号y(t)分解为声音频率分量，作为耳蜗声音频率分析仪对语音信号进行处理，其中第n个声音频率通道的输出为：
sg(n,t)＝gc(n,t)*y(t),1≤n≤N
其中，gc(n,t)是第n个信道的脉冲响应，t是时域中的样本数，N是听觉滤波器组中的通道数，*表示卷积操作；所述听觉滤波器的中心频率与其带宽成正比，其特点为等效矩形带宽(ERBN)，公式如下：

其中，fn是第n个滤波器的中心频率，Qear是大频率下的渐近滤波器质量，Bmin是低频率下的最小带宽；所述听觉滤波器的脉冲响应是伽玛分布和正弦函数的乘积，公式如下：

其中，Ata1-1exp(-2πwfERBN(fn)t)是由伽玛分布表示的振幅项，A、a1和wf分别是滤波器的振幅、滤波器顺序和带宽，c1ln(t)项是单调调频项，是原始相位，ERBN(fn)是在中心频率为fn时听觉滤波器的带宽；
S12：利用希尔伯特变换提取语音信号的时间包络线，计算第n个通道信号的瞬时振幅se(n,t)，se(n,t)是从sg(n,t)计算得出，公式如下：

式中，是一个复杂分析信号。
S13：利用调制滤波器组获得频谱-时间调制信号，使用第n个通道中的第m个调制滤波器获得的频谱-时间调制信号sm(n,m,t)，其计算公式如下：
sm(n,m,t)＝mf(m,t)*se(n,t),1≤n≤M
其中，mf(m,t)是调制滤波器组的脉冲响应，M是调制滤波器组中的通道数。

3.根据权利要求1所述的听觉前端与基于注意力的3DCRNN结合的语音情感识别方法，其特征在于：步骤S2中所述3...

【专利技术属性】
技术研发人员：黄超，张毅，郑凯，
申请(专利权)人：重庆邮智机器人研究院有限公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人