一种基于物理波和循环网络的语音情感识别方法技术

技术编号：29761584 阅读：33 留言：0更新日期：2021-08-20 21:15

本发明专利技术公开了一种基于物理波和循环网络的语音情感识别方法，包括：获取待识别的语音段；对语音段进行扩展处理，得到延拓声波场；从声波的传输机制入手，根据波动物理动力学与情感表达的映射关系确定对音频信号进行特征提取的物理波模型，基于物理波模型对延拓声波场进行特征提取；利用训练好的循环网络模型对提取出的特征进行语音情感识别，得到语音段的语音情感；循环网络模型采用3层双向长短期记忆模型；还包括注意力层；将注意力层的输出注入全连接层和Softmax，输出预测情感分类结果。本发明专利技术从环境声音感知的角度，设计了基于物理波和长短期记忆模型融合的语音情感识别深度学习模型，从而提出有效的语音情感识别方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于物理波和循环网络的语音情感识别方法
本专利技术涉及信息
，特别是涉及一种基于物理波和循环网络的语音情感识别方法。
技术介绍
语音情感识别(SpeechEmotionRecognition,SER)旨在通过语音信号识别说话者的正确情绪状态，语音情感识别是计算机理解人类情感的关键之处，是实现人机交互的前提，它是人机交互中一个重要的组成部分。也是语音处理领域中一个具有挑战性和广泛应用前景的研究课题，语音情感识别主要涉及到多媒体、信号处理、深度学习等领域。它对测试样本的特征进行提取，对高层特征进行建模，从而实现高精度的情感识别。现有的语音情感识别方法主要是从语音样本中提取音频的特征，按照经验数据，设计深度学习相关模型，并计算语音情感识别的精度。如，申请号为CN201210551585的专利技术专利公开了一种基于压缩感知的鲁棒性语音情感识别方法,包含如下步骤:产生含噪声的情感语音样本,建立声学特征提取模块,构建稀疏表示分类器模型,输出语音情感识别结果。又如，申请号为CN111429947A的专利技术专利公开了一种基于多级残差卷积神经网络的语音情感识别方法，通过跨越多级的残差块对卷积神经网络(CNN)进行特征弥补，解决了对CNN随着卷积层加深而出现的特征丢失的问题。但是，这种提取特征的方法与情感表达类型、噪声、音长、说话者等因素均有关联，单纯的特征提取无法实现高精度的情感识别。此外，按照经验设计的模型与算法的泛化能力有待提升。
技术实现思路
有鉴于此，本专利技术提出一种基于物理波...

【技术保护点】
1.一种基于物理波和循环网络的语音情感识别方法，其特征在于，所述方法包括：/n获取待识别的语音段；/n对所述语音段进行扩展处理，得到延拓声波场；/n从声波的传输机制入手，根据波动物理动力学与情感表达的映射关系确定对音频信号进行特征提取的物理波模型，基于所述物理波模型对所述延拓声波场进行特征提取；/n利用训练好的循环网络模型对提取出的特征进行语音情感识别，得到所述语音段的语音情感；所述循环网络模型采用3层双向长短期记忆模型，每层长短期记忆模型的隐藏节点具有256个单元；在长短期记忆模型的第3层后，还包括注意力层；将注意力层的输出注入全连接层和Softmax，输出预测情感分类结果。/n

【技术特征摘要】
1.一种基于物理波和循环网络的语音情感识别方法，其特征在于，所述方法包括：
获取待识别的语音段；
对所述语音段进行扩展处理，得到延拓声波场；
从声波的传输机制入手，根据波动物理动力学与情感表达的映射关系确定对音频信号进行特征提取的物理波模型，基于所述物理波模型对所述延拓声波场进行特征提取；
利用训练好的循环网络模型对提取出的特征进行语音情感识别，得到所述语音段的语音情感；所述循环网络模型采用3层双向长短期记忆模型，每层长短期记忆模型的隐藏节点具有256个单元；在长短期记忆模型的第3层后，还包括注意力层；将注意力层的输出注入全连接层和Softmax，输出预测情感分类结果。

2.根据权利要求1所述的基于物理波和循环网络的语音情感识别方法，其特征在于，对所述语音段进行扩展处理，包括：
利用固定步长深度递推声波延拓方法对所述语音段进行扩展处理。

3.根据权利要求2所述的基于物理波和循环网络的语音情感识别方法，其特征在于，所述固定步长深度递推声波延拓方法包括：
确定延拓标准，所述延拓标准下生成的语音信号能够表达完整的情感；
识别所述语音段中固定步长下的最佳连续语音帧区间，所述最佳连续语音帧区间为所述语音段的所有区间中深度累计最大的区间；
采用固定步长平移和校正的方法将所述最佳连续语音帧区间拓展至所述语音段的全部区间，得到延拓声波场。

4.根据权利要求1所述的基于物理波和循环网络的语音情感识别方法，其特征在于，所述延拓标准为：
将所述语音段视为声波，假设当前声波点的坐标为(x,y),深度方向坐标为z，圆频率为w，则在深度z处的声波场表示为W(x,y,z,w)，在深度域声波延拓的方程为：其中，S是亥姆霍兹算子的单平方根算子，表示为：其中，v(x,y,z)是在空气介质下语音传播的波速。

5.根据权利要求1所述的基于物理波和循环网络的语音情感识别方法，其特征在于，所述物理波模型包括：
当波在空间中传播...

【专利技术属性】
技术研发人员：王春立，郑纯军，
申请(专利权)人：大连海事大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人