一种情感嵌入与特征融合的语音情感识别方法技术

技术编号：37111305 阅读：32 留言：0更新日期：2023-04-01 05:08

本发明专利技术公开了一种情感嵌入与特征融合的语音情感识别方法，首先，利用特征预提取网络提取语音信号中的原始深度特征，过滤掉部分无关的信息，然后，利用Transformer中十二个编码器提取深层特征，提取具有丰富上下文的语义信息，并采用与声学特征进行优化融合处理；最后将融合后的特征图展开为一个一维向量通过分布式表示得到情感嵌入层，将情感嵌入层馈送到Transformer编码器原始输入，采用基于重构误差函数和交叉熵损失函数联合监督训练模型，引导模型学习鲁棒性的本质特征。本发明专利技术的一种情感嵌入与特征融合的语音情感识别方法，不但可以端到端训练模型，并尽可能提取到与情感最相关的信息，在实际应用中有着卓越的识别性能和泛化能力。泛化能力。泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种情感嵌入与特征融合的语音情感识别方法

[0001]本专利技术涉及自然语言处理领域，尤其涉及一种情感嵌入与特征融合的语音情感识别方法。

技术介绍

[0002]目前，互联网和人工智能等技术在现代信息应用领域已得到了广泛应用，并且不断渗透到我们的日常生活和社会活动中。随着新兴科学技术的不断进步，人机交互的场景也越来越丰富，使得人们的交互方式从人际交互逐渐过渡到人机交互。然而现如今与计算机的人机交互还处于逻辑推理式交互阶段，计算机只能根据指令或代码进行工作，尚不能对人类行为做出交互反馈。而随着人工智能的发展，机器拥有丰富的情感状态和情感表达将逐渐成为现实，人们渴望机器通过人机之间的语言、动作和表情等方式实现沟通，使人机交互逐步走向人性化和智能化。倘若计算机能够获得类似人类情感识别的能力，便能进一步感知情感信息并做出反馈，这也将极大地增强人机交互的便捷性，使得计算机更好地为人类服务。
[0003]在相关技术中，语音情感识别算法的研究大致可以划分为基于传统声学特征的方法和基于深度学习的方法。传统声学特征的方法通过人工选择常用的频谱特征或者韵律学特征作为模型的输入，之后通过机器学习算法进行情感识别。用于情感识别的传统声学特征类型多样，不同的特征或者特征组合也为情感识别带来了不同的效果。然而，从种类如此繁多的声学特征中选择适合情感识别的是极具难度的，不同特征的组合将产生很大的计算开销。因此，基于传统声学特征的识别方法在性能上无法得到进一步提升。基于深度学习的语音情感识别方法采用“端到端”训练方式，并且深度特征表征能力更强...

【技术保护点】

【技术特征摘要】
1.一种情感嵌入与特征融合的语音情感识别方法，其特征在于，包括以下步骤：预处理数据，获取训练集语音，设置采样频率为16KHz，并对语音信号进行预处理；获取所述目标输入语音的对数梅尔频谱图，对每一帧信号进行短时傅里叶变换得到短时幅度谱，短时幅度谱取对数后得到对数幅度谱，对数幅度谱通过梅尔滤波器组转换成128维梅尔滤波器特征序列；对所述数梅尔频谱图进行切割分块并对每一个频谱图块位置编码；通过特征预提取网络对目标输入语音进行原始深度特征的提取，过滤掉无关信息的影响，得到目标输入语音的原始深度特征；对所述原始深度特征采用十二个Transformer编码器进行深层特征的提取，提取具有丰富上下文的语义信息，得到深层特征；通过Opensmile声学工具提取目标输入语音的声学特征，并与Transformer网络提取的深层特征进行特征融合，融合后的特征图展开为一个一维向量通过分布式表示得到情感嵌入层；将通过分布式表示的情感嵌入层馈送到Transformer编码器原始输入层继续训练，并采用基于重构误差函数和交叉熵损失函数联合监督训练模型，引导模型学习鲁棒性的本质特征，得到训练后的语音情感分类模型；利用训练好的网络模型获取情感分类结果。2.如权利要求1所述的一种情感嵌入与特征融合的语音情感识别方法，其特征在于，使用原始的Transformer编码器神经网络对所述目标输入语音进行原始深度特征的提取，具体是，提取原始深度特征的网络采用开源网络。3.如权利要求2所述的一种情感嵌入与特征融合的语音情感识别方法，其特征在于，采用十二个Transformer编码器对目标输入语音进行深层特征的提取。4.如权利要求3所述的一种情感嵌入与特征融合的语音情感识别方法，其特征在于，对所述原始深度特征采用十二个Transf...

【专利技术属性】
技术研发人员：高利军，薛雷，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人