一种基于多头注意力机制的深度学习语音情感识别方法技术

技术编号：39899144 阅读：6 留言：0更新日期：2023-12-30 13:13

本发明专利技术公开一种基于多头注意力机制的深度学习语音情感识别方法，包括提取语音信号的

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多头注意力机制的深度学习语音情感识别方法

[0001]本专利技术涉及语音情感识别
，具体为一种基于多头注意力机制的深度学习语音情感识别方法
。

技术介绍

[0002]语音在传递语言信息之外，还是携带重要的情感信息，这些情感信息对于人类感知和决策具有重要的作用，因此该项技术也成为自然语言处理
、
人工智能
、
人机交互等领域的研究热点，也被广泛应用于刑侦
、
教育
、
医学
、
服务等行业
。
[0003]早期的语音情感识别研究主要采用动态规划
、
线性预测分析等算法但是效果不理想
。
随着机器学习的不断发展，隐马尔可夫模型
、
支持向量机等新的算法应用到语音情感识别领域，进一步提升了识别效果，但由于语音情感和人为情感的复杂性，不同情感的区别性不够明显，语音情感识别鲁棒性还有待进一步提升
。
[0004]目前，深度神经网络的出现大大推进了语音情感识别研究，如卷积神经网络
、
循环神经网络的广泛应用，大大推进了语音情感识别的研究，取得了很好的辨识效果
。
如
Zheng
等提出的以语谱图为特征的深度卷积神经网络模型方法，进一步提高语音情感预测的准确性
。Lee
等以语音信号时序为特征，提出一种循环神经网络的语音情感识别方法，进一步提升了识别精度
。
而
Z...

【技术保护点】

【技术特征摘要】
1.
一种基于多头注意力机制的深度学习语音情感识别方法，其特征在于，包括：
S1、
提取语音信号的
FBank
特征向量作为模型输入；
S2、
通过
CNN
提取局部情感特征；
S3、
利用
BLSTM
层提取语音的序列信息；
S4、
引入多头注意力机制对情感特征进行不同子空间的权重学习，然后通过全连接层做出情感类别的预测
。2.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法，其特征在于，所述步骤
S1
中，提取语音信号的
FBank
特征向量作为模型输入的具体步骤如下：将原始语音信号预加重
、
分帧
、
加窗，然后进行短时傅里叶变换，得到其频谱；将频谱进行平方操作，得到能量谱，并将每个滤波器带内的能量进行叠加，第
K
个滤波器输出的功率谱为
X[k]
；将每个滤波器的输出取对数，得到相应频带的对数功率谱
Y
FBANK
[k]
＝
logX[k]。3.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法，其特征在于，所述步骤
S2
中，
CNN
具有四层，四层的卷积核数量分别对应为
128、256、256
和
256
，四层的卷积核大小均为5×3，步长均为2×1，且在第一层中使用池化操作，池化大小2×2，步长为1×1，每层卷积层的激活函数为
LeakyReLU
，在每个卷积层中加入
BN
层和
Dropout
层，其中
Dropout
层概率设置为
0.25。4.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法，其特征在于，所述步骤
S2
中，
CNN
的最后还设置一个线性层
。5.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法，其特征在于，所述步骤
S3<...

【专利技术属性】
技术研发人员：夏玉果，
申请(专利权)人：江苏信息职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人