【技术实现步骤摘要】
一种基于多头注意力机制的深度学习语音情感识别方法
[0001]本专利技术涉及语音情感识别
,具体为一种基于多头注意力机制的深度学习语音情感识别方法
。
技术介绍
[0002]语音在传递语言信息之外,还是携带重要的情感信息,这些情感信息对于人类感知和决策具有重要的作用,因此该项技术也成为自然语言处理
、
人工智能
、
人机交互等领域的研究热点,也被广泛应用于刑侦
、
教育
、
医学
、
服务等行业
。
[0003]早期的语音情感识别研究主要采用动态规划
、
线性预测分析等算法但是效果不理想
。
随着机器学习的不断发展,隐马尔可夫模型
、
支持向量机等新的算法应用到语音情感识别领域,进一步提升了识别效果,但由于语音情感和人为情感的复杂性,不同情感的区别性不够明显,语音情感识别鲁棒性还有待进一步提升
。
[0004]目前,深度神经网络的出现大大推进了语音情感识别研究,如卷积神经网络
、
循环神经网络的广泛应用,大大推进了语音情感识别的研究,取得了很好的辨识效果
。
如
Zheng
等提出的以语谱图为特征的深度卷积神经网络模型方法,进一步提高语音情感预测的准确性
。Lee
等以语音信号时序为特征,提出一种循环神经网络的语音情感识别方法,进一步提升了识别精度
。
而
Z ...
【技术保护点】
【技术特征摘要】
1.
一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,包括:
S1、
提取语音信号的
FBank
特征向量作为模型输入;
S2、
通过
CNN
提取局部情感特征;
S3、
利用
BLSTM
层提取语音的序列信息;
S4、
引入多头注意力机制对情感特征进行不同子空间的权重学习,然后通过全连接层做出情感类别的预测
。2.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,所述步骤
S1
中,提取语音信号的
FBank
特征向量作为模型输入的具体步骤如下:将原始语音信号预加重
、
分帧
、
加窗,然后进行短时傅里叶变换,得到其频谱;将频谱进行平方操作,得到能量谱,并将每个滤波器带内的能量进行叠加,第
K
个滤波器输出的功率谱为
X[k]
;将每个滤波器的输出取对数,得到相应频带的对数功率谱
Y
FBANK
[k]
=
logX[k]。3.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,所述步骤
S2
中,
CNN
具有四层,四层的卷积核数量分别对应为
128、256、256
和
256
,四层的卷积核大小均为5×3,步长均为2×1,且在第一层中使用池化操作,池化大小2×2,步长为1×1,每层卷积层的激活函数为
LeakyReLU
,在每个卷积层中加入
BN
层和
Dropout
层,其中
Dropout
层概率设置为
0.25。4.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,所述步骤
S2
中,
CNN
的最后还设置一个线性层
。5.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,所述步骤
S3<...
【专利技术属性】
技术研发人员:夏玉果,
申请(专利权)人:江苏信息职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。