一种基于多头注意力机制的深度学习语音情感识别方法技术

技术编号:39899144 阅读:6 留言:0更新日期:2023-12-30 13:13
本发明专利技术公开一种基于多头注意力机制的深度学习语音情感识别方法,包括提取语音信号的

【技术实现步骤摘要】
一种基于多头注意力机制的深度学习语音情感识别方法


[0001]本专利技术涉及语音情感识别
,具体为一种基于多头注意力机制的深度学习语音情感识别方法


技术介绍

[0002]语音在传递语言信息之外,还是携带重要的情感信息,这些情感信息对于人类感知和决策具有重要的作用,因此该项技术也成为自然语言处理

人工智能

人机交互等领域的研究热点,也被广泛应用于刑侦

教育

医学

服务等行业

[0003]早期的语音情感识别研究主要采用动态规划

线性预测分析等算法但是效果不理想

随着机器学习的不断发展,隐马尔可夫模型

支持向量机等新的算法应用到语音情感识别领域,进一步提升了识别效果,但由于语音情感和人为情感的复杂性,不同情感的区别性不够明显,语音情感识别鲁棒性还有待进一步提升

[0004]目前,深度神经网络的出现大大推进了语音情感识别研究,如卷积神经网络

循环神经网络的广泛应用,大大推进了语音情感识别的研究,取得了很好的辨识效果


Zheng
等提出的以语谱图为特征的深度卷积神经网络模型方法,进一步提高语音情感预测的准确性
。Lee
等以语音信号时序为特征,提出一种循环神经网络的语音情感识别方法,进一步提升了识别精度


Zhao
等提出一种改进的深度神经网络,应用循环神经网络和与
LSTM
网络相结合的方法,在说话人相关和说话人无关的实验中取得很好的识别效果

近年来,注意力机制也被应用到语音情感识别领域,如
Mirsamadi
等采用注意力机制,更加突出语音信号中情感特征,取得了很好的识别效果;
[0005]根据以上分析,注意力机制可以有效提升情感识别的性能,但是在语音信号中还往往存在非情感信息,如停顿

连读等,这些信息会在一定程度上影响情感识别效果


技术实现思路

[0006]本部分的目的在于概述本专利技术的实施方式的一些方面以及简要介绍一些较佳实施方式

在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分

说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围

[0007]因此,本专利技术的目的是提供一种基于多头注意力机制的深度学习语音情感识别方法,将多头注意力机制方法应用于语音情感识别,从不同子空间全面地提取语音样本中所包含的情感特征信息,更加关注语音情感的细节

[0008]为解决上述技术问题,根据本专利技术的一个方面,本专利技术提供了如下技术方案:
[0009]一种基于多头注意力机制的深度学习语音情感识别方法,其包括:
[0010]S1、
提取语音信号的
FBank
特征向量作为模型输入;
[0011]S2、
通过
CNN
提取局部情感特征;
[0012]S3、
利用
BLSTM
层提取语音的序列信息;
[0013]S4、
引入多头注意力机制对情感特征进行不同子空间的权重学习,然后通过全连接层做出情感类别的预测

[0014]作为本专利技术所述的一种基于多头注意力机制的深度学习语音情感识别方法的一种优选方案,其中,所述步骤
S1
中,提取语音信号的
FBank
特征向量作为模型输入的具体步骤如下:
[0015]将原始语音信号预加重

分帧

加窗,然后进行短时傅里叶变换,得到其频谱;
[0016]将频谱进行平方操作,得到能量谱,并将每个滤波器带内的能量进行叠加,第
K
个滤波器输出的功率谱为
X[k];
[0017][0018]将每个滤波器的输出取对数,得到相应频带的对数功率谱
Y
FBANK
[k]=
logX[k]。
[0019]作为本专利技术所述的一种基于多头注意力机制的深度学习语音情感识别方法的一种优选方案,其中,所述步骤
S2
中,
CNN
具有四层,四层的卷积核数量分别对应为
128、256、256

256
,四层的卷积核大小均为5×3,步长均为2×1,且在第一层中使用池化操作,池化大小2×2,步长为1×1,每层卷积层的激活函数为
LeakyReLU
,在每个卷积层中加入
BN
层和
Dropout
层,其中
Dropout
层概率设置为
0.25。
[0020]作为本专利技术所述的一种基于多头注意力机制的深度学习语音情感识别方法的一种优选方案,其中,所述步骤
S2
中,
CNN
的最后还设置一个线性层

[0021]作为本专利技术所述的一种基于多头注意力机制的深度学习语音情感识别方法的一种优选方案,其中,所述步骤
S3
中,
BLSTM
由两个
LSTM
上下叠加在一起,第1层是从左边作为序列的起始输入,第2层是从右边作为序列的起始输入,输出由这两个
LSTM
的状态共同决定;
[0022]设和分别表示前向
LSTM
和后向
LSTM
的状态向量,则
t
时刻
BLSTM
中前向
LSTM
和后向
LSTM
在时刻的状态向量
h
t
计算如下列公式所示:
[0023][0024][0025]作为本专利技术所述的一种基于多头注意力机制的深度学习语音情感识别方法的一种优选方案,其中,所述步骤
S4
中,在多头注意力机制的计算过程中,首先将输入序列通过
h
个线性变换转换成相应的查询矩阵
Q、
键矩阵
K
和值矩阵
V

[0026]然后进行缩放点积注意力计算,将某一位置的查询向量
Q
和所有键向量
K
分别进行点积,计算出该位置的查询向量与各键向量的相似度,通过放缩因子调整后,经过
softmax
函数得到该位置的查询向量
Q
对所有位置键向量的注意力权重向量,并将该权重向量与所有位置的值向量
V
进行加权求和得到该位置新的注意力值,即放缩点积注意力值,其中放缩因子的作用是保证点积结果在梯度范围内稳本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,包括:
S1、
提取语音信号的
FBank
特征向量作为模型输入;
S2、
通过
CNN
提取局部情感特征;
S3、
利用
BLSTM
层提取语音的序列信息;
S4、
引入多头注意力机制对情感特征进行不同子空间的权重学习,然后通过全连接层做出情感类别的预测
。2.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,所述步骤
S1
中,提取语音信号的
FBank
特征向量作为模型输入的具体步骤如下:将原始语音信号预加重

分帧

加窗,然后进行短时傅里叶变换,得到其频谱;将频谱进行平方操作,得到能量谱,并将每个滤波器带内的能量进行叠加,第
K
个滤波器输出的功率谱为
X[k]
;将每个滤波器的输出取对数,得到相应频带的对数功率谱
Y
FBANK
[k]

logX[k]。3.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,所述步骤
S2
中,
CNN
具有四层,四层的卷积核数量分别对应为
128、256、256

256
,四层的卷积核大小均为5×3,步长均为2×1,且在第一层中使用池化操作,池化大小2×2,步长为1×1,每层卷积层的激活函数为
LeakyReLU
,在每个卷积层中加入
BN
层和
Dropout
层,其中
Dropout
层概率设置为
0.25。4.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,所述步骤
S2
中,
CNN
的最后还设置一个线性层
。5.
根据权利要求1所述的一种基于多头注意力机制的深度学习语音情感识别方法,其特征在于,所述步骤
S3<...

【专利技术属性】
技术研发人员:夏玉果
申请(专利权)人:江苏信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1