【技术实现步骤摘要】
基于DyCNN及Bi
‑
LSTM并融合注意力机制的语音情感识别方法
[0001]本专利技术属于语音信号处理
,具体涉及到一种基于DyCNN及Bi
‑
LSTM并融合注意力机制的语音情感识别方法。
技术介绍
[0002]语音是一种包含说话人语义、情感等众多信息并将语言作为信息载体的复杂信号。语音情感识别技术就是通过提取语音信号中能够表征说话人情感状态的特征,并通过机器学习等方法找出这些特征与人类情感的映射关系。其最终目的是让机器能够辨识说话人的情感状态,并实现智能、和谐的人机交互目标。
[0003]传统语音情感识别系统最受欢迎的算法是隐马尔可夫模型、高斯混合模型、支持向量机和人工神经网络,但还存在诸多不足。近年来,深度学习算法的性能超过了传统的机器学习算法,因此研究的重点转向了它们,当前语音情感识别的研究的趋势也是一样。在语音情感识别领域最广泛使用的深度学习算法是卷积神经网络和递归神经网络,但依旧存在一定的问题尚未解决。
[0004]考虑到语音情感信号由复杂的人类语言中提 ...
【技术保护点】
【技术特征摘要】
1.一种基于DyCNN及Bi
‑
LSTM并融合注意力机制的语音情感识别方法,其特征在于,包括以下步骤:S1,将语音信号进行预处理,得到特征MFCC即Mel频率倒谱系数;S2,将谱图输入到动态卷积神经网络中,提取动态的情感特征;S3,将动态情感特征输入到双向长短期记忆网络中,针对上下文联系提取全局情感特征;S4,采用注意力机制对网络学习得到的不同特征区域分配不同的注意力权重;S5,将得到的情感特征通过全连接层和Softmax层,最终得到输出的分类识别结果。2.根据权利要求1所述的一种基于DyCNN及Bi
‑
LSTM并融合注意力机制的语音情感识别方法,其特征在于,所述步骤S1,将语音信号进行预处理,得到特征MFCC,具体包括:S11,对语音信号进行预加重处理:其中z域的传递函数为:H(z)=1
‑
0.97z
‑1,S12,对步骤S11处理后的信号进行分帧加窗,分帧使用汉明窗,公式如下:S
w
(n)=S(n)w(n)其中S
w
(n)为加窗语音信号,S(n)为输入语音信号,w(n)为窗函数。S13,将步骤S12处理后的信号进行短时傅里叶变换,从时域数据变换到频域,得到语音线性频谱X(k):S14,对每个Mel滤波器的输出进行对数运算,得对数频谱S(m):其中H
m
(k)为Mel滤波器得频率响应,M表示Mel滤波器的个数;S15,对步骤S14得到的对数频谱进行离散余弦变换,得到MFCC,第n维特征C(n)为:3.根据权利要求2所述的一种基于DyCNN及Bi
‑
LSTM并融合注意力机制的语音情感识别方法,其特征在于,所述步骤S2将MFCC谱图输入到动态卷积神经网络中,提取动态的情感特征,具体包括:将得到的谱图输入动态卷积神经网络,动态卷积核模型计算公式如下:其中,y为输出的动态情感特征,x为输入的谱图,σ为ELU激活函数,π
k
为注意力权重,为权重矩阵,为偏置项。4.根据权利要求3所述的一种基于DyCNN及Bi
‑
LSTM并融合注意力机制的语音情感识别
方法,其特征在于,所述步骤S3将动态情感特征输入到双向长短期记忆网络中,针对上下文联系提取全局情感特征,包括:f
t
=σ(W
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。