一种基于注意力MCNN结合性别信息的语音情感识别方法技术

技术编号:38212927 阅读:18 留言:0更新日期:2023-07-25 11:21
本发明专利技术请求保护一种基于注意力MCNN结合性别信息的语音情感识别方法,该方法包括步骤:S1,将语音信号经过预处理后得到三维动态梅尔频率倒谱系数作为性别识别网络输入;S2,利用MCNN进行性别识别并将语音信号分为男性和女性;S3,基于性别分类的输出,从男性和女性语音信号中提取三维动态MFCC特征输入作为情感识别模型输入,为了关注通道和空间位置信息并解决长期依赖的问题,引入协调注意力机制到原本的MCNN模型中建立语音情感识别模型;S4,为了更好捕捉情感特征和时序信息,添加A_GRUs到情感识别模型中,最后由softmax函数进行情感分类,提供不同性别的情感识别结果。本发明专利技术能够有效解决男女声学特征差异导致情感识别模型识别率低以及泛化能力弱的问题,提高情感识别准确率和鲁棒性。识别准确率和鲁棒性。识别准确率和鲁棒性。

【技术实现步骤摘要】
一种基于注意力MCNN结合性别信息的语音情感识别方法


[0001]本专利技术属于语音信号处理与模式识别领域,特别是基于注意力MCNN结合性别信息的语音情感识别方法。

技术介绍

[0002]语音情感识别是语音识别领域的重要分支,目的是让机器通过学习和记忆人的发音或声线去识别和理解语音信号传递中当前说话人的情感状态,其过程可以简要总结为:语音信号预处理、特征提取、特征选择、识别模型匹配、完成识别。近年来,依赖于用户情感状态的智能机器人、对话系统、医疗护理、音频监控、车载驾驶、刑事调查、自动化智能家电、音乐或电影推荐系统等重要应用,都可以通过一个从语音中自动检测和识别用户情感状态系统来实现。
[0003]基于人工智能的深度学习语音情感识别系统在很多方面做出了重大贡献,但是目前已有的语音情感识别技术在实际应用中的性能与人类听觉感知到的情感信息相比还存在很大差距。识别人类声音中的情绪很困难,因为人类情感缺乏独特的时间界限,不同的人有不同的表达情绪的方式。人与人之间的声学特征差异是影响语音情感识别系统性能的主要因素之一,由于男性和女性表达情感方式各本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于注意力MCNN结合性别信息的语音情感识别方法,其特征在于,包括以下步骤:S1,对原始语音信号进行分帧、加窗、傅里叶变换、差分在内的预处理得到三维动态MFCC特征;S2,将经过步骤S1预处理后得到的三维动态MFCC输入到性别识别网络,利用混合卷积神经网络MCNN进行性别识别,并将语音信号分类,包括男性和女性;S3,基于性别识别的输出,从男性和女性语音数据中提取三维MFCC特征输入到情感识别模型中,同时引入协调注意力机制到MCNN中;S4,为了捕捉情感特征和时序信息,添加双向门控循环单元Bi

GRU与注意力层结合的A

GRUs到情感识别模型中,最后由softmax函数进行情感分类,提供不同性别的情感识别结果。2.根据权利要求1所述的一种基于注意力MCNN结合性别信息的语音情感识别方法,其特征在于,所述步骤S1对原始语音信号进行分帧、加窗、傅里叶变换、差分在内的预处理,具体过程为:将给定的语音信号分成帧,连续帧之间的时间长度为5

10ms;在对每一帧信号进行傅立叶变换之前,使用汉明窗口,窗口长度等于帧长度;对每一帧进行短时傅立叶变换,通过对平方求和获得功率谱;MFCC特征通过对数梅尔频谱图的离散余弦变换获得;为了获得动态信息,通过沿时间轴对输入MFCC特征进行差分运算,添加速度特征和加速度特征以形成三维动态特征。3.根据权利要求1所述的一种基于注意力MCNN结合性别信息的语音情感识别方法,其特征在于,所述步骤S2将预处理得到的三维动态MFCC特征输入到性别识别网络,利用MCNN模型进行性别识别和语音信号分类,具体包括:(1)混合卷积层在同一层中结合了标准卷积和扩张卷积并且可以利用相同的卷积核,混合卷积层形成如下:[σ(ω
s
);σ(ω
d
)]
ꢀꢀ
(1)其中ω
s
和ω
d
分别是标准卷积和扩张卷积的参数;σ是组归一化层(GN)和线性整流单元(ReLUs)的组合;(2)混合卷积块由混合卷积层、组归一化层(GN)和线性整流单元(ReLU)组成,用于特征的获取;(3)性别识别MCNN架构包括5个混合层、1个最大池化层、2个全连接层。4.根据权利要求3所述的一种基于注意力MCNN结合性别信息的语音情感识别方法,其特征在于,所述性别识别MCNN架构具体包括:将三维MFCC特征大小调整为224
×
224
×
3作为MCNN网络的输入,第一层卷积核大小为2
×
2,步长为2,输入3个通道,输出32个通道;最大池化层卷积核大小为2
×
2,步长为2,输入32个通道,输出32个通道;第二层卷积核大小为1
×
1,步长为1,输入3个通道,输出32个通道;第三层卷积核大小为1
×
1,步长为1,输入3个通道,输出96个通道;第四层卷积核大小为2
×
2,步长为2,输入96个通道,输出96个通道;第五层卷积核大小为1
×
1,步长为1,输入96个通道,输出96个通道;第一全连接层由1000个神经元组成,第二个全连接层是一个分类层,具有2个对应于男性或女性的神经元。5.根据权利要求4所述的一种基于注意力MCNN结合性别信息的语音情感识别方法,其特征在于,所述步骤S3利用注意力机制对图像特征空间和通道权重参数进行加权,再将特
征层中的浅层特征和深层特征进行融合,具体包括:(1)在性别识别的MCNN架构中去掉最后两个全连接层并增加两个混合卷积层为第六层和第7层和一个平均池化层。第6层的卷积和大小为卷积核大小为2
×
2,步长为2,输入96个通道,输出288个通道。第7层的卷积和大小为卷积核大小为1
×
1,步长为1,输入288个通道,输出288个通道。平均池化层的卷积核大小为2
×
2,步长为1,输入288个通道,输出288个通道。(2)将3个协调注意力模块分别融入到混合卷积层的第3层和第4层第5层和第6层以及第7层与平均池化层之间。协调注意力模块的操作过程可以分为两部分:坐标信息嵌入和坐标注意力生成。坐标信息嵌入在水平和垂直坐标中...

【专利技术属性】
技术研发人员:胡章芳令狐克欢余弘玲
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1