一种基于注意力卷积神经网络的语音情绪识别模型及方法技术

技术编号:24942017 阅读:29 留言:0更新日期:2020-07-17 21:50
一种基于注意力卷积神经网络的语音情绪识别模型及方法,该模型采用深度学习模型:包括五层卷积层,一层注意力层和一层全连接层,其中;第一层卷积层包括两个平行的卷积模块,能够对输入特征分别从横向即时间轴和纵向即梅尔系数轴进行提取纹理,前述两个平行卷积层的输出拼接后作为第二卷积层的输入;注意力层中,能够采用随机种子产生若干组训练参数,分别获得相应的注意力图,叠加之后获得有多个注意点的注意力图;前述多个注意点的注意力图生成一个特征点,重复本步骤若干次次,获取相应的特征点,将特征点相连并送入全连接层。本发明专利技术能够更好的适配语音情绪数据的特性,提高语音情绪识别系统的准确率。

【技术实现步骤摘要】
一种基于注意力卷积神经网络的语音情绪识别模型及方法
本专利技术涉及语音识别领域,更具体地,涉及一种基于注意力卷积神经网络的语音情绪识别模型及方法。
技术介绍
语音情绪识别是指从说话者的语音中提取说话人的情绪状态,也就是说,判断人类说话时的情绪。人们通常所说的语音识别是指自动语音识别(AutoSpeechRecognition,ASR),是指将人类话语映射到文字系列,而语音情绪识别将人类话语映射到情绪标签。目前常用的做法是,首先从从人类的语音中提取音频特征,输入到传统机器学习算法或深度神经网络中进行分类,从而识别语音中的情绪。现有技术方案多是将常规的机器学习和深度学习算法直接迁移到本问题上,常规的算法通常识别目标是客观的对象,例如图像中的物体,语音中的文字等。但是情绪有很强的主观性,对于同一句语音,不同的人可能从中听出不同的情绪,尤其是对于来自不同语言、文化环境的人。对于数据标注来说,可以通过增加标注者的数量一定程度的解决这一问题;但对于识别算法而言,常规的识别算法不能很好的适配这一特性,导致目前语音情绪识别系统的准确率仍较低。<本文档来自技高网...

【技术保护点】
1.一种基于注意力卷积神经网络的语音情绪识别模型,其特征在于,该模型采用深度学习模型:包括五层卷积层,一层注意力层和一层全连接层,其中;/n第一层卷积层包括两个平行的卷积模块,能够对输入特征分别从横向即时间轴和纵向即梅尔系数轴进行提取纹理,前述两个平行卷积层的输出拼接后作为第二卷积层的输入;/n注意力层中,能够采用随机种子产生若干组训练参数,分别获得相应的注意力图,叠加之后获得有多个注意点的注意力图;前述多个注意点的注意力图生成一个特征点,重复本步骤若干次次,获取相应的特征点,将特征点相连并送入全连接层。/n

【技术特征摘要】
1.一种基于注意力卷积神经网络的语音情绪识别模型,其特征在于,该模型采用深度学习模型:包括五层卷积层,一层注意力层和一层全连接层,其中;
第一层卷积层包括两个平行的卷积模块,能够对输入特征分别从横向即时间轴和纵向即梅尔系数轴进行提取纹理,前述两个平行卷积层的输出拼接后作为第二卷积层的输入;
注意力层中,能够采用随机种子产生若干组训练参数,分别获得相应的注意力图,叠加之后获得有多个注意点的注意力图;前述多个注意点的注意力图生成一个特征点,重复本步骤若干次次,获取相应的特征点,将特征点相连并送入全连接层。


2.一种基于注意力卷积神经网络的语音情绪识别方法,基于权利要求1所述的基于注意力卷积神经网络的语音情绪识别模型,其特征在于,该方法包括以下步骤:
S1、建立深度学习模型:包含五层卷积层,一层注意力层和一层全连接层,采用随机种子产生训练参数;
S2、获取训练样本步骤:选取交互式情绪二元运动捕捉数据库IEMOCAP,对于数据库中的各条语音赋予相应的情绪标签,进行预处理获得若干个语音片段,将前述语音片段作为音频数据样本,各语音片段采用预处理前的情绪标签;
S3、特征提取步骤:将梅尔频率倒谱系数MFCCs作为音频特征对前述音频数据样本进行特征提取,得到各音频数据样本中的频率倒谱系数MFCCs:
S4、训练步骤:将提取的各音频数据样本中的频率倒谱系数MFCCs特征送入深度学习模型,执行如下训练操作;
S4-1、第一卷积层中两个平行的卷积模块分别对输入特征从横向即时间轴和纵向即梅尔系数轴进行纹理提取,将两个平行卷积层的输出纹理拼接后作为第二卷积层的输入;
S4-2、采用第二至五卷积层生成通道数为d的中间特征,即获取d个特征点;
S4-3、将d个特征点构成的特征点向量X送入到注意力层中,采用n组训练参数进行训练得到多个注意点的注意力图Xmattn,生成一个特征点X,重复本步骤m次,获取m个特征点,这些特征点相连并送入全连接层,得到该音频数据样本属于各情绪标签的几率,将几率最大的情绪标签作为该音频数据样本的训练结果输出;
S4-4、按照步骤S4-1至步骤S4-3对各语音片段即音频数据样本进行训练,采用优化器更新深度学习模型中的参数,直至步骤S4-3中全连接层输出的情绪标签准确率稳定,完成训练;
S5、识别步骤:按照步骤S2对待识别的语音进行预处理获得若干个语音片段,将前述语音片段作为待识别的音频样本;按照步骤S3对待识别的音频样本进行特征提取;将提取的特征送入深度学习模型进行识别得到待识别的音频样本属于各情绪标签的几率,融合各语音片段的识别结果,取平均值作为待识别语音的识别结果。


3.根据权利要求2所述的基于注意力卷积神经网络的语音情绪识别...

【专利技术属性】
技术研发人员:徐鸣珂张帆
申请(专利权)人:南京工业大学南京摩深信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1