一种基于注意力的多尺度卷积语音情感识别方法及装置制造方法及图纸

技术编号:31373742 阅读:34 留言:0更新日期:2021-12-15 11:04
本发明专利技术涉及一种基于注意力的多尺度卷积语音情感识别方法及装置。本发明专利技术所述的一种基于注意力的多尺度卷积语音情感识别方法包括:构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器;将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,得到待识别语音的情感分类结果。本发明专利技术所述的一种基于注意力的多尺度卷积语音情感识别方法在深度学习神经网络中嵌入两个并行的通道注意力机制以及融合通道的空间注意力机制,增强有用信息并抑制对当前任务无用的信息,识别结果更为准确。识别结果更为准确。识别结果更为准确。

【技术实现步骤摘要】
一种基于注意力的多尺度卷积语音情感识别方法及装置


[0001]本专利技术涉及语音情感识别领域,特别是涉及一种基于注意力的多尺度卷积语音情感识别方法。

技术介绍

[0002]语音情感识别可以帮助机器理解用户的意图,提高交互应用场景下的用户体验。随着人机交互的深入发展,SER受到了研究人员的广泛关注,如何提取能够有效区分情感的情绪状态是目前研究的难点之一。因此,特征生成及融合是语音情感识别的关键步骤之一,即将原始的语音特征发送到特征提取器中,生成与情感相关的信息。
[0003]近年来,深度学习算法被广泛用于生成高度抽象的情感相关特征表示,其中卷积神经网络(CNN)成为了研究的热门。然而CNN在提取特征的过程中往往存在对冗余信息的卷积运算,造成了计算量和存储空间的浪费。为进一步提高网络的表示能力,注意力机制最近被广泛应用于不同分支的特征融合中。通道注意力机制在改善深度卷积神经网络(CNNs)性能方面具有巨大的优势。为解决特征通道信息不均衡性的问题,引入了多通道卷积的神经网络模型。胡捷等人在“Squeeze
/>and
本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于注意力的多尺度卷积语音情感识别方法,其特征在于,包括以下步骤:构建语音情感识别模型,其中,所述模型包括第一卷积神经网络层、两个由注意力层和第二卷积神经网络层组成的并行通道、第一全连接层、空间注意力层、第二全连接层和softmax分类器;将待识别语音对应的语谱图输入到训练好的所述语音情感识别模型中,使得所述第一卷积神经网络层对所述语谱图进行提取低层次的语音特征,得到第一特征图;将所述第一特征图分割为两个子特征图,将两个所述子特征图分别馈入到两个所述并行通道中,使得每个所述并行通道对其中一个子特征图进行并行的注意力加权处理和低层特征提取处理;将两个所述并行通道的处理结果输入所述第一全连接层,进行特征融合处理,得到第二特征图;将所述第二特征图输入所述空间注意力层,进行注意力加权处理;将所述空间注意力层的输出结果输入所述第二全连接层,进行特征降维处理;将所述第二全连接层的输出结果输入softmax分类器,得到待识别语音的情感分类结果。2.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于,将所述第一特征图分割为两个子特征图,包括:设置参数α,将特征图以1

α:α的比例进行通道上的分割,并对占比为
ɑ
的特征图进行平均池化的下采样处理;将两个并行通道的处理结果输入所述特征融合层之前,还包括:对占比为
ɑ
的特征图进行上采样处理。3.根据权利要求2所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于:α=0.8。4.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于,所述对子特征图进行注意力加权处理,包括:将所子述特征图输入所述注意力层,得到新特征图;将所述新特征图与所述原子特征图相乘,得到注意力加权特征图。5.根据权利要求1所述的一种基于注意力的多尺度卷积语音情感识别方法,其特征在于:所述第二卷积神经网络层包括两个5
×<...

【专利技术属性】
技术研发人员:唐小煜陈嘉仪程慧慧郑梦云
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1