【技术实现步骤摘要】
一种基于多头注意力机制和MobileNet的语音情感识别方法
[0001]本专利技术涉及人机交互
,具体为一种基于多头注意力机制和MobileNet的语音情感识别方法。
技术介绍
[0002]从语音中识别情感具有挑战性,一直是人机交互应用程序中的重要任务之一,随着人工智能的普及,人类对机器智能的追求也更上一层楼,展开了许多有关情感计算的研究,人类主要通过语音、文字、表情和肢体动作来表达情感,语音情感在人类的日常交流中充当着重要的角色,随着计算机语音识别等技术的成熟,语音情感识别已经应用到社会的各个领域,在推动科学技术进步,促进社会生活、工作更加便捷,享受人性化服务等方面起着不可替代的作用,在机器人、电脑游戏、心理评估、移动服务、电子学习等方面具有广泛的应用前景,随着深度神经网络的发展,大量文献表明深度神经网络比如CNN、注意力机制等能提取更有价值的语音情感信息,相比于传统的手工特征提取方法,深度神经网络模型能够自动学习并逐层提取有效表征说话者情绪的高级情感特征,深层神经网络具有强大的特征学习能力,能够极大的提升情感识别的精度。
[0003]但是,语音情感识别研究还存在很多不足,如深度神经网络计算资源大、模型精度不足、缺乏高质量数据等,由于情感的主观性和不确定性,对于机器来说,准确识别人类声音所包含的情感内容仍是一个巨大的挑战,即如今的语音情感识别模型仍不能准确识别人类情感,深度学习存在网络结构复杂,需要大量的计算资源等问题。
技术实现思路
[0004]针对现有技术的不足,本专利技术提供了 ...
【技术保护点】
【技术特征摘要】
1.一种基于多头注意力机制和MobileNet的语音情感识别方法,其特征在于:具体包括以下步骤:S1、首先,使用Librosa音频处理库提取logMel谱图作为特征,将其馈入两个平行的卷积层,分别从时间轴和频率轴提取纹理,结果被馈入11个连续的EfficientMobileBuildingBlock层,并生成一个96通道的表示,然后,多头注意力层关注表示并将输出发送到完全连接层进行分类;S2、标准卷积将一个DF*DF*M特征映射A作为输入,用尺寸为DK*DK*M*N的卷积核K对特征图进行卷积,并生成DF*DF*N特征映射B,标准卷积的参数开销为:D
K
*D
K
*M*N(1)标准卷积的计算成本为:D
K
*D
K
*M*N*D
W
*D
H
(2)深度卷积针对每个输入通道采用不同的卷积核,一个卷积核对应一个通道,它通过在不改变特征图像深度的情况下,将尺寸为DK*DK*M卷积核进行拆分为单通道形式,再对尺寸为DW*DH*M特征图进行卷积操作,得到与输入特征图通道数M一致的输出特征图,深度卷积对于减少参数量和计算量非常有效,然而,它的仅仅是将输入通道进行过滤,不能将它们组合起来创造新的特征,因此,需要逐点卷积来将深度卷积输出的通道线性组合,逐点卷积是一个简单的1*1卷积,使用N个尺寸1*1的卷积核对深度卷积输出的特征图进行卷积,然后创建深度层输出的线性组合,得到与标准卷积相同大小的特征图,深度卷积分离的参数代价为:D
K
*D
K
*M+N*M(3)深度卷积分离的计算量为:D
K
*D
K
*M*D
W
*D
H
+M*N*D
W
*D
H
(4)通过将卷积表示为滤波和合并的两步过程,我们可以减少计算量和参数量:量:S3、将瓶颈的输入值和经过瓶颈深度可分离卷积的输出值进行连接,不同于残差结构,该结构将输入经过1*1的卷积进行扩张,然后使用3*3的卷积进行特征提取,最后使用1*1卷积将通道数压缩到和输入一样,当且仅当输入和输出具有相同数量的通道时,才使用倒残差进行连接;S4、
‘
Squeeze
‑
and
‑
Excitation
’
放置在bottleneck中的depthwisefilter之后,是一种轻量级通道注意力模块,该网络的核心思想是通过显式的建模网络卷积特征通道之间的相互依赖关系,来提高网络产生表示的质量,引入SEmodule既提高了精度,同时没有增加时间消耗,在depthwisefilter后,依次经过全局池化层、完全连接层(通道数缩小)、ReLU、完全连接层(通道数扩增)、h
‑
sigmoid,然后与depthwise进行按位相加,在MobileNetV3,为了用一个近似函数来逼近这个swish,提出了h
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。