一种基于多头注意力机制和MobileNet的语音情感识别方法技术

技术编号:37720622 阅读:20 留言:0更新日期:2023-06-02 00:19
本发明专利技术公开了一种基于多头注意力机制和MobileNet的语音情感识别方法,具体包括以下步骤:S1、首先,使用Librosa音频处理库提取logMel谱图作为特征,将其馈入两个平行的卷积层,分别从时间轴和频率轴提取纹理,本发明专利技术涉及人机交互技术领域。该基于多头注意力机制和MobileNet的语音情感识别方法,通过结合轻量级MobileNetV3模型结构和多头注意力机制,提出了一种新的Multi

【技术实现步骤摘要】
一种基于多头注意力机制和MobileNet的语音情感识别方法


[0001]本专利技术涉及人机交互
,具体为一种基于多头注意力机制和MobileNet的语音情感识别方法。

技术介绍

[0002]从语音中识别情感具有挑战性,一直是人机交互应用程序中的重要任务之一,随着人工智能的普及,人类对机器智能的追求也更上一层楼,展开了许多有关情感计算的研究,人类主要通过语音、文字、表情和肢体动作来表达情感,语音情感在人类的日常交流中充当着重要的角色,随着计算机语音识别等技术的成熟,语音情感识别已经应用到社会的各个领域,在推动科学技术进步,促进社会生活、工作更加便捷,享受人性化服务等方面起着不可替代的作用,在机器人、电脑游戏、心理评估、移动服务、电子学习等方面具有广泛的应用前景,随着深度神经网络的发展,大量文献表明深度神经网络比如CNN、注意力机制等能提取更有价值的语音情感信息,相比于传统的手工特征提取方法,深度神经网络模型能够自动学习并逐层提取有效表征说话者情绪的高级情感特征,深层神经网络具有强大的特征学习能力,能够极大的提升情感识别的精度。
[0003]但是,语音情感识别研究还存在很多不足,如深度神经网络计算资源大、模型精度不足、缺乏高质量数据等,由于情感的主观性和不确定性,对于机器来说,准确识别人类声音所包含的情感内容仍是一个巨大的挑战,即如今的语音情感识别模型仍不能准确识别人类情感,深度学习存在网络结构复杂,需要大量的计算资源等问题。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种基于多头注意力机制和MobileNet的语音情感识别方法,解决了不能准确识别人类情感,深度学习存在网络结构复杂,需要大量的计算资源的问题。
[0005]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于多头注意力机制和MobileNet的语音情感识别方法,具体包括以下步骤:
[0006]S1、首先,使用Librosa音频处理库提取logMel谱图作为特征,将其馈入两个平行的卷积层,分别从时间轴和频率轴提取纹理,结果被馈入11个连续的Efficient Mobile Building Block层,并生成一个96通道的表示,然后,多头注意力层关注表示并将输出发送到完全连接层进行分类;
[0007]S2、标准卷积将一个DF*DF*M特征映射A作为输入,用尺寸为DK*DK*M*N的卷积核K对特征图进行卷积,并生成DF*DF*N特征映射B,标准卷积的参数开销为:D
K
*D
K
*M*N(1)标准卷积的计算成本为:D
K
*D
K
*M*N*D
W
*D
H
(2)深度卷积针对每个输入通道采用不同的卷积核,一个卷积核对应一个通道,它通过在不改变特征图像深度的情况下,将尺寸为DK*DK*M卷积核进行拆分为单通道形式,再对尺寸为DW*DH*M特征图进行卷积操作,得到与输入特征图通道数M一致的输出特征图,深度卷积对于减少参数量和计算量非常有效,然而,它的仅仅是将
输入通道进行过滤,不能将它们组合起来创造新的特征,因此,需要逐点卷积来将深度卷积输出的通道线性组合,逐点卷积是一个简单的1*1卷积,使用N个尺寸1*1的卷积核对深度卷积输出的特征图进行卷积,然后创建深度层输出的线性组合,得到与标准卷积相同大小的特征图,深度卷积分离的参数代价为:D
K
*D
K
*M+N*M(3)深度卷积分离的计算量为:D
K
*D
K
*M*D
W
*D
H
+M*N*D
W
*D
H
(4)通过将卷积表示为滤波和合并的两步过程,我们可以减少计算量和参数量:数量:
[0008]S3、将瓶颈的输入值和经过瓶颈深度可分离卷积的输出值进行连接,不同于残差结构,该结构将输入经过1*1的卷积进行扩张,然后使用3*3的卷积进行特征提取,最后使用1*1卷积将通道数压缩到和输入一样,当且仅当输入和输出具有相同数量的通道时,才使用倒残差进行连接;
[0009]S4、

Squeeze

and

Excitation

放置在bottleneck中的depthwise filter之后,是一种轻量级通道注意力模块,该网络的核心思想是通过显式的建模网络卷积特征通道之间的相互依赖关系,来提高网络产生表示的质量,引入SE module既提高了精度,同时没有增加时间消耗,在depthwise filter后,依次经过全局池化层、完全连接层(通道数缩小)、ReLU、完全连接层(通道数扩增)、h

sigmoid,然后与depthwise进行按位相加,在MobileNetV3,为了用一个近似函数来逼近这个swish,提出了h

swish作为激活函数,
[0010]swish x=x
·
σ(x)
[0011]h

swish是基于ReLU6的变形,是swish的硬版本;
[0012]S5、自注意力机制通过计算特征图各个部分的联系,捕获远距离依赖特性,从而发现影响情感最重要的特征组合,自注意力机制是注意力机制的变形与完善,是通过对序列本身进行注意力计算,给不同元素分配权重来获取序列内部的联系,其中所有query(查询)、key(键)、value(值)都是来自输入序列的相同向量X,即mel

spectrogram特征,自注意力机制通过计算特征图各个部分的联系,捕获远距离依赖特性,从而发现影响情感最重要的特征组合,查询、键和值通常先乘以一个参数矩阵W获得Q,K和V,然后计算每一个Q向量和所有K缩放点积得到每个向量与其他向量之间的关联度,然后通过softmax标准化后与V点积得到具有相关性的特征向量Head,即注意力分数,公式(8)显示了注意力图的计算,其中D
k
是K的维数,以防止结果过大,MHA=Concat(H1,H2…
H
n
)*W(9),通过多头机制,模型可以在不同的表示子空间里学到独立的相关信息,这使得模型学
习到输入的不同表示,将每个子空间中的信息进行多次自注意力计算得到注意力矩阵输出H
n
,n为头数,将多个H
n
进行拼接得到特征矩阵MHA见公式(9)。
[0013]优选的,所述S2中,DF是指方形输入/输出特征映射的空间宽度和高度,假设输入和输出的空间维度大小相同,DK是卷积核的空间维度,M是输入通道数(输入深度),N是输出通道数(输出深度)。
[0014]优选的,所述S2中,如公式(5)、(6)所示,若MobileNet使用3*3深度可分离卷积,其使用的计算量比标准卷积少8到9倍,精度仅略有降低。
[0015]优选的,所述S3中,线本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多头注意力机制和MobileNet的语音情感识别方法,其特征在于:具体包括以下步骤:S1、首先,使用Librosa音频处理库提取logMel谱图作为特征,将其馈入两个平行的卷积层,分别从时间轴和频率轴提取纹理,结果被馈入11个连续的EfficientMobileBuildingBlock层,并生成一个96通道的表示,然后,多头注意力层关注表示并将输出发送到完全连接层进行分类;S2、标准卷积将一个DF*DF*M特征映射A作为输入,用尺寸为DK*DK*M*N的卷积核K对特征图进行卷积,并生成DF*DF*N特征映射B,标准卷积的参数开销为:D
K
*D
K
*M*N(1)标准卷积的计算成本为:D
K
*D
K
*M*N*D
W
*D
H
(2)深度卷积针对每个输入通道采用不同的卷积核,一个卷积核对应一个通道,它通过在不改变特征图像深度的情况下,将尺寸为DK*DK*M卷积核进行拆分为单通道形式,再对尺寸为DW*DH*M特征图进行卷积操作,得到与输入特征图通道数M一致的输出特征图,深度卷积对于减少参数量和计算量非常有效,然而,它的仅仅是将输入通道进行过滤,不能将它们组合起来创造新的特征,因此,需要逐点卷积来将深度卷积输出的通道线性组合,逐点卷积是一个简单的1*1卷积,使用N个尺寸1*1的卷积核对深度卷积输出的特征图进行卷积,然后创建深度层输出的线性组合,得到与标准卷积相同大小的特征图,深度卷积分离的参数代价为:D
K
*D
K
*M+N*M(3)深度卷积分离的计算量为:D
K
*D
K
*M*D
W
*D
H
+M*N*D
W
*D
H
(4)通过将卷积表示为滤波和合并的两步过程,我们可以减少计算量和参数量:量:S3、将瓶颈的输入值和经过瓶颈深度可分离卷积的输出值进行连接,不同于残差结构,该结构将输入经过1*1的卷积进行扩张,然后使用3*3的卷积进行特征提取,最后使用1*1卷积将通道数压缩到和输入一样,当且仅当输入和输出具有相同数量的通道时,才使用倒残差进行连接;S4、

Squeeze

and

Excitation

放置在bottleneck中的depthwisefilter之后,是一种轻量级通道注意力模块,该网络的核心思想是通过显式的建模网络卷积特征通道之间的相互依赖关系,来提高网络产生表示的质量,引入SEmodule既提高了精度,同时没有增加时间消耗,在depthwisefilter后,依次经过全局池化层、完全连接层(通道数缩小)、ReLU、完全连接层(通道数扩增)、h

sigmoid,然后与depthwise进行按位相加,在MobileNetV3,为了用一个近似函数来逼近这个swish,提出了h

【专利技术属性】
技术研发人员:李峰王玲玲
申请(专利权)人:安徽财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1