语音情感识别方法、装置、存储介质和计算机设备制造方法及图纸

技术编号：38033127 阅读：13 留言：0更新日期：2023-06-30 10:59

本申请提供一种语音情感识别方法、装置、存储介质和计算机设备，所述方法包括：提取语音数据的对数梅尔谱，以及对数梅尔谱的一阶差分和二阶差分，得到三维语音特征；对三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征；将帧级别全局特征输入至图卷积神经网络进行全局信息重组，得到包含全局信息的图节点特征；将图节点特征输入至池化层进行池化，得到对应的图级特征；将图级特征输入至分类网络中进行情感分类，得到语音数据的情感类别；其中，分类网络包括全连接层和softmax层。本申请可以提高语音情感识别的准确性。本申请可以提高语音情感识别的准确性。本申请可以提高语音情感识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音情感识别方法、装置、存储介质和计算机设备

[0001]本申请涉及语音情感识别的
，具体涉及一种语音情感识别方法、装置、存储介质和计算机设备。

技术介绍

[0002]语音情感识别在许多应用中都发挥着重要的作用，但受到如背景噪音、说话者语音特征等因素的影响，导致语音情感识别的难度提升，导致现有的语音情感识别技术难以捕获情感突出信息，且现有的相关技术还存在空间中提取语义特征的能力低的缺陷，使语音情感识别的识别结果存在准确性低的缺点。

技术实现思路

[0003]本申请的目的在于克服现有技术中的缺点与不足，提供一种语音情感识别方法、装置、存储介质和计算机设备，可以提高语音情感识别的准确性。
[0004]本申请实施例的第一方面提供了一种语音情感识别方法，包括：
[0005]提取语音数据的对数梅尔谱，以及所述对数梅尔谱的一阶差分和二阶差分，得到三维语音特征；
[0006]对所述三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征；
[0007]将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组，得到包含全局信息的图节点特征；
[0008]将所述图节点特征输入至池化层进行池化，得到对应的图级特征；
[0009]将所述图级特征输入至分类网络中进行情感分类，得到语音数据的情感类别；其中，所述分类网络包括全连接层和softmax层。
[0010]本申请实施例的第二方面提供了一种语音情感识别装置，包括：
[0011]三维语音特征获取模...

【技术保护点】

【技术特征摘要】
1.一种语音情感识别方法，其特征在于，包括：提取语音数据的对数梅尔谱，以及所述对数梅尔谱的一阶差分和二阶差分，得到三维语音特征；对所述三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征；将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组，得到包含全局信息的图节点特征；将所述图节点特征输入至池化层进行池化，得到对应的图级特征；将所述图级特征输入至分类网络中进行情感分类，得到语音数据的情感类别；其中，所述分类网络包括全连接层和softmax层。2.根据权利要求1所述的语音情感识别方法，其特征在于，所述对所述三维语音特征进行特征提取，得到包含语音上下文信息的帧级别全局特征的步骤，包括：对所述三维语音特征进行位置向量添加，得到包含位置向量的语音序列编码；将包含位置向量的三维语音特征输入至多层Transformer模型编码器；各层Transformer模型编码器分别对输入进行特征提取，并将特征提取结果作为下一层Transformer模型编码器的输入；其中，第一层Transformer模型编码器的输入为所述三维语音特征，最后一层Transformer模型编码器的特征提取结果为所述帧级别全局特征。3.根据权利要求2所述的语音情感识别方法，其特征在于，各层Transformer模型编码器分别包括多头自注意力机制层和前馈神经网络；所述各层Transformer模型编码器分别对输入进行特征提取，并将特征提取结果作为下一层Transformer模型编码器的输入的步骤，包括：将所述语音序列编码输入至所述多头自注意力机制层对语音进行注意力操作，得到多个注意力矩阵；将所述多个注意力矩阵进行串联拼接，得到目标注意力矩阵；将所述目标注意力矩阵输入至所述前馈神经网络，以通过所述前馈神经网络的两个线性变换层对所述目标注意力矩阵进行特征提取，得到所述前馈神经网络输出的特征提取结果。4.根据权利要求3所述的语音情感识别方法，其特征在于，所述将所述语音序列编码输入至所述多头自注意力机制层对语音进行注意力操作，得到多个注意力矩阵的步骤，包括：通过以下公式，得到所述注意力矩阵：其中，Q、K、V为所述语音序列编码生成的三个向量矩阵，T为转置符号，d
k
为比例因子。5.根据权利要求3所述的语音情感识别方法，其特征在于，所述将所述多个注意力矩阵进行串联拼接，得到目标注意力矩阵的步骤，包括：通过以下公式，得到所述目标注意力矩阵：MultiHead(Q,K,V)＝Concat(head1,...,head
h
)W
O
；head
i
＝Attention(QW
iQ
...

【专利技术属性】
技术研发人员：黄鑫，孙晨静，侯贤华，杨继臣，王德明，
申请(专利权)人：华南师大清远科技创新研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人