语音情感识别方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:38033127 阅读:13 留言:0更新日期:2023-06-30 10:59
本申请提供一种语音情感识别方法、装置、存储介质和计算机设备,所述方法包括:提取语音数据的对数梅尔谱,以及对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;对三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;将帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;将图节点特征输入至池化层进行池化,得到对应的图级特征;将图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,分类网络包括全连接层和softmax层。本申请可以提高语音情感识别的准确性。本申请可以提高语音情感识别的准确性。本申请可以提高语音情感识别的准确性。

【技术实现步骤摘要】
语音情感识别方法、装置、存储介质和计算机设备


[0001]本申请涉及语音情感识别的
,具体涉及一种语音情感识别方法、装置、存储介质和计算机设备。

技术介绍

[0002]语音情感识别在许多应用中都发挥着重要的作用,但受到如背景噪音、说话者语音特征等因素的影响,导致语音情感识别的难度提升,导致现有的语音情感识别技术难以捕获情感突出信息,且现有的相关技术还存在空间中提取语义特征的能力低的缺陷,使语音情感识别的识别结果存在准确性低的缺点。

技术实现思路

[0003]本申请的目的在于克服现有技术中的缺点与不足,提供一种语音情感识别方法、装置、存储介质和计算机设备,可以提高语音情感识别的准确性。
[0004]本申请实施例的第一方面提供了一种语音情感识别方法,包括:
[0005]提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;
[0006]对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;
[0007]将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;
[0008]将所述图节点特征输入至池化层进行池化,得到对应的图级特征;
[0009]将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。
[0010]本申请实施例的第二方面提供了一种语音情感识别装置,包括:
[0011]三维语音特征获取模块,用于提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;
[0012]全局特征获取模块,用于对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;
[0013]图节点特征获取模块,用于将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;
[0014]图级特征获取模块,用于将所述图节点特征输入至池化层进行池化,得到对应的图级特征;
[0015]情感类别获取模块,用于将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。
[0016]本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音情感识别方
法的步骤。
[0017]本申请实施例的第四方面提供了一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的语音情感识别方法的步骤。
[0018]相对于相关技术,本申请首先根据语音数据的对数梅尔谱,以及对数梅尔谱的一阶差分和二阶差分,得到三维语音特征,然后对三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征,再对帧级别全局特征进行全局信息重组,得到包含全局信息的图节点特征,然后通过池化得到对应的图级特征,将图级特征输入分类网络进行情感分类,得到语音数据的情感类别,由于采用了对数梅尔谱,以及对数梅尔谱的一阶差分和二阶差分作为三维语音特征,可以保留更多的有效情感信息,并且减少与情感无关的因素的印象,而通过对三维语音特征进行特征提取,可以提高模型提取全局上下文特征的能力,再通过图卷积神经网络,可以更好的捕获序列中帧与帧之间的依赖关系,增强特征的集中度,进一步提高特征提取能力,从而提高语音情感识别的准确性。
[0019]为了能更清晰的理解本申请,以下将结合附图说明阐述本申请的具体实施方式。
附图说明
[0020]图1为本申请一个实施例的语音情感识别方法的流程图。
[0021]图2为本申请一个实施例的语音情感识别方法的帧级别全局特征获取流程图。
[0022]图3为本申请一个实施例的语音情感识别方法的邻接矩阵的无向循环图结构。
[0023]图4为本申请一个实施例的语音情感识别装置的模块连接示意图。
[0024]100、语音情感识别装置;101、三维语音特征获取模块;102、全局特征获取模块;103、图节点特征获取模块;104、图级特征获取模块;105、情感类别获取模块。
具体实施方式
[0025]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
[0026]应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
[0027]下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0028]此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0029]请参阅图1,其是本申请一个实施例的语音情感识别方法的流程图,本申请第一实施例提供一种语音情感识别方法,包括:
[0030]S1:提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征。
[0031]其中,语音数据的对数梅尔谱是将经过预加重的语音数据分成短时帧,将每一帧语音数据乘以一个窗函数进行加窗,然后对每一帧语音数据进行离散傅里叶变换,得到对应的短时频谱,再对短时频谱进行模的平方运算,得到对应的离散功率谱。然后通过梅尔滤波器组,将线性频率的离散功率谱转换为非线性的梅尔频率谱,再对梅尔频率谱进行对数运算,得到对数梅尔谱,以对语音数据的每一帧进行低级语音特征的提取。其中,梅尔滤波器组包括多个三角滤波器,例如,语音数据分成300帧的短时帧,而三角滤波器的数量是40个,此时得到的对数梅尔谱的矩阵可以表示为[300,40]的矩阵,其中,300是对数梅尔谱的帧数,40是对数梅尔谱的每一帧的维度。
[0032]由于对数梅尔谱的一阶差分和二阶差分的矩阵中,参数数量与对数梅尔谱的矩阵参数数量完全相同,因此,基于上述例子,对数梅尔谱的一阶差分和二阶差分都可以表示为[300,40],根据对数梅尔谱,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情感识别方法,其特征在于,包括:提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;将所述图节点特征输入至池化层进行池化,得到对应的图级特征;将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。2.根据权利要求1所述的语音情感识别方法,其特征在于,所述对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征的步骤,包括:对所述三维语音特征进行位置向量添加,得到包含位置向量的语音序列编码;将包含位置向量的三维语音特征输入至多层Transformer模型编码器;各层Transformer模型编码器分别对输入进行特征提取,并将特征提取结果作为下一层Transformer模型编码器的输入;其中,第一层Transformer模型编码器的输入为所述三维语音特征,最后一层Transformer模型编码器的特征提取结果为所述帧级别全局特征。3.根据权利要求2所述的语音情感识别方法,其特征在于,各层Transformer模型编码器分别包括多头自注意力机制层和前馈神经网络;所述各层Transformer模型编码器分别对输入进行特征提取,并将特征提取结果作为下一层Transformer模型编码器的输入的步骤,包括:将所述语音序列编码输入至所述多头自注意力机制层对语音进行注意力操作,得到多个注意力矩阵;将所述多个注意力矩阵进行串联拼接,得到目标注意力矩阵;将所述目标注意力矩阵输入至所述前馈神经网络,以通过所述前馈神经网络的两个线性变换层对所述目标注意力矩阵进行特征提取,得到所述前馈神经网络输出的特征提取结果。4.根据权利要求3所述的语音情感识别方法,其特征在于,所述将所述语音序列编码输入至所述多头自注意力机制层对语音进行注意力操作,得到多个注意力矩阵的步骤,包括:通过以下公式,得到所述注意力矩阵:其中,Q、K、V为所述语音序列编码生成的三个向量矩阵,T为转置符号,d
k
为比例因子。5.根据权利要求3所述的语音情感识别方法,其特征在于,所述将所述多个注意力矩阵进行串联拼接,得到目标注意力矩阵的步骤,包括:通过以下公式,得到所述目标注意力矩阵:MultiHead(Q,K,V)=Concat(head1,...,head
h
)W
O
;head
i
=Attention(QW
iQ
...

【专利技术属性】
技术研发人员:黄鑫孙晨静侯贤华杨继臣王德明
申请(专利权)人:华南师大清远科技创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1