一种基于神经网络的语音情感识别方法技术

技术编号:31788655 阅读:10 留言:0更新日期:2022-01-08 10:45
本发明专利技术公开了一种基于神经网络的语音情感识别方法,首先将目标语音信号分类为高兴、悲伤、中性以及生气四类情感,再提取语音信号的基于滤波器组的特征,然后将特征分别送入所述卷积神经网络和所述时延神经网络来自动提取情感特征,使用归一化指数函数分类器得到属于每一类情感的概率值,选取最大概率值对应的情感作为该段语音的情感类别;再将所述目标语音信号识别为文本,送入双向编码器预训练模型获取文本情感类别,融合以上三种模型后获得最终情感类别,解决了现有技术中模型融合以及多模态情感识别训练困难,准确率提升不大的问题。题。题。

【技术实现步骤摘要】
一种基于神经网络的语音情感识别方法


[0001]本专利技术涉及语音情感识别
,尤其涉及一种基于神经网络的语音情感识别方法。

技术介绍

[0002]语音情感识别的很多方法是采用将不同的语音情感分类模型进行融合,然而由于都是语音信息,模型的相关性比较高,模型融合的效果提升不大;也有使用不同模型提取特征的方法,然后不同模型按照相同的权重进行融合,同样存在效果提升不大的问题。
[0003]当前还有文本情感识别和语音情感识别的多模态方法,但采用的是特征融合,由于不同模型的学习速度不同,特征融合不能很好的发挥不同模态信息优势互补的作用。

技术实现思路

[0004]本专利技术的目的在于提供一种基于神经网络的语音情感识别方法,旨在解决现有技术中模型融合以及多模态情感识别训练困难,准确率提升不大的问题。
[0005]为实现上述目的,本专利技术采用一种基于神经网络的语音情感识别方法,包括下列步骤:
[0006]提取语音特征并送入卷积神经网络,获得卷积情感类别;
[0007]所述语音特征送入时延神经网络,获得时延情感类别;
[0008]识别语音文本并送入双向编码器预训练模型,获得文本情感类别;
[0009]模型融合获得最终情感类别。
[0010]其中,所述语音特征为目标语音信号的基于滤波器组的特征。
[0011]其中,所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类,所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别是四类中的任意一类。
[0012]其中,在提取语音特征并送入卷积神经网络,获得卷积情感类别的过程中,所述卷积神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为卷积情感类别。
[0013]其中,在所述语音特征送入时延神经网络,获得时延情感类别的过程中,所述时延神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为时延情感类别。
[0014]其中,识别语音文本并送入双向编码器预训练模型,获得文本情感类别,包括下列步骤:
[0015]利用语音识别技术识别所述目标语音信号对应的文本,获得语音文本;
[0016]将所述语音文本中文字映射为相应的标号,形成标号序列;
[0017]将所述标号序列送入双向编码器预训练模型,提取文本包含的情感特征;
[0018]使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概
率值对应的情感特征作为文本情感类别。
[0019]其中,在模型融合获得最终情感类别的过程中,对所述卷积情感类别、所述时延情感类别和所述文本情感类别各自归一化指数函数之后的概率值进行线性相加,选取最大值对应的情感特征作为最终情感类别。
[0020]其中,进行所述线性相加的过程中,不同模型的权重值设置为相同或不相同。
[0021]本专利技术的一种基于神经网络的语音情感识别方法,首先将目标语音信号分类为高兴、悲伤、中性以及生气四类情感,再提取语音信号的基于滤波器组的特征,然后将特征分别送入所述卷积神经网络和所述时延神经网络来自动提取情感特征,使用归一化指数函数分类器得到属于每一类情感的概率值,选取最大概率值对应的情感作为该段语音的情感类别;再将所述目标语音信号识别为文本,送入双向编码器预训练模型获取文本情感类别,融合以上三种模型后获得最终情感类别,解决了现有技术中模型融合以及多模态情感识别训练困难,准确率提升不大的问题。
附图说明
[0022]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术的一种基于神经网络的语音情感识别方法的流程示意图。
[0024]图2是本专利技术的卷积神经网络的模型架构图。
[0025]图3是本专利技术的时延神经网络的模型架构图。
[0026]图4是本专利技术的单层的双向编码器的结构图。
[0027]图5是本专利技术的模型融合加权重值流程示意图。
具体实施方式
[0028]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0029]本申请中,相应的术语还可记为其余名称,如基于滤波器组的特征为FBank特征,卷积神经网络为CNN,时延神经网络为ECAPA

TDNN,双向编码器预训练模型为Bert,归一化指数函数为Softmax。
[0030]请参阅图1,本专利技术提出了一种基于神经网络的语音情感识别方法,包括下列步骤:
[0031]S1:提取语音特征并送入卷积神经网络,获得卷积情感类别;
[0032]S2:所述语音特征送入时延神经网络,获得时延情感类别;
[0033]S3:识别语音文本并送入双向编码器预训练模型,获得文本情感类别;
[0034]S4:模型融合获得最终情感类别。
[0035]所述语音特征为目标语音信号的基于滤波器组的特征。
[0036]所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类,所述卷积情感类
别、所述时延情感类别、所述文本情感类别和所述最终情感类别可以是四类中的任意一类。
[0037]在提取语音特征并送入卷积神经网络,获得卷积情感类别的过程中,所述卷积神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为卷积情感类别。
[0038]在所述语音特征送入时延神经网络,获得时延情感类别的过程中,所述时延神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为时延情感类别。
[0039]识别语音文本并送入双向编码器预训练模型,获得文本情感类别,包括下列步骤:
[0040]利用语音识别技术识别所述目标语音信号对应的文本,获得语音文本;
[0041]将所述语音文本中文字映射为相应的标号,形成标号序列;
[0042]将所述标号序列送入双向编码器预训练模型,提取文本包含的情感特征;
[0043]使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为文本情感类别。
[0044]在模型融合获得最终情感类别的过程中,对所述卷积情感类别、所述时延情感类别和所述文本情感类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的语音情感识别方法,其特征在于,包括下列步骤:提取语音特征并送入卷积神经网络,获得卷积情感类别;所述语音特征送入时延神经网络,获得时延情感类别;识别语音文本并送入双向编码器预训练模型,获得文本情感类别;模型融合获得最终情感类别。2.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,所述语音特征为目标语音信号的基于滤波器组的特征。3.如权利要求2所述的基于神经网络的语音情感识别方法,其特征在于,所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类,所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别是四类中的任意一类。4.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,在提取语音特征并送入卷积神经网络,获得卷积情感类别的过程中,所述卷积神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为卷积情感类别。5.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,在所述语音特征送入时延神经网络,获得时延情感类别...

【专利技术属性】
技术研发人员:张悦黄逸轩
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1