当前位置: 首页 > 专利查询>上海大学专利>正文

一种情感嵌入与特征融合的语音情感识别方法技术

技术编号:37111305 阅读:32 留言:0更新日期:2023-04-01 05:08
本发明专利技术公开了一种情感嵌入与特征融合的语音情感识别方法,首先,利用特征预提取网络提取语音信号中的原始深度特征,过滤掉部分无关的信息,然后,利用Transformer中十二个编码器提取深层特征,提取具有丰富上下文的语义信息,并采用与声学特征进行优化融合处理;最后将融合后的特征图展开为一个一维向量通过分布式表示得到情感嵌入层,将情感嵌入层馈送到Transformer编码器原始输入,采用基于重构误差函数和交叉熵损失函数联合监督训练模型,引导模型学习鲁棒性的本质特征。本发明专利技术的一种情感嵌入与特征融合的语音情感识别方法,不但可以端到端训练模型,并尽可能提取到与情感最相关的信息,在实际应用中有着卓越的识别性能和泛化能力。泛化能力。泛化能力。

【技术实现步骤摘要】
一种情感嵌入与特征融合的语音情感识别方法


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种情感嵌入与特征融合的语音情感识别方法。

技术介绍

[0002]目前,互联网和人工智能等技术在现代信息应用领域已得到了广泛应用,并且不断渗透到我们的日常生活和社会活动中。随着新兴科学技术的不断进步,人机交互的场景也越来越丰富,使得人们的交互方式从人际交互逐渐过渡到人机交互。然而现如今与计算机的人机交互还处于逻辑推理式交互阶段,计算机只能根据指令或代码进行工作,尚不能对人类行为做出交互反馈。而随着人工智能的发展,机器拥有丰富的情感状态和情感表达将逐渐成为现实,人们渴望机器通过人机之间的语言、动作和表情等方式实现沟通,使人机交互逐步走向人性化和智能化。倘若计算机能够获得类似人类情感识别的能力,便能进一步感知情感信息并做出反馈,这也将极大地增强人机交互的便捷性,使得计算机更好地为人类服务。
[0003]在相关技术中,语音情感识别算法的研究大致可以划分为基于传统声学特征的方法和基于深度学习的方法。传统声学特征的方法通过人工选择常用的频谱特征或者韵律学特征作为模型的输入,之后通过机器学习算法进行情感识别。用于情感识别的传统声学特征类型多样,不同的特征或者特征组合也为情感识别带来了不同的效果。然而,从种类如此繁多的声学特征中选择适合情感识别的是极具难度的,不同特征的组合将产生很大的计算开销。因此,基于传统声学特征的识别方法在性能上无法得到进一步提升。基于深度学习的语音情感识别方法采用“端到端”训练方式,并且深度特征表征能力更强,无需人工设计,因此可以获得更好的鲁棒性。但基于深度学习的语音情感识别方法容易对局部特征造成损失,且难以提取有效的本质特征信息。
[0004]当前基于深度学习的语音情感识别研究已经取得较大进展,但模型的精度及其泛化性能仍在很大程度上受到场景复杂度的制约。

技术实现思路

[0005]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是现有的语音情感识别方法存在的易受情感特征信息的影响,难以提取有效的本质特征信息,导致模型检测精度以及泛化能力低等问题。本专利技术提供了一种情感嵌入与特征融合的语音情感识别方法,实现端到端训练模型,尽可能在复杂条件下提取语音中有效的情感判别信息,提高检测性能、检测精度和泛化能力。
[0006]为实现上述目的,本专利技术提供了一种情感嵌入与特征融合的语音情感识别方法,包括以下步骤:预处理数据,获取训练集语音,设置采样频率为16KHz,并对语音信号进行预加重、分帧和加窗;
[0007]获取目标输入语音的对数梅尔频谱图,对每一帧信号进行短时傅里叶变换得到短
时幅度谱,取对数得到对数幅度谱,对数幅度谱通过梅尔滤波器组转换成128维梅尔滤波器特征序列;
[0008]目标输入语音对数梅尔频谱图进行切割分块并对每一个频谱图块位置编码;
[0009]通过特征预提取网络对所述目标输入语音进行原始深度特征的提取,过滤掉一些无关信息的影响,得到目标输入语音的原始深度特征;对所述原始深度特征采用十二个Transformer编码器进行深层特征的提取,提取具有丰富上下文的语义信息,得到深层特征;
[0010]通过Opensmile声学工具提取目标输入语音的声学特征,并与Transformer网络提取的深层特征进行特征融合,融合后的特征图展开为一个一维向量通过分布式表示得到情感嵌入层。
[0011]融合后的特征通过分布式表示嵌入为情感嵌入层,将其馈送到Transformer编码器原始输入层,并采用基于重构误差函数和交叉熵损失函数联合监督训练模型,引导模型学习鲁棒性的本质特征,得到训练后的语音情感分类模型;
[0012]利用训练好的网络模型获取情感分类结果。
[0013]进一步地,获取目标输入语音对数梅尔频谱图,并通过特征预提取网络对目标输入语音对数梅尔频谱图进行原始特征的提取,得到目标输入的原始深度特征,具体是使用Transformer编码器网络进行原始深度特征的提取,其中,提取原始深度特征的网络采用开源网络。
[0014]进一步地,采用十二个相同的Transformer编码器进行深层特征的提取,编码器嵌入维度为768。
[0015]进一步地,对原始深度特征采用十二个Transformer编码器进行深层特征的提取,提取具有丰富上下文的语义信息,得到深层特征;通过Opensmile声学工具提取目标输入语音的声学特征,对多层次特征进行基于早期融合的特征优化,具体包括采用开源的特征融合网络进行特征的优化处理。
[0016]进一步地,预处理数据,获取训练集语音时,需要获取大量的训练样本作为训练集样本,训练集样本应包括大量的不同种类的语音情感样本。
[0017]进一步地,所述语音样本的采集条件设置为在人为引导和表演型的场景下进行,在采集的过程中参与的志愿者做出依据指定对话表达出复杂情感信息的语音片段。
[0018]进一步地,采用经典的十二个Transformer编码器网络作为预提取特征网络的主干框架,从输入图像中提取到原始深度特征。
[0019]进一步地,对融合后的特征图展开为一个一维向量,采用基于重构函数和交叉熵损失函数(Cross

Entropy Loss)联合监督训练模型,其中,双重监督损失函数公式为:
[0020]总损失函数:L=L
R
+λL
EC
[0021]其中,其中,x是编码器输入,encoder(x)是编码器输出映射,x

是编码器重构,y是语音情感的真实标签值,p为模型的预测值。
[0022][0023]进一步地,通过输出的预测值和输入样本语音的标注值,结合损失函数,并使用
Adam优化器算法,设置学习率大小为1
×
10
‑4,最小化损失函数对模型参数进行更新,直到模型收敛为止。
[0024]技术效果
[0025]本专利技术的一种情感嵌入与特征融合的语音情感识别方法,首先,利用特征预提取网络提取语音信号中的原始深度特征,过滤掉部分无关的信息,然后,利用 Transformer中十二个编码器提取深层特征,提取具有丰富上下文的语义信息,并采用与声学特征进行优化融合处理;最后将融合后的特征图展开为一个一维向量通过分布式表示得到情感嵌入层,将情感嵌入层馈送到Transformer编码器原始输入,采用基于重构误差函数和交叉熵损失函数联合监督训练模型,引导模型学习鲁棒性的本质特征。本专利技术的一种情感嵌入与特征融合的语音情感识别方法,不但可以端到端训练模型,并尽可能提取到与情感最相关的信息,在实际应用中有着卓越的识别性能和泛化能力。
[0026]以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。
附图说明
[0027]图1是本专利技术一个较佳实施例的一种情感嵌入与特征融合的语音情感识别方法的流程示意图;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情感嵌入与特征融合的语音情感识别方法,其特征在于,包括以下步骤:预处理数据,获取训练集语音,设置采样频率为16KHz,并对语音信号进行预处理;获取所述目标输入语音的对数梅尔频谱图,对每一帧信号进行短时傅里叶变换得到短时幅度谱,短时幅度谱取对数后得到对数幅度谱,对数幅度谱通过梅尔滤波器组转换成128维梅尔滤波器特征序列;对所述数梅尔频谱图进行切割分块并对每一个频谱图块位置编码;通过特征预提取网络对目标输入语音进行原始深度特征的提取,过滤掉无关信息的影响,得到目标输入语音的原始深度特征;对所述原始深度特征采用十二个Transformer编码器进行深层特征的提取,提取具有丰富上下文的语义信息,得到深层特征;通过Opensmile声学工具提取目标输入语音的声学特征,并与Transformer网络提取的深层特征进行特征融合,融合后的特征图展开为一个一维向量通过分布式表示得到情感嵌入层;将通过分布式表示的情感嵌入层馈送到Transformer编码器原始输入层继续训练,并采用基于重构误差函数和交叉熵损失函数联合监督训练模型,引导模型学习鲁棒性的本质特征,得到训练后的语音情感分类模型;利用训练好的网络模型获取情感分类结果。2.如权利要求1所述的一种情感嵌入与特征融合的语音情感识别方法,其特征在于,使用原始的Transformer编码器神经网络对所述目标输入语音进行原始深度特征的提取,具体是,提取原始深度特征的网络采用开源网络。3.如权利要求2所述的一种情感嵌入与特征融合的语音情感识别方法,其特征在于,采用十二个Transformer编码器对目标输入语音进行深层特征的提取。4.如权利要求3所述的一种情感嵌入与特征融合的语音情感识别方法,其特征在于,对所述原始深度特征采用十二个Transf...

【专利技术属性】
技术研发人员:高利军薛雷
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1