当前位置: 首页 > 专利查询>东南大学专利>正文

基于制造技术

技术编号:39733000 阅读:7 留言:0更新日期:2023-12-17 23:35
本发明专利技术公开了一种基于

【技术实现步骤摘要】
基于TSTRN的跨库语音情感识别方法及装置


[0001]本专利技术涉及语音情感识别技术,尤其涉及一种基于双阶段迁移回归卷积神经网络
(TSTRN)
的跨库语音情感识别方法及装置


技术介绍

[0002]情感是人类表达自身状态的重要基本属性,喜





乐等不同的情感表达了人类复杂的生理和心理活动

而语音作为人类相互交流

表达情感的基本方式,蕴含着丰富的情感信息

因此如果能够使智能硬件自动地从人类的语音中识别出情感,将会极大地促进人机交互

医疗健康等实际应用领域的发展

广义上讲,语音情感识别任务是指让计算机能够从音频信号中自动评估主要说话者的情绪

过去几十年来越来越多的研究者开展了关于语音情感识别技术的研究,并且提出了大量性能优异的语音情感识别方法

然而,大部分现有的语音情感识别方法都只在同一个语音数据库上进行训练和测试,没有考虑到训练数据和测试数据来自不同语音数据库这一更加符合真实世界的场景

事实上,由于记录语言

采集设备

说话人种族等因素造成的差异,在训练数据库上表现优异的语音情感识别模型部署在另一个环境中进行测试时准确率将会急剧下降

基于此,一个新的更加具有挑战性的语音情感识别任务,即跨库语音情感识别任务,近年来得到了众多研究者的关注

在跨库语音情感识别任务中,训练语音样本和测试语音样本来自于不同的情感语音数据库,并且训练样本有情感类别标注而测试样本完全没有标注,这对语音情感识别任务提出了挑战

遵循跨库语音情感识别任务中的命名约定,在本文中训练和测试数据库又称为源和目标数据库
/


[0003]在跨库语音情感识别任务的早期研究工作中,
Schuller
最先系统提出并定义了跨库语音情感识别任务,并且设计了多种不同的归一化方法来减少训练数据库和测试数据库之间的特征分布差异

一个典型的跨库语音情感识别任务可以被近似分为情感特征提取部分和领域对齐部分

情感特征提取部分的目标是从原始音频信号中识别出一组能准确描述情感相关信息的特征

由于训练数据库和测试数据库的语音样本具有不同的特征分布,因此提取与情感相关的特征以消除训练和测试数据库之间的领域差异是一项艰巨的任务

领域对齐部分的目标是消除或减少训练数据和测试数据之间的特征分布差异,因此将语音情感识别模型在有情感信息标注的训练数据库上学习到的情感识别能力迁移到测试数据库时不会出现明显的性能下降

目前主要研究者主要基于两种思路来进行领域对齐,即直接减少领域分布差异以及利用对抗策略建模数据库不变的特征

前一类方法主要侧重于通过各种领域差异度量指标来缓解分布差异

比如
Zhang
等人提出了联合分布自适应回归
(JDAR)
方法,设计了一种稀疏回归矩阵,同时考虑了训练数据库和测试数据库在边缘和类别条件分布下的分布差异来解决跨库语音情感识别任务

而基于对抗策略的方法则采用对抗训练策略,在训练过程中获得情感区分性和数据库不变性的特征

比如
Gideon
等人提出了一种基于对抗判别领域泛化
(ADDoG)
的方法,从多个训练数据库中学到更加具有泛化性的语音情感特征

然而,有学者提出情感区分性和数据库可迁移性可能会表现出不一致的
优化趋势

这意味着在跨库语音情感识别任务中同时优化情感特征提取部分和领域对齐部分会忽视它们之间可能的优化方向冲突

因此,如何协调情感判别性特征和数据库不变特征这两个优化目标,是跨库语音情感识别任务中的关键因素


技术实现思路

[0004]专利技术目的:本专利技术针对现有技术存在的问题,提供一种可协调情感判别性特征和数据库不变特征

准确率更高的基于
TSTRN
的跨库语音情感识别方法和装置

[0005]技术方案:本专利技术所述的基于
TSTRN
的跨库语音情感识别方法包括如下步骤:
[0006](1)
选择两个不同的语音情感数据库作为源数据库和目标数据库,源数据库包含有若干语音样本以及对应情感标签,目标数据库仅包含若干语音样本;
[0007](2)
对于源数据库和目标数据库的各语音样本进行预处理,提取语谱图特征;
[0008](3)
建立双阶段迁移回归神经网络
TSTRN

TSTRN
以卷积神经网络作为主干网络,训练时分为双阶段,第一阶段将源数据库和目标数据库的语谱图特征同时输入,基于领域对齐任务,减少训练数据和测试数据的特征分布差异,第二阶段对于第一阶段训练的网络基于语音情感识别任务进行微调,使得具有情感区分性,第二阶段采用的损失函数为:
[0009][0010]其中,
L
e
是第二阶段的损失,
N
为源数据库语音样本总数,
C
是情感类别总数,是情感类别总数,分别代表源数据库中第
n
个语音样本属于第
c
个情感类别的真实概率

预测概率;
[0011](4)
基于源数据库和目标数据库的语谱图特征,对双阶段迁移回归神经网络
TSTRN
进行训练;
[0012](5)
对于待识别的语音样本,提取语谱图特征后输入到经过训练的双阶段迁移回归神经网络
TSTRN
,得到情感分类结果

[0013]进一步的,步骤
(2)
具体包括:
[0014](2

1)
对源数据库和目标数据库中的各语音样本进行预加重

分帧

加窗操作;
[0015](2

2)
对各语音样本进行短时傅里叶变换,得到语谱图特征

[0016]进一步的,所述双阶段迁移回归神经网络
TSTRN
具体包括依次连接的卷积神经网络

多层全连接模块和情感分类器

[0017]进一步的,所述卷积神经网络网络包括依次连接的第一卷积基本块

第二卷积基本块

第三卷积基本块

第四卷积基本块和第五卷积基本块,所述第一卷积基本块和第二卷积基本块都分别包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
TSTRN
的跨库语音情感识别方法,其特征在于,包括如下步骤:
(1)
选择两个不同的语音情感数据库作为源数据库和目标数据库,源数据库包含有若干语音样本以及对应情感标签,目标数据库仅包含若干语音样本;
(2)
对于源数据库和目标数据库的各语音样本进行预处理,提取语谱图特征;
(3)
建立双阶段迁移回归神经网络
TSTRN

TSTRN
以卷积神经网络作为主干网络,训练时分为双阶段,第一阶段将源数据库和目标数据库的语谱图特征同时输入,基于领域对齐任务,减少训练数据和测试数据的特征分布差异,第二阶段对于第一阶段训练的网络基于语音情感识别任务进行微调,使得具有情感区分性,第二阶段采用的损失函数为:其中,
L
e
是第二阶段的损失,
N
为源数据库语音样本总数,
C
是情感类别总数,是情感类别总数,分别代表源数据库中第
n
个语音样本属于第
c
个情感类别的真实概率

预测概率;
(4)
基于源数据库和目标数据库的语谱图特征,对双阶段迁移回归神经网络
TSTRN
进行训练;
(5)
对于待识别的语音样本,提取语谱图特征后输入到经过训练的双阶段迁移回归神经网络
TSTRN
,得到情感分类结果
。2.
根据权利要求1所述的基于
TSTRN
的跨库语音情感识别方法,其特征在于,步骤
(2)
具体包括:
(2

1)
对源数据库和目标数据库中的各语音样本进行预加重

分帧

加窗操作;
(2

2)
对各语音样本进行短时傅里叶变换,得到语谱图特征
。3.
根据权利要求1所述的基于
TSTRN
的跨库语音情感识别方法,其特征在于,所述双阶段迁移回归神经网络
TSTRN
具体包括依次连接的卷积神经网络

多层全连接模块和情感分类器
。4.
根据权利要求1所述的基于
TSTRN
的跨库语音情感识别方法,其特征在于,所述卷积神经网络包括依次连接的第一卷积基本块

第二卷积基本块

第三卷积基本块

第四卷积基本块和第五卷积基本块,所述第一卷积基本块和第二卷积基本块都分别包括从前到后相连接的卷积层和最大池化层,所述第三卷积基本块

第四卷积基本块和第五卷积基本块都分别包括依次连接的第一卷积层

第二卷积层和最大池化层,所述多层全连接模块具体包括依次连接的三层全连接层,所述情感分类器具体为单层全连接层
。5.
根据权利要求3所述的基于
TSTRN
的跨库语音情感识别方法,其特征在于,所述第一阶段的损失函数如下:其中,
L
d
表示第一阶段的损失,
φ
表示核映射算子,

·

H
表示再生核希尔伯特空间,
N
是源数据库的语音样本总数,
M
是目标数据库的语音样本总数,代表第
n
个源数据库语音样本在多层全连接模块输出的特征,代表第

【专利技术属性】
技术研发人员:郑文明王金岑宗源赵焱路成连海伦李溯南
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1