【技术实现步骤摘要】
基于TSTRN的跨库语音情感识别方法及装置
[0001]本专利技术涉及语音情感识别技术,尤其涉及一种基于双阶段迁移回归卷积神经网络
(TSTRN)
的跨库语音情感识别方法及装置
。
技术介绍
[0002]情感是人类表达自身状态的重要基本属性,喜
、
怒
、
哀
、
乐等不同的情感表达了人类复杂的生理和心理活动
。
而语音作为人类相互交流
、
表达情感的基本方式,蕴含着丰富的情感信息
。
因此如果能够使智能硬件自动地从人类的语音中识别出情感,将会极大地促进人机交互
、
医疗健康等实际应用领域的发展
。
广义上讲,语音情感识别任务是指让计算机能够从音频信号中自动评估主要说话者的情绪
。
过去几十年来越来越多的研究者开展了关于语音情感识别技术的研究,并且提出了大量性能优异的语音情感识别方法
。
然而,大部分现有的语音情感识别方法都只在同一个语音数据库上进行训练和测试,没有考虑到训练数据和测试数据来自不同语音数据库这一更加符合真实世界的场景
。
事实上,由于记录语言
、
采集设备
、
说话人种族等因素造成的差异,在训练数据库上表现优异的语音情感识别模型部署在另一个环境中进行测试时准确率将会急剧下降
。
基于此,一个新的更加具有挑战性的语音情感识别任务,即跨库语音情感识别任务,近年来 ...
【技术保护点】
【技术特征摘要】
1.
一种基于
TSTRN
的跨库语音情感识别方法,其特征在于,包括如下步骤:
(1)
选择两个不同的语音情感数据库作为源数据库和目标数据库,源数据库包含有若干语音样本以及对应情感标签,目标数据库仅包含若干语音样本;
(2)
对于源数据库和目标数据库的各语音样本进行预处理,提取语谱图特征;
(3)
建立双阶段迁移回归神经网络
TSTRN
,
TSTRN
以卷积神经网络作为主干网络,训练时分为双阶段,第一阶段将源数据库和目标数据库的语谱图特征同时输入,基于领域对齐任务,减少训练数据和测试数据的特征分布差异,第二阶段对于第一阶段训练的网络基于语音情感识别任务进行微调,使得具有情感区分性,第二阶段采用的损失函数为:其中,
L
e
是第二阶段的损失,
N
为源数据库语音样本总数,
C
是情感类别总数,是情感类别总数,分别代表源数据库中第
n
个语音样本属于第
c
个情感类别的真实概率
、
预测概率;
(4)
基于源数据库和目标数据库的语谱图特征,对双阶段迁移回归神经网络
TSTRN
进行训练;
(5)
对于待识别的语音样本,提取语谱图特征后输入到经过训练的双阶段迁移回归神经网络
TSTRN
,得到情感分类结果
。2.
根据权利要求1所述的基于
TSTRN
的跨库语音情感识别方法,其特征在于,步骤
(2)
具体包括:
(2
‑
1)
对源数据库和目标数据库中的各语音样本进行预加重
、
分帧
、
加窗操作;
(2
‑
2)
对各语音样本进行短时傅里叶变换,得到语谱图特征
。3.
根据权利要求1所述的基于
TSTRN
的跨库语音情感识别方法,其特征在于,所述双阶段迁移回归神经网络
TSTRN
具体包括依次连接的卷积神经网络
、
多层全连接模块和情感分类器
。4.
根据权利要求1所述的基于
TSTRN
的跨库语音情感识别方法,其特征在于,所述卷积神经网络包括依次连接的第一卷积基本块
、
第二卷积基本块
、
第三卷积基本块
、
第四卷积基本块和第五卷积基本块,所述第一卷积基本块和第二卷积基本块都分别包括从前到后相连接的卷积层和最大池化层,所述第三卷积基本块
、
第四卷积基本块和第五卷积基本块都分别包括依次连接的第一卷积层
、
第二卷积层和最大池化层,所述多层全连接模块具体包括依次连接的三层全连接层,所述情感分类器具体为单层全连接层
。5.
根据权利要求3所述的基于
TSTRN
的跨库语音情感识别方法,其特征在于,所述第一阶段的损失函数如下:其中,
L
d
表示第一阶段的损失,
φ
表示核映射算子,
‖
·
‖
H
表示再生核希尔伯特空间,
N
是源数据库的语音样本总数,
M
是目标数据库的语音样本总数,代表第
n
个源数据库语音样本在多层全连接模块输出的特征,代表第
【专利技术属性】
技术研发人员:郑文明,王金岑,宗源,赵焱,路成,连海伦,李溯南,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。