当前位置: 首页 > 专利查询>东南大学专利>正文

基于注意力时频网络的语音情感识别方法及系统技术方案

技术编号:34528573 阅读:19 留言:0更新日期:2022-08-13 21:20
本发明专利技术公开了一种基于注意力时频网络的语音情感识别方法及系统,本发明专利技术首先通过样本特征提取模块获取的对数梅尔频谱特征鲁棒性更好,然后通过时频注意力网络和编码器获得具有与异常噪声(如背景噪声、说话人身份、语种等)无关但与情感有关的泛化性的特征,最后利用情感分类器模块进一步增强获得特征的情感判别性和与噪声无关的泛化性,本发明专利技术识别效果更好、识别率更高。识别率更高。识别率更高。

【技术实现步骤摘要】
基于注意力时频网络的语音情感识别方法及系统


[0001]本专利技术涉及语音处理
,尤其是一种基于注意力时频网络的语音情感识别方法及系统。

技术介绍

[0002]语音情感识别的目的是使机器通过语音信号判别人类所处情感状态(如惊恐、快乐、悲伤等),已成为情感计算、人机交互等领域的研究热点。国内外许多研究机构(如美国MIT媒体实验室、英国帝国理工学院GLAM实验室、中科院自动化所等)均致力于语音情感识别研究,并开始尝试应用于教育、医疗等领域。
[0003]目前语音情感识别技术的难点在于由于语音数据易受到环境噪声、说话人、语种、录制设备等因素差异的影响,使得语音中情感特征的分布存在显著差异从而造成情感信息的表征异常困难,严重制约语音情感识别方法的泛化性能,为鲁棒语音情感识别带来了巨大的挑战。语音信号的时频特性对于语音情感的表征具有重大意义,因此如何挖掘语音的频域和时域信息用于情感特征的提取是鲁棒语音情感识别亟需突破的关键技术难题

技术实现思路

[0004]本专利技术所要解决的技术问题在于,提供一种基于注意力时频网络的语音情本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于注意力时频网络的语音情感识别方法,其特征在于,包括如下步骤:(1)获取若干情感语音样本,进行短时离散傅里叶变换后再经梅尔滤波器组后取对数获得对数梅尔频谱特征,作为网络的输入;(2)将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征;(3)将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征,即时频语音情感特征;(4)对时频语音情感特征经过情感分类器进行分类;(5)对基于注意力的频域编码器、基于注意力的时域编码器和情感分类器进行联合训练,得到最优模型参数;(6)将待识别的情感语音样本输入训练好的基于注意力的频域编码器、基于注意力的时域编码器和情感分类器,得到识别出的语音情感。2.如权利要求1所述的基于注意力时频网络的语音情感识别方法,其特征在于,步骤(1)中,对干净的语音信号进行短时离散傅里叶变换后再经梅尔滤波器组后取对数获得对数梅尔频谱特征,作为网络的输入具体包括如下步骤:(1

1)对去噪处理后的语音信号进行预加重、分帧、加窗预处理操作;(1

2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱;(1

3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数,得到对数梅尔频谱特征作为网络的输入。3.如权利要求1所述的基于注意力时频网络的语音情感识别方法,其特征在于,步骤(2)中,将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征具体包括如下步骤:(2

1)将训练样本的对数梅尔频谱特征输入频域注意力网络得到频域注意力a
f
;(2

2)将频域注意力a
f
与频域特征x做广播乘积后与原频域特征按通道加权后求均值得到加权频域特征x

;(2

3)频域注意力网络包含一个卷积模块、一个乘积模块和一个求和模块,其中卷积模块均包含一个卷积模块操作,乘积模块包含一个广播乘积操作,求和模块包含一个加法操作。4.如权利要求1所述的基于注意力时频网络的语音情感识别方法,其特征在于,步骤(3)中,将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征,即时频语音情感特征,具体包括如下步骤:(3

1)将训练样本的对数梅尔频谱特征输入时域注意力网络得到时域注意力a
t
;(3

2)将时域注意力a
t
与时域特征x

做广播乘积后与原时域特征按通道加权后求均值得到加权时域特征,即时频特征x

;(3

3)时域注意力网络包含一个卷积模块、一个乘积模块和一个求和模块,其中卷积模...

【专利技术属性】
技术研发人员:郑文明路成宗源李溯南连海伦唐传高赵焱
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1