一种基于混合小波包特征深度学习的语音情感识别方法技术

技术编号:26893027 阅读:60 留言:0更新日期:2020-12-29 16:14
本发明专利技术提供基于混合小波包特征深度学习的语音情感识别方法,S1:通过自相关函数算法对语音数据进行端点检测;S2:将语音序列数据截取成相同长度,将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,组成特征集1;S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1进行进一步提取特征;S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。本发明专利技术能够混有噪声的情况下,能够充分提取语音信号的时域信息和频域信息特征,进而利用深度学习算法实现。

【技术实现步骤摘要】
一种基于混合小波包特征深度学习的语音情感识别方法
本专利技术涉及一种基于深度学习的语音情感识别技术,特别涉及一种基于混合小波包特征的深度学习方法,该方法属于深度学习与语音情感识别领域的方法。
技术介绍
情感是人类区别于机器的独特特征之一,对人类来说,彼此之间的包含情感的沟通显得尤为重要,近些年来,情感内容分析逐渐成为一个活跃的研究领域,在人机交互中的关注度愈来愈大,人类可以通过表情,语音,手势等来判断人的情感,但是语音是人类最直接有效的沟通桥梁,并且语音信号在人机交互中成为最快捷高效的媒介。在人机交互方面,语音情感识别是一种复杂的且具有挑战的人工智能研究领域,被广泛应用于教育、医疗等领域中。其研究中的特征提取在领域中扮演了一个十分重要的角色,因为很难在这个过程中找到最佳特征集来区分情感状态,我们之前总是用快速傅里叶变换(FFT)去提取语音信号的频域特征,其中包含短时能量,基频特征,谱特征,MFCC等,接着将这些预处理好的特征输入到深度学习网络中再进行特征提取,进而实现情感分类。然而在提取信号的频域特征的同时,往往忽略了语音信号的时域特征。Pan本文档来自技高网...

【技术保护点】
1.一种基于混合小波包特征深度学习的语音情感识别方法,其特征是,包括以下步骤:/nS1:通过自相关函数算法对语音数据进行端点检测,消除语音首尾两端以及语音序列中静态帧的部分;/nS2:将语音序列数据截取成相同长度,利用快速傅里叶变换(FFT)将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,每个信号提取36个Low-Level Descriptions(LLDs)特征,组成特征集1;/nS3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;/nS4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征...

【技术特征摘要】
1.一种基于混合小波包特征深度学习的语音情感识别方法,其特征是,包括以下步骤:
S1:通过自相关函数算法对语音数据进行端点检测,消除语音首尾两端以及语音序列中静态帧的部分;
S2:将语音序列数据截取成相同长度,利用快速傅里叶变换(FFT)将语音序列采样统一为1024,针对该序列用3层小波包重构算法生成新的8个重构信号,每个信号提取36个Low-LevelDescriptions(LLDs)特征,组成特征集1;
S3:将语音信号直接通过快速傅里叶变换(FFT)提取140个融合了LLDs及其泛化函数的特征值,组成特征集2;
S4:将特征集2用DNN的深度学习结构进行进一步提取特征,将特征集1用DNN+BiLSTM+AttentionMechanism+UpSampling1D的深度学习结构进行进一步提取特征;
S5:将两种利用不同结构所提取到的特征集融合在一起,利用Softmax损失函数进行最终分类。


2.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法,其特征是,所述S1包括如下子步骤:
S11:利用自相关函数法对语音数据进行端点检测,消除语音前后两端及其语音中间部分的静态帧部分,在此过程中,设置25ms汉明窗以及10ms的帧移,并对自相关函数Rn(k)进行归一化,公式如下,其中,xn(m)表示原始语音信号,N和k分别代表帧数和延迟值;



S12:下一步,在端点检测的过程中设置门限阈值为1.1的T1和值为1.3的T2,当波形数值的最大值高于阈值T2为语音帧部分,再从波形数值是否高于或者低于T1来判断起止点,从而达到去除静态帧的目的。


3.根据权利要求1所述的基于混合小波包特征深度学习的语音情感识别方法,其特征是,所述S2包括如下子步骤:
S21:在利用完语音端点检测来消除语音序列中的静态帧之后,用小波包分解算法得到小波包语音序列来重构新的语音信号,来作为深度学习网络模型的输入;
S22:对于语音信号来说,在预处理过程中,快速傅里叶变换用来处理语音序列,目的是后续提取语音信号的频域特征,但是往往忽略了语音信号的时域特征,小波包重构信号在一定程度上补充了时域特征,小波变换过程是首先将原始信号通过一组正交的小波基分解成高频部分和低频部分,然后将得到的高低频部分各自在分解,以此类推;Daubechies(dbN)小波基拥有较好的正则性和紧支撑性等优点,首先利用Daubechies(dbN)小波基将语音信号分成父小波部分(approximation)Φ(t)和母小波部分(detail)Ψ(t),在具体过程中,将Φ(t)当作为将Ψ(t)当作为其中上标为小波包分解层数,下标为小波包在该层的位置,计算小波包函数基的值如下式:



S23:进一步得出如下公式,其中hk表示低通半带滤波器,gk表示高通半带滤波器,采用二进小波小波变换,即对尺度按幂级数作离散化,同时对平移保持连续变化,其中尺度参数为2i,d和k分别表示小波包系数和平移变量;



S24:接着通过计算原始信号与各小波函数基的内积得到小波变换值,其意义为原始信号在各个小波函数基上的投影值,投影值越大,说明对应的小波信号所携带的原始信号的特征信息的比例越大,公式如下:



其中f(t)表示原始信号;
S25:最后,利用如下公式通过小波包变化值之后得到8个重构语音信号;公式如下:



因此,fnew被用做新的语音信号来进一步提取特征;利用3层小波包分解去重构8个新的语音信号序列,原因在于若是小于2层,则语音信号的时域信息提取的不够充足,若是大于2层,则提取到的时域信息过于冗余,不利于后续网络模型的训练,徒增训练时间,与识别结果不成正比,综上,利用3层小波包分解重构最为合适;
S26:在得到8个新重构的语音信号之后,再对每个信号进行预处理以及特征提取,首先设置基本参数,采用汉明窗,窗口长度25ms,帧移10ms,采样频率为16kHz;

【专利技术属性】
技术研发人员:孟浩闫天昊袁菲乔海岩邓艳琴杨笑天陈连钰
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1