当前位置: 首页 > 专利查询>重庆大学专利>正文

基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法技术

技术编号:21456206 阅读:23 留言:0更新日期:2019-06-26 05:31
本发明专利技术公开一种基于VTLP(Vocal Tract Length Perturbation)数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,主要通过结合VTLP数据扰动算法以及时频域空洞卷积网络解决语音情感识别过程中数据量少且数据不平衡和特征提取不充分的问题,本发明专利技术首先通过语音采集设备获取初始语音,然后通过VTLP算法得到不同频谱特征的语音,然后通过傅里叶变换得到有效的频谱图,然后将频谱原图进行多尺度缩放,将频谱输入图经过设计的时频域卷积层,分别从谱图中获取时域和频域的低层次特征,将时域和频域信息进行特征级融合,然后将融合特征送入下一层空洞卷积层,从融合特征中提取句子级细化特征,最后将情感概率值最大的类别输出,根据分类评价方式,生成语音情感分类准确度。

【技术实现步骤摘要】
基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法
本专利技术属于深度学习中的模式识别领域,具体涉及一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法。
技术介绍
随着人工智能的迅猛发展,已经到感知智能的阶段,人类行为多方面建模技术的不断改进,情感识别已成为人机交互研究的一个重要领域。随着科技的进步,人们对情感的解释在不断进步,对自动情感识别的需求也在不断增长。语音情感识别(SER)在人工智能领域是一个很重要且具有挑战性的任务,随着越来越多的人机交互的产品的开发,SER任务应用在各个领域,比如情感状态可以用来检测人的疲劳状态,可以用于呼叫中心对打电话者情绪的检测,机器在与人类交互的第一步是实现对人类的理解,进而采取不同的策略进行应答,所以语音情感识别的研究变得尤为重要。目前,语音情感识别方向的研究主要分为传统方式和基于深度学习两种方式,传统的语音情感分类器主要有:隐马尔可夫模型、混合高斯模型、支持向量机、人工神经网络等。基于深度卷积神经网络算法已经应用到包括计算机视觉等诸多人工智能应用,并且在很多人工智能应用之中表现出了当前最佳的准确度,使深度卷积神经网络的的应用量有了迅速的增长,如卷积神经网络、循环神经网络、深度置信网络,长短时记忆网络等。
技术实现思路
为了实现上述目的,本专利技术提出一种基于VTLP((VocalTractLengthPerturbation))数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,其特征在于:包括以下步骤:S1:部署TensorFlow深度学习框架,对初始语音进行预处理,实现切割、预加重、分帧加窗以及端点检测算法,优化输入语音的质量,标注情感类别;S2:基于公开的语音数据集,针对每类情感,分别应用VTLP扩充数据集,形成完整数据;S3:基于S2生成的数据集使用傅里叶变换生成相应频谱图,将谱图做不同尺度缩放,作为网络输入;S4:基于S3生成的频谱图,构建时频域特征粗提取网络,提取频谱图的时频域特征,调整网络参数;S5:将S4提取的时频域特征做特征级融合,构建句子级细化特征提取网络,部署空洞卷积;S6:将S5中训练好的网络对语音中的情感进行识别,得出类别概率和识别准确度,完成语音情感的识别。进一步,步骤S1所述的对初始语音进行预处理,按照以下步骤进行:S1-1:设n时刻的语音采样值为x(n),其中n=0,1,2,3,…,做预加重处理,预加重公式为:y(n)=x(n)-ax(n-1),其中,a为预加重系数,这里a=0.98,y(n)为预加重之后的语音;S1-2:对预加重后的语音y(n)进行分帧加窗处理,进行短时处理,将语音信号分成若干段短时语音,分帧加窗表达式:Sw(n)=y(n)*w(n),其中,w(n)为窗函数,汉明窗的表达式为:其中N为帧长;S1-3:进行端点检测,确定一段语音的起始点和终止点,首先计算语音的短时能量,代表声音的强度,声音强度表达式:其中volume为最低门限,高于此阈值部分初步认为是有声音段,低于此阈值部分进行下一步操作;S1-4:根据上一步的计算,得到volume大于门限的部分,确定有声段帧的起点和终点,从该起点向前推一帧,计算短时过零率ZCR,ZCR的表达式为:其中函数{A}表示在A为真时值为1,否则为0,判断ZCR是否高于阈值,若高于阈值,则认为是清音部分,则该点为新的有声起始点,若低于阈值,则认为该点往前部分为环境噪音或静音,不再向前推算;S1-5:给出每段语音的标签值,分别有高兴、生气、难过、中性四种不同的情绪标签,分别对应为1、2、3、4,人工对每段语音打上标签。进一步,步骤S2中所述的应用VTLP扩充数据集,通过为每句话随机生成一个折叠因子在频率轴进行映射,将原始频率f映射到一个新的频率空间,可用以下公式表达:其中α为折叠因子,S为采样频率,Fhi为覆盖有效共振峰的边界信息,α在0.9~1.1之间。进一步,步骤S3将步骤S2生成的语音按照傅里叶变换变换为频谱图,傅里叶快速变换为:设离散语音信号x(n)经过分帧处理后表示为xn(m),其中m为一帧内采样点序号,信号x(n)的短时傅里叶变换公式为:其中,w(n-m)沿着x(m)序列滑动。进一步,步骤S4中所述的工作按照以下步骤进行:S4-1:搭建时频域神经网络模型,时频域神经网络包含两个卷积层,两个池化层,其中一个卷积层卷积核大小设计为2*10,一个卷积核大小设计为8*2,两个池化层为3*3池化,步长为2;S4-2:对于时频域卷积网络中的卷积层的各个部分,定义公式为y=F(x,{Wi})+x,其中x是输入的特征图,y是经过参数Wi计算的输出特征图,F(x,{Wi})表示需要训练的映射函数;S4-3:使用Vio_Peo数据集,其中将5000张图片用作训练,500张用于验证,500张图片用于测试训练过程设置迭代次数为100,对网络的参数进行优化;进一步,步骤S5中所述的工作按照以下步骤进行:S5-1:将上述步骤生成的时序和频域特征做特征级融合,融合方式为concat,将两个向量进行相加;S5-2:将特征融合的结果送入空洞卷积层中进行句子级细化特征的提取,空洞卷积的卷积核大小为3*3,空洞率为2,步长为1的卷积层。最后有个fc层用于分类,用于分类的函数为:y=Softmax(x)其中x为经过卷积层得到的一维向量,y为得到的分类结果;S5-3:使用数据集训练搭建好的空洞卷积神经网络模型,训练方式为端到端,对空洞卷积网络的参数进行优化。进一步,步骤S6使用测试数据集进行测试,得到测试集的准确率。本专利技术的有益效果是:解决了传统语音识别研究中数据量过小,传统特征提取过程复杂的问题,将语音识别问题转化为频谱图识别,充分考虑了频谱图的特点,设计了多尺度时频域卷积网络,提高语音识别任务的准确度并降低了时间消耗。本专利技术的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,其中:图1是本专利技术具体实施的流程示意图;图2是本专利技术时频卷积网络结构示意图;图3是happy类初始语音序列;图4是sad类初始语音序列;图5是sad原始语音;图6是预加重后的语音频谱;图7是原始语音;图8是分帧加窗后的语音频谱;图9是端点检测过程;图10是频谱图;图11是训练收敛过程;图12是loss下降过程;图13是混淆矩阵;图14是分类精确度对比。显而易见地,上面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。具体实施方式以下将参照附图,对本专利技术的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本专利技术,而不是为了限制本专利技术的保护范围。如图1所示,一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,算法按以下步骤进行:S1:部署TensorFlow深度学习框架,对初始语音进行预处理,实现切割、预加重、分帧本文档来自技高网...

【技术保护点】
1.一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,其特征在于:包括以下步骤:S1:部署TensorFlow深度学习框架,对初始语音进行预处理,实现切割、预加重、分帧加窗以及端点检测算法,优化输入语音的质量,标注情感类别;S2:基于公开的语音数据集,针对每类情感,分别应用VTLP扩充数据集,形成完整数据;S3:基于S2生成的数据集使用傅里叶变换生成相应频谱图,将谱图做不同尺度缩放,作为网络输入;S4:基于S3生成的频谱图,构建时频域特征粗提取网络,提取频谱图的时频域特征,调整网络参数;S5:将S4提取的时频域特征做特征级融合,构建句子级细化特征提取网络,部署空洞卷积;S6:将S5中训练好的网络对语音中的情感进行识别,得出类别概率和识别准确度,完成语音情感的识别。

【技术特征摘要】
1.一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,其特征在于:包括以下步骤:S1:部署TensorFlow深度学习框架,对初始语音进行预处理,实现切割、预加重、分帧加窗以及端点检测算法,优化输入语音的质量,标注情感类别;S2:基于公开的语音数据集,针对每类情感,分别应用VTLP扩充数据集,形成完整数据;S3:基于S2生成的数据集使用傅里叶变换生成相应频谱图,将谱图做不同尺度缩放,作为网络输入;S4:基于S3生成的频谱图,构建时频域特征粗提取网络,提取频谱图的时频域特征,调整网络参数;S5:将S4提取的时频域特征做特征级融合,构建句子级细化特征提取网络,部署空洞卷积;S6:将S5中训练好的网络对语音中的情感进行识别,得出类别概率和识别准确度,完成语音情感的识别。2.根据权利要求1所述的一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法,其特征在于:步骤S1所述的对初始语音进行预处理,按照以下步骤进行:S1-1:设n时刻的语音采样值为x(n),其中n=0,1,2,3,…,做预加重处理,预加重公式为:y(n)=x(n)-ax(n-1),其中,a为预加重系数,这里a=0.98,y(n)为预加重之后的语音;S1-2:对预加重后的语音y(n)进行分帧加窗处理,进行短时处理,将语音信号分成若干段短时语音,分帧加窗表达式:Sw(n)=y(n)*w(n),其中,w(n)为窗函数,汉明窗的表达式为:其中N为帧长;S1-3:进行端点检测,确定一段语音的起始点和终止点,首先计算语音的短时能量,代表声音的强度,声音强度表达式:其中volume为最低门限,高于此阈值部分初步认为是有声音段,低于此阈值部分进行下一步操作;S1-4:根据上一步的计算,得到volume大于门限的部分,确定有声段帧的起点和终点,从该起点向前推一帧,计算短时过零率ZCR,ZCR的表达式为:其中函数{A}表示在A为真时值为1,否则为0,判断ZCR是否高于阈值,若高于阈值,则认为是清音部分,则该点为新的有声起始点,若低于阈值,则认为该点往前部分为环境噪音或静音,不再向前推算;S1-5:给出每段语音的标签值,分别有高兴、生气、难过、中性四种不同的情绪标签,分别对应为1、2、3、4,人工对每段语音打上标签。3.根据权利要求2所述的一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方...

【专利技术属性】
技术研发人员:邹东升史晶吴戈唐维
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1