基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法技术

技术编号：21456206 阅读：23 留言：0更新日期：2019-06-26 05:31

本发明专利技术公开一种基于VTLP(Vocal Tract Length Perturbation)数据增强及多尺度时频域空洞卷积模型的语音情感识别方法，主要通过结合VTLP数据扰动算法以及时频域空洞卷积网络解决语音情感识别过程中数据量少且数据不平衡和特征提取不充分的问题，本发明专利技术首先通过语音采集设备获取初始语音，然后通过VTLP算法得到不同频谱特征的语音，然后通过傅里叶变换得到有效的频谱图，然后将频谱原图进行多尺度缩放，将频谱输入图经过设计的时频域卷积层，分别从谱图中获取时域和频域的低层次特征，将时域和频域信息进行特征级融合，然后将融合特征送入下一层空洞卷积层，从融合特征中提取句子级细化特征，最后将情感概率值最大的类别输出，根据分类评价方式，生成语音情感分类准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法
本专利技术属于深度学习中的模式识别领域，具体涉及一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法。
技术介绍
随着人工智能的迅猛发展，已经到感知智能的阶段，人类行为多方面建模技术的不断改进，情感识别已成为人机交互研究的一个重要领域。随着科技的进步，人们对情感的解释在不断进步，对自动情感识别的需求也在不断增长。语音情感识别(SER)在人工智能领域是一个很重要且具有挑战性的任务，随着越来越多的人机交互的产品的开发，SER任务应用在各个领域，比如情感状态可以用来检测人的疲劳状态，可以用于呼叫中心对打电话者情绪的检测，机器在与人类交互的第一步是实现对人类的理解，进而采取不同的策略进行应答，所以语音情感识别的研究变得尤为重要。目前，语音情感识别方向的研究主要分为传统方式和基于深度学习两种方式，传统的语音情感分类器主要有：隐马尔可夫模型、混合高斯模型、支持向量机、人工神经网络等。基于深度卷积神经网络算法已经应用到包括计算机视觉等诸多人工智能应用，并且在很多人工智能应用之中表现出了当前最佳的准确度，使深度卷积神经网络的的应用量有了迅速的增长，如卷积神经网络、循环神经网络、深度置信网络，长短时记忆网络等。
技术实现思路
为了实现上述目的，本专利技术提出一种基于VTLP((VocalTractLengthPerturbation))数据增强及多尺度时频域空洞卷积模型的语音情感识别方法，其特征在于：包括以下步骤：S1：部署TensorFlow深度学习框架，对初始语音进行预处理，实现切割、预加重、...

【技术保护点】
1.一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法，其特征在于：包括以下步骤：S1：部署TensorFlow深度学习框架，对初始语音进行预处理，实现切割、预加重、分帧加窗以及端点检测算法，优化输入语音的质量，标注情感类别；S2：基于公开的语音数据集，针对每类情感，分别应用VTLP扩充数据集，形成完整数据；S3:基于S2生成的数据集使用傅里叶变换生成相应频谱图，将谱图做不同尺度缩放，作为网络输入；S4：基于S3生成的频谱图，构建时频域特征粗提取网络，提取频谱图的时频域特征，调整网络参数；S5：将S4提取的时频域特征做特征级融合，构建句子级细化特征提取网络，部署空洞卷积；S6：将S5中训练好的网络对语音中的情感进行识别，得出类别概率和识别准确度，完成语音情感的识别。

【技术特征摘要】
1.一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法，其特征在于：包括以下步骤：S1：部署TensorFlow深度学习框架，对初始语音进行预处理，实现切割、预加重、分帧加窗以及端点检测算法，优化输入语音的质量，标注情感类别；S2：基于公开的语音数据集，针对每类情感，分别应用VTLP扩充数据集，形成完整数据；S3:基于S2生成的数据集使用傅里叶变换生成相应频谱图，将谱图做不同尺度缩放，作为网络输入；S4：基于S3生成的频谱图，构建时频域特征粗提取网络，提取频谱图的时频域特征，调整网络参数；S5：将S4提取的时频域特征做特征级融合，构建句子级细化特征提取网络，部署空洞卷积；S6：将S5中训练好的网络对语音中的情感进行识别，得出类别概率和识别准确度，完成语音情感的识别。2.根据权利要求1所述的一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方法，其特征在于：步骤S1所述的对初始语音进行预处理，按照以下步骤进行：S1-1：设n时刻的语音采样值为x(n)，其中n＝0,1,2,3,…,做预加重处理，预加重公式为：y(n)＝x(n)-ax(n-1)，其中,a为预加重系数，这里a＝0.98,y(n)为预加重之后的语音；S1-2:对预加重后的语音y(n)进行分帧加窗处理，进行短时处理，将语音信号分成若干段短时语音，分帧加窗表达式：Sw(n)＝y(n)*w(n),其中,w(n)为窗函数，汉明窗的表达式为：其中N为帧长；S1-3:进行端点检测，确定一段语音的起始点和终止点，首先计算语音的短时能量，代表声音的强度，声音强度表达式：其中volume为最低门限，高于此阈值部分初步认为是有声音段，低于此阈值部分进行下一步操作；S1-4：根据上一步的计算，得到volume大于门限的部分，确定有声段帧的起点和终点，从该起点向前推一帧，计算短时过零率ZCR，ZCR的表达式为：其中函数{A}表示在A为真时值为1，否则为0，判断ZCR是否高于阈值，若高于阈值，则认为是清音部分，则该点为新的有声起始点，若低于阈值，则认为该点往前部分为环境噪音或静音，不再向前推算；S1-5：给出每段语音的标签值，分别有高兴、生气、难过、中性四种不同的情绪标签，分别对应为1、2、3、4，人工对每段语音打上标签。3.根据权利要求2所述的一种基于VTLP数据增强及多尺度时频域空洞卷积模型的语音情感识别方...

【专利技术属性】
技术研发人员：邹东升，史晶，吴戈，唐维，
申请(专利权)人：重庆大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人