一种基于集成深度信念网络的语音情感识别方法技术

技术编号:14348825 阅读:101 留言:0更新日期:2017-01-04 19:30
本发明专利技术公开了一种基于集成深度信念网络的语音情感识别方法,步骤如下:S1、获取深度信念网络分类器,其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器;所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器;S2、获取待测语音信号的特征向量;S3、在测试时,将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中,获得语音情感类别。本发明专利技术方法具有语音情感识别准确率高的优点,并且减少了语音情感特征提取对人的依赖性,能够能识别出多种语言的语音情感。

【技术实现步骤摘要】

本专利技术涉及语音处理、识别技术,特别涉及一种基于集成深度信念网络的语音情感识别方法
技术介绍
语音情感识别的目的就在于让计算机能够通过用户的语音来准确分析出用户的情感状态,从而基于这样的情感状态去产生更加精准的反馈,基本的情感状态包括生气、高兴、伤心、惊讶、害怕、厌恶以及平静。语音情感识别有重要的应用价值,比如在客服工作上,可以通过收集客户的语音信息实时了解客户的情感状态,也可以了解服务人员的情感状态,从而提升工作的质量和客户的满意度;在医疗领域则可以通过长时间的收集病人的语音信息来了解病人的情感状态,在病人负面情绪比重较大的时候可以针对性地进行一些药物治疗和心理辅导;而在平时的生活中,一个实时反馈情感状态的工具可以提醒使用者更好地控制自己的情感,减少负面情绪影响生活的几率,促进人与人间的和睦相处。因此,语音情感识别技术可以应用到许多不同的领域之中,为我们的工作提供有价值的参考依据,也有助于日常生活中人与人间的和睦相处。语音情感识别的主要步骤包括语音信息特征提取和分类器设计。而分类器就是依靠机器学习算法来实现,效果比较显著的有支持向量机(SVM)、神经网络、K最近邻算法(KNN)、高斯混合模型、随机森林、集成学习等等。国内外学者在解决语音情感识别问题时,大都采用这些分类算法,但是这些分类算法极大地依赖于对语音情感的特征抽取,而目前采用的特征抽取方法是人工设计的,再通过特征选择算法剔除冗余或者不相关的特征,得出最优或者次优特征子集,这一步骤的目的一方面是提高识别准确率,另一方面是降低特征的维数,从而提升模型训练速度。这个过程极大地依赖人工专家的经验和反复实验完成的,不仅工作量大,而且很难找到一种最优的语音情感特征表达,从而影响了语音情感识别的效果。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种识别准确率高的基于集成深度信念网络的语音情感识别方法。本专利技术的目的通过下述技术方案实现:一种基于集成深度信念网络的语音情感识别方法,步骤如下:S1、获取深度信念网络分类器,其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器;所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器;S2、获取待测语音信号的特征向量;S3、在测试时,将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中,获得语音情感类别。优选的,所述步骤S1中深度信念网络分类器获取过程具体如下:S11、针对语音情感识别数据库抽取特征,获取到语音情感识别数据库中每个样本对应的特征向量,从语音情感识别数据库抽取一部分样本作为验证集;S12、设置子空间规模M以及子空间中每个样本特征向量每次被抽取的维度n;S13、针对每个样本的特征向量进行M次的随机抽取组成M个子空间,即每次每个样本特征向量被抽取部分组合构成一个子空间,一个子空间对应形成一个新的训练集;其中每次针对每个样本特征向量随机抽取的维度为n维;S14、生成M个深度信念网络模型,并且在M个深度信念网络模型输出端共同连接一个分类器,采用步骤S12中获取的M个新的训练集分别对对应的M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器进行训练,得到一个深度信念网络分类器;S15、子空间规模M以步长X值遍历X1~X2值,每个样本特征向量被抽取的维度n以步长Z值遍历Z1~Z2值,然后分别通过步骤S13至步骤S14获取到对应的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器;S16、采用步骤S11中获取到的验证集针对S15获取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器分别进行验证,然后选取出识别准确率最高的一个深度信念网络分类器。优选的,M个深度信念网络模型输出端共同连接的分类器为基于径向基核的支持向量机。更进一步的,所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成,其中每层RBM神经元数目为80个,受限玻尔兹曼机层的学习率为0.001,外层多层前向神经网络学习率为0.08,不工作比率的值为0.1。更进一步的,所述X1值为5,X2值为30,X值为5;即步骤S15中子空间规模M以步长5遍历5~30,更进一步的,所述Z1值为50,Z2值为950,Z值为150,即所述步骤S15中每个样本特征向量被抽取的特征维度n以步长150遍历50~950;分别通过步骤S13至步骤S14获取到对应60个深度信念网络分类器。更进一步的,所述深度信念网络分类器中,M个深度信念网络模型的输出经融合后输入至M个深度信念网络模型输出端所连接的分类器中。更进一步的,M个深度信念网络模型输出的融合采用简单投票法。优选的,所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成;所述步骤S13中新的训练集对深度信念网络模型进行训练的过程具体如下:S131、在深度信念网络模型第一个RBM层中,输入的值为新的训练集中每个样本对应的特征向量,输出的值则是预训练后经过RBM变换出来的特征;S132、在接下来的所有RBM层中,当前RBM层的输入为前一个RBM层的输出,而当前RBM的输出则作为下一个RBM层的输入,如此重复训练各个RBM层;S133、将所有训练好的RBM参数分别作为每层神经网络的初始化参数,之后通过BP算法自顶向下对所有RBM参数进行微调,直到将误差减小到一定范围,则训练终止。本专利技术相对于现有技术具有如下的优点及效果:(1)本专利技术方法由M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后构成深度信念网络分类器,然后将待测语音信号的特征向量输出至深度信念网络分类器中,通过深度信念网络分类器获取到最终的语音情感类别。本专利技术方法深度信念网络分类器集成了多个深度信念网络模型,然后将多个深度信念网络模型的输出融合后输入至分类器中,通过分类器获得到最终结果,具有语音情感识别准确率高的优点,并且减少了语音情感特征提取对人的依赖性,能够能识别出多种语言的语音情感,应用广泛。(2)本专利技术方法中针对每个样本的特征向量进行M次的随机抽取组成M个子空间,一个子空间对应形成一个新的训练集;其中每次针对每个样本特征向量随机抽取的维度为n维;通过M个子空间对应的M个新的训练集训练M个深度信念网络模型及它们输出端共同连接的分类器,以得到一个深度信念网络分类器,本专利技术方法中将子空间规模M以一定步长遍历多个值,将每个样本特征向量随机抽取的维度n以一定步长遍历多个值,针对于不同的M值和n值,通过本专利技术方法能够获取到多个深度信念网络分类器,本专利技术方法通过验证集针对多个深度信念网络分类器进行验证,选取出识别准确率最高的深度信念网络分类器作为本专利技术方法最终的深度信念网络分类器,通过本专利技术方法能够选取出最优的深度信念网络分类器,大大提高了本专利技术方法的语音情感识别准确率。(3)本专利技术方法中深度信念网络分类器中M个深度信念网络模型分别有M个新的训练集训练得到,其中M个新的训练集为语音情感识别数据中每个样本的特征向量进行M次的随机抽取组成的,因此M个新的训练集为不同的训练集,因此对应训练得到的M个深度信念网络模型的结本文档来自技高网
...
一种基于集成深度信念网络的语音情感识别方法

【技术保护点】
一种基于集成深度信念网络的语音情感识别方法,其特征在于,步骤如下:S1、获取深度信念网络分类器,其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器;所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器;S2、获取待测语音信号的特征向量;S3、在测试时,将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中,获得语音情感类别。

【技术特征摘要】
1.一种基于集成深度信念网络的语音情感识别方法,其特征在于,步骤如下:S1、获取深度信念网络分类器,其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器;所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器;S2、获取待测语音信号的特征向量;S3、在测试时,将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中,获得语音情感类别。2.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法,其特征在于,所述步骤S1中深度信念网络分类器获取过程具体如下:S11、针对语音情感识别数据库抽取特征,获取到语音情感识别数据库中每个样本对应的特征向量,从语音情感识别数据库抽取一部分样本作为验证集;S12、设置子空间规模M以及子空间中每个样本特征向量每次被抽取的维度n;S13、针对每个样本的特征向量进行M次的随机抽取组成M个子空间,即每次每个样本特征向量被抽取部分组合构成一个子空间,一个子空间对应形成一个新的训练集;其中每次针对每个样本特征向量随机抽取的维度为n维;S14、生成M个深度信念网络模型,并且在M个深度信念网络模型输出端共同连接一个分类器,采用步骤S12中获取的M个新的训练集分别对对应的M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器进行训练,得到一个深度信念网络分类器;S15、子空间规模M以步长X值遍历X1~X2值,每个样本特征向量被抽取的维度n以步长Z值遍历Z1~Z2值,然后分别通过步骤S13至步骤S14获取到对应的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器;S16、采用步骤S11中获取到的验证集针对S15获取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器分别进行验证,然后选取出识别准确率最高的一个深度信念网络分类器。3.根据权利要求1或2所述的基于集成深度信念网络的语音情感识别方法,其特征在于...

【专利技术属性】
技术研发人员:文贵华黄驹斌
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1