一种语音情感识别方法技术

技术编号：15642692 阅读：124 留言：0更新日期：2017-06-16 16:18

本发明专利技术公开了一种语音情感识别方法，包括步骤：1)将语音信号转换成语谱图作为原始输入；2)训练深度卷积神经网络来自动提取情感特征；3)针对每一类情感训练一个栈式自编码器并融合所有栈式自编码器自动构造出情感模糊集的隶属函数；4)对步骤2)中得到的特征使用步骤3)中的模糊优化理论进行特征优化；5)使用Softmax分类器进行情感分类识别。本发明专利技术方法考虑了语音情感信息的抽象模糊性质，对提取后的情感特征进行选择性的模糊优化来提升特征的显著性，并使用深度神经网络逐层训练的思路来自动构造模糊理论中的模糊隶属函数，解决了模糊理论中合适的隶属函数难以选择和确定的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音情感识别方法
本专利技术涉及语音情感识别的
，尤其是指一种基于深度神经网络模型以及特征模糊优化的语音情感识别方法。
技术介绍
人类可以通过很多信号表达情感，如心跳频率、语音、人脸、行为动作等。计算机可以通过分析这些信号中的一个或者多个来识别和获取人类的情感状态，其中语音是日常生活中最重要同时也是最便捷的交流方式。随着计算机多媒体信息处理
以及人工智能领域的快速发展，各研究机构越来越关注如何使计算机识别人的语音情感。语音的情感识别，属于模式识别领域，但是它又稍微有些不同。例如对于普通的图像识别，给出很多小动物，猫、狗、羊等，进行分类识别，对于特定给出的一张动物图像，我们是可以确定它到底是猫还是狗的，这是精确的。但是，对于语音情感识别方面，很多时候给出一段语音，我们并不能明确地指出这段语音蕴含的情感是高兴的还是惊喜的，它也可能是夹杂多种情感的，从这个角度上来看，语音的情感信息是模糊性质的。语音情感识别，要获得好的识别效果，最重要的是能够提取出显著的情感特征。近年来在提取特征方面，深度神经网络模型发展十分迅猛，并且提取特征的效果非常好，这主要体现在特征的分类准确率高以及无需人为选择提取哪些特征，具有自动化的特性。鉴于深度神经网络模型的上述优点，近年来语音情感识别方面的技术也是偏向于使用深度神经网络模型，例如深度卷积神经网络模型(DeepConvolutionalNeuralNetworks,简称DCCNs)，深度循环神经网络模型(DeepRecurrentNeuralNetworks，简称DRNNs)等，取得的效果也是相当的好。但是，有一点不...
一种语音情感识别方法

【技术保护点】
一种语音情感识别方法，其特征在于，包括以下步骤：1)将语音信号转换成语谱图作为原始输入；2)训练深度卷积神经网络来自动提取情感特征；3)针对每一类情感训练一个栈式自编码器并融合所有栈式自编码器自动构造出情感模糊集的隶属函数；4)对步骤2)中得到的特征使用步骤3)中的模糊优化理论进行特征优化；5)使用Softmax分类器进行情感分类识别。

【技术特征摘要】
1.一种语音情感识别方法，其特征在于，包括以下步骤：1)将语音信号转换成语谱图作为原始输入；2)训练深度卷积神经网络来自动提取情感特征；3)针对每一类情感训练一个栈式自编码器并融合所有栈式自编码器自动构造出情感模糊集的隶属函数；4)对步骤2)中得到的特征使用步骤3)中的模糊优化理论进行特征优化；5)使用Softmax分类器进行情感分类识别。2.根据权利要求1所述的一种语音情感识别方法，其特征在于：在步骤1)中，使用快速傅里叶变换获得语音信号的语谱图，语谱图是一种三维频谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任意一个给定频率成分在给定时刻的能量强弱用相应点的色调的深浅来表示；之所以要将语音信号转换成语谱图作为输入，是为了充分利用深度卷积神经网络对于图像特征自动提取的强大特性。3.根据权利要求1所述的一种语音情感识别方法，其特征在于：在步骤2)中，训练深度卷积神经网络来自动提取情感特征，具体如下：使用步骤1)得到的语谱图作为训练输入样本，训练一个深度卷积神经网络模型，该模型具有两个卷积层以及两个池化层，框架结构为：输入层→第一个卷积层→第一个池化层→第二个卷积层→第二个池化层→特征输出层→Softmax全连接层，其中训练该深度卷积神经网络模型，使用的是有监督的训练方式；数据在卷积层的输入输出过程如下：所有的语谱图构成一个三维的输入数据，记为其中N代表样本数据总数，n1×n2是每一张输入语谱图的大小，第i张输入图像记为xi，卷积层使用的第j个卷积核记为kij，是一个系数矩阵，大小为l1×l2，经过卷积运算后，输出的图像构成的三维数据记为其中，M是输出的特征图的总数，m1×m2是输出特征图的大小，记第j张输出特征图为yj，卷积计算公式如下：其中bj是一个偏置参数，是二维的卷积运算；数据在池化层的输入输出过程如下：卷积层中获得的输出特征图y作为池化层的输入，记为x，那么对于池化层中第i个输入xi，经过池化运算后得到的输出为yi＝sig(pool(xi))，其中，pool(·)是进行池化操作，这里采用的是最大化池化，最大化池化操作pool(·)的定义是：对于给定的池化窗口，取里面所有元素中值最大的那个元素来代表这一个窗口区域，池化窗口大小为m×n，sig(·)是sigmoid函数，定义为：sig(x)＝1/(1+e(-x))。4.根据权利要求1所述的一种语音情感识别方法，其特征在于：在步骤3)中，针对每一类情感训练一个栈式自编码器并融合所有栈式自编码器自动构造出情感模糊集的隶属函数，过程如下：首先，确定所使用的语音数据集的情感类别N，并将情感作为一个模糊集；运用模糊理论进行特征的模糊优化，最重要的是对模糊集构造出相应的模糊隶属函数来衡量待优化的特征对于每类情感的隶属程度，并使用隶属度最高的那一类情感的模糊规则对特征进行优化，具有选择性优化的特点；对于每一类情感，训练一个相应的栈式自编码器，一共训练N个栈式自编码器；栈式自编码器是一个由多层稀疏自编码器组成的多...

【专利技术属性】
技术研发人员：徐健成，肖南峰，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人