【技术实现步骤摘要】
一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
本专利技术涉及语音数据情感识别,尤其涉及一种基于深度域适应性卷积神经网络的跨库语音情感识别方法。
技术介绍
语音情感识别是当前模式识别与人工智能领域的一个研究热点,应用前景广阔。传统的语音情感识别往往在单个语音数据库上进行训练与测试,而在实际生活中,训练集与测试集的语音数据往往有很大的差异,例如来自不同的语言,故在不同语音数据库上进行语音情感识别更贴近于真实的生活场景,这是一种跨库语音情感识别问题。跨库语音情感识别的难点在于提取合适的语音特征并缩小源数据库数据以及目标数据库数据的特征分布差异。传统的语音特征往往只能体现单一的语音特性,而语谱图可以同时体现语音信号在时域与频域上的特性。深度卷积神经网络是一种有效提取高维数据特征的手段,其具有反馈与学习的功能,在语音情感识别的领域中应用广泛。最大均值差异(MaximumMeanDiscrepancy,MMD)是一种衡量不同域之间数据分布差异的有效方法,可以有效表示不同语音数据库之间的特征分布差异。
技术实现思路
专利技术目的:本专利技术针对现有技术存在的问题,提供一种 ...
【技术保护点】
1.一种基于深度域适应性卷积神经网络的跨库语音情感识别方法,其特征在于该方法包括:(1)获取两个语言不同的语音数据库,分别作为训练数据库和测试数据库,其中,每个语音数据库中包括有若干语音信号和对应的情感类别标签;(2)将训练数据库和测试数据库中的语音信号分别进行预处理,得到每段语音信号的频谱图;(3)建立深度域适应性卷积神经网络,所述深度域适应性卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和softmax层;(4)将训练数据库和测试数据库的语音信号频谱图分别输入建立的深度域适应性卷积神经网络进行训练,其中,在训练网络时 ...
【技术特征摘要】
1.一种基于深度域适应性卷积神经网络的跨库语音情感识别方法,其特征在于该方法包括:(1)获取两个语言不同的语音数据库,分别作为训练数据库和测试数据库,其中,每个语音数据库中包括有若干语音信号和对应的情感类别标签;(2)将训练数据库和测试数据库中的语音信号分别进行预处理,得到每段语音信号的频谱图;(3)建立深度域适应性卷积神经网络,所述深度域适应性卷积神经网络包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和softmax层;(4)将训练数据库和测试数据库的语音信号频谱图分别输入建立的深度域适应性卷积神经网络进行训练,其中,在训练网络时,先计算训练数据库语音信号频谱图对应的全连接层输出和测试数据库语音信号频谱图对应的全连接层输出之间的最大均值差异,之后计算训练数据库语音信号频谱图对应的softmax层输出以及其情感类别标签之间的交叉熵,最后将最大均值差异和交叉熵相加作为网络损失采用反向传播算法更新网络参数,完成网络训练;(5)将待识别的语音信号进行预处理,得到其频谱图,并将频谱图输入训练好的深度卷积神经网络,输出中维数最大的类别即为识别的情感类别。2.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法,其特征在于:步骤(3)中所述第一卷积层和所述第二卷积层的输入和输出间的关系式为:YC=φ(conv(WC,XC)+bC)式中,YC表示第一卷积层或第二卷积层的输出,XC表示第一卷积层或第二卷积层的输入,WC、bC分别为权重参数、偏置参数,通过网络训练得到,conv()表示卷积函数,φ为激活函数,且φ(·)=max(0,·)。3.根据权利要求1所述的基于深度域适应性卷积神经网络的跨库语音情感识别方法,其特征在于:步骤(3)中所述第一全连接层和第二全...
【专利技术属性】
技术研发人员:郑文明,刘佳腾,宗源,路成,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。