当前位置: 首页 > 专利查询>台州学院专利>正文

一种基于多模深度特征学习的自然语音情感识别方法技术

技术编号:25402099 阅读:26 留言:0更新日期:2020-08-25 23:06
本发明专利技术公开了一种基于多模深度特征学习的自然语音情感识别方法,包括以下步骤:S1、生成适当的多模态表示:从原始的一维语音信号中生成三种适当的音频表示形式,用于后续不同CNN模型的输入;S2、采用多重深度卷积神经网络模型学习多模态特征;S3、采用分数级别融合方法,将不同的CNN模型分类结果进行集成,输出最终的语音情感识别的结果。本发明专利技术通过多重深度卷积神经网络融合学习具有互补性特点的深层多模态特征,显著改善情感分类性能,为自然语音情感识别提供良好判别力的特征。

【技术实现步骤摘要】
一种基于多模深度特征学习的自然语音情感识别方法
本专利技术涉及语音信号处理、模式识别的
,尤其涉及一种基于多模深度特征学习的自然语音情感识别方法。
技术介绍
近年来,自然语音情感识别已经成为模式识别、语音信号处理、人工智能等领域中活跃而富有挑战性的研究课题,和传统的输入设备不同,自然语音情感识别旨在通过与计算机直接的语音交互模式,来提供可用于语音呼叫中心、医疗保健和情感计算的智能情感服务。目前,在语音情感识别领域,大量的前期工作主要是针对模拟情感而进行的,因为这种模拟情感数据库的建立相对自然情感而言,要容易得多。近年来,针对实际环境下的自然语音情感识别方面的研究备受研究者的关注,因为它更接近实际,而且比模拟情感的识别要困难得多。语音情感特征提取,是语音情感识别中的一个关键步骤,其目的是从情感语音信号中提取能够反映说话人情感表达信息的特征参数。目前,大量语音情感识别文献采用了手工设计的特征用于情感识别,如韵律特征(基频、振幅、发音持续时间)、音质特征(共振峰、频谱能量分布、谐波噪声比)、谱特征(梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)和线性预测倒谱系数(LPCC))。然而,这些手工设计的语音情感特征参数属于低层次的特征,与人类理解的情感标签还存在“语义鸿沟”问题,因此有必要发展高层次的语音情感特征提取方法。为了解决这个问题,近年来新出现的深度学习技术可能提供了线索,由于用了更深层次的体系结构,因此深度学习技术通常比传统方法具有某些优势,包括它们能够自动检测复杂的结构和特征而无需人工提取特征的能力。到目前为止,各种代表性深度学习技术,如深度神经网络(DNN)、深度卷积神经网络(CNN)、基于长短期记忆的递归神经网络(LSTMRNN)等,都已经被用于语音情感识别。例如,一种在中国专利文献上公开的“一种基于多尺度深度卷积循环神经网络的语音情感识别方法”(公告号CN108717856A),将深度卷积神经网络(CNN)与长短时记忆网络(LSTM)相结合,并同时考虑不同长度的二维(2D)语音频谱片段信息对不同情感类型识别的判别力不同的特性,提出一种多尺度CNN+LSTM的混合深度学习模型,并应用于实际环境下的自然语音情感识别,但是这种采用2D语音频谱片段信息作为CNN输入的语音情感识别方法,无法捕获一句语音中连续帧之间的2D时频(time-frequency)中特征表示的动态变化信息,从而不能为自然语音情感识别提供良好判别力的特征参数。尽管LSTM-RNN能够用于时间信息的建模,但过于强调时间信息。
技术实现思路
本专利技术是为了克服现有技术中无法捕获一句语音中连续帧之间的2D时频特征表示中的动态变化信息,从而不能为自然语音情感识别提供良好判别力的特征参数的不足之处,提供一种基于多模深度特征学习的自然语音情感识别方法,通过多重深度卷积神经网络融合学习深层多模态特征,显著改善情感分类性能,为自然语音情感识别提供良好判别力的特征。为了实现上述目的,本专利技术采用以下技术方案:一种基于多模深度特征学习的自然语音情感识别方法,所述方法包括以下步骤:S1、生成适当的多模态表示:从原始的一维语音信号中生成三种适当的音频表示形式,用于后续不同CNN模型的输入;S2、采用多重深度卷积神经网络模型学习多模态特征;S3、采用分数级别融合方法,将不同的CNN模型分类结果进行集成,输出最终的语音情感识别的结果。本专利技术方案考虑到采用多重深度卷积神经网络模型(Multi-CNN),即一维卷积神经网络(1D-CNN)、二维卷积神经网络(2D-CNN)和三维卷积神经网络(3D-CNN)学习到的深度多模态特征具有一定的互补性的特点,用于自然语音情感识别,克服现有技术中无法捕获一句语音中连续帧之间的2D时频特征表示中的动态变化信息的技术问题,通过多重深度卷积神经网络融合学习具有互补性特点的深层多模态特征,显著改善情感分类性能,为自然语音情感识别提供良好判别力的特征。作为优选,所述步骤S1包括以下步骤:S1.1、将一维原始语音信号波形分割成片段,输入到一维卷积神经网络,并设置语音片段长度;S1.2、从一维原始语音信号中提取出二维Mel频谱图,并构建出类似于RGB图像的三通道频谱片段,作为二维卷积神经网络的输入;S1.3、将多个连续二维Mel频谱片段序列组成一个类似于视频的3D动态片段,作为三维卷积神经网络的输入,进行时空特征学习。作为优选,所述步骤S2包括以下步骤:S2.1、采用一维卷积神经网络进行一维原始语音信号波形建模:构建一维卷积神经网络模型,并对构建的一维卷积神经网络模型进行训练;S2.2、使用二维卷积神经网络进行二维Mel频谱建模:针对目标数据,微调现有的预先训练好的AlexNet深度卷积神经网络模型,并采样已生成的三通道的Mel频谱片段大小;S2.3、基于三维卷积神经网络的时空动态信息建模:基于提取的类视频3D动态片段,执行时空特征学习任务,采用dropout正则化的方法来避免网络过度拟合。作为优选,所述的一维卷积神经网络模型包括四个一维卷积层、三个最大池化层、两个全连接层和1个Softmax分类输出层,所述一维卷积层包括批处理归一化层和修正线性单元激活函数层,即在一维卷积神经网络训练前对输入数据做归一化处理。作为优选,所述AlexNet深度卷积神经网络模型包括五个卷积层、三个最大池化层以及两个全连接层。作为优选,所述步骤S2.2中微调包括以下步骤:1)从预先训练的AlexNet深度卷积神经网络模型复制整个网络参数,以初始化使用的二维卷积神经网络;2)利用新的样本标签矢量替换AlexNet深度卷积神经网络模型中的softmax输出层,该标签矢量对应于数据集中使用的情感类别的数量;3)使用标准的反向传播策略对使用过的二维卷积神经网络进行重新训练。微调被广泛用于计算机视觉中的转移学习,并缓解了数据不足的问题。作为优选,所述步骤S2.3中的三维卷积神经网络包括两个三维卷积层、两个三维最大池化层、两个全连接层和一个softmax输出层,所述三维卷积层包括批处理归一化层和修正线性单元激活函数层。作为优选,所述步骤S3包括以下步骤:S3.1、对一维卷积神经网络、二维卷积神经网络和三维神经网络进行网络训练,更新网络参数;S3.2、对从一维卷积神经网络、二维卷积神经网络和三维神经网络获得的片段分类结果,采用平均池化策略对一句语音中所有划分的片段分类结果执行平均运算,从而产生整句语音层次上的情感分类得分结果;S3.3、将这些针对整句语音层次上的情感分类得分结果最大化,获得每个卷积神经网络的情感识别结果;S3.4、利用分数级别融合策略组合不同的卷积神经网络模型在整句语音层次上得到的分类得分结果,以进行最终的情感分类。作为优选,所述步骤S3.4可以表示为:scorefusion=λ1score1D+λ2score2D本文档来自技高网
...

【技术保护点】
1.一种基于多模深度特征学习的自然语音情感识别方法,其特征在于,所述方法包括以下步骤:/nS1、生成适当的多模态表示:从原始的一维语音信号中生成三种适当的音频表示形式,用于后续不同CNN模型的输入;/nS2、采用多重深度卷积神经网络模型学习多模态特征;/nS3、采用分数级别融合方法,将不同的CNN模型分类结果进行集成,输出最终的语音情感识别的结果。/n

【技术特征摘要】
1.一种基于多模深度特征学习的自然语音情感识别方法,其特征在于,所述方法包括以下步骤:
S1、生成适当的多模态表示:从原始的一维语音信号中生成三种适当的音频表示形式,用于后续不同CNN模型的输入;
S2、采用多重深度卷积神经网络模型学习多模态特征;
S3、采用分数级别融合方法,将不同的CNN模型分类结果进行集成,输出最终的语音情感识别的结果。


2.根据权利要求1所述的一种基于多模深度特征学习的自然语音情感识别方法,其特征在于,所述步骤S1包括以下步骤:
S1.1、将一维原始语音信号波形分割成片段,输入到一维卷积神经网络,并设置语音片段长度;
S1.2、从一维原始语音信号中提取出二维Mel频谱图,并构建出类似于RGB图像的三通道频谱片段,作为二维卷积神经网络的输入;
S1.3、将多个连续二维Mel频谱片段序列组成一个类似于视频的3D动态片段,作为三维卷积神经网络的输入,进行时空特征学习。


3.根据权利要求1所述的一种基于多模深度特征学习的自然语音情感识别方法,其特征在于,所述步骤S2包括以下步骤:
S2.1、采用一维卷积神经网络进行一维原始语音信号波形建模:构建一维卷积神经网络模型,并对构建的一维卷积神经网络模型进行训练;
S2.2、使用二维卷积神经网络进行二维Mel频谱建模:针对目标数据,微调现有的预先训练好的AlexNet深度卷积神经网络模型,并采样已生成的三通道的Mel频谱片段大小;
S2.3、基于三维卷积神经网络的时空动态信息建模:基于提取的类视频3D动态片段,执行时空特征学习任务,采用dropout正则化的方法来避免网络过度拟合。


4.根据权利要求3所述的一种基于多模深度特征学习的自然语音情感识别方法,其特征在于,所述的一维卷积神经网络模型包括四个一维卷积层、三个最大池化层、两个全连接层和1个Softmax分类输出层,所述一维卷积层包括批处理归一化层和修正线性单元激活函数层,即在一维卷积神经网络训练前对输入数据做归一化处理。


5.根据权利要求3所述的一种基于多模深度特征学习的自然语音情感识别方法,其特征在于,所述AlexNet深度卷积神经网络模型包括五个卷积层、三个最大池化层以及两个全连接层。


6.根据权利要求3所述的一种基于多模深度特征学习的自然语音情感识别方法,其特征在于,所述步骤S2.2中微调包括以下步骤:
1)从预先训练的...

【专利技术属性】
技术研发人员:张石清赵小明
申请(专利权)人:台州学院
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1