一种基于多模深度特征学习的自然语音情感识别方法技术

技术编号：25402099 阅读：26 留言：0更新日期：2020-08-25 23:06

本发明专利技术公开了一种基于多模深度特征学习的自然语音情感识别方法，包括以下步骤：S1、生成适当的多模态表示：从原始的一维语音信号中生成三种适当的音频表示形式，用于后续不同CNN模型的输入；S2、采用多重深度卷积神经网络模型学习多模态特征；S3、采用分数级别融合方法，将不同的CNN模型分类结果进行集成，输出最终的语音情感识别的结果。本发明专利技术通过多重深度卷积神经网络融合学习具有互补性特点的深层多模态特征，显著改善情感分类性能，为自然语音情感识别提供良好判别力的特征。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模深度特征学习的自然语音情感识别方法
本专利技术涉及语音信号处理、模式识别的
，尤其涉及一种基于多模深度特征学习的自然语音情感识别方法。
技术介绍
近年来，自然语音情感识别已经成为模式识别、语音信号处理、人工智能等领域中活跃而富有挑战性的研究课题，和传统的输入设备不同，自然语音情感识别旨在通过与计算机直接的语音交互模式，来提供可用于语音呼叫中心、医疗保健和情感计算的智能情感服务。目前，在语音情感识别领域，大量的前期工作主要是针对模拟情感而进行的，因为这种模拟情感数据库的建立相对自然情感而言，要容易得多。近年来，针对实际环境下的自然语音情感识别方面的研究备受研究者的关注，因为它更接近实际，而且比模拟情感的识别要困难得多。语音情感特征提取，是语音情感识别中的一个关键步骤，其目的是从情感语音信号中提取能够反映说话人情感表达信息的特征参数。目前，大量语音情感识别文献采用了手工设计的特征用于情感识别，如韵律特征(基频、振幅、发音持续时间)、音质特征(共振峰、频谱能量分布、谐波噪声比)、谱特征(梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)和线性预测倒谱系数(LPCC))。然而，这些手工设计的语音情感特征参数属于低层次的特征，与人类理解的情感标签还存在“语义鸿沟”问题，因此有必要发展高层次的语音情感特征提取方法。为了解决这个问题，近年来新出现的深度学习技术可能提供了线索，由于用了更深层次的体系结构，因此深度学习技术通常比传统方法具有某些优势，包括它们能够自动检测复杂的结构和特征而无需...

【技术保护点】
1.一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述方法包括以下步骤：/nS1、生成适当的多模态表示：从原始的一维语音信号中生成三种适当的音频表示形式，用于后续不同CNN模型的输入；/nS2、采用多重深度卷积神经网络模型学习多模态特征；/nS3、采用分数级别融合方法，将不同的CNN模型分类结果进行集成，输出最终的语音情感识别的结果。/n

【技术特征摘要】
1.一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述方法包括以下步骤：
S1、生成适当的多模态表示：从原始的一维语音信号中生成三种适当的音频表示形式，用于后续不同CNN模型的输入；
S2、采用多重深度卷积神经网络模型学习多模态特征；
S3、采用分数级别融合方法，将不同的CNN模型分类结果进行集成，输出最终的语音情感识别的结果。

2.根据权利要求1所述的一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述步骤S1包括以下步骤：
S1.1、将一维原始语音信号波形分割成片段，输入到一维卷积神经网络，并设置语音片段长度；
S1.2、从一维原始语音信号中提取出二维Mel频谱图，并构建出类似于RGB图像的三通道频谱片段，作为二维卷积神经网络的输入；
S1.3、将多个连续二维Mel频谱片段序列组成一个类似于视频的3D动态片段，作为三维卷积神经网络的输入，进行时空特征学习。

3.根据权利要求1所述的一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述步骤S2包括以下步骤：
S2.1、采用一维卷积神经网络进行一维原始语音信号波形建模：构建一维卷积神经网络模型，并对构建的一维卷积神经网络模型进行训练；
S2.2、使用二维卷积神经网络进行二维Mel频谱建模：针对目标数据，微调现有的预先训练好的AlexNet深度卷积神经网络模型，并采样已生成的三通道的Mel频谱片段大小；
S2.3、基于三维卷积神经网络的时空动态信息建模：基于提取的类视频3D动态片段，执行时空特征学习任务，采用dropout正则化的方法来避免网络过度拟合。

4.根据权利要求3所述的一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述的一维卷积神经网络模型包括四个一维卷积层、三个最大池化层、两个全连接层和1个Softmax分类输出层，所述一维卷积层包括批处理归一化层和修正线性单元激活函数层，即在一维卷积神经网络训练前对输入数据做归一化处理。

5.根据权利要求3所述的一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述AlexNet深度卷积神经网络模型包括五个卷积层、三个最大池化层以及两个全连接层。

6.根据权利要求3所述的一种基于多模深度特征学习的自然语音情感识别方法，其特征在于，所述步骤S2.2中微调包括以下步骤：
1)从预先训练的...

【专利技术属性】
技术研发人员：张石清，赵小明，
申请(专利权)人：台州学院，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人