一种基于卷积神经网络的语音情感识别方法技术

技术编号:33926786 阅读:34 留言:0更新日期:2022-06-25 21:51
本发明专利技术属于语音情感识别领域,具体公开了一种基于卷积神经网络的语音情感识别方法,包括以下步骤:S1:对语音数据库中的语音样本进行预处理操作,从而得到每一段语音样本的语谱图,在语谱图中X轴为时间、Y轴为频率、Z轴为幅度,其中幅度用亮色表示,颜色越深则幅度越低;通过语谱图可以查看指定频率端的能量分布;S2:建立卷积神经网络模型,利用语音数据库对建立的卷积神经网络进行训练;本发明专利技术通过建立卷积神经网络模型处理语音信号,能够对语音信号进行特征提取,从而分析出语音信号的情感类型,不仅极大地提高了识别的准确度,还能够减少大量的分析时间,解决了现有技术中语音特征提取困难、运算困难的问题。运算困难的问题。

【技术实现步骤摘要】
一种基于卷积神经网络的语音情感识别方法


[0001]本专利技术涉及语音情感识别领域,具体为一种基于卷积神经网络的语音情感识别方法。

技术介绍

[0002]自然和谐的人机交互中,机器应该能理解人的情感和意图,对不同人、不同环境、不同任务都能给予不同的反馈,那么机器如果能拥有像人与人一样可以方便与人自然交流的“能力”,就必须要解决如何更好理解交流中的情感问题,而这正是“情感智能(EmotionalIntelligence)”所需要解决的,情感智能可以理解为情感的准确识别和反馈能力。
[0003]目前,应用于人类情感识别研究的检测信息包括语音、面部表情、生理信号、肢体语言等。语音信号是人与人之间沟通最快且最自然的方法,语音情感识别研究对促进和谐人机交互意义重大。
[0004]语音情感由一些语音参数表征,然而这些特征参数内在的复杂性决定了情感特征提取的困难。国内外研究者们从语音学和也理学方面对情感特征进行了大量的研究。一般提取的情感特征主要分为韵律特征、音质特征和谱特征。韵律特征被认为是主要的语音情感参数,反映的是"唤醒度"信息。人类语言的时常、语调、轻重各不相同,这些韵律特征的变化构成了美妙的语言。常见韵律特征有基频、时长、能量等,韵律特征的统计特征分析着眼于整体语音,反映出一段时间之上韵律参数的变化规律。在Basque情感数据上,Luengo等人研究发现能量的平均值、方差、能量对数和基频对数的动态变化范围、基频均值和对数斜交共6个特征是最具有情感区分能力的特征。Origlia等人提取基频和能量相关的共31维韵律特征在多个语音情感数据库上取得了很好的识别率。而Ilion使用35个韵律特征在berlin库上取得了51%的识别率。
[0005]目前国内很多研究人员进行了语音情感识别领域的研究。研究人员基于传统的基频、共振峰、MFCC(Mel

Frequency Cepstral Coefficients)等特征构建了一系列的人工特征。提取这些人工特征以及它们的统计特征,构成一个情感特征集,应用特征PCA(Principal Component Analysis)、LDA(Linear Discriminant Analysis)等特征选择方法对特征集进行选择和降维,得到与情感相关性较高的语音情感特征子集,采用支持向量机、BP神经网络等对特征子集进行分类得到语音情感。
[0006]传统的情感识别方案通常是从语音信号这些原始数据中提取语音特征。这类语音特征是人工设计的,这类特征存在以下缺点:
[0007](1)人工设计特征的过程非常复杂,并且十分依赖工程经验;
[0008](2)人工选择的特征通常仅针对特定数据有效,不能适应待处理数据特征的变化;
[0009](3)人工设计的特征表达能力有限,不能精确描述数据中隐含的复杂特征和抽象特征,存在一定的偏差;
[0010](4)人工设计的特征提取器无法提取目标的所有特征,这一非完备性会造成特征
鉴别能力的大幅下降。
[0011]相比传统机器学习算法设计难度和使用难度,深度学习在特征提取方面具有明显的优势。深度学习相关的特征选择算法可以从随机初始化的特征中,根据损失函数自动调整特征参数,实现特征学习。同时,根据特征在测试集中的重要程度自动调整特征权重,完成特征选择,从而最终学习并选择出最能代表数据本质特征的特征模式,提高系统对于数据的鉴别力。

技术实现思路

[0012]本专利技术的目的在于提供一种基于卷积神经网络的语音情感识别方法,以解决上述
技术介绍
中提出的问题。
[0013]为实现上述目的,本专利技术提供如下技术方案:一种基于卷积神经网络的语音情感识别方法,包括以下步骤:
[0014]S1:对语音数据库中的语音样本进行预处理操作,从而得到每一段语音样本的语谱图,在语谱图中X轴为时间、Y轴为频率、Z轴为幅度,其中幅度用亮色表示,颜色越深则幅度越低;通过语谱图可以查看指定频率端的能量分布;
[0015]S2:建立卷积神经网络模型,利用语音数据库对建立的卷积神经网络进行训练;
[0016]S3:用倒谱系数算法对语谱图进行处理,将每一帧波形变成一个包含声音信息的多维向量;
[0017]S4:用卷积神经网络模型对包含声音信息的多维向量进行处理,从而提取语音特征,将得到的语音特征进行情感分类,并将卷积神经网络得到的语音特征与语音样本的标签进行核对,在多次训练后,得到优化后的卷积神经网络模型;
[0018]S5:将待识别的语音信号进行预处理,将得到的语谱图输入至卷积神经网络模型内提取其语音特征,其输出中维数最大的类别即为识别的语音情感。
[0019]优选的,所述预处理操作依次为将首尾端的静音切除、分帧、加窗、傅里叶变换和取对数;在分帧时,各帧之间需要有交叠的情况。
[0020]优选的,所述卷积神经网络在提取语音特征后的情感分类分为平静、难受、欣喜、哭泣、得意和恐惧六中情感。
[0021]优选的,所述卷积神经网络包括卷积层、池化层和全连接层;其中,卷积层能够将语谱图中的时间和频率作为时频图的两个维度,利用卷积核对时频图进行卷积。
[0022]优选的,所述池化层通过使用Maxpooling方法能够减小尺寸,提高运算速度,当图片经过池化层后可使维数减半。
[0023]优选的,所述语音样本采用wav文件格式,使用16KHz、单声道、8bit的形式。
[0024]与现有技术相比,本专利技术的有益效果是:本专利技术通过建立卷积神经网络模型处理语音信号,能够对语音信号进行特征提取,从而分析出语音信号的情感类型,不仅极大地提高了识别的准确度,还能够减少大量的分析时间,解决了现有技术中语音特征提取困难、运算困难的问题。
具体实施方式
[0025]下面对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例
仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]本专利技术提供一种基于卷积神经网络的语音情感识别方法,包括以下步骤:
[0027]S1:对语音数据库中的语音样本进行预处理操作,从而得到每一段语音样本的语谱图,在语谱图中X轴为时间、Y轴为频率、Z轴为幅度,其中幅度用亮色表示,颜色越深则幅度越低;通过语谱图可以查看指定频率端的能量分布;
[0028]S2:建立卷积神经网络模型,利用语音数据库对建立的卷积神经网络进行训练;
[0029]S3:用倒谱系数算法对语谱图进行处理,将每一帧波形变成一个包含声音信息的多维向量;
[0030]S4:用卷积神经网络模型对包含声音信息的多维向量进行处理,从而提取语音特征,将得到的语音特征进行情感分类,并将卷积神经网络得到的语音特征与语音样本的标签进行核对,在多次训练后,得到优化后的卷积神经网络模型;
[0031]S5:将待识别的语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络的语音情感识别方法,其特征在于,包括以下步骤:S1:对语音数据库中的语音样本进行预处理操作,从而得到每一段语音样本的语谱图,在语谱图中X轴为时间、Y轴为频率、Z轴为幅度,其中幅度用亮色表示,颜色越深则幅度越低;通过语谱图可以查看指定频率端的能量分布;S2:建立卷积神经网络模型,利用语音数据库对建立的卷积神经网络进行训练;S3:用倒谱系数算法对语谱图进行处理,将每一帧波形变成一个包含声音信息的多维向量;S4:用卷积神经网络模型对包含声音信息的多维向量进行处理,从而提取语音特征,将得到的语音特征进行情感分类,并将卷积神经网络得到的语音特征与语音样本的标签进行核对,在多次训练后,得到优化后的卷积神经网络模型;S5:将待识别的语音信号进行预处理,将得到的语谱图输入至卷积神经网络模型内提取其语音特征,其输出中维数最大的类别即为识别的语音情感。2.根据权利要求1所述的一种基于卷积神经网络的语音情感识别方法,其特征在于:所述预处理操作依次为将首尾端的静音切除、分帧、加窗、傅里叶变换和...

【专利技术属性】
技术研发人员:袁钰娴
申请(专利权)人:南京小灿灿网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1