一种语音情绪识别算法制造技术

技术编号:27826142 阅读:19 留言:0更新日期:2021-03-30 11:09
本发明专利技术涉及情绪识别领域,具体地说,是一种语音情绪识别算法。基于CNN+MFCC的语音情感识别,利用CASIA的语音情感数据库进行识别计算,主要包括以下步骤:加载声音、提取mfcc特征、训练数据和测试数据、使用keras定义模型、训练模型、对训练好的模型进行测试。提高计算的精度与可靠性,同时也能便于录音人更准确地变现处情感。变现处情感。

【技术实现步骤摘要】
一种语音情绪识别算法


[0001]本专利技术涉及情绪识别领域,具体地说,是一种语音情绪识别算法。

技术介绍

[0002]语音情感识别的主要任务是将蕴含在语音中的情感信息提取出来并识别出其类别。目前对于情感的描述主要有两种方法。第一种是基于离散的情感划分,将人类日常生活中广泛使用的基本情感分为愤怒、开心、兴奋、悲伤、厌恶等;另一种是基于连续维度情感划分,主要通过不同的效价度和激活程度来对不同情感进行区分的。那么作为一个分类任务,特征选择是最关键的一步。
[0003]CASIA汉语情感语料库由中国科学院自动化所(Institute of Automation, Chinese Academy of Sciences)录制,共包括四个专业发音人,六种情绪生气(angry)、高兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral),这些语料可以用来对比分析不同情感状态下的声学及韵律表现;这些文本从字面意思就可以看出其情感归属,便于录音人更准确地表现出情感。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了一种语音情绪识别算法,基于CNN+MFCC的语音情感识别,利用CASIA的语音情感数据库进行识别计算,提高计算的精度与可靠性,同时也能便于录音人更准确地变现处情感。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种语音情绪识别算法,基于CNN+MFCC的语音情感识别,利用CASIA的语音情感数据库进行识别计算,其特征在于,主要包括以下步骤:(1)加载声音:getNearestLen函数根据声音的采样率确定一个合适的语音帧长用于傅立叶变换,然后通过librosa.feature.mfcc函数提取mfcc特征,并将其可视化;(2)从数据集中把语音的mfcc特征提取出来,并对每帧的mfcc取平均,将结果保存为文件;(3)打乱数据集并划分训练数据和测试数据;(4)使用keras定义模型;(5)训练模型;(6)最后对训练好的模型进行测试。
[0006]本专利技术进一步改进,所述步骤2中的MFCC的提取主要包括以下几个步骤:1)预滤波:前端带宽为300

3400Hz的抗混叠滤波器;2)A/D变换:8kHz的采样频率,12bit的线性量化精度;3)预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;4)分帧:通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,
若帧长度为256个采样点,则对应的时间长度是256/8000
×
1000=32ms;5)加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;6)快速傅立叶变换(Fast Fourier Transformation, FFT): 对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;7)三角窗滤波: 用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;8)求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果;9)离散余弦变换(Discrete Cosine Transformation, DCT): 去除各维信号之间的相关性,将信号映射到低维空间;10)谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数;11)倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS可以有效地减小语音输入信道对特征参数的影响;12)差分参数: 在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能;13)短时能量:语音的短时能量也是重要的特征参数,短时归一化对数能量及其一阶差分、二阶差分参数。
[0007]本专利技术的有益效果:基于CNN+MFCC的语音情感识别,利用CASIA的语音情感数据库进行识别计算,提高计算的精度与可靠性,同时也能便于录音人更准确地变现处情感。
具体实施方式
[0008]下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0009]实施例:一种语音情绪识别算法,基于CNN+MFCC的语音情感识别,利用CASIA的语音情感数据库进行识别计算,主要包括以下步骤:(1)加载声音:getNearestLen函数根据声音的采样率确定一个合适的语音帧长用于傅立叶变换,然后通过librosa.feature.mfcc函数提取mfcc特征,并将其可视化;(2)从数据集中把语音的mfcc特征提取出来,并对每帧的mfcc取平均,将结果保存为文件;(3)打乱数据集并划分训练数据和测试数据;(4)使用keras定义模型;(5)训练模型;(6)最后对训练好的模型进行测试。
[0010]本专利技术进一步改进,所述步骤2中的MFCC的提取主要包括以下几个步骤:1)预滤波:前端带宽为300

3400Hz的抗混叠滤波器;
2)A/D变换:8kHz的采样频率,12bit的线性量化精度;3)预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;4)分帧:通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000
×
1000=32ms;5)加窗:采用哈明窗对一帧语音加窗,以减小吉布斯效应的影响;6)快速傅立叶变换(Fast Fourier Transformation, FFT): 对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;7)三角窗滤波: 用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;8)求对数:三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果;9)离散余弦变换(Discrete Cosine Transformation, DCT): 去除各维信号之间的相关性,将信号映射到低维空间;10)谱加权:由于倒谱的低阶参数易受说话人特性、信道特性等的影响,而高阶参数的分辨能力比较低,所以需要进行谱加权,抑制其低阶和高阶参数;11)倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS可以有效地减小语音输入信道对特征参数的影响;12)差分参数: 在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能;13)短时能量:语音的短时能量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情绪识别算法,基于CNN+MFCC的语音情感识别,利用CASIA的语音情感数据库进行识别计算,其特征在于,主要包括以下步骤:(1)加载声音:getNearestLen函数根据声音的采样率确定一个合适的语音帧长用于傅立叶变换,然后通过librosa.feature.mfcc函数提取mfcc特征,并将其可视化;(2)从数据集中把语音的mfcc特征提取出来,并对每帧的mfcc取平均,将结果保存为文件;(3)打乱数据集并划分训练数据和测试数据;(4)使用keras定义模型;(5)训练模型;(6)最后对训练好的模型进行测试。2.根据权利要求1所述的一种语音情绪识别算法,其特征在于,所述步骤2中的MFCC的提取主要包括以下几个步骤:1)预滤波:前端带宽为300

3400Hz的抗混叠滤波器;2)A/D变换:8kHz的采样频率,12bit的线性量化精度;3)预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响;4)分帧:通常语音识别所采用语音信号的采样频率为8KHz或16KHz,以8KHz来说,若帧长度为256个采样点,则对应的时间长度是256/8000
×
1000=32ms;5)加窗:采用哈明...

【专利技术属性】
技术研发人员:吴志健王瑶邢怀球刘利娜浦海斌缪菲
申请(专利权)人:江苏汉德天坤数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1