一种语音情绪识别算法制造技术

技术编号：27826142 阅读：19 留言：0更新日期：2021-03-30 11:09

本发明专利技术涉及情绪识别领域，具体地说，是一种语音情绪识别算法。基于CNN+MFCC的语音情感识别，利用CASIA的语音情感数据库进行识别计算，主要包括以下步骤：加载声音、提取mfcc特征、训练数据和测试数据、使用keras定义模型、训练模型、对训练好的模型进行测试。提高计算的精度与可靠性，同时也能便于录音人更准确地变现处情感。变现处情感。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音情绪识别算法

[0001]本专利技术涉及情绪识别领域，具体地说，是一种语音情绪识别算法。

技术介绍

[0002]语音情感识别的主要任务是将蕴含在语音中的情感信息提取出来并识别出其类别。目前对于情感的描述主要有两种方法。第一种是基于离散的情感划分，将人类日常生活中广泛使用的基本情感分为愤怒、开心、兴奋、悲伤、厌恶等；另一种是基于连续维度情感划分，主要通过不同的效价度和激活程度来对不同情感进行区分的。那么作为一个分类任务，特征选择是最关键的一步。
[0003]CASIA汉语情感语料库由中国科学院自动化所（Institute of Automation, Chinese Academy of Sciences）录制，共包括四个专业发音人，六种情绪生气（angry）、高兴（happy）、害怕（fear）、悲伤（sad）、惊讶（surprise）和中性（neutral），这些语料可以用来对比分析不同情感状态下的声学及韵律表现；这些文本从字面意思就可以看出其情感归属，便于录音人更准确地表现出情感。

技术实现思路

[0004]为了解决上述技术问题，本专利技术提供了一种语音情绪识别算法，基于CNN+MFCC的语音情感识别，利用CASIA的语音情感数据库进行识别计算，提高计算的精度与可靠性，同时也能便于录音人更准确地变现处情感。
[0005]为实现上述目的，本专利技术提供如下技术方案：一种语音情绪识别算法，基于CNN+MFCC的语音情感识别，利用CASIA的语音情感数据库进行识别计算，其特征在于...

【技术保护点】

【技术特征摘要】
1.一种语音情绪识别算法，基于CNN+MFCC的语音情感识别，利用CASIA的语音情感数据库进行识别计算，其特征在于，主要包括以下步骤：（1）加载声音：getNearestLen函数根据声音的采样率确定一个合适的语音帧长用于傅立叶变换，然后通过librosa.feature.mfcc函数提取mfcc特征，并将其可视化；（2）从数据集中把语音的mfcc特征提取出来，并对每帧的mfcc取平均，将结果保存为文件；（3）打乱数据集并划分训练数据和测试数据；（4）使用keras定义模型；（5）训练模型；（6）最后对训练好的模型进行测试。2.根据权利要求1所述的一种语音情绪识别算法，其特征在于，所述步骤2中的MFCC的提取主要包括以下几个步骤：1）预滤波：前端带宽为300
‑
3400Hz的抗混叠滤波器；2）A/D变换：8kHz的采样频率，12bit的线性量化精度；3）预加重：通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响；4）分帧：通常语音识别所采用语音信号的采样频率为8KHz或16KHz，以8KHz来说，若帧长度为256个采样点，则对应的时间长度是256/8000
×
1000=32ms；5）加窗：采用哈明...

【专利技术属性】
技术研发人员：吴志健，王瑶，邢怀球，刘利娜，浦海斌，缪菲，
申请(专利权)人：江苏汉德天坤数字技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人