一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法技术

技术编号：28041868 阅读：248 留言：0更新日期：2021-04-09 23:25

本发明专利技术涉及一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法，包括：步骤1：获取待识别的中文语音音频，并对音频数据进行预处理；步骤2：使用OpenSmile分别提取训练集和测试集语音音频的MFCC音频特征；步骤3：使用训练集对双向LSTM网络进行训练；步骤4：使用测试集对完成训练的双向LSTM网络进行测试，计算测试准确率，判断测试准确率是否大于预设阈值，若是，则执行步骤5，否则，返回步骤3；步骤5：使用达到预设准确率阈值的双向LSTM网络对中文语音音频进行情绪识别。与现有技术相比，本发明专利技术具有识别精度高、支持多人以及长短句识别等优点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法
本专利技术涉及基于语音的情绪识别方法
，尤其是涉及一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法。
技术介绍
随着人工智能技术的发展，计算机已经成为人类的亲密伙伴。它可以帮助我们检索知识、规划城市、预测金融走势、保障生产安全，甚至陪我们下棋、打电子游戏。对于如此亲密的“生活伴侣”，我们自然希望计算机能知情识趣，而不是冷冰冰的机器。为了让计算机拥有感情，研究者从图象、文字、语音等各个方面展开了大量研究，到目前为止，至少在感知层次，机器已经能分清好赖话，看懂好赖脸了。和说话人识别和语种识别相比，语音情绪识别更加困难。主要原因包括两个方面。首先，“情绪”一词的定义非常模糊，事实上直到今天，关于情绪是什么，心理学家们也没有一个公认的定义。Plutchik估计，在二十世纪，研究者至少提出了90多种情绪的定义。事实上，一句话究竟是哪种情绪，不仅和说话人本身的心理状态相关，还和他/她的生活习惯、表达方式相关，和听众的理解方式和...

【技术保护点】
1.一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法，其特征在于，所述的情绪识别方法包括：/n步骤1：获取待识别的中文语音音频，并对音频数据进行预处理；/n步骤2：使用OpenSmile分别提取训练集和测试集语音音频的MFCC音频特征；/n步骤3：使用训练集对双向LSTM网络进行训练；/n步骤4：使用测试集对完成训练的双向LSTM网络进行测试，计算测试准确率，判断测试准确率是否大于预设阈值，若是，则执行步骤5，否则，返回步骤3；/n步骤5：使用达到预设准确率阈值的双向LSTM网络对中文语音音频进行情绪识别。/n

【技术特征摘要】
1.一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法，其特征在于，所述的情绪识别方法包括：
步骤1：获取待识别的中文语音音频，并对音频数据进行预处理；
步骤2：使用OpenSmile分别提取训练集和测试集语音音频的MFCC音频特征；
步骤3：使用训练集对双向LSTM网络进行训练；
步骤4：使用测试集对完成训练的双向LSTM网络进行测试，计算测试准确率，判断测试准确率是否大于预设阈值，若是，则执行步骤5，否则，返回步骤3；
步骤5：使用达到预设准确率阈值的双向LSTM网络对中文语音音频进行情绪识别。

2.根据权利要求1所述的一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法，其特征在于，所述的步骤1具体为：
获取待识别的中文语音音频集合，将音频按照对应的情感进行分类，并添加对应的数字标签，然后将其分为训练集和测试集。

3.根据权利要求1所述的一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法，其特征在于，所述的步骤2具体为：
使用OpenSmile的ComParE特征集提取语音音频的MFCC音频特征，共提取出6373个音频特征，构建音频特征集合。

4.根据权利要求1所述的一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法，其特征在于，所述的双向LSTM网络的最后一层结构为Softmax全连接层，用于获取分类概率，然后将概率最高的类别作为最终输出的情绪类别。

5.根据权利要求4所述的一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法，其特征在于，所述的Softmax函数具体为：

其中，zi为双向LSTM网络第i个节点的输出值；C为输出节点的个数，即情感分类类别的个数。

6.根据权利要求5所述的一种基于中文语音O...

【专利技术属性】
技术研发人员：吴强，季晓枫，施恩铭，马俊，郭翔，
申请(专利权)人：上海幻维数码创意科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人