基于Bi-LSTM-CNN的多模态语音情感识别方法技术

技术编号：37777866 阅读：10 留言：0更新日期：2023-06-09 09:08

本发明专利技术公开了基于Bi

全部详细技术资料下载

【技术实现步骤摘要】
基于Bi
‑
LSTM
‑
CNN的多模态语音情感识别方法

[0001]本专利技术属于语音情感识别
，特别是基于Bi
‑
LSTM
‑
CNN的多模态语音情感识别方法。

技术介绍

[0002]语音是人类的语言符号体系的载体，是语言的首要属性，它既包括了话语主体所要传达的内容，也包括了其所要传达的感情信息。情绪与人类态度的内在感受、意向具有协调的一致性，是一种较为复杂但较为稳定的心理状态。语音情感辨识就是通过电脑自动地识别输入的声音的情绪。该系统在心理健康监测、教育辅助、个性化内容推荐、客户服务质量监控等方面有着广泛的应用价值。
[0003]在现阶段的研究中，语音识别始终是人机交互技术不可缺少的研究方向，迄今为止，多数语音识别系统还是只有在能够有效处理潜在情感时才能达到与人类相当的表现。对于优秀的语音系统，其目的不应该仅仅局限于语义信息处理，而应该通过检测语音中的情感信息进一步理解说话者的真实含义。
[0004]近些年来，随着科技的不断进步及相关行业的逐步发展，语音情感识别技术逐步作为人工智能的热门分支技术而被人熟知并且逐步成为其重要研究方向。通过语音情感识别，人工智能技术可以使机器利用识别情感的方式来提高相关人工智能的识别准确率，进而帮助人们做出正确的决定。随着相关研究的不断深入，研究者们在语音情感识别方面也不断针对相关算法提出一些改进，并取得了一定的进展。
[0005]在国外的研究中，一些研究者们开始针对语音情感识别的分类...

【技术保护点】

【技术特征摘要】
1.基于Bi
‑
LSTM
‑
CNN的多模态语音情感识别方法，其特征在于，包括：获取文本情感信息和音频情感信息；分别对所述文本情感信息和音频情感信息进行预处理；将预处理后的文本情感信息输入至Bi
‑
LSTM网络中，输出语义特征；采用opensmile工具从预处理后的音频情感信息中提取声学特征；将所述语义特征和所述声学特征进行特征融合处理，获得融合特征；将所述语义特征和所述融合特征输入至CNN分类器中，通过softmax层后将其输出作为决策级融合的输入，通过决策融合公式计算得出每种情感对应的得分，取得分最大值对应的情感类别作为最终的情感识别结果。2.如权利要求1所述的基于Bi
‑
LSTM
‑
CNN的多模态语音情感识别方法，其特征在于，对所述文本情感信息进行预处理，包括：对所述文本情感信息进行词嵌入处理，将所述文本情感信息中的词转换成数字向量。3.如权利要求1所述的基于Bi
‑
LSTM
‑
CNN的多模态语音情感识别方法，其特征在于，对所述音频情感信息进行预处理，包括：首先对所述音频情感信息中的语音数据执行分帧加窗操作，从而减小信号中非连续部分的幅值，通过傅里叶变换将每帧语音数据的频率谱计算出来，并将傅里叶变换结果求平方得到相应频谱的能量谱，最后把所得到的能量谱按照时间维度拼接形成...

【专利技术属性】
技术研发人员：张翼英，张楠，马彩霞，马兴毅，韩龙哲，
申请(专利权)人：天津科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人