基于Bi-LSTM-CNN的多模态语音情感识别方法技术

技术编号:37777866 阅读:10 留言:0更新日期:2023-06-09 09:08
本发明专利技术公开了基于Bi

【技术实现步骤摘要】
基于Bi

LSTM

CNN的多模态语音情感识别方法


[0001]本专利技术属于语音情感识别
,特别是基于Bi

LSTM

CNN的多模态语音情感识别方法。

技术介绍

[0002]语音是人类的语言符号体系的载体,是语言的首要属性,它既包括了话语主体所要传达的内容,也包括了其所要传达的感情信息。情绪与人类态度的内在感受、意向具有协调的一致性,是一种较为复杂但较为稳定的心理状态。语音情感辨识就是通过电脑自动地识别输入的声音的情绪。该系统在心理健康监测、教育辅助、个性化内容推荐、客户服务质量监控等方面有着广泛的应用价值。
[0003]在现阶段的研究中,语音识别始终是人机交互技术不可缺少的研究方向,迄今为止,多数语音识别系统还是只有在能够有效处理潜在情感时才能达到与人类相当的表现。对于优秀的语音系统,其目的不应该仅仅局限于语义信息处理,而应该通过检测语音中的情感信息进一步理解说话者的真实含义。
[0004]近些年来,随着科技的不断进步及相关行业的逐步发展,语音情感识别技术逐步作为人工智能的热门分支技术而被人熟知并且逐步成为其重要研究方向。通过语音情感识别,人工智能技术可以使机器利用识别情感的方式来提高相关人工智能的识别准确率,进而帮助人们做出正确的决定。随着相关研究的不断深入,研究者们在语音情感识别方面也不断针对相关算法提出一些改进,并取得了一定的进展。
[0005]在国外的研究中,一些研究者们开始针对语音情感识别的分类方案和评估方式做出研究,并希望通过较为科学的分类方式为语音情感识别提供更加有效的识别模式;此外,Ghosh等人研究了从语音信号中提取声谱图特征进行情感识别的方法,并用层叠式自动编码器进行谱图编码,利用递归神经网络对4种主要情感进行分类,并通过一种改进的递归神经网络研究说话人和语音不变特征对分类性能的影响,并在IEMOCAP语音情感数据集上取得了一定的性能提升;另外,有研究者开始尝试通过使用卷积神经网络与循环神经网络相结合的方式试图解决情感中部分情感顺序信息的问题,进而提出了解决“上下文感知”情感相关特征的方案;还有研究者针对情感特征提出新的统计特征选择方法,利用此方法减少了特征数量并以此提升准确率。
[0006]转看国内,国内的语音情感识别领域内,东南大学赵力教授团队处于领域内研究的前沿,其团队中的张听然等人利用深度学习领域的DBN(Deep BeliefNetwork,深度置信网络)技术,并利用该技术提出特征融合的方案,进而使用特征融合后的特征子集相较传统特征在多个数据集上获得了一定的提升;朱芳枚等人提出了一种改良的自编码技术结构,其使用了较输入特征维数更大的隐藏特征以及稀疏自编码学习特征,通过使用该结构的网络较ANN网络在准确率方面提高了1.64%;另外,太原理工大学的张雪英教授团队在国内的语音情感识别领域内也取得了一定的进展,宋静等人围绕数据集的问题进行相关研究,其通过模糊综合评价和层次分析法等方法相结合,依此搭建情感语音的评价模型,并对一些
数据集进行评价、进行语音情感识别实验验证数据有效性,也取得了较好的研究效果;高帆等人基于DBM

LSTM神经网络结构,提出用以增强不同情感特征的融合程度的神经网络。该网络在一定程度上提升了语音情感识别模型的鲁棒性,并通过实验证明该模型较传统识别模型在识别准确率方面有所提升。
[0007]但是,传统方法主要采用单模态的语音情感识别,单模态方法抽取到的特征比较单一,容易造成在语音情感识别过程中信息不全面、容易受到噪声干扰等问题,语音情感识别的准确率受到一定影响。此外,传统方法的模型架构一般比较简单,无法捕捉到较长距离的语音语义依赖关系,并且传统方法中的数据融合方式只采用特征融合或决策融合,两种方法各有弊端,无法获取全面的特征信息。
[0008]因此,如何有效解决单模态情感识别中的不足,提高识别的效率和准确率,成为当前研究的关键问题。

技术实现思路

[0009]鉴于上述问题,本专利技术提供一种至少解决上述部分技术问题的基于Bi

LSTM

CNN的多模态语音情感识别方法,通过该方法能有效解决单模态情感识别中的不足,提高识别的效率和准确率。
[0010]本专利技术实施例提供了基于Bi

LSTM

CNN的多模态语音情感识别方法,包括:
[0011]获取文本情感信息和音频情感信息;
[0012]分别对所述文本情感信息和音频情感信息进行预处理;
[0013]将预处理后的文本情感信息输入至Bi

LSTM网络中,输出语义特征;
[0014]采用opensmile工具从预处理后的音频情感信息中提取声学特征;
[0015]将所述语义特征和所述声学特征进行特征融合处理,获得融合特征;
[0016]将所述语义特征和所述融合特征输入至CNN分类器中,通过softmax层后将其输出作为决策级融合的输入,通过决策融合公式计算得出每种情感对应的得分,取得分最大值对应的情感类别作为最终的情感识别结果。
[0017]进一步地,对所述文本情感信息进行预处理,包括:对所述文本情感信息进行词嵌入处理,将所述文本情感信息中的词转换成数字向量。
[0018]进一步地,对所述音频情感信息进行预处理,包括:首先对所述音频情感信息中的语音数据执行分帧加窗操作,从而减小信号中非连续部分的幅值,通过傅里叶变换将每帧语音数据的频率谱计算出来,并将傅里叶变换结果求平方得到相应频谱的能量谱,最后把所得到的能量谱按照时间维度拼接形成语谱图。进一步地,对所述音频情感信息中的语音数据执行分帧操作,包括:将所述音频情感信息中的语音数据分成等长的段,每个段被分成一帧,形成语音帧;对每个所述语音帧进行加窗处理,从而减少信号中的断续部分的幅度。
[0019]进一步地,所述Bi

LSTM网络包括第一单向LSTM网络和第二单向LSTM网络;
[0020]所述第一单向LSTM网络用于计算正向的上下文信息;
[0021]所述第二单向LSTM网络用于计算反向的上下文信息。
[0022]进一步地,采用opensmile工具从预处理后的音频情感信息中提取声学特征,包括:首先利用该窗函数对语音数据进行加权处理,获得加窗分帧之后的语音信号;然后从所述语音信号中提取声学特征;最后计算每个所述声学特征的均值和方差,并对所有数据进
行归一化处理。
[0023]进一步地,所述声学特征包括:基频、短时能量、梅尔频率倒谱系数和过零率。
[0024]与现有技术相比,本专利技术记载的基于Bi

LSTM

CNN的多模态语音情感识别方法,具有如下有益效果:
[0025]本专利技术使用多种模态情感信息之间的互补性来提高情感识别的准确度;不仅有效地提高了语音情感识别地准确率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于Bi

LSTM

CNN的多模态语音情感识别方法,其特征在于,包括:获取文本情感信息和音频情感信息;分别对所述文本情感信息和音频情感信息进行预处理;将预处理后的文本情感信息输入至Bi

LSTM网络中,输出语义特征;采用opensmile工具从预处理后的音频情感信息中提取声学特征;将所述语义特征和所述声学特征进行特征融合处理,获得融合特征;将所述语义特征和所述融合特征输入至CNN分类器中,通过softmax层后将其输出作为决策级融合的输入,通过决策融合公式计算得出每种情感对应的得分,取得分最大值对应的情感类别作为最终的情感识别结果。2.如权利要求1所述的基于Bi

LSTM

CNN的多模态语音情感识别方法,其特征在于,对所述文本情感信息进行预处理,包括:对所述文本情感信息进行词嵌入处理,将所述文本情感信息中的词转换成数字向量。3.如权利要求1所述的基于Bi

LSTM

CNN的多模态语音情感识别方法,其特征在于,对所述音频情感信息进行预处理,包括:首先对所述音频情感信息中的语音数据执行分帧加窗操作,从而减小信号中非连续部分的幅值,通过傅里叶变换将每帧语音数据的频率谱计算出来,并将傅里叶变换结果求平方得到相应频谱的能量谱,最后把所得到的能量谱按照时间维度拼接形成...

【专利技术属性】
技术研发人员:张翼英张楠马彩霞马兴毅韩龙哲
申请(专利权)人:天津科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1