融合文本语义辅助的教师语音情感识别方法技术

技术编号:38198605 阅读:9 留言:0更新日期:2023-07-21 16:37
本发明专利技术涉及一种融合文本语义辅助的教师语音情感识别方法,属于语音情感识别技术领域。该方法包括:对采集到的数据进行清洗和预处理,将语音数据自动转换为文本数据;使用CNN和GRU分别提取语音声谱图的空间信息和时间信息,使用Bi

【技术实现步骤摘要】
融合文本语义辅助的教师语音情感识别方法


[0001]本专利技术属于语音情感识别
,涉及一种融合文本语义辅助的教师语音情感识别方法。

技术介绍

[0002]在真实课堂中,教师作为教学的指引人,其一言一行都深刻影响着学生的学习体验。根据成就情绪控制价值理论可知,积极情绪可以增强学习动机,而消极情绪会损害学习,如焦虑会降低内在动机,导致学习者的学习兴趣逐渐降低。由此可知,教师授课时情感的波动,与学生的学习活动有着紧密的联系。而教师由于职业的特殊性以及个人性格原因,有的教师需要树立威严的形象以便于管理,或者有的教师本身不苟言笑,因此,他们表达的情感往往是模棱两可的。例如,教师在讲课过程中的语音特征是语气舒展、语调平缓,声音能量无太大波动,然而将其语音内容转化为文本可知,该教师在重点强调知识点的理解,在文本模态中体现的是积极的情感,而语音模态中却是中性的情感,这就导致在对教师情感进行识别的过程中产生很多误分类的样本,将教师的情感错误地归类为中性情感或者作为无情感标签而丢弃,这不但降低了中性情感的识别率,而且也因为舍弃太多有情感的语音数据使得数据集质量严重下降。可见,有必要根据教师授课语音的特殊性,对识别模型进行修正,重点识别出语音中存在的隐晦情感,提高中性情感的识别率。
[0003]近年来,随着计算机技术的快速发展,强大的性能使得计算机可以处理更复杂、更宏大的数据,深度学习技术的蓬勃发展,使深度学习技术逐步取代机器学习技术成为语音情感识别的主要分析方法。基于深度学习技术的情感识别是利用深度学习模型自动学习数据中的特征,进而完成情感的识别和分类。它与传统机器学习技术的情感识别相比,能够自动检测和提取数据中复杂的结构和特征,不需要手动提取和调整特征;能够从给定的原始数据中提取特征,而不需要特征提取预处理;以及能够处理未标记的数据等多个优点。其中,深度神经网络是基于前馈的结构,该结构由输入和输出之间的一个或多个隐藏层组成,被成功应用于语音情感识别的情感分类。文献[SUN L,ZOU B,FU S,et al.Speech emotion recognition based on DNN

decision tree SVM model[J].Speech Communication,2019,115:29

37.]提出一种基于DNN混合模型的语音情感识别方法,该模型不但可以准确地对语音信号进行情感分类,而且还重点关注某些特有情感的识别。循环神经网络在语音情感识别和自然语言处理等基于语音的分类中非常有效,文献[MIRSAMADI S,BARSOUM E,ZHANG C.Automatic speech emotion recognition using recurrent neural networks with local attention[C].IEEE International Conference on Acoustics,Speech and Signal Processing.USA,2017:2227

2231.]利用RNN学习与情感相关的短时间声学特征,并利用局部注意力机制使模型专注提取情感更突出的特定区域,以提高模型的识别率,RNN虽然可以提取短时语音的情感特征,但是在处理长序列时,会出现梯度消失和梯度爆炸的问题。为此,引入长短期记忆网络,它可有效解决RNN所不能处理的问题。文献[XIE Y,LIANG R,LIANG Z,et al.Speech emotion classification using attention

based LSTM[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2019,27(11):1675

1685.]提出基于注意力机制的LSTM模型,利用帧级语音特征与LSTM相结合进行语音情感识别,取得良好的性能。CNN因其可以提取丰富的空间信息而被引入到SER中,文献[SATT A,ROZENBERG S,HOORY R.Efficient emotion recognition from speech using deep learning on spectrograms[C].Interspeech.Sweden,2017:1089

1093.]利用语音的频谱信息,通过CNN提取语音的空间信息后利用LSTM获取语音的时间信息,极大地提高了情感识别的准确性。
[0004]与通用场景情感分类不同的是,教学场景下一般不会出现诸如恐惧的消极情感,而对学习者来说会出现困惑、专注、自信等特有的教学情感,为此文献[徐振国,张冠文,孟祥增,等.基于深度学习的学习者情感识别与应用[J].电化教育研究,2019,40(02):87

94.]提出基于CNN的情感识别方法,通过利用3层卷积网络来识别学习者面部表情中所蕴含的情感。除了从面部表情识别获得情感外,学习者在回答教师提问和互相讨论时的语音中也有着不同的情感。在利用语音识别技术对教师活动和情感进行识别的研究中,文献[骆祖莹,赵琦琦,段福庆.基于教师近场语音的课堂教学过程自动分析[J].现代教育技术,2021,31(08):76

84.]对教师近场语音进行识别,通过识别语音片段在时间维度上的长短,将课堂教学分为讲授、讨论、提问、自习等四类教学活动,但这是通过提取语音的时间序列进行教学活动的分类,识别的是教师教学活动而非教师情感。文献[LIANG J,ZHANG X Y,ZHAO Z H.Speech emotion recognition of teachers in classroom teaching[C].Chinese Control and Decision Conference.China,2020:5045

5050.]设计了一种情感检测音频处理系统,使用RNN构建语音情感识别分类模型,通过提取教师演讲语音的声学特征来判断他们的情感。文献[李勇帆,李里程.情感计算在网络远程教育系统中的应用:功能、研究现状及关键问题[J].现代远程教育研究,2013(02):100

106.]将教师的情感粗粒度地分为积极情感和消极情感,但这样的二分类问题相对简单,且未考虑到课堂教学场景下占较大比重的中性情感的识别。
[0005]一般对于教师而言,其授课情感的表露是隐晦的,多数模型由于无法提取语音中隐晦的情感而导致模型性能的降低。因此如何深度挖掘教师语音中隐藏的情感,提升对中性情感的识别率是亟待解决的问题。由于教学场景的特殊性,已有的情感识别模型不能很好地识别教师语音中的隐晦情感,导致模型将其他情感类别误分类为中性情感,降低了模型对于中性情感的识别率,进而降低了模型的整体识别率。

技术实现思路

[0006]有鉴于此,本专利技术的目的在于提供一种融合文本语义辅助的教师语音情感识别方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合文本语义辅助的教师语音情感识别方法,其特征在于:该方法包括以下步骤:S1、数据预处理阶段:获取语音数据并对数据进行清洗与预处理,获取语音声谱图;将语音转换为文本,对文本进行数据清洗和文本词嵌入;S2、语音特征提取阶段:利用CNN和GRU分别提取声谱图中的空间特征以及时间特征;S3、文本语义辅助提取阶段:利用GRU提取文本的语义特征,即提取文本情感特征;S4、异构嵌入阶段:将文本序列的情感词与语音中的序列进行细粒度对齐,并使用注意力权重矩阵来解决嵌入差异问题,同时通过语音和文本的跨模态语义嵌入来进行情感细化;S5、特征融合阶段:通过特征层融合方法,利用键值对注意力机制将语音、文本两个不同模态的情感特征融合为新的特征;S6、情感分类阶段:将步骤S5获取的新特征输入到GRU中进行特征提取,然后在softmax函数中进行计算,输出对应情感标签的概率分布。2.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S2具体为,使用CNN模型进行局部空间感知,将空间特征建模为时序问题,再利用GRU获取时序特征,最终获得声谱图的空间信息x
s
和时间信息x
t
。3.根据权利要求2所述的教师语音情感识别方法,其特征在于:CNN计算方式为:式中,f表示激活函数,d
i
‑1表示第i

1层特征图的数量以及用于生成第i层第j个特征图卷积核的深度,2η表示卷积核的通道数,b
i,j
表示偏置参数,λ表示卷积核的通道数,τ表示卷积核的深度,表示CNN在第i层第j个特征图上的输出。将GRU直接取代CNN中的全连接层,GRU计算方式为:z
t
=σ(W
z
·
[h
t
‑1,x
t
])r
t
=σ(W
r
·
[h
t
‑1,x
t
])])式中,x
t
表示当前时刻的输入;h
t
‑1表示前一时刻的隐藏状态;σ(
·
)和tanh(
·
)为两个激活函数,W
z
表示GRU更新门的权重矩阵;W
r
表示GRU重置门的权重矩阵;W表示GRU的整体的权重矩阵;表示GRU的候选隐藏状态。得到语音特征提取阶段的输出为A={a1,a2,

,a
i
},其中表示两个向量的拼接。4.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S3具体为,将语音转换得来的文本数据进行分词和预处理,并构建文本表示,通过独热编码完成词嵌入的量化表示,然后输入到BiGRU网络中;前向GRU的隐藏单元为
后向GRU的隐藏单元为后向GRU的隐藏单元为BiGRU的最终隐藏单元状态为h
t
:将BiGRU的隐藏状态作为输出t,则文本语义特征辅助提取阶段的输出为T=[t1,t2,

,t
i
]。5.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S4中,利用语义嵌入来学习语音帧和文本单词之间的对齐,使情感词与语音中的序列在时间上进行细粒度对齐,具体如下:给定一个编码的语音嵌入A和文本嵌入T...

【专利技术属性】
技术研发人员:熊余钟鑫蔡婷
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1