【技术实现步骤摘要】
融合文本语义辅助的教师语音情感识别方法
[0001]本专利技术属于语音情感识别
,涉及一种融合文本语义辅助的教师语音情感识别方法。
技术介绍
[0002]在真实课堂中,教师作为教学的指引人,其一言一行都深刻影响着学生的学习体验。根据成就情绪控制价值理论可知,积极情绪可以增强学习动机,而消极情绪会损害学习,如焦虑会降低内在动机,导致学习者的学习兴趣逐渐降低。由此可知,教师授课时情感的波动,与学生的学习活动有着紧密的联系。而教师由于职业的特殊性以及个人性格原因,有的教师需要树立威严的形象以便于管理,或者有的教师本身不苟言笑,因此,他们表达的情感往往是模棱两可的。例如,教师在讲课过程中的语音特征是语气舒展、语调平缓,声音能量无太大波动,然而将其语音内容转化为文本可知,该教师在重点强调知识点的理解,在文本模态中体现的是积极的情感,而语音模态中却是中性的情感,这就导致在对教师情感进行识别的过程中产生很多误分类的样本,将教师的情感错误地归类为中性情感或者作为无情感标签而丢弃,这不但降低了中性情感的识别率,而且也因为舍弃太多有情感的语音数据使得数据集质量严重下降。可见,有必要根据教师授课语音的特殊性,对识别模型进行修正,重点识别出语音中存在的隐晦情感,提高中性情感的识别率。
[0003]近年来,随着计算机技术的快速发展,强大的性能使得计算机可以处理更复杂、更宏大的数据,深度学习技术的蓬勃发展,使深度学习技术逐步取代机器学习技术成为语音情感识别的主要分析方法。基于深度学习技术的情感识别是利用深度学习模型自动学习数据中的 ...
【技术保护点】
【技术特征摘要】
1.一种融合文本语义辅助的教师语音情感识别方法,其特征在于:该方法包括以下步骤:S1、数据预处理阶段:获取语音数据并对数据进行清洗与预处理,获取语音声谱图;将语音转换为文本,对文本进行数据清洗和文本词嵌入;S2、语音特征提取阶段:利用CNN和GRU分别提取声谱图中的空间特征以及时间特征;S3、文本语义辅助提取阶段:利用GRU提取文本的语义特征,即提取文本情感特征;S4、异构嵌入阶段:将文本序列的情感词与语音中的序列进行细粒度对齐,并使用注意力权重矩阵来解决嵌入差异问题,同时通过语音和文本的跨模态语义嵌入来进行情感细化;S5、特征融合阶段:通过特征层融合方法,利用键值对注意力机制将语音、文本两个不同模态的情感特征融合为新的特征;S6、情感分类阶段:将步骤S5获取的新特征输入到GRU中进行特征提取,然后在softmax函数中进行计算,输出对应情感标签的概率分布。2.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S2具体为,使用CNN模型进行局部空间感知,将空间特征建模为时序问题,再利用GRU获取时序特征,最终获得声谱图的空间信息x
s
和时间信息x
t
。3.根据权利要求2所述的教师语音情感识别方法,其特征在于:CNN计算方式为:式中,f表示激活函数,d
i
‑1表示第i
‑
1层特征图的数量以及用于生成第i层第j个特征图卷积核的深度,2η表示卷积核的通道数,b
i,j
表示偏置参数,λ表示卷积核的通道数,τ表示卷积核的深度,表示CNN在第i层第j个特征图上的输出。将GRU直接取代CNN中的全连接层,GRU计算方式为:z
t
=σ(W
z
·
[h
t
‑1,x
t
])r
t
=σ(W
r
·
[h
t
‑1,x
t
])])式中,x
t
表示当前时刻的输入;h
t
‑1表示前一时刻的隐藏状态;σ(
·
)和tanh(
·
)为两个激活函数,W
z
表示GRU更新门的权重矩阵;W
r
表示GRU重置门的权重矩阵;W表示GRU的整体的权重矩阵;表示GRU的候选隐藏状态。得到语音特征提取阶段的输出为A={a1,a2,
…
,a
i
},其中表示两个向量的拼接。4.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S3具体为,将语音转换得来的文本数据进行分词和预处理,并构建文本表示,通过独热编码完成词嵌入的量化表示,然后输入到BiGRU网络中;前向GRU的隐藏单元为
后向GRU的隐藏单元为后向GRU的隐藏单元为BiGRU的最终隐藏单元状态为h
t
:将BiGRU的隐藏状态作为输出t,则文本语义特征辅助提取阶段的输出为T=[t1,t2,
…
,t
i
]。5.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S4中,利用语义嵌入来学习语音帧和文本单词之间的对齐,使情感词与语音中的序列在时间上进行细粒度对齐,具体如下:给定一个编码的语音嵌入A和文本嵌入T...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。