【技术实现步骤摘要】
基于多标签纠正和时空协同融合的语音情感识别方法
[0001]本专利技术属于人工智能领域,特别涉及一种基于多标签纠正和时空协同融合的语音情感识别方法。
技术介绍
[0002]语音是人类自然交流的主要媒介之一,不仅传达了说话人的目的信息,还表现了说话人的情感状态。利用计算机从语音中识别说话人情感状态的过程被称为语音情感识别。它是人机交互中的一项重要任务,可以帮助智能语音交互系统理解用户的潜在意图,为产品带来更好的用户体验。比如呼叫中心的语音接听助手,智慧家居的语音服务,智能驾驶的情感检测系统、医疗保健的情感辅助治疗等。随着这些应用需求的高涨,语音情感识别引起了越来越多研究者的关注。
[0003]常见的语音情感识别是基于单标签训练的,即一条语音对应一个固定的真实标签,代表该语音只包含了一种情感。然而,现实生活中大多数语音情感是模糊的,往往掺杂了多种情感,比如情感为伤心的语音表达中会夹杂着愤怒和失望的情感表现。此外,情感专家们可能会根据自身文化和个性的不同,而对模糊的情感呈现出不同的看法,即对情感感知具有主观性。结合上述,以 ...
【技术保护点】
【技术特征摘要】
1.基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,构建包括时域模块、空域模块、协同融合模块以及分类模块的时空协同融合网络,采用单标签语音对该网络进行预训练优化,利用预训练的时空协同融合网络修改歧义语音的情感标签,再混合标签纠正后的歧义语音和单标签语音,重新训练优化时空协同融合网络,完成优化的时空协同融合网络对语音进行情感识别,过程具体包括以下步骤:S1、根据语音频谱的空间特性和语音波形的时序特性,利用卷积神经网络和Wav2vec模型分别从语音的空间域和时间域提取情感特征,并采用协同融合方法实现时空特征交互,构成时空协同融合网络;S2、初始化时空协同融合网络,将具有单个情感标签的语音作为第一训练集,用于预训练时空协同融合网络,将此得到的预训练网络称为M
p
;S3、将歧义语音输入完成预训练的时空协同融合网络M
p
,预测得到输入样本的生成情感标签;S4、将歧义语音的生成情感标签与原始多标签结合进行标签纠错,得到具有纠正标签的歧义语音样本;S5、将具有单个情感标签的语音和具有纠正标签的歧义语音作为第二训练集,重新训练优化时空协同融合网络,并将该网络称为M
f
;其中,歧义语音是指具有多个情感标签的语音样本。2.根据权利要求1所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,时空协同融合网络包括:101、在时域模块,利用Wav2vec模型从语音信息的原始波形中获取时间域情感特征;102、在空域模块,利用卷积神经网络对语音消息的频域进行处理,得到语音消息的空间域情感特征;103、在协同融合模块利用一个全连接层,将空间域情感特征转换为空间情感权重,将空间情感权重与时间域情感特征相乘进行融合,得到附有空间情感信息的时间情感特征;104、将附有空间情感信息的时间情感特征输入分类模块,得到情感分类结果。3.根据权利要求1所述的基于多标签纠正和时空协同融合的语音情感识别方法,其特征在于,将具有单个情感标签的样本作为第一训练集,输入时空协同融合网络进行预训练的损失函数表示为:其中,N表示情感数据集的样本总数量,为语音的单个情感标签,表示预训练时空协同融合网络M
p
的预测输出,x
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。