一种语音情感识别方法、系统、电子设备及介质技术方案

技术编号:39001322 阅读:10 留言:0更新日期:2023-10-07 10:33
本发明专利技术公开一种语音情感识别方法、系统、电子设备及介质,涉及视听内容情感识别领域,方法包括:获取待识别语音信号;利用语音情感识别模型,对待识别语音信号进行识别,预测情感种类;其中,语音情感识别模型是利用训练数据集对语音情感识别初始模型进行训练得到的;训练数据集包括多条已标注地理标签和情感种类标签的方言语音信号;语音情感识别初始模型包括依次连接的中文语音预训练模型chinese

【技术实现步骤摘要】
一种语音情感识别方法、系统、电子设备及介质


[0001]本专利技术涉及视听内容情感识别领域,特别是涉及一种语音情感识别方法、系统、电子设备及介质。

技术介绍

[0002]语音携带着大量稀疏性情感信息。语音情感识别(SER)是从说话人的语音信号中检测说话人的情感状态,通常被视为一项分类任务,一般分为预处理、特征提取和分类等步骤。早期的特征提取依赖专业的人工经验和公式来提取声谱、韵律等多种声学特征;随着深度学习的进步,利用神经网络提取的深度声学特征使得SER任务识别率有所提高,但基于循环神经网络或卷积神经网络等传统深度模型存在长距离梯度消失和长序列到定长向量的信息损失问题,在提取全局语音情感特征方面存在局限性。近些年来,一般采用端到端深度模型可以隐式地提取特征(如利用卷积层)。目前SER任务的主流研究在设计可以提取更有效的全局语音情感特征的深度模型来提高识别率,模型识别率一般在70%左右。为提高SER任务识别率,还需考虑性别差异、文化差异等影响情感表达和理解的因素。SER的现有问题是由于地域性的语言表达和对应的情感存在差异,导致在某一种语言取得良好表现的模型但无法迁移到另一种语言的SER任务中。中国人口基数大,地域性语言种类多,不同方言的语言情绪韵律的表达和识别存在差异,语音情感识别存在方言障碍的问题,以南北方粗粒度举例,南方人听北方方言粗犷,北方人听南方方言尖细。因此考虑方言障碍,基于方言差异的语音情感识别研究方法对于提升SER任务识别率很有意义。
[0003]2016年提出通过语言识别增强语音中情感的多语种识别,使用语言标识符检测语言,并选择相应的模型进行情感识别。2017年提出从语音声学和面部表情模态提取情感特征,验证了文化因素对情感识别的影响,设计基于共同情感空间的多文化联合训练策略来减弱文化因素对情感识别的影响。2020年提出针对特定方言的识别与情感分析,针对扬泰方言的特点建立了扬泰方言语音情感数据库,并进行情感分类。为提高SER任务的识别率,针对方言障碍的相关研究较少。已有研究采用先识别语言种类再选择对应的模型进行情感识别、设计减弱文化因素的训练策略或针对某一特定方言进行语音情感识别研究。但是,此方法存在模型只能识别已训练的语种,无法识别新语言的局限性,模型的泛化能力不高。
[0004]综上所述,目前的语音情感识别模型对模型训练使用的训练集之外语种的语音不能进行准确识别。

技术实现思路

[0005]本专利技术的目的是提供一种语音情感识别方法、系统、电子设备及介质,以提高语音情感识别的准确性。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种语音情感识别方法,包括:
[0008]获取待识别语音信号;
[0009]利用语音情感识别模型,对所述待识别语音信号进行识别,确定情感种类;其中,所述语音情感识别模型是利用训练数据集对语音情感识别初始模型进行训练得到的;所述训练数据集包括多条已标注地理标签和情感种类标签的方言语音信号;所述语音情感识别初始模型包括依次连接的chinese

hubert

base模型、第一全连接层以及第二全连接层;所述情感种类为愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊喜或信任。
[0010]可选地,所述语音情感识别模型的训练过程,具体包括:
[0011]构建训练数据集;
[0012]将所述已标注地理标签和情感种类标签的方言语音信号输入至当前语音情感识别初始模型,得到情感种类预测概率分布;
[0013]初始化当前语音情感识别初始模型的参数;
[0014]根据交叉熵损失函数和方言

情感的正则项,确定当前语音情感识别初始模型的损失函数,利用随机梯度下降算法迭代更新当前语音情感识别初始模型的参数,直到损失函数的值收敛或达到预设的迭代次数停止训练;所述方言

情感的正则项是根据当前方言语音信号的地理标签、当前方言语音信号的情感种类预测概率分布、当前情感种类标签对应的另一方言语音信号的地理标签和当前情感种类标签对应的另一方言语音信号的情感种类预测概率分布确定的;
[0015]将损失函数的最小损失值对应的当前语音情感识别初始模型作为语音情感识别模型。
[0016]可选地,将所述已标注地理标签和情感种类标签的方言语音信号输入至当前语音情感识别初始模型,得到情感种类预测概率分布,具体包括:
[0017]利用所述中文语音预训练模型chinese

hubert

base,提取所述已标注地理标签和情感种类标签的方言语音信号的语音特征序列;
[0018]利用所述第一全连接层,将所述语音特征序列转化为单个语音特征向量;
[0019]根据所述语音特征向量,利用所述第二全连接层,确定情感种类预测概率分布。
[0020]可选地,所述方言

情感的正则项的确定过程,具体包括:
[0021]根据当前方言语音信号的地理标签和当前情感种类标签对应的另一方言语音信号的地理标签,确定当前方言语音信号和当前情感种类标签对应的另一方言语音信号的位置差;
[0022]根据所述位置差、当前方言语音信号的情感种类预测概率分布、当前情感种类标签对应的另一方言语音信号的情感种类预测概率分布,确定所述方言

情感的正则项。
[0023]可选地,根据交叉熵损失函数和方言

情感的正则项,确定当前语音情感识别初始模型的损失函数,具体包括:
[0024]利用公式L=L
e
+λL
g
,确定当前语音情感识别初始模型的损失函数;其中,L
e
为交叉熵损失函数;L
g
为方言

情感的正则项;λ为超参数。
[0025]一种语音情感识别系统,包括:
[0026]信号获取模块,用于获取待识别语音信号;
[0027]识别模块,用于利用语音情感识别模型,对所述待识别语音信号进行识别,确定情感种类;其中,所述语音情感识别模型是利用训练数据集对语音情感识别初始模型进行训练得到的;所述训练数据集包括多条已标注地理标签和情感种类标签的方言语音信号;所
述语音情感识别初始模型包括依次连接的chinese

hubert

base模型、第一全连接层以及第二全连接层;所述情感种类为愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊喜或者信任。
[0028]一种电子设备,包括:存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的语音情感识别方法。
[0029]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音情感识别方法。
[0030]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情感识别方法,其特征在于,包括:获取待识别语音信号;利用语音情感识别模型,对所述待识别语音信号进行识别,确定情感种类;其中,所述语音情感识别模型是利用训练数据集对语音情感识别初始模型进行训练得到的;所述训练数据集包括多条已标注地理标签和情感种类标签的方言语音信号;所述语音情感识别初始模型包括依次连接的中文语音预训练模型chinese

hubert

base、第一全连接层以及第二全连接层;所述情感种类为愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊喜或信任。2.根据权利要求1所述的语音情感识别方法,其特征在于,所述语音情感识别模型的训练过程,具体包括:构建训练数据集;将所述已标注地理标签和情感种类标签的方言语音信号输入至当前语音情感识别初始模型,得到情感种类预测概率分布;初始化当前语音情感识别初始模型的参数;根据交叉熵损失函数和方言

情感的正则项,确定当前语音情感识别初始模型的损失函数,利用随机梯度下降算法迭代更新当前语音情感识别初始模型的参数,直到损失函数的值收敛或达到预设的迭代次数停止训练;所述方言

情感的正则项是根据当前方言语音信号的地理标签、当前方言语音信号的情感种类预测概率分布、当前情感种类标签对应的另一方言语音信号的地理标签和当前情感种类标签对应的另一方言语音信号的情感种类预测概率分布确定的;将损失函数的最小损失值对应的当前语音情感识别初始模型作为语音情感识别模型。3.根据权利要求2所述的语音情感识别方法,其特征在于,将所述已标注地理标签和情感种类标签的方言语音信号输入至当前语音情感识别初始模型,得到情感种类预测概率分布,具体包括:利用所述中文语音预训练模型chinese

hubert

base,提取所述已标注地理标签和情感种类标签的方言语音信号的语音特征序列;利用所述第一全连接层,将所述语音特征序列转化为单个语音特征向量;根据所述语音特征向量,利用所述第二全连接层,确定情感种类预测概率分布。4.根据权利要求2所述的...

【专利技术属性】
技术研发人员:刘文李玺坤王冬霞朱立谷石磊张伟汤新坤徐颖
申请(专利权)人:中国传媒大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1