一种语音情感识别方法、系统、电子设备及介质技术方案

技术编号：39001322 阅读：10 留言：0更新日期：2023-10-07 10:33

本发明专利技术公开一种语音情感识别方法、系统、电子设备及介质，涉及视听内容情感识别领域，方法包括：获取待识别语音信号；利用语音情感识别模型，对待识别语音信号进行识别，预测情感种类；其中，语音情感识别模型是利用训练数据集对语音情感识别初始模型进行训练得到的；训练数据集包括多条已标注地理标签和情感种类标签的方言语音信号；语音情感识别初始模型包括依次连接的中文语音预训练模型chinese

全部详细技术资料下载

【技术实现步骤摘要】
一种语音情感识别方法、系统、电子设备及介质

[0001]本专利技术涉及视听内容情感识别领域，特别是涉及一种语音情感识别方法、系统、电子设备及介质。

技术介绍

[0002]语音携带着大量稀疏性情感信息。语音情感识别(SER)是从说话人的语音信号中检测说话人的情感状态，通常被视为一项分类任务，一般分为预处理、特征提取和分类等步骤。早期的特征提取依赖专业的人工经验和公式来提取声谱、韵律等多种声学特征；随着深度学习的进步，利用神经网络提取的深度声学特征使得SER任务识别率有所提高，但基于循环神经网络或卷积神经网络等传统深度模型存在长距离梯度消失和长序列到定长向量的信息损失问题，在提取全局语音情感特征方面存在局限性。近些年来，一般采用端到端深度模型可以隐式地提取特征(如利用卷积层)。目前SER任务的主流研究在设计可以提取更有效的全局语音情感特征的深度模型来提高识别率，模型识别率一般在70％左右。为提高SER任务识别率，还需考虑性别差异、文化差异等影响情感表达和理解的因素。SER的现有问题是由于地域性的语言表达和对应的情感存在差异，导致在某一种语言取得良好表现的模型但无法迁移到另一种语言的SER任务中。中国人口基数大，地域性语言种类多，不同方言的语言情绪韵律的表达和识别存在差异，语音情感识别存在方言障碍的问题，以南北方粗粒度举例，南方人听北方方言粗犷，北方人听南方方言尖细。因此考虑方言障碍，基于方言差异的语音情感识别研究方法对于提升SER任务识别率很有意义。
[0003]2016年提出通过语言识别增强语音中情感的多语种识...

【技术保护点】

【技术特征摘要】
1.一种语音情感识别方法，其特征在于，包括：获取待识别语音信号；利用语音情感识别模型，对所述待识别语音信号进行识别，确定情感种类；其中，所述语音情感识别模型是利用训练数据集对语音情感识别初始模型进行训练得到的；所述训练数据集包括多条已标注地理标签和情感种类标签的方言语音信号；所述语音情感识别初始模型包括依次连接的中文语音预训练模型chinese
‑
hubert
‑
base、第一全连接层以及第二全连接层；所述情感种类为愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊喜或信任。2.根据权利要求1所述的语音情感识别方法，其特征在于，所述语音情感识别模型的训练过程，具体包括：构建训练数据集；将所述已标注地理标签和情感种类标签的方言语音信号输入至当前语音情感识别初始模型，得到情感种类预测概率分布；初始化当前语音情感识别初始模型的参数；根据交叉熵损失函数和方言
‑
情感的正则项，确定当前语音情感识别初始模型的损失函数，利用随机梯度下降算法迭代更新当前语音情感识别初始模型的参数，直到损失函数的值收敛或达到预设的迭代次数停止训练；所述方言
‑
情感的正则项是根据当前方言语音信号的地理标签、当前方言语音信号的情感种类预测概率分布、当前情感种类标签对应的另一方言语音信号的地理标签和当前情感种类标签对应的另一方言语音信号的情感种类预测概率分布确定的；将损失函数的最小损失值对应的当前语音情感识别初始模型作为语音情感识别模型。3.根据权利要求2所述的语音情感识别方法，其特征在于，将所述已标注地理标签和情感种类标签的方言语音信号输入至当前语音情感识别初始模型，得到情感种类预测概率分布，具体包括：利用所述中文语音预训练模型chinese
‑
hubert
‑
base，提取所述已标注地理标签和情感种类标签的方言语音信号的语音特征序列；利用所述第一全连接层，将所述语音特征序列转化为单个语音特征向量；根据所述语音特征向量，利用所述第二全连接层，确定情感种类预测概率分布。4.根据权利要求2所述的...

【专利技术属性】
技术研发人员：刘文，李玺坤，王冬霞，朱立谷，石磊，张伟，汤新坤，徐颖，
申请(专利权)人：中国传媒大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人