一种基于Whisper预训练模型的蒙古语语音情感识别方法技术

技术编号：42462021 阅读：21 留言：0更新日期：2024-08-21 12:50

一种基于Whisper预训练模型的蒙古语语音情感识别方法，获取蒙古语情感语音音频数据，每条蒙古语音频对应一条蒙古语文本；从情感语音中提取对数梅尔频谱图和韵律学特征；前者输入Whisper预训练模型，然后处理从Whisper模型编码器部分得到各层编码器的中间特征，后者通过两个连续的非线性全连接层，以适配多头注意力模块的输入维度；处理后的频谱特征和韵律特征输入多头注意力模块，频谱特征计算注意力机制中的键值对，以韵律特征计算查询向量；得到注意力模块的输出后，计算其均值和方差后拼接；拼接后的特征输入预测部分进行预测。本发明专利技术能够克服由于蒙古语语料短缺带来的情感分析不准确问题，从而一定程度上缓解传统蒙古语情感识别模型性能低下的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，涉及语音情感识别，特别涉及一种基于whisper预训练模型的蒙古语语音情感识别方法。

技术介绍

1、语音情感识别是利用计算机建立语音信息载体与情感度量之间的关系，并赋予计算机识别、理解人类情感的能力，在人机交互中起着重要作用，是人工智能领域重要发展方向。它旨在通过分析文本或语音中的情感信息，确定文本或语音中所表达的情感倾向，通常包括积极、消极或中性。

2、蒙古语语音情感识别是指将语音情感识别技术应用于蒙古语场景并通过使用合适的数据和针对性的网络结构的方式，解决蒙古语语音识别中存在的问题并提高识别准确率。

3、但是，现有技术中还存在以下问题，

4、在现有技术中，对低资源语言的语音情感分析的关注较少。蒙古语作为低资源语种，其语音情感识别技术刚刚起步，研究成果不足，存在情感语音数据集质量低下和语音情感分析模型质量不佳等问题。在模型层面，低资源限制了音情感分析的特征质量和学习过程，使其无法理解复杂语境中的语义信息；在数据层面，低资源导致的样本匮乏问题使得模型训练和泛化能力受到限制。此外...

【技术保护点】

1.一种基于Whisper预训练模型的蒙古语语音情感识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于Whisper预训练模型的蒙古语语音情感识别方法，其特征在于，所述步骤1中，提取包含音频和视频的蒙古语情感视频数据集中的音频数据，每条蒙古语音频对应一条蒙古语文本，根据蒙古语文本及音频建立对应的情感标签。

3.根据权利要求1所述的基于Whisper预训练模型的蒙古语语音情感识别方法，其特征在于，所述步骤2中，对蒙古语情感音频，使用librosa对音频信号进行处理，首先，对音频信号预加重、分帧和加窗；其次，对每帧信号进行短时傅立叶变换STFT，得到短...

【技术特征摘要】

1.一种基于whisper预训练模型的蒙古语语音情感识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于whisper预训练模型的蒙古语语音情感识别方法，其特征在于，所述步骤1中，提取包含音频和视频的蒙古语情感视频数据集中的音频数据，每条蒙古语音频对应一条蒙古语文本，根据蒙古语文本及音频建立对应的情感标签。

3.根据权利要求1所述的基于whisper预训练模型的蒙古语语音情感识别方法，其特征在于，所述步骤2中，对蒙古语情感音频，使用librosa对音频信号进行处理，首先，对音频信号预加重、分帧和加窗；其次，对每帧信号进行短时傅立叶变换stft，得到短时幅度谱；最后，短时幅度谱通过梅尔滤波器组得到梅尔频谱，再对其进行对数运算得到对数梅尔频谱图；对韵律特征，使用disvoice提取。

4.根据权利要求1所述的基于whisper预训练模型的蒙古语语音情感识别方法，其特征在于，所述步骤3中，对数梅尔频谱图用作whisper预训练模型的输入，然后处理whisper预训练模型编码器部分的中间层特征，具体包括：

5.根据权利要求4所述的基于whisper预训练模型的蒙古语语音情感识别方法，其特征在于，以...

【专利技术属性】
技术研发人员：仁庆道尔吉，袁帅，李雷孝，石宝，吉亚图，乌尼尔，
申请(专利权)人：内蒙古工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人