【技术实现步骤摘要】
本专利技术属于人工智能,涉及语音情感识别,特别涉及一种基于whisper预训练模型的蒙古语语音情感识别方法。
技术介绍
1、语音情感识别是利用计算机建立语音信息载体与情感度量之间的关系,并赋予计算机识别、理解人类情感的能力,在人机交互中起着重要作用,是人工智能领域重要发展方向。它旨在通过分析文本或语音中的情感信息,确定文本或语音中所表达的情感倾向,通常包括积极、消极或中性。
2、蒙古语语音情感识别是指将语音情感识别技术应用于蒙古语场景并通过使用合适的数据和针对性的网络结构的方式,解决蒙古语语音识别中存在的问题并提高识别准确率。
3、但是,现有技术中还存在以下问题,
4、在现有技术中,对低资源语言的语音情感分析的关注较少。蒙古语作为低资源语种,其语音情感识别技术刚刚起步,研究成果不足,存在情感语音数据集质量低下和语音情感分析模型质量不佳等问题。在模型层面,低资源限制了音情感分析的特征质量和学习过程,使其无法理解复杂语境中的语义信息;在数据层面,低资源导致的样本匮乏问题使得模型训练和泛化能力受到限制。此外
...【技术保护点】
1.一种基于Whisper预训练模型的蒙古语语音情感识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于Whisper预训练模型的蒙古语语音情感识别方法,其特征在于,所述步骤1中,提取包含音频和视频的蒙古语情感视频数据集中的音频数据,每条蒙古语音频对应一条蒙古语文本,根据蒙古语文本及音频建立对应的情感标签。
3.根据权利要求1所述的基于Whisper预训练模型的蒙古语语音情感识别方法,其特征在于,所述步骤2中,对蒙古语情感音频,使用librosa对音频信号进行处理,首先,对音频信号预加重、分帧和加窗;其次,对每帧信号进行短时傅立叶
...【技术特征摘要】
1.一种基于whisper预训练模型的蒙古语语音情感识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于whisper预训练模型的蒙古语语音情感识别方法,其特征在于,所述步骤1中,提取包含音频和视频的蒙古语情感视频数据集中的音频数据,每条蒙古语音频对应一条蒙古语文本,根据蒙古语文本及音频建立对应的情感标签。
3.根据权利要求1所述的基于whisper预训练模型的蒙古语语音情感识别方法,其特征在于,所述步骤2中,对蒙古语情感音频,使用librosa对音频信号进行处理,首先,对音频信号预加重、分帧和加窗;其次,对每帧信号进行短时傅立叶变换stft,得到短时幅度谱;最后,短时幅度谱通过梅尔滤波器组得到梅尔频谱,再对其进行对数运算得到对数梅尔频谱图;对韵律特征,使用disvoice提取。
4.根据权利要求1所述的基于whisper预训练模型的蒙古语语音情感识别方法,其特征在于,所述步骤3中,对数梅尔频谱图用作whisper预训练模型的输入,然后处理whisper预训练模型编码器部分的中间层特征,具体包括:
5.根据权利要求4所述的基于whisper预训练模型的蒙古语语音情感识别方法,其特征在于,以...
【专利技术属性】
技术研发人员:仁庆道尔吉,袁帅,李雷孝,石宝,吉亚图,乌尼尔,
申请(专利权)人:内蒙古工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。