语音情绪识别方法技术

技术编号:40399902 阅读:22 留言:0更新日期:2024-02-20 22:25
公开了一种语音情绪识别方法,所述方法包括:采集语音数据;基于语音数据提取至少两种图像化语音特征;以及使用预训练的语音情绪识别模型对至少两种图像化语音特征进行识别,并获得情绪预测结果,其中,所述语音情绪识别模型包括:卷积层,被配置为以至少两种图像化语音特征作为输入提取全局特征信息;注意力层,被配置基于全局特征信息根据局部‑全局广播注意力或移动视觉变换器注意力并且还根据通道注意力、空间注意力、深层注意力提取注意力特征;以及输出层,被配置为根据注意力特征确定情绪预测结果。

【技术实现步骤摘要】

本公开涉及情绪识别领域,具体地,涉及一种语音情绪识别方法,更具体地,涉及一种基于多重特征融合的语音情绪识别方法。


技术介绍

1、情绪能够表现出人的心理状态,并且可以从多方面进行判断,其中,言语中情绪的变化是比较明显的。例如,说话的语气、语调和语速等信息都可以透露出情绪的变化。因此,可以通过识别语音中的情绪来了解心理状态。

2、目前,现有的情绪识别研究通常通过提取语音的梅尔频谱特征来进行识别,但是单一的特征会导致模型提取的信息不足,无法有效拟合数据,导致模型泛化能力不足。另外,基于语音的情绪识别方法主要为循环模型和基于transformer的模型。在实际应用中,循环模型容易出现梯度消失问题,且训练效率低下;基于transformer的模型在目前设备上难以支持大量数据同时训练。


技术实现思路

1、本公开针对现有技术中存在的上述技术问题,提供了一种语音情绪识别方法和装置。

2、本公开提供了一种语音情绪识别方法,所述方法包括:采集语音数据;基于语音数据提取至少两种图像化语音特征;以及使用预训练本文档来自技高网...

【技术保护点】

1.一种语音情绪识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述至少两种图像化语音特征包括:梅尔频谱特征、短时傅里叶变换特征、梅尔倒谱系数特征、频谱对比度特征、频谱中心特征、平均过零率中的至少两种。

3.根据权利要求1所述的方法,其特征在于,所述卷积层包括:

4.根据权利要求1所述的方法,其特征在于,所述注意力层包括:

5.根据权利要求4所述的方法,其特征在于,所述第一特征、所述第二特征和所述第三特征分别由表示各个情绪标签的概率的向量来表示,

6.根据权利要求5所述的方法,其特征在于,所述情绪标签包括...

【技术特征摘要】

1.一种语音情绪识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述至少两种图像化语音特征包括:梅尔频谱特征、短时傅里叶变换特征、梅尔倒谱系数特征、频谱对比度特征、频谱中心特征、平均过零率中的至少两种。

3.根据权利要求1所述的方法,其特征在于,所述卷积层包括:

4.根据权利要求1所述的方法,其特征在于,所述注意力层包括:

5.根据权利要求4所述的方法,其特征在于,所述第一特征、所述第二特征和所述第三特征分别由表示各个情绪标签的概率的向量来表示,

6.根据权利要求5所述的方法,其特征在于,所述情绪标签包括中性、高兴、悲伤、生气、恐惧、厌恶和惊讶的标签。

7.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:陈宪语童心贺佳琦李永春潘瑶苗秀丽魏宏超周丹蒲岩
申请(专利权)人:沈阳康慧类脑智能协同创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1