基于语音的情感识别方法和装置、电子设备及存储介质制造方法及图纸

技术编号：38411417 阅读：10 留言：0更新日期：2023-08-07 11:17

本申请实施例提供了一种基于语音的情感识别方法和装置、电子设备及存储介质，属于人工智能和金融科技技术领域。该方法包括：获取原始音频数据，对所述原始音频数据进行频谱提取得到梅尔频谱数据，对所述梅尔频谱数据进行音素划分得到音素序列，对所述梅尔频谱数据进行音高提取得到音高曲线，将所述音素序列和所述音高曲线进行拼接得到音素音高联合序列，根据所述音素音高联合序列进行特征提取得到目标情感特征，根据所述目标情感特征进行情感识别，得到目标情感类别。本申请实施例能够提高情感识别的准确率。情感识别的准确率。情感识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音的情感识别方法和装置、电子设备及存储介质

[0001]本申请涉及人工智能和金融科技
，尤其涉及一种基于语音的情感识别方法和装置、电子设备及存储介质。

技术介绍

[0002]语音情感识别(SER)可以用于根据语音片段识别出情感类别，该情感类别可以用于对话系统和人机交互界面，例如银行系统、保险系统等。传统的语音情感识别方法主要基于人工定义的中层特征，如梅尔频率倒谱系数(MFCC)、音高、过零率或者频谱质心等，基于人工定义的中层特征进行情感识别具有泛化性较好、所需计算资源较少的优点，但是存在识别精确度低、在一些场景下表现较差的缺陷。例如，以通过梅尔频率方式为例，通常的方法是：首先提取短时傅里叶变换(STFT)频谱或梅尔频谱，再使用深度学习模型(例如使用卷积神经网络，CNN)提取该频谱特征，以基于频谱特征进行情感识别；然，当前深度学习方法的主要问题是受限于模型的感受野和拟合能力，其难以学习到长语音信号中的前后依赖关系，对语音情感的判断更多依靠语音频谱中的基本信号特征，如能量分布，音色等，从而导致了面对较为复杂的输入时，情感识别的准确率低；并且，现存深度学习方法需要高标注质量的训练数据集，经济成本较高。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种基于语音的情感识别方法和装置、电子设备及存储介质，旨在提高情感识别的准确率。
[0004]为实现上述目的，本申请实施例的第一方面提出了一种基于语音的情感识别方法，所述方法包括：
[0005]获取原始音频数据；
[0

【技术保护点】

【技术特征摘要】
1.一种基于语音的情感识别方法，其特征在于，所述方法包括：获取原始音频数据；对所述原始音频数据进行频谱提取，得到梅尔频谱数据；对所述梅尔频谱数据进行音素划分，得到音素序列；对所述梅尔频谱数据进行音高提取，得到音高曲线；将所述音素序列和所述音高曲线进行拼接，得到音素音高联合序列；根据所述音素音高联合序列进行特征提取，得到目标情感特征；根据所述目标情感特征进行情感识别，得到目标情感类别。2.根据权利要求1所述的方法，其特征在于，所述根据所述音素音高联合序列进行特征提取，得到目标情感特征，包括：对所述音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量；通过预设的Transformer编码器对所述音素音高联合嵌入向量进行情感特征提取，得到所述目标情感特征。3.根据权利要求2所述的方法，其特征在于，所述音素音高联合序列为二维序列，所述对所述音素音高联合序列进行嵌入表示，得到音素音高联合嵌入向量，包括:对所述音素音高联合序列进行位置提取，得到位置向量；将所述音素音高联合序列进行一维展平处理，得到音素音高联合展平向量；将所述音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量；将所述位置向量和所述音素音高联合等长向量进行合并，得到所述音素音高联合嵌入向量。4.根据权利要求3所述的方法，其特征在于，所述将所述音素音高联合展平向量进行向量等长标准化处理，音素音高联合等长向量，包括:根据所述音素序列，得到标准音素长度；获取所述音素音高联合展平向量的向量长度，得到初步向量长度；其中，所述初步向量长度包括当前音素长度；计算所述标准音素长度和所述当前音素长度之间的差值，得到长度差；若所述长度差不等于零，则根据所述长度差对所述音素音高联合展平向量进行向量填补处理，得到所述音素音高联合等长向量。5.根据权利要求1至4任一项所述的方法，其特征在于，所述对所述梅尔频谱数据进行音素划分，得到音素序列，包括：获取所述梅尔频谱数据的时间数据，得到音素划分时段；根据所述音素划分时段对梅尔频谱数据进行音素划分，...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，赵嘉豪，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人