基于语音的情感识别方法和装置、电子设备及存储介质制造方法及图纸

技术编号:38411417 阅读:10 留言:0更新日期:2023-08-07 11:17
本申请实施例提供了一种基于语音的情感识别方法和装置、电子设备及存储介质,属于人工智能和金融科技技术领域。该方法包括:获取原始音频数据,对所述原始音频数据进行频谱提取得到梅尔频谱数据,对所述梅尔频谱数据进行音素划分得到音素序列,对所述梅尔频谱数据进行音高提取得到音高曲线,将所述音素序列和所述音高曲线进行拼接得到音素音高联合序列,根据所述音素音高联合序列进行特征提取得到目标情感特征,根据所述目标情感特征进行情感识别,得到目标情感类别。本申请实施例能够提高情感识别的准确率。情感识别的准确率。情感识别的准确率。

【技术实现步骤摘要】
基于语音的情感识别方法和装置、电子设备及存储介质


[0001]本申请涉及人工智能和金融科技
,尤其涉及一种基于语音的情感识别方法和装置、电子设备及存储介质。

技术介绍

[0002]语音情感识别(SER)可以用于根据语音片段识别出情感类别,该情感类别可以用于对话系统和人机交互界面,例如银行系统、保险系统等。传统的语音情感识别方法主要基于人工定义的中层特征,如梅尔频率倒谱系数(MFCC)、音高、过零率或者频谱质心等,基于人工定义的中层特征进行情感识别具有泛化性较好、所需计算资源较少的优点,但是存在识别精确度低、在一些场景下表现较差的缺陷。例如,以通过梅尔频率方式为例,通常的方法是:首先提取短时傅里叶变换(STFT)频谱或梅尔频谱,再使用深度学习模型(例如使用卷积神经网络,CNN)提取该频谱特征,以基于频谱特征进行情感识别;然,当前深度学习方法的主要问题是受限于模型的感受野和拟合能力,其难以学习到长语音信号中的前后依赖关系,对语音情感的判断更多依靠语音频谱中的基本信号特征,如能量分布,音色等,从而导致了面对较为复杂的输入时,情感识别的准确率低;并且,现存深度学习方法需要高标注质量的训练数据集,经济成本较高。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种基于语音的情感识别方法和装置、电子设备及存储介质,旨在提高情感识别的准确率。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种基于语音的情感识别方法,所述方法包括:
[0005]获取原始音频数据;
[0006]对所述原始音频数据进行频谱提取,得到梅尔频谱数据;
[0007]对所述梅尔频谱数据进行音素划分,得到音素序列;
[0008]对所述梅尔频谱数据进行音高提取,得到音高曲线;
[0009]将所述音素序列和所述音高曲线进行拼接,得到音素音高联合序列;
[0010]根据所述音素音高联合序列进行特征提取,得到目标情感特征;
[0011]根据所述目标情感特征进行情感识别,得到目标情感类别。
[0012]在一些实施例,所述根据所述音素音高联合序列进行特征提取,得到目标情感特征,包括:
[0013]对所述音素音高联合序列进行嵌入表示,得到音素音高联合嵌入向量;
[0014]通过预设的Transformer编码器对所述音素音高联合嵌入向量进行情感特征提取,得到所述目标情感特征。
[0015]在一些实施例,所述音素音高联合序列为二维序列,所述对所述音素音高联合序列进行嵌入表示,得到音素音高联合嵌入向量,包括:
[0016]对所述音素音高联合序列进行位置提取,得到位置向量;
[0017]将所述音素音高联合序列进行一维展平处理,得到音素音高联合展平向量;
[0018]将所述音素音高联合展平向量进行向量等长标准化处理,音素音高联合等长向量;
[0019]将所述位置向量和所述音素音高联合等长向量进行合并,得到所述音素音高联合嵌入向量。
[0020]在一些实施例,所述将所述音素音高联合展平向量进行向量等长标准化处理,音素音高联合等长向量,包括:
[0021]根据所述音素序列,得到标准音素长度;
[0022]获取所述音素音高联合展平向量的向量长度,得到初步向量长度;其中,所述初步向量长度包括当前音素长度;
[0023]计算所述标准音素长度和所述当前音素长度之间的差值,得到长度差;
[0024]若所述长度差不等于零,则根据所述长度差对所述音素音高联合展平向量进行向量填补处理,得到所述音素音高联合等长向量。
[0025]在一些实施例,所述对所述梅尔频谱数据进行音素划分,得到音素序列,包括:
[0026]获取所述梅尔频谱数据的时间数据,得到音素划分时段;
[0027]根据所述音素划分时段对梅尔频谱数据进行音素划分,得到所述音素序列;所述音素序列包括至少两个原始音素,每一所述原始音素的音频时段作为所述音素划分时段。
[0028]在一些实施例,所述对所述梅尔频谱数据进行音高提取,得到音高曲线,包括:
[0029]将所述梅尔频谱数据输入至预设的音高提取模型;
[0030]通过所述音高提取模型提取所述梅尔频谱数据的时间数据,得到音高划分时段;
[0031]将所述音高划分时段与所述音素划分时段进行对齐,并根据所述音高划分时段对所述梅尔频谱数据进行音高提取,得到所述音高曲线;其中,每一所述原始音素的音频时段作为所述音高划分时段。
[0032]在一些实施例,所述根据所述目标情感特征进行情感识别,得到目标情感类别,包括:
[0033]将所述目标情感特征输入至预设的全连接分类器;
[0034]通过所述全连接分类器对所述目标情感特征进行情感分类,得到至少两个初步情感类别;
[0035]从至少两个所述初步情感类别中筛选出一个初步情感类别作为单标签的所述目标情感类别;或者,将至少两个所述初步情感类别作为多标签的所述目标情感类别。
[0036]为实现上述目的,本申请实施例的第二方面提出了一种基于语音的情感识别装置,所述装置包括:
[0037]原始音频数据获取模块,用于获取原始音频数据;
[0038]频谱提取模块,用于对所述原始音频数据进行频谱提取,得到梅尔频谱数据;
[0039]音素划分模块,用于对所述梅尔频谱数据进行音素划分,得到音素序列;
[0040]音高提取模块,用于对所述梅尔频谱数据进行音高提取,得到音高曲线;
[0041]音素音高拼接模块,用于将所述音素序列和所述音高曲线进行拼接,得到音素音高联合序列;
[0042]情感特征提取模块,用于根据所述音素音高联合序列进行特征提取,得到目标情感特征;
[0043]情感识别模块,用于根据所述目标情感特征进行情感识别,得到目标情感类别。
[0044]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0045]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0046]本申请实施例提出的基于语音的情感识别方法和装置、电子设备及存储介质,可以应用于金融科技领域,其通过获取原始音频数据,对所述原始音频数据进行频谱提取以得到梅尔频谱数据,对所述梅尔频谱数据进行音素划分以得到音素序列,对所述梅尔频谱数据进行音高提取以得到音高曲线,并将所述音素序列和所述音高曲线进行拼接以得到音素音高联合序列,从而根据所述音素音高联合序列进行特征提取以得到目标情感特征,进而根据所述目标情感特征进行情感识别以得到目标情感类别,本申请实施例结合音素和音高,可以提高情感识别的准确率。
附图说明...

【技术保护点】

【技术特征摘要】
1.一种基于语音的情感识别方法,其特征在于,所述方法包括:获取原始音频数据;对所述原始音频数据进行频谱提取,得到梅尔频谱数据;对所述梅尔频谱数据进行音素划分,得到音素序列;对所述梅尔频谱数据进行音高提取,得到音高曲线;将所述音素序列和所述音高曲线进行拼接,得到音素音高联合序列;根据所述音素音高联合序列进行特征提取,得到目标情感特征;根据所述目标情感特征进行情感识别,得到目标情感类别。2.根据权利要求1所述的方法,其特征在于,所述根据所述音素音高联合序列进行特征提取,得到目标情感特征,包括:对所述音素音高联合序列进行嵌入表示,得到音素音高联合嵌入向量;通过预设的Transformer编码器对所述音素音高联合嵌入向量进行情感特征提取,得到所述目标情感特征。3.根据权利要求2所述的方法,其特征在于,所述音素音高联合序列为二维序列,所述对所述音素音高联合序列进行嵌入表示,得到音素音高联合嵌入向量,包括:对所述音素音高联合序列进行位置提取,得到位置向量;将所述音素音高联合序列进行一维展平处理,得到音素音高联合展平向量;将所述音素音高联合展平向量进行向量等长标准化处理,音素音高联合等长向量;将所述位置向量和所述音素音高联合等长向量进行合并,得到所述音素音高联合嵌入向量。4.根据权利要求3所述的方法,其特征在于,所述将所述音素音高联合展平向量进行向量等长标准化处理,音素音高联合等长向量,包括:根据所述音素序列,得到标准音素长度;获取所述音素音高联合展平向量的向量长度,得到初步向量长度;其中,所述初步向量长度包括当前音素长度;计算所述标准音素长度和所述当前音素长度之间的差值,得到长度差;若所述长度差不等于零,则根据所述长度差对所述音素音高联合展平向量进行向量填补处理,得到所述音素音高联合等长向量。5.根据权利要求1至4任一项所述的方法,其特征在于,所述对所述梅尔频谱数据进行音素划分,得到音素序列,包括:获取所述梅尔频谱数据的时间数据,得到音素划分时段;根据所述音素划分时段对梅尔频谱数据进行音素划分,...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁赵嘉豪
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1