【技术实现步骤摘要】
基于音频的情绪识别模型的训练方法和装置、设备、介质
[0001]本申请涉及人工智能
,尤其涉及一种基于音频的情绪识别模型的训练方法和基于情绪识别的处理方法、训练装置、设备、介质。
技术介绍
[0002]现有情绪识别是人工智能领域重要的领域,情绪识别对于人类来说这是一种天生的能力,如果仅仅是文本的情绪识别还缺少重要的人类情感信息,例如:人们在提到“我不想再接到保险的电话”,用愤怒的口吻和平静的口吻表达的情感完全不一样。通过识别情绪能直接了解客户目前的状态,从而使智能客服给出重点回答。目前主要是通过情绪识别模型对语音进行情绪识别,但现有的情绪识别模型对语音的情绪识别的准确率较低。例如,对语音的负面情绪的识别准确率较低。
[0003]因此,如何提供一种基于音频的情绪识别模型的训练方法,能够提高对音频的情绪识别的准确率,成为了亟待解决的技术问题。
技术实现思路
[0004]本申请实施例的主要目的在于提出一种基于音频的情绪识别模型的训练方法和基于情绪识别的处理方法、训练装置、设备、介质,能够提高情绪识别的 ...
【技术保护点】
【技术特征摘要】
1.一种基于音频的情绪识别模型的训练方法,其特征在于,所述方法包括:获取原始样本语音数据;其中,所述原始样本语音数据包括多个原始样本情感语音,每一个原始样本情感语音对应一个原始情绪类型;对于每一个所述原始样本情感语音,若所述原始情绪类型符合预设条件,则根据所述原始样本情感语音得到目标样本情感语音;其中,所述预设条件为所述原始情绪类型为预设的情绪类型,或者所述原始情绪类型的情绪强烈程度达至预设的负面情绪级别;根据多个所述目标样本情感语音得到所述目标样本语音数据;对所述目标样本情感语音进行傅里叶变换处理,以得到梅尔频谱图;对所述梅尔频谱图进行数据扩充处理,以得到扩充样本语音数据;将所述扩充样本语音数据输入至预设的神经网络模型,通过所述神经网络模型对所述扩充样本语音数据进行情绪识别,得到样本情绪识别结果;其中,所述样本情绪识别结果包括多个目标情绪类型;根据所述目标情绪类型和所述原始情绪类型计算评估值,并根据所述评估值对所述神经网络模型进行参数调整,以得到情绪识别模型。2.根据权利要求1所述的方法,其特征在于,所述对所述梅尔频谱图进行数据扩充处理,以得到扩充样本语音数据,包括:对所述梅尔频谱图添加水平条,以对所述梅尔频谱的频率进行屏蔽处理、得到第一屏蔽梅尔频谱图;对所述第一屏蔽梅尔频谱图进行傅里叶逆变换处理,以得到第一屏蔽样本语音数据;对所述目标样本语音数据和所述第一屏蔽样本语音数据进行合并处理,以得到扩充样本语音数据。3.根据权利要求1所述的方法,其特征在于,所述对所述梅尔频谱图进行数据扩充处理,以得到扩充样本语音数据,包括:对所述梅尔频谱图添加垂直条,以对所述梅尔频谱的时间进行屏蔽、得到第二屏蔽梅尔频谱图;对所述第二屏蔽梅尔频谱图进行傅里叶逆变换处理,以得到第二屏蔽样本语音数据;对所述目标样本语音数据和所述第二屏蔽样本语音数据进行合并处理,以得到扩充样本语音数据。4.根据权利要求1至3任一项所述的方法,其特征在于,在所述对所述目标样本情感语音进行傅里叶变换处理,以得到梅尔频谱图之前,所述方法还包括:对每一所述目标样本情感语音进行相同采样频率的采样处理,以得到初步样本情感语音;对每一所述初步样本情感语音进行时间长度的调整处理,以得到更新的目标样本情感语音;其中,多个所述更新的目标样本情感语音的时间长度相同。5.根据权利要求1至3任一项所述的方法,其特征在于,所述神经网络模型包括第一transformer层、Resnet层、第二transformer层、预测处理层;所述通过所述神经网络模型对所述扩充样本语音数据进行情绪识别,得到样本情绪识别结果,包括:通过所述第一transformer层对所述扩充样本语音数据进行特征提取处理,以得到第一原始情绪特征;
通过所述Resnet层对所述第一原始情绪特征进行特征提取处理,以得到第一初步情绪特征;通过所述第二transformer层对所述第一原始情绪特征进行特征提取处理,以...
【专利技术属性】
技术研发人员:吴岸城,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。